موضوع : پژوهش | مقاله

از پیکره زبانی تا زبان شناسی پیکره ای

مجله پژوهشگران مرداد و شهریور - مهر و آبان 1385، شماره 8 و 9

نویسنده : دکتر مصطفی عاصی(1)
1
چکیده
بنابر تعریف، پیکره زبانی(2) عبارت است از مجموعه ای از متن های نوشتاری یا گفتاری آوانویسی شده که می توان در توصیف و تحلیل زبان از آن بهره گرفت. (Kennedy, 1998:1)

گرچه در گذشته، بسیاری از زبان شناسان بر اهمیت پیکره زبانی در بیشتر بررسی هایشان تأکید کرده اند، اما در دوران جدید است که تکیه بر داده های واقعی زبانی به صورت گسترده ای رواج یافته و شرط اساسی بسیاری از پژوهش های نظری و کاربردی مانند گویش شناسی، دستور نویسی، سازماندهی، تنظیم و تفکیک، جستجو و دستیابی سریع داده های زبانی شده است و افق های تازه ای در برابر پژوهندگان گشوده و باعث پیدایش شاخه ای تخصصی در حوزه زبان شناسی رایانه ای شده است. این شاخه، بانام زبان شناسی پیکره ای(3) تنها در آخرین دهه های قرن بیستم ایجاد شد و در همین زمان کوتاه تبدیل به یکی از فعال ترین و پرکاربردترین زمینه ها شده است. تألیف کتاب های متعدد و ایجاد مجامع علمی، مراکز پژوهشی، نشریه های تخصصی و بین المللی و سایت های اینترنت برای این شاخه، گویای این واقعیت است. در این گفتار، پس از اشاره ای به تاریخچه شکل گیری این رشته، به رویکردهای نظری و کاربردی زبان شناسی پیکره ای، انواع پیکره های زبانی، نشانه گذاری پیکره ها، سازماندهی آنها، پایگاه داده های زبانی و نقش رایانه در آنها می پردازیم. سپس برخی از پیکره های مهم زبان انگلیسی و فارسی و نیز چند پروژه مهم فرهنگ نگاری را که با بهره گیری از پیکره های زبانی انجام یافته اند، معرفی می کنیم.

کلیدواژه ها:
پیکره ـ پیکره زبانی ـ زبان شناسی ـ زبان شناسی پیکره ای ـ رایانه ـ زبان فارسی ـ برچسب دهی

1. پیشگفتار:
در سال 1992 هلیدی ـ زبان شناس نامی ـ در همایش ویژه ای درباره زبان شناسی پیکره ای می گوید: "از نخستین روزهایی که تصمیم گرفتم دستور نویس شوم، همواره می اندیشیدم که دستور، موضوعی است با مقدار زیادی نظریه و مقدار ناچیزی داده. و از این روی برای دو نکته اهمیت قائل بوده ام: اول آنکه برای بررسی دستور، نیاز به حجم بزرگی از داده های زبانی داریم، چرا که باور دارم دستور را باید به شکلی کمّی مطالعه کرد و دیگر آنکه، باید چگونگی کاربرد روش های کمّی را برای تعیین درجات ارتباط میان دستگاه های گوناگون دستوری نشان داد (کاری که در پایان نامه دکترای خود کرده ام)" (Halliday, 1992: 61)

بخش بزرگی از بررسی های زبان شناسان، دیدگاهی همانند هلیدی دارند. همیشه یکی از آرزوهای زبان شناسان کاربردی و حتی بسیاری از نظریه پردازان این بوده است که به مقادیر بزرگی از داده های زبانی دسترسی داشته باشند، گرچه در گذشته فراهم ساختن چنین منابعی بسیار دشوار، پر زحمت و هزینه بوده است. بسیاری از زبان شناسان سرشناس گذشته، انبوه بزرگی یادداشت مربوط به کاربرد واقعی زبان را با رنج و حوصله فراوان گرد می آوردند تا براساس آنها قواعد و قوانین زبان را استخراج کنند و چه بسیار از این یادداشت ها که به دلیل حجم زیاد، پراکندگی و پایان عمر دانشمندان بی استفاده رها شده اند. (Svartvik, 1992: 7).

2. نگاهی به پیشینه پیکره های زبانی:
نلسون فرانسیس در گفتاری با عنوان "Language CorPus B.C." مروری بر مجموعه های داده های زبانی دارد که در گذشته به طور دستی فراهم آمده اند. یادآور می شود که وی با طنز، دوران پیش از پیدایش رایانه را B.C.(4) می نامد. از نخستین مواردی که می توان واژه corPus را یافت، قرن ششم میلادی است که امپراتور ژوستی نین CorPus Juris Civilis، آن را به عنوان مجموعه ای از قوانین رومی به کار می برد. در قرن هشتم، فهرستی از واژه های مشکل لاتینی با عنوان CorPus Glossary فراهم شد که ترتیبی الفبایی داشت و شاید نخستین فرهنگ دو زبانه لاتین ـ انگلیسی به شمار آید. پس از آن در اروپا پیکره هایی به منظورهای گوناگون شکل گرفت که می توان آنها را در سه دسته جای داد:

1- پیکره ها و داده های فرهنگ نگاری که مهم ترین آنها برای زبان انگلیسی به وسیله جانسون در قرن هجده، مورای در قرن نوزده و میریام وبستر در قرن بیستم فراهم شده است.

2- پیکره های گویشی که اغلب در اواخر قرن نوزده و نیمه اول قرن بیستم فراهم آمده است.

3- پیکره ها و مطالب دستوری که مربوط به قرن بیستم می شود. (Francis, 1992: 17)

اصطلاح پیکره را به ویژه زبان شناسان ساختگرا به کار می بردند و همواره تأکید می کردند که توصیف یک زبان یا گویش باید مبتنی بر داده های گردآوری شده و تحلیل این داده ها باشد و با آنکه فراگیری و بزرگی پیکره عامل تعیین کننده ای در افزایش دقت و اعتبار نتایج به شمار می آمد، محدودیت های نیروی انسانی و زمان در برابر این عامل قرار داشت و درنتیجه، بیشتر به نمونه های برگزیده ای اکتفا می شد. «تنها از دهه 1960 بود که توانستند با کمک رایانه، مجموعه های بسیار بزرگی از متن های معتبر زبانی فراهم نمایند و آغازگر همه اینها، پیکره زبانی براون بود که نمونه ای معیار از زبان انگلیسی امروز برای استفاده در رایانه های رقمی به شمار می آید.» (Svartvikl, 1992: 7)

این پیکره را نلسون فرانسیس و هنری کوچرا در دانشگاه براون با گردآوری نزدیک به یک میلیون واژه از پانصد نمونه متنی پیوسته ایجاد کردند و کوشیدند انواع مقاله ها و گونه های زبانی را پوشش دهند. کار از 1961 آغاز شد و در سال 1964 به پایان رسید. این مدت در مقایسه با کارهای گذشته و با توجه به حجم نسبتا زیاد داده ها در آن زمان بسیار کم به نظر می رسید (Francis and Kucera, 1964).

یکی از مهم ترین پیکره هایی که در همین دهه، امّا بدون بهره گیری از رایانه فراهم آمد و از این نظر آن را در شمار پیکره های پیش از دوران الکترونیک قرار می دهند، پیکره بررسی کاربرد زبان انگلیسی یا SEU(5) است که راندلف کرک(6) از 1959 در دانشگاه لندن آغاز کرد و گردآوری، آوانگاری و آماده سازی آن تا سال 1989 طول کشید، چرا که برای یک میلیون واژه آن، یک میلیون برگه با هفده سطر از متن های مربوط به سال های 1953 تا 1987 با دست، نوشته شد. البته در کنار این پیکره نوشتاری، بخش گفتاری آن با عنوان پیکره لندن ــ لوند (بررسی انگلیسی گفتاری، SSE) ــ به وسیله یان سوارتویک در دانشگاه لوند سوئد از سال 1975 آغاز شد. از آنجا که این بخش با کمک رایانه فراهم شد، از همتای نوشتاری خود پیشی گرفت و با حدود نیم میلیون واژه در سال 1980 ارائه شد (Kennedy, 1998: 32).

3. پیکره از دیدگاهی نظری : آغاز زبان شناسی پیکره ای :
«در دانش زبان، پیکره، مجموعه ای از متون نوشتاری یا گفتاری آوانویسی شده است که می توان آن را به عنوان مبنایی برای تحلیل وتوصیف زبانی به کار برد.»(Kennedy, 1998: 1).

پیکره زبانی می تواند بسیار بزرگ، فراگیر و نماینده تمامی یک زبان و یا گونه ای از آن باشد، به شکل برگه های یادداشت یا پرونده های رایانه ای شامل متن های کامل یا گزیده هایی از آنها، و یا بخش های پیوسته ای از متون یا گزیده ای از نقل قول ها و نکات و حتی فهرست های واژگانی پیکره می تواند ویژه بررسی خاصی فراهم شود و یا دربرگیرنده مجموعه عظیم و بی ساختاری از متون گوناگون باشد که برای منظورهای گوناگون به کار رود.

در آغاز دهه 1980 شاید می توانستیم پیکره های الکترونیکی را با انگشتان یک دست بشماریم. در آغاز دهه 1990 تعداد طرح هایی که برای ایجاد پیکره های زبانی فعال بودند به ده ها می رسید و چند سال بعد در کشورهای مختلف جهان، فعالیت های بسیاری برای زبان های گوناگون آغاز شده بود. اکنون پس از گذشت تنها دو دهه، با جستجویی ساده در شبکه جهانی رایانه ها (اینترنت) بیش از سیصد پیکره بزرگ و کوچک برای بسیاری از زبان های جهان فهرست می شوند.

علت این گسترش شتابنده در نخستین وهله، راه یافتن رایانه در این حوزه و تغییرات بنیادی در روش های پردازش متن و ذخیره سازی و دستیابی به آن است. «بدین سان، زبان شناسی پیکره ای اکنون ناگزیر با رایانه پیوند یافته است و همین وسیله است که سرعت شگفت انگیز، شمارپذیری کامل، تکرار و روبرداری دقیق، صحت آماری و امکان به کارگیری حجم عظیم داده ها را به همراه آورده است.» (Kennedy, 1998: 5).

برای زبان شناسان قدیمی تر، اصطلاح «زبان شناسی پیکره ای» اغلب یادآور دوران رونق پیکره زبانی یعنی دهه 1950 است، دوران هریس(7)، فریس(8)،هیل(9) و دیگر ساختگرایان آمریکایی. امّا از آن دوران به بعد است که این اصطلاح کاربرد بیشتری یافته و به ویژه در اوایل دهه 1990 است که به عنوان شاخه ای مشخص از زبان شناسی، مانند زبان شناسی اجتماعی، زبان شناسی روانشناختی و زبان شناسی متنی که در دهه های 1960 و 1970 شکل گرفته اند، شناخته شده است (Leech, 1992: 105). امّا زبان شناسی پیکره ای با رشته های یاد شده تفاوت دارد، زیرا نماینده یک حوزه مشخص از مطالعات زبانی نیست بلکه بنیادی روش شناختی برای پژوهش های زبانی به شمار می آید. در اصل و عملاً زبان شناسی پیکره ای، به آسانی با شاخه های دیگر زبان شناسی می آمیزد. می توان با کمک پیکره، به بررسی های آوایی، نحوی، اجتماعی یا دیگر زمینه های زبان پرداخت و در این صورت می گوییم که روش ها و فنون زبان شناسی پیکره ای را با موضوعات آوایی، نحوی و اجتماعیِ زبان و مانند آن آمیخته ایم. (Leech, 1992: 106).

تنها رشته دیگر زبان شناسی که مانند این رشته، با ابزار و روش های مطالعه و نه با موضوعی خاص سروکار دارد، زبان شناسی رایانه ای است که به عنوان «مطالعه زبان با کمک رایانه» تعریف شده است. و امروزه به نظر می رسد که این دو رشته با یکدیگر پیوند یافته اند. یعنی می توان این حوزه را «زبان شناسی پیکره ای رایانه ای» یا CCL(10) نامید که در این صورت نه تنها روش های نوین بررسی زبان بلکه فعالیت پژوهشی تازه ای با رویکردی فلسفی در زبان شناسی به شمار می آید. (Leech, 1992: 106).

لیچ، ویژگی های مهم این رشته را چنین برمی شمارد:

1- تمرکز بر کنش زبانی و نه توانش زبانی

2- تمرکز بر توصیف زبانی و نه بر همگانی های زبان

3- تمرکز بر الگوهای کمّی زبانی همانند الگوهای کیفی آن

4- تمرکز بر دیدگاه های تجربی (و نه عقلانی) در بررسی های علمی زبان

همان گونه که مشاهده می شود، این ویژگی ها مجموعه ای را به وجود می آورد که توجه بیشتری به جنبه های رفتاری زبان و بروز طبیعی گفتار و نوشتار دارد و عملاً در مقابل دیدگاه های چامسکی و پیروان وی قرار می گیرد (P.107)

تویبرت نیز نگرشی همسو را با لیچ نشان می دهد:

«زبان شناسی پیکره ای برپایه این باور که زبان اساسا پدیده ای اجتماعی است بنا نهاده شده است. پدیده ای که پیش از هر چیز، می توان آن را با داده های تجربی آماده، یعنی در کنش های ارتباطی، مشاهده و توصیف کرد. متن های مورد مشاهده، در اصل کنش های ارتباطی گذرا هستند. (Teubert, 1999: 1). از سوی دیگر، بررسی این پدیده اجتماعی را مستلزم دانستن چگونگی درک گوینده یا شنونده از مطالب نمی داند، زیرا زبان، به عنوان یک پدیده اجتماعی، به صورت متنی متجلی می شود که می توان آن را مشاهده، ضبط، توصیف و تحلیل کرد.

از آنجا که حجم مواد زبانی (در اغلب زبان های امروز جهان) برای گنجاندن در پیکره بسیار زیاد است، در برخی موارد می توان پیکره را به صورت نمونه ایجاد کرد. تعیین حدود و گستره پیکره، وظیفه زبان شناسان است. برخی از متغیرهایی که در تعیین حدود دخالت دارند، عبارت اند از زبان، برش یا محدوده ای از زمان، منطقه، شرایط و موقعیت، ویژگی های بیرونی و درونی متنی و بسیاری دیگر.

زبان شناسی پیکره ای، به توصیف تک تک زبان های طبیعی می پردازد و نه همگانی های زبان. از آنجا که نمی توان به درون ذهن افراد رخنه کرد، تنها می توان قراردادهای زبانی را در کنش های ارتباطی و متون یافت.

گرچه فرهنگ های لغت، کتاب های دستور و کتاب های درسی زبان نیز جزیی از فضای کلامی هستند، امّا نمونه های واقعی از فضای کلامی و متن ها، بهتر می توانند واقعیات زبان را نشان دهند.

زبان شناسی پیکره ای با آمیختن سه روش، به فراهم آوردن دانش تجربی زبانی کمک می کند:

الف: استخراج خودکار داده های زبانی از پیکره ها

ب: پردازش برونداد با روش های عمدتا آماری

پ: ارزیابی و تفسیر این گونه داده های پردازش شده

مراحل اوّل و دوّم را می توان و باید به طور کامل با برنامه و خودکار انجام داد، امّا مرحله سوم، نیاز به تصمیم گیری و منطق انسانی دارد. (Teubert, 1999: 1).

4. انواع پیکره های زبانی :
همان گونه که پیش تر اشاره شد، پیکره های زبانی می توانند عام و گسترده ،نمونه تصادفی از یک زبان و یا تخصص و نماینده یک گونه خاص زبان باشند. آنها را می توان برای منظورهای گوناگون به کار گرفت، ازجمله برای فرهنگ نگاری، معناشناسی، بررسی های دستوری، آموزش زبان و مانند اینها. پیکره ها را می توان از نظر اندازه و گستره به دسته های محدود، متوسط و عظیم تقسیم کرد. براساس یکی از رویکردها (فرم و کارکرد)، می توان انواع زیر را برای پیکره ها درنظر گرفت:

- پیکره اشباع شده(11) که با اشاره به عوامل و متغیرهای معین با اطلاعات اضافی پر شده است. اشباع، ویژگی آماری است که با نسبت غنای واژگانی (موارد کاربردیسرواژه یاtyPetoken) ارتباط دارد.

در این مورد، کل متن به پاره های مشابه بخش شده است.

- پیکره موقعیتی(12) که بنابر نیازهای خاص یک بررسی، فراهم می شود.

- پیکره پایشگر(13) که دارای ابعاد تاریخی است و برای ثبت تغییرات زبانی به کار می رود و از برهه های گوناگون زمانی، نمونه های مشابه را دارد.

- پیکره تطبیقی(14)، پیکره ای چند زبانه با نمونه های مشابه از هر زبان است.

- پیکره موازی(15)، پیکره ای چند زبانه با متنی اصلی از یک زبان و ترجمه آن در زبان های دیگر (یا زبان های هدف) است.

- پیکره دو سویه(16)، پیکره ای چند زبانه با متن اصلی به همه زبان ها و ترجمه آنها به همه زبان ها است. (Teubert, 1999: 3).

کندی (1998) پس از دسته بندی پیکره ها به پیش از دوران الکترونیک و پیکره های الکترونیکی، دسته دوّم را نیز به نسل اوّل و نسل دوّم تقسیم می کند.

پیکره های الکترونیکی نسل اوّل: این پیکره ها با حجم محدود و کاربردهای ویژه و اغلب برای زبان انگلیسی مشخص می شوند و مهم ترین آنها عبارتند از :

- The Brown CorPus

- The Lancaster - Oslo / Bergen CorPus (LOB)

- The London - Lund CorPus (LLC)

و پیکره های تخصصی برای زبان انگلیسی ازجمله برای فرهنگ نگاری مانند American Heritage Intermediate CorPus (AHI) که در آمریکا فراهم شد و هدف آن تدوین فرهنگ مدرسه ای هریتج بود. یا پیکره ای که آلگیو(17) برای بررسی کاربردهای بریتانیایی زبان انگلیسی فراهم آورد و هر دوی این پروژه ها مربوط به دهه 1960 می شوند. (ص ص 34 و 35). همچنین در جهت دیگر، طرح هایی برای بهره گیری از فرهنگ های لغت به عنوان پیکره زبانی اجرا شد. ازجمله فرهنگ انگلیسی امروز لانگمن و درونداد فرهنگ بزرگ آکسفورد به رایانه و پردازش های بعدی آن بود.

پیکره های تخصصی دیگر نیز برای بررسی زبان گفتاری انگلیسی و بررسی های تاریخی و نیز یادگیری آن طراحی و ایجاد شد. (Kennedy, 1998: 35-40).

پیکره های الکترونیکی نسل دوّم : نام دیگر این پیکره ها، غول آسا(18) است و اغلب در دهه 80 و 90 و با بهره گیری از امکانات بسیار پیشرفته رایانه های تازه ایجاد شده اند. برخی از آنها را می توان تنها نام برد و مشخصات کامل آنها را از منابع یاد شده در این گفتار به دست آورد:

The COBUILD Project

Bank of English

The Longman CorPus Network

The British National CorPus (BNC)

The International CorPus of English (ECE)

یادآور می شود که اکنون بسیاری از پیکره های یاد شده، به صورت پیوسته از (on-line) و راه ارتباط با شبکه جهانی رایانه ای (اینترنت) قابل دسترسی و استفاده هستند.

5. نشانه گذاری(19) پیکره ها:
برای گویاتر شدن پیکره و کاربردهای خاص، کدهای متفاوتی به آن افزوده می شود. این نشانه گذاری، از یک سو می تواند برای ارتباط دادن بخش های یک پیکره به ساختار کلّی آن باشد، مانند شماره سطر، صفحه، فصل و مانند اینها و یا بافت زبانی را مشخص نماید مانند شرایط تولید زبانی، گونه زبانی، رسانه و مانند آن.

از سوی دیگر نشانه گذاری می تواند صرفا زبانی باشد.

نشانه گذاری زبانی ممکن است در سه سطح انجام پذیرد :

1- در سطح صورت های کاربردی (tokens): در این مورد، برای هر صورت کاربردی یک نشانه (کد) در متن افزوده می شود.

2- در سطح پاره های زبانی (segments): که نشانه مربوط به توالی چند صورت کاربردی در متن است.

3- در سطح تداعی (associative level): که نشانه هایی ارتباطی و تداعی میان صورت های زبانی و پاره های زبانی را در متن مشخص می سازد.

به پیکره هایی که در سطح صورت های کاربردی نشانه گذاری می شوند، برچسب دار یا برچسب دهی شده می گویند و این نشانه ها می توانند نوع دستوری واژه یا برخی ویژگی های معنایی آن را نشان دهند.

نشانه گذاری در سطح پاره زبانی را، برچسب دهی نحوی می گویند و می توان ارتباط نحوی یا با همایی یا لانه گیری واحدها را با آنها نمایش داد. نشانه گذاری تداعی ها، رواج کمتری دارد.

نکته شایسته یادآوری این است که یک پیکره ممکن است در یک یا چند سطح نشانه گذاری شود، که نمونه آن پیکره LOB است. (Mills, 1996: 247). یکی از معدود کارهایی که در زبان فارسی، برای برچسب دهی پیکره های فارسی انجام شده است، طراحی و اجرای برنامه ای رایانه ای برای برچسب دهی دستوری خودکار متون فارسی است. (Assi and H. Abdolhosseini, 2000).

6. طرح های پیکره ای:
پیش تر اشاره شد که زبان شناسی پیکره ای، ابزارهای بنیادی برای بررسی ها، پژوهش ها و کاربردهای زبانی متفاوت فراهم می آورد. اکنون تنها به برخی از این موارد اشاره می کنیم:

ــ یکی از مهم ترین کاربردهای پیکره در پردازش زبان طبیعی است. مهم ترین دستاورد این حوزه، درک و بازشناسی گفتار بوده است که تنها با بهره گیری از پیکره های بزرگ امکان پذیر شده است.

ــ اکنون هیچ پروژه فرهنگ نگاری پیشرفته ای نمی توان یافت که از پیکره های زبانی و پایگاه های داده های زبانی بهره گیری نکند.

هارتمن که پیش تر نظریه متن شناسی مقابله ای(20) را در 1980 ارائه کرده است، در دهه 1990 تداوم و تکامل آن را به سوی پیکره های متنیِ موازی می بیند و با بررسی چندین طرح فرهنگ نگاری، نتیجه می گیرد که این پیکره ها ابزاری کارا و ناگزیر در کار تدوین فرهنگ ها به شمار می روند. (Hartmann, 1994: 11). نمونه چنین کاربردی در زبان فارسی واژگان گزیده زبان شناسی است که نرم افزار رایانه ای آن نیز با امکانات گسترده آماده شده است. (Assi, 1994)، (عاصی، 1373) و (عاصی و عبدعلی، 1375).

ــ ایجاد پایگاه های داده های زبانی نیز جنبه ای دیگر از کاربرد پیکره های زبانی است که نمونه های متعدد آن را هم اکنون در سراسر جهان به صورت پیوسته یا ناپیوسته در اختیار داریم. برای زبان فارسی نیز، چنین پایگاهی به وسیله نگارنده در پژوهشگاه علوم انسانی ایجاد شده است. (عاصی، 1376).

ــ طرح های بررسی واژه های همانند(21) در زبان های گوناگون با کمک پیکره های زبانی اجرا شده است. نمونه مهم و موفق آن فرهنگ واژه های همانند BBI برای زبان انگلیسی است. هم اکنون در پژوهشگاه علوم انسانی نیز طرحی برای تدوین فرهنگ واژه های همانند فارسی براساس پایگاه داده های زبان فارسی در دست اجرا است.

ــ برنامه های پایشگری زبان برای پی گیری و ردگیری تحولات زبانی نیز از امکانات پیکره های زبانی سود می برند. این گونه پیکره ها را پیکره پویا یا پیکره پایشگر می نامند. (Kennedy, 1998: 22).

ــ همه طرح های ترجمه ماشینی، به گونه ای از پیکره های زبانی سود می برند و هنوز بسیاری از زمینه های دیگر ناگفته مانده است.

با توجه به کارایی های فزاینده پیکره های زبانی و گسترش رشته زبان شناسی پیکره ای، می توان گفت که تنها در سه دهه گذشته، این رشته رشد اعجاب انگیزی داشته است و به روش های نوین، اندیشه ها و کارکردهای تازه با کمک دستگاه های الکترونیک و رایانه دست یافته است. «با همه اینها، هنوز بزرگترین و مهم ترین دستگاهی که می تواند از میان انبوه واقعیت ها قوانین را استخراج و تدوین کند، همان ذهن انسان است.» (Svartvik, 1992: 12).

یادداشت ها و پی نوشت ها
1. عضو هیئت علمی پژوهشگاه علوم انسانی و مطالعات فرهنگی

2. linguistic corPus

3. corPus linguistics

4. before comPuter

5. Survey of English Usage

6. RandolPh Quirk

7. Harris

8. Fries

9. Hill

10. comPuter corPus linguistics

11. saturated

12. oPPortunistic

13. monitoring

14. comParable

15. Parallel

16. reciProcal

17. Algeo, J.

18. mega corPora

19. corPus annotation

20. contrastive textology

21. collocations

مآخذ و منابع:
عاصی، مصطفی (1373) «طرحی برای تهیه فرهنگ های تخصصی با کمک کامپیوتر»، در: مجموعه مقالات دومین کنفرانس زبان شناسی نظری و کاربردی، تهران، دانشگاه علامه طباطبایی.

عاصی، مصطفی (1376) «پایگاه داده های زبان فارسی»، در: مجموعه مقالات سومین کنفرانس زبان شناسی، تهران، دانشگاه علامه طباطبایی و پژوهشگاه علوم انسانی و مطالعات فرهنگی.

عاصی، مصطفی و محمد عبدعلی (1375) واژگان گزیده زبان شناسی، تهران، شرکت انتشارات علمی و فرهنگی.

Assi, S. Mostafa (1994) "A ComPuterised English / Persian dictionary of linguistic terms. A Project rePort" Poster PaPer Presented at the Sixth EURALE× Congress at Amsterdam.

Assi, S. M. and M.H. Abdolhosseini (2000) "Grammatical tagging of a Persian corPus" in: International Journal of CorPus Linguistics, Vol. 5, No. 1.

Francis, W. Nelson (1992) Language corPora B.C. in: Svartvik (ed.).

Francis, W.N. and H. Kucera (1964) Manual of Information to AccomPany "A Standard SamPle of Present - Day Edited American English, for Use with Digital ComPuters" (revised 1979), Providence, RI: DePartment of Linguistics, Brown University.

Halliday, M.A.K. (1992) "Language as system and language as instance: The corPus as a theoretical construct", in: Svartvik (ed.).

Hartmann, R.R.K. (1997) "From contrastive textology to Parallel text corPora: Theory and aPPlications" in Language History and Linguistic Modelling, edited by R. Hickey and S. PuPPel, Berlin: Mouton de Gruyter.

Kennedy, Graeme (1998) An Introduction to CorPus Linguistics, London: Longman.

Leech, Geoffry (1992) "CorPora and theories of linguistic Performance" in: Svartvik (ed.).

Mills, Jon (1996) "ComPuters in aPPlied linguistics" in: Solving Language Problems, edited by R.R.K. Hartmann, Exeter: University of Exeter.

Svartvik, Jan (ed.) (1992) Directions in CorPus Linguistics, Berlin: Mouton de Gruyter.

Svartvik, Jan (1992) "CorPus linguistics comes of age", in Svartvik (ed.).

Teubert, Wolfgang (1999) "CorPus linguistics: A Partisan view" in: International Journal of CorPus Linguistics, Vol. 4, No. 1.