موضوع : پژوهش | مقاله

پایگاه داده های زبان فارسی در اینترنت

مجله پژوهشگران فروردین و اردیبهشت 1384، شماره 2

نویسنده : دکتر سیّد مصطفی عاصی
13
از اوایل سال 1372، کار ایجاد پایگاه داده هایی برای زبان فارسی در پژوهشگاه علوم انسانی آغاز، و تا سال 1378 دو مرحله (فاز) آن اجرا شد؛ و مرحله سوم که مهم ترین فاز یعنی گسترش و افزایش حجم داده ها و دگرگونی اساسی در نرم افزار و ایجاد امکانات نوین شبکه ای برای ارائه خدمات و اطلاعات آن در شبکه جهانی اینترنت بود بهدلیل نبود منابع مالی، چند سالی از اجرا بازماند تا اینکه با کمک مالی وزارت ارتباطات و فناوری اطلاعات از سال گذشته اجرای فاز سوم طرح آغاز شد و به تازگی به پایان رسید.

1. پایگاه داده های زبانی
امروزه دیگر کسی درباره لزوم بنیادنهادن بررسی های زبانی و زبان شناختی بر داده های واقعی و مستند تردیدی ندارد. پیکره زبانی هرچه گسترده تر و متنوع تر باشد، معتبرتر و سودمندتر خواهد بود. گستردگی و تنوع پیکره در شکل های سنتی، محدودیت های بسیاری را در پی دارد. هنگامی که حجم پیکره از مرزی می گذرد، سامان دهی و بهره گیری از آن مشکل و سپس ناممکن می شود. گوناگونی داده ها گرچه در بیشتر بررسی ها اهمیت بسیار و نقش تعیین کننده می یابد، بازهم مشکل را پیچیده تر می سازد.

از سوی دیگر، بسیاری از فعالیت های علمی در حوزه زبان، ادبیات و زبان شناسی، به داده های مشابهی نیاز دارند که هر یک برای خود تکه ای یا گوشه ای از گستره زبان را دربر می گیرند و به کار می برند. چه بسا پیکره های مشابه یا دارای همپوشی فراگیر که بدون آگاهی از وجود دیگری و با صرف وقت و هزینه زیاد به وجود آمده و پس از بهره برداری به کناری نهاده شده اند. ایراد دیگری که اغلب بر این داده های پراکنده وارد است، داشتن ناراستی های فراوان به دلیل یکبار مصرف بودن آنها است؛ چراکه کمتر فرصتی برای آزمودن، ویراستن و پیراستن آنها فراهم می شود. بالأخره، باتوجه به ماهیت ایستای اینگونه پیکره ها، حتی اگر بخواهیم از آنها در طرح های دیگری بهره بگیریم، پس ازگذشت مدتی، کهنه و شاید بی اعتبار به شمار آیند.

هدف از ایجاد پایگاه داده های زبان فارسی، فراهم کردن پیکره ای مطلوب به دور از نارسایی است. پیکره ای که با وجود حجم عظیمی ازداده های زبانی با گستردگی و گوناگونی های بسیار، ساختاری به سامان و منطقی داشته باشد تا امکان هر گونه جست وجو و دستیابی سریع به آگاهی های مورد نیاز را در هر زمان فراهم سازد. چنین پیکره ای می تواند همواره روزآیند شود و پاسخگوی نیاز همه پژوهندگان زبان فارسی و کاربران گوناگون در همه زمینه های نظری و کاربردی باشد.

2. ویژگی های پایگاه
2ـ1. گستره زبانی
زبان فارسی، مفهومی بسیار وسیع دارد و می تواند دربرگیرنده همه گونه های گفتاری، نوشتاری، سبکی و کاربردی این زبان در تمامی دوران های تحول آن باشد. برای نزدیک شدن به این دریای داده ها لازم است آن را به محدوده هایی بخش کنیم و به تدریج و طی مراحلی منظم آنها را پوشش دهیم.

در نخستین مرحله با توجه به نیازهای گوناگون پژوهشی و کاربردی، از طیف دوران های تاریخی زبان فارسی، برش فارسی معاصر برگزیده شد. همین برش نیز که به طور قراردادی از آغاز قرن چهاردهم خورشیدی تا امروز را دربر می گیرد، خود گونه های بسیاری دارد؛ ازجمله: گونه رسمی نوشتاری یا به اصطلاح فارسی معیار و گونه گفتاری آن، گونه های ادبی، سبکی و حرفه ای فارسی، گونه های محاوره ای و عامیانه آن، و گونه هایی که متغیرهای زبانی و اجتماعی دیگری مانند سن، جنس، سواد و تحصیل، طبقه اجتماعی، و محیط های مختلف ارتباطی، عامل تمایز آنها به شمار می روند.

2ـ2. منابع گردآوری داده ها
با توجه به گونه های یادشده، بایسته است که با روش هایی متفاوت و مناسب، داده های مورد نیاز فراهم و در درون حافظه رایانه سازماندهی شود. برای نمونه، از گونه هایی که به شکل نوشتاری وابسته اند، با استفاده از متن های معتبر و با رعایت معیارهای مختلف نمونه گیری می شود و هیچ گونه محدودیت و امساکی درمورد آثار مهم ادبی و نویسندگان سرشناس و به ویژه صاحب سبک و تأثیرگذار اعمال نمی شود. تاکنون گردآوری، درون داد و سامان دهی داده ها در چند مرحله انجام شده است و بازهم ادامه خواهد یافت:

1. ابتدا فهرست های مفصلی از همه منابع مهم نظم و نثر فارسی فراهم شد. این فهرست ها به طور جداگانه برای آثار شعری، داستانی، غیرداستانی، نمایشنامه و فیلمنامه، ادبیات کودکان، نشریه های ادواری و مجلات علمی، تخصصی و ادبی فراهم شد. عناوین آثاری که در این فهرست ها قرار گرفتند، بیش از یک هزاروپانصد مورد شد که پس از بررسی و کنارنهادن موارد مشابه، بیش از پانصد عنوان برای درون داد به پایگاه داده ها برگزیده شد. می توان ادعا کرد که نمونه های برگزیده، نماینده ای واقعی از زبان فارسی معاصر به شمار می رود.

فهرست کامل 1500 متن مهم نظم و نثر ادبیات معاصر ایران و انواع دیگر متون زبانی شامل:

ــ 452 اثر داستانی و غیرداستانی نثر

ــ 249 اثر شعری از شاعران معاصر

ــ 84 عنوان مجله و نشریه علمی، ادبی و تخصصی

ــ 311 عنوان نمایشنامه

ــ 80 عنوان فیلمنامه

ــ 200 عنوان ادبیات کودکان

ــ چندین عنوان روزنامه و نشریه خبری، همه پسند و متنوع

ــ برخی از کتاب های درسی و دانشگاهی و دبیرستانی

ــ برخی از کتاب های دبستانی

ــ نامه های اداری و بخشنامه ها

ــ مجموعه ای از قوانین و مقررات

ــ نشریه ها و جزوه های پراکنده، پوسترها، دیوارنوشته ها و مانند اینها

2. فهرستی با بیش از 500 اثر از میان آثار بالا برای تایپ دستی برگزیده شد.

3. بیش از 300 متن، در مجموع بیش از 24000 صفحه که به بیش از 5 میلیون واژه می رسد، تایپ شد.

4. متن های دیگری شامل کتاب و مقاله های تخصصی با نزدیک به 000ر000ر10 واژه گردآوری شده که دردست تبدیل، ویرایش و درون داد است.

5. بیش از 20 ساعت گفتار پیوسته مربوط به محاوره عادی افراد، برنامه های رادیویی و تلویزیونی بر روی نوار ضبط شد.

6. متن های گفتاری از نوارها بر روی کاغذ پیاده سازی شد.

7. متن های یادشده با بیش از000ر100 واژه تایپ شد.

8. بخش های مشخصی از متن های تایپ شده با بیش از سه میلیون واژه ویرایش دوباره شد.

9. بخش های برگزیده از متون ویرایش شده برچسب دهی دستوری و معنایی شد. (این کار، ادامه دارد.)

10. متن های زیر با روش های گوناگون به صورت الکترونیکی فراهم شد:

ــ متن12 واژه نامه مختلف

ــ همه متن های روزنامه همشهری از سال 1375 تا آغاز سال 1382 (روی هم 345 مگابایت با فرمت HTML و شامل تعداد 190206 مقاله و 63 میلیون واژه)

ــ همه متن های روزنامه همشهری شش ماهه آغازین سال 1382 (روی هم 63 مگابایت و بیش از 000ر250ر6 واژه). این بخش به شکل موضوعی جداسازی و دسته بندی شده است. البته از متن های روزنامه ای تنها نمونه هایی با نزدیک به 28 میلیون واژه برگزیده شده و به پایگاه داده ها درون داد شده است.

همان گونه که دیده می شود، مجموع متن های گردآوری شده، حدود 000ر000ر84 واژه می شود که تاکنون تنها 36 میلیون واژه از آن به درون پایگاه وارد شده است.

این کار به صورت فعالیتی همیشگی و با افزودن منابع تازه دنبال خواهد شد.

2ـ3. ساختار زبانی پیکره
داده ها به شکل ها و قالبهای گوناگون در این پایگاه ذخیره می شوند: به صورت متن های پیوسته کامل و یا گزیده آثار ادبی یا نوشته های مهم، به صورت فهرست های واژه نما و بسامدی از همین متن ها و متن های دیگر، یعنی فهرست همه واژگان آنها به همراه چند سطر از بافت زبانی آنها و بسامدشان، و نیز به صورت واژه نامه های تک زبانه و دوزبانه. همچنین، متن های آوانویسی شده داده های گفتاری، چه به صورت متن پیوسته و چه به صورت فهرست های بسامدی، در پیکره جای دارند و پیش بینی شده است که با به کارگیری امکانات چند رسانه ای، فراگویی آوایی داده ها نیز ارائه شود. در ضمن، متن های مشخصی از پیکره با روش های خودکار و نرم افزاری و دستی نشانه گذاری شده اند. نشانه گذاری متن برای افزودن اطلاعات گوناگون دستوری، واژگانی، معنایی، ریشه شناختی، تلفظی و کاربردی به آن صورت می گیرد.

2ـ4. ساختار رایانه ای

مجموعه داده های یادشده در یک پایگاه داده های پیوندی به گونه ای سازماندهی شده است که هر واژه با پیوندهای گوناگون به متن اصلی یا بافت خود، به همه مشخصات شناسنامه ای متن مانند نام نویسنده، نام اثر، ناشر و سال و جای انتشار، شماره سطر و صفحه، دسته بندی های گوناگون مربوط به نوع، سبک، موضوع و رشته اثر ارتباط یابد. پیوندهایی نیز میان واژه و معنی های آن، مترادف هایش، مقوله دستوری و تلفظ آن وجود دارد که امکان هر گونه جست وجو را فراهم می سازد. در این پایگاه، فرایندهای پردازشی برای انجام انواع جست وجوها و فهرست گیری و گزارش گیری ها و استخراج واژه نامه های بسامدی و فهرست های آماری به کار گرفته می شود.

از آنجا که طراحی پیشین پایگاه داده ها به دوازده سال پیش برمی گردد و ساختاری ساده و محدود داشت، شایسته بود که با توجه به پیشرفت های فناوری و امکانات تازه آن، ساختار جدیدی تعریف شود تا امکان به کارگیری حجم های بزرگی از متن های متنوع زبان فارسی و انواع پردازش های پیچیده با سرعت زیاد فراهم شود. مهم ترین ویژگی های سیستم جدید عبارت اند از:

بهره گیری از پایگاه اطلاعاتی Oracle در محیط عامل ویندوز Server 2000 برای دستیابی به توانایی های بیشتر و انعطاف بهتر برای دریافت، ذخیره سازی، پردازش و ارائه متون فارسی؛

توان ذخیره سازی حجم زیادی از متون فارسی با بیش از 100 میلیون واژه (به صورت متن های پیوسته)؛

امکان بررسی متن های دروندادی به صورت گزینشی، پیاپی و صفحه به صفحه؛

امکان ویرایش متن های دروندادی با کمک ویراستار درون نرم افزار؛

امکان ایجاد، تغییر یا جابه جایی اطلاعات شناسنامه ای متن ها؛

امکان جست وجوهای پیچیده و چندلایه با گزینه های متعدد؛

امکان تهیه فهرست های آماری و بسامدی از واژه های یک یا چند متن؛

امکان اجرای عملیات برچسب دهی دستی یا خودکار؛

امکان بازبینی و گشت و گذار در متون با حالت ساده یا با نمایش برچسب ها؛

به کارگیری استانداردهای نوین میانای کاربری در محیط های وب، اینترنتی و اینترانتی؛

امکان ارائه خدمات و اطلاعات و گزارش های یادشده به کاربران و پژوهندگان ایرانی و جهانی به صورت برخط و برون خط.

3. کاربری های پایگاه
از اطلاعات و امکانات این پایگاه به روش های گوناگون می توان بهره گرفت:

ــ به روش برخط و وارد شدن به وبگاه پژوهشگاه و صفحه آغازه دادگان زبان فارسی از راه اینترنت با نشانیhttP://www.Pldb.ihcs.ac.ir که Pldb اختصار Persian Linguistic Databaseاست. در حالت عادی، کاربران اینترنتی به عنوان میهمان (guest)می توانند نمونه کوچکی از امکانات را بر صفحه نمایشگر مشاهده کنند؛ اما کسانی که با شرایطی ثبت نام می کنند و مشترک می شوند، به امکانات بیشتری دسترسی پیدا خواهند کرد.

ــ با درخواست گزارش به روش برون خط، هر گونه جست وجو (که در زیر خواهد آمد) در پیکره انجام می گیرد و نتیجه آن در گزارش هایی با چاپگر چاپ می شود و یا روی دیسکت به شکل پرونده رایانه ای ارائه می شود.

4. انواع جست وجو
می توان برپایه هریک از اقلام اطلاعاتی و یا ویژگی های مربوط به آنها، جست وجوهای تک موردی، گروهی یا کلی انجام داد. از جمله:

ــ جست وجوی واژگانی (برپایه یک یا چند کلیدواژه)؛

ــ جست وجوی مفهومی (برپایه مفهوم یا معنای موردنظر)؛

ــ جست وجوی تلفظی (برپایه صورت تلفظی یک واژه)؛

ــ جست وجوی هم بافت (برپایه واژه های همایند و یا بافت های همسایه)؛

ــ گشت و گذار در متن ها و واژه نامه ها.

این جست وجوها را می توان در محدوده های دلخواه (مثلاً دوره زمانی معین، یا نویسنده ای مشخص، یا حجم معینی از پیکره) انجام داد.

5. انواع گزارش ها
گزارش های پایگاه به گونه های صوری و محتوایی مختلفی طراحی شده اند تا پاسخگوی نیازهای گوناگون باشند:

ــ به شکل فهرست های واژگانی، آماری و بسامدی (صعودی، نزولی، الفبایی و الفبایی وارونه)؛

ــ به شکل اطلاعات موردی و شناسنامه آثار؛

ــ به شکل فهرست واژه نما (واژه موردنظر در شکل کاربردی آن همراه با اطلاعاتی درباره بافت زبانی آن مانند یک سطر جمله شاهد، شماره سطر و صفحه متن، نام نویسنده و مشخصات اثر، تاریخ کاربرد، بسامد در پیکره و مانند آن).

6. کاربران پایگاه
این پایگاه برای استفاده همگانی درنظر گرفته شده است؛ اما مراحل و سطوح دستیابی آن متفاوت است. در مرحله مدیریت و آماده سازی، تنها مجریان طرح و همکاران هیئت علمی پژوهشگاه به اطلاعات دسترسی دارند، اما همه افراد می توانند از راه اینترنت، مشترک پایگاه شوند و اطلاعات مورد نیاز خود را دریافت کنند. ازنظر سطح دستیابی، افراد، گروه های پژوهشی و سازمان ها، دامنه های مجاز متفاوتی خواهند داشت. مثلاً تنها مجریان طرح می توانند هرگونه تغییرات را در ساختار و محتوای داده ها به وجود آورند؛ اما برخی از گروه های پژوهشی ممکن است بتوانند به افزایش داده ها بپردازند و دیگران تنها دریافت کننده اطلاعات به شمار می آیند.

7. آینده پایگاه
پایگاه های داده ها روز به روز اهمیت بیشتری می یابند. شمار آنها و موضوع و زمینه های کاربردشان گسترده تر می شود. اکنون از پایگاه معرفتی گفت وگو می شود که بسیاری از رشته های دانش و فن به آنها مجهز می شوند و همه گونه آگاهی ها و معارف به صورت الکترونیک در آنها نگهداری می شود. در بانک های اطلاعاتی گوناگونی که در سراسر جهان در دسترس همه است، پایگاه های داده های زبانی بسیاری برای زبان های مهم جهان فراهم شده است. اما در این دریای بیکران اطلاعاتی، داده های قابل استناد برای زبان فارسی یافت نمی شد.

پایگاه داده های زبان فارسی (دادگان فارسی)، در ایران، در وهله نخست برای پاسخگویی به نیازهای پژوهندگان ایرانی ایجاد شده و در مرحله بعد به عنوان یک بانک اطلاعاتی ایرانی دردسترس همه کسانی است که درباره زبان فارسی در نقاط دیگر جهان پژوهش می کنند.