ذخیره و بازیابی اطلاعات
فعالیتهایی که برای تحلیل و سازماندهی مدارک و منابع صورت میگیرد ذخیره اطلاعات، و تلاشهایی که برای یافتن یک یا چند مدرک از میان انبوه مدارک ذخیره شده انجام میشود بازیابی اطلاعات نام دارد. نظامهایی که این جریانها در آنها روی میدهد نظامهای ذخیره و بازیابی اطلاعات خوانده میشود. نظامهای ذخیره و بازیابی اطلاعات معمولاً به منظور دسترسپذیر کردن مجموعهای از منابع اطلاعاتی برای استفادهکنندهای که مایل به کسب این اطلاعات است طراحی میگردد. اطلاعاتی که در نظامهای ذخیره و بازیابی اطلاعات ذخیره میشود یا صرفاً شامل دادههای کتابشناختی است، مانند مشخصات کتابها، اسناد و مدارک، و مقالههای مجلات؛ یا اصل مدرک است که همراه مشخصات آن عرضه میشود. حالت اخیر پایگاه دادههای تمام متن نام دارد. نظامهای بازیابی اطلاعات را در معنای وسیع میتوان برای دستیابی به مجموعههای تصویری، فیلم، پروانههای ثبت اختراع، و جز آن نیز مورد استفاده قرار داد. در هر حال، هدف هر نظام ذخیره و بازیابی اطلاعات آن است که در اسرع وقت بیشترین اطلاعات مرتبط با نیاز استفادهکننده را ـ آنطور که در درخواست وی ذکر شده ـ در اختیار بگذارد.
تاریخچه
تاریخچه ایجاد و گسترش نظامهای بازیابی اطلاعات را میتوان به چندین دوره نسبتاً روشن تقسیم کرد. قبل از سالهای 1940 تهیه میشد، نظامهای بازیابی اطلاعات تنها از نوع دستی محض بود، یعنی نمایهها و فهرستها به شکل چاپی و کارتی تهیه میشد. این وسایل بازیابی، پیشهمارا و غیرقابل دستکاری است و متکی بر سازماندهی خطی (تک بعدی) بوده و قابلیتهای بسیار محدودی برای جستوجو و بازیابی دارند. در سالهای 1940، مهمترین پیشرفت در تاریخچه بازیابی اطلاعات یعنی ابداع نظامهای بازیابی که پسهمارا و قابل دستکاری هستند روی داد. این نظامها که هنوز عمدتاً دستی بودند توسط باتن و کوردونیر[1] (پیکابو، یا تطابق نوری)، موئرز[2] (برگههای منگنهای)، و نیز توسط مورتیمر تاب[3] (نظام تک واژهای) عرضه شد. این نظامهای پسهمارای اولیه مزایای قابل توجهی نسبت به پیشینیان خود عرضه کردند. آنها نیای مسلّم نظامهای رایانهای نوین به حساب میآیند.
در سالهای 1950 اشکال اولیه خودکارسازی نمایهسازی پسهمارا توسط نظامهای دادهپردازی برگه منگنه پدید آمد. نظامهای برگه منگنه در دهه 1950، در واقع، اسلاف بلافصل نظامهای رایانهای سالهای 1960 بودند. سالهای 1960 دوران بازیابی رایانهای به شیوه گسسته، پردازش دستهای و نواری را تشکیل میداد. در سالهای 1970، با توسعه سختافزارها و نرمافزارهای رایانهای، امکان انجام جستوجوهای پیوسته یا تعاملی فراهم آمد. نظامهای پیوسته بازیابی، علاوه بر افزایش سرعت، امکان دریافت بازخورد جستوجو در روند جستوجو و، در صورت لزوم، تغییر و اصلاح آن را به استفاده کننده میدادند. مهمترین مزیت بازیابی پیوسته امکان دسترسی از راه دور بود. در این مورد شرکتهای بزرگی چون دیالوگ و بی.آر.اس. در بخش خصوصی و کتابخانه ملی پزشکی در بخش دولتی، با عرضه نظام بازیابی مدلاین، فعالیتهای فراوانی داشتهاند. از ابتدای سالهای 1980، توسعه و گسترش ذخیره و بازیابی اطلاعات به شکل متن کامل از جمله تحولات و رویدادهای مهمی است که شکل گرفته است. هر چند اندیشهها و تلاشهای مربوط به این شکل از ذخیره و بازیابی به سالهای،1970 زمان اولین تلاشها برای واردکردن متون حقوقی در رایانه و جستوجوی آزاد بر روی آن متون، باز میگردد با ازدیاد رایانههای شخصی و پیدایش رسانههای ذخیرهسازی نوری مانند دیسک فشرده و نیز رواج نشر رومیزی (دی.تی.پی.) بود که ایجاد پایگاههای تمام متن و نیز فنون بازیابی از متن عمومیت بیشتری یافت و در دسترس استفادهکنندگان قرار گرفت. بازیابی در این نوع نظامها که عمدتاً مبتنی بر استفاده از زبان طبیعی است و از این لحاظ در مقابل نظامهای مبتنی بر واژگان مهار شده قرار میگیرند دارای جذابیتهای زیادی برای استفادهکنندگان از آنهاست، لکن برای بازدهی بیشتر از مزایای هر دو نظام به طور همزمان استفاده میشود.
در سالهای اخیر، استفاده از فنون بصری جایگاه خاصی یافته و چالشهای جدید و بحثهای گستردهای را به دنبال داشته است. استفاده از این فنون، به ویژه برای طراحی واسطهای کاربر، باعث سهولت بیشتر در استفاده از نظامهای بازیابی و فراگیرتر شدن دامنه استفاده از این نظامها گردیده است.
تحلیل و جستوجوی اطلاعات
بازیابی اطلاعات ممکن است به دلایل زیر باشد:
1) حجم زیاد اطلاعاتی که میبایست دسترسپذیر گردد؛
2) مشکلات فراهم آوردن ذخایر عظیم مواد و منابع به صورتی که بتوان به راحتی به آنها دست یافت؛
3) افزایش مشکلات فنی ناشی از اشاعه گزینشی حجم زیاد منابع برای استفادهکنندگان ناهمگن.
در روند ذخیره و بازیابی اطلاعات دو مرحله متمایز تحلیل اطلاعات و جستوجوی اطلاعات را میتوان مشخص ساخت.
تحلیل اطلاعات
فرایند تعیین محتوای موضوعی مدارک و تبدیل آن به زبان نظام (یا مجموعهای از اصطلاحات نمایهای) را تحلیل اطلاعات گویند. در این مرحله، نمایهساز یا کسی که کار تحلیل اطلاعات را انجام میدهد ابتدا باید، پس از پویش و تحلیل مفهومی مدرک، مشخص کند که مدرک درباره چیست و چه جنبههایی را دربرمیگیرد. در نظر گرفتن نیازهای استفادهکننده نظام در این مرحله مسئلهای اساسی است. به عبارت دیگر، نمایهساز نه تنها باید در مورد موضوع مدرک تصمیمگیری کند، بلکه باید متوجه باشد که چه جنبههایی از مدرک میتواند برای استفادهکنندهای خاص حائز اهمیت باشد. گام بعدی، تبدیل نتیجه تحلیل مفهومی مدرک به مجموعهای از اصطلاحات نمایهای است. اصطلاحات نمایهای ممکن است برگرفته از سیاههای مجاز از واژهها (واژگان مهار شده) یا از متن مدرک و واژههای مؤلف باشد. شیوه دوم نمایهسازی با استفاده از زبان طبیعی است. در هر حال، حاصل کار، تعدادی اصطلاح است که، در مجموع، تصویری از موضوع مدرک را به دست میدهند و با نامهای کلید واژه، سرعنوان موضوعی، توصیفگر، و نیز خوانده میشوند. تلاشها و فعالیتهای زیادی صورت گرفته تا کار تخصیص اصطلاحات نمایهای به صورت ماشینی و بدون دخالت انسان انجام گیرد. بحث نمایهسازی خودکار برخاسته از این تلاش است. اصطلاحات نمایهای یا توصیفگرهای هر مدرک به اضافه مشخصات کتابشناختی آن مدرک (نویسنده، عنوان، منبع، و چکیده)، مجموعاً یک رکورد کتابشناختی را تشکیل میدهند. اتخاذ روشی مناسب برای سازماندادن این رکوردها در کنار یکدیگر باعث خواهد شد تا نظام بازیابی، عملکرد بهتری داشته باشد.
واژگان مهار شده
به منظور ایجاد یکدستی و هماهنگی و نیز سهولت در بازیابی مدارک، معمولاً واژهها یا اصطلاحاتی را که مبیّن موضوع مدرک هستند از سیاههای مستند به نام واژگان مهار شده انتخاب میکنند. فهرستهای سرعنوان موضوعی، طرحهای ردهبندی، و اصطلاحنامهها سه نوع واژگان مهار شده مهم هستند. زیرا در این منابع تلاش شده است تا اصطلاحات به صورت الفبایی و نیز به شکل نظام یافته ارائه شود.
نقطه مقابل استفاده از واژگان مهار شده، نمایهسازی با استفاده از زبان طبیعی است. منظور از زبان طبیعی واژهها و کلماتی است که در متن به کار رفته و بنابراین اصطلاح "متن آزاد" را میتوان مترادف آن در نظر گرفت. متن آزاد میتواند شامل عنوان، چکیده، برگزیده، یا متن کامل مدرک باشد. هنگام تحلیل اطلاعات میتوان به جای انتخاب اصطلاحات نمایهای از واژگان مهار شده، هر کدام از عناصر بالا را ذخیره کرد و در مرحله جستوجو مستقیماً مورد استفاده قرار داد. این روش که تاریخچه آن به کار مورتیمر تاب و نظام تکواژهای او باز میگردد نخست به طور گستردهای برای ذخیره و بازیابی متون رشته حقوق مورد استفاده قرار گرفت و با رواج و گسترش رایانه نضج گرفت. اما استفاده از زبان طبیعی دارای مزایا و معایب خاص خویش است.
سازماندهی فایلها
در نظامهای رایانهای ذخیره و بازیابی اطلاعات، دادهها معمولاً در قالب رکورد ذخیره میشوند و مجموعهای از رکوردها یک فایل را تشکیل میدهند. شیوه ذخیره رکوردها در داخل فایل و شیوه ارتباط آنها با یکدیگر مطلبی است که تحت عنوان ساختار فایل یا سازماندهی فایل مورد بحث قرار میگیرد. برای سازماندهی فایل به طور معمول چندین روش وجود دارد که سادهترین آنها فایل ترتیبی است. در این نوع فایل هیچگونه راهنما یا اشارهگر ربط دهندهای ایجاد نمیشود و معمولاً رکوردها بدون نظم خاصی در کنار یکدیگر قرار میگیرند. یافتن رکوردهای خاص در این گونه فایلها منوط به آن است که یکایک رکوردها از ابتدای فایل بررسی شود. چنانچه با حجم زیادی از اطلاعات روبهرو باشیم استفاده از این نوع فایل بسیار وقتگیر است. در عوض، این ساختار حداقل فضای ذخیرهسازی را به خود اختصاص میدهد و اجرای آن نیز نسبتاً آسان است. نوع دیگر، فایل شاخصدار یا فایل مقلوب است. در این نوع ساختار، که در نظامهای معروف ذخیره و بازیابی اطلاعات به وفور مورد استفاده قرار گرفته، به ازای فیلدهای شاخص یا فیلدهایی که در نظر است بر روی آنها جستوجو صورت گیرد، فایل یا فایلهای جداگانهای به نام فایل شاخص یا فایل مقلوب ایجاد میشود. محتوای این فایل را مقادیر فیلد شاخص و نشانی متناظر به آن در فایل اصلی تشکیل میدهد. هنگام بازیابی، ابتدا عبارت مورد نظر در فایل مقلوب جستوجو میشود و سپس براساس شماره مدرک یا نشانی که در مقابل آن عبارت وجود دارد، رکورد کامل از فایل اصلی بازیابی میگردد. در این ساختار، به جهت آنکه حداقل دو فایل ایجاد میشود فضای بیشتری اشغال میگردد، ولی در مقابل، سرعت جستوجو و بازیابی به خصوص در پایگاههای حجیم تا حد زیادی بالا میرود. سومین نوع را فایل با دستیابی مستقیم مینامند دارد. در این ساختار، امکان نوشتن یا خواندن رکورد بدون در نظر گرفتن محل آن وجود دارد. در این فایلها لازم است که فیلدی به عنوان فیلد کلید مشخص گردد. در این نوع ساختار برای یافتن محل آزاد در حافظه جهت درج رکورد یا پیدا کردن رکوردی خاص، از فن آدرسدهیِ درهم استفاده میشود. مهمترین ویژگی و مزیّت این ساختار، صرفهجویی در فضای حافظه و نیز سرعت زیاد در دستیابی به رکوردهاست. متقابلاً نقطه ضعف آن در سختی پیادهسازی و اجرای آن است. ساختار دیگر، ساختار زنجیرهای است و ویژگی آن در این است که همه اقلامی که نشاندهنده شناساگر فرضی مشترکی هستند با رابطها یا اشارهگرهایی مناسب، به هم زنجیر میشوند. طبیعتاً یک راهنما دسترسی به اولین فقره را در هر زنجیره فراهم میآورد و فایل را میتوان با تعقیب اشارهگرهای درونی هر زنجیره جستوجو کرد. فایلهای زنجیرهای نسبت به فایلهای ترتیبی سرعت بیشتری را فراهم میآورند، اما به فضای ذخیرهسازی قابل توجهی برای ذخیره اشارهگرها و راهنماها نیاز دارند.
جستوجوی اطلاعات
در این مرحله، وظیفه نظام ذخیره و بازیابی، بررسی و شناخت درخواست استفادهکننده، پویش یا جستوجو در بانک اطلاعاتی، و یافتن و نمایش رکوردهایی است که با درخواست ارائه شده انطباق دارد. دستیابی به این هدف، یعنی یافتن اطلاعاتی که نیاز استفادهکننده را به طور قطع برطرف کند عملاً کار آسانی نیست، زیرا از یک سو استفادهکننده به طور دقیق نیاز اطلاعاتی خود را نمیداند و در برخی اوقات نیز علیرغم آگاهی به نیاز اطلاعاتی خود، ممکن است نتواند آن را با عبارتهای مناسب بیان کند. از سوی دیگر، ممکن است اصطلاحات یا عباراتی که به عنوان موضوع مدارک در نظر گرفته شده چندان دقیق نباشند و نتوانند تصویر کاملی از محتوای مدرک بدست دهند. بدین سبب گفته میشود که وجه خروجی نظام بازیابی اطلاعات (پاسخگویی به درخواست استفاده کننده) همواره پیچیدهتر از وجه ورودی آن است و بدین لحاظ باید بخش خروجی مورد توجه بیشتری قرار گیرد.
شیوههای بازیابی اطلاعات را میتوان در نگاه کلی به دو دسته، نظامهای مبتنی بر انطباق مطلق و نظامهای مبتنی بر انطباق نسبی، تقسیم کرد.
فنون انطباق مطلق در حال حاضر در بسیاری از نظامهای سنتی بازیابی اطلاعات مورد استفاده قرار میگیرد. پرسوجوها در این روش معمولاً با استفاده از عملگرهای بولی تدوین میشوند و، برای بازیابی، تنها انطباق واژههای پرسش با عبارتهای موجود در مدرک کفایت میکند.
در انطباق نسبی یا انطباق برتر[4] این امکان وجود دارد که نظام بازیابی را بتوان با ورود رشتهای از اصطلاحات که بیانگر نیاز اطلاعاتی هستند، بدون استفاده از عملگرهای بولی، جستوجو کرد. در این نوع، نظام دنبال قطعاتی از متن میگردد که بهترین انطباق را با رشته ورودی داشته باشد. بنابراین، اگر رشته اصلی شامل پنج کلمه باشد و مدرکی در بانک اطلاعاتی نیز کلّ پنج واژه را دربرگیرد این مدرک حداکثر وزن ممکن را گرفته و در رأس سیاهه موارد بازیابی رشته قرار میگیرد. بر این اساس، الگوها و فنون مختلفی برای بازیابی شکل گرفته است که به عنوان مدلهای کلاسیک و مدلهای پیشرفته از آنها یاد میشود. مدلهای کلاسیک بازیابی شامل مدل بولی، فضای برداری[5]، و مدلهای احتمالی[6] است. مدلهای پیشرفته، علاوه بر مدلهای فوق، شامل بازیابی براساس منطق مشکک (فازی)[7]، نمایهسازی معنایی نهفته[8]، شبکههای استنتاجی[9]، و نیز الگوهای مبتنی بر مرور شامل نظامهای بازیابی فرامتن است.
مدل بولی
اولین روش بازیابی که در نظامهای اطلاعاتی اجرا شد مدل بولی بود که در آن اصطلاحات پرسوجو با عملگرهای بولی بیان شده و با نمایه مقلوب مقایسه میگردید. توانایی عملگرهای بولی برای ترکیب مفاهیم اجزا (AND) و مترادف (OR) و نیز زمان پاسخ سریع، این مدل را مدلی عام برای نظامهای بازیابی ساخت.
با فراگیرتر شدن نظامهای بازیابی بولی، تدوین پرسوجوهای مؤثر برای عموم افرادی که با منطق آشنا نبودند دشوار گردید. علاوه بر آن، نظام بولی اغلب تعداد مدارک را با توجه به ماهیت حساس منطق خود که پاسخی انعطافناپذیر در برابر بود یا نبود اصطلاحی واحد نشان میداد بازیابی میکرد.
برای غلبه بر مسئله بازیابی مدارک زیاد بدون توجه به میزان اهمیت کاربردی بالقوه آنها ـ اصلاحاتی در نظام صورت گرفت تا با اختصاص وزنهایی به اصطلاحات، براساس اهمیت "متصوّر" آنها، خروجیهای ترتیبی تولید شود. روشهای اصلاحی دیگر مانند کنترل فرایند تدوین پرسش برای کاهش مشکل ساخت پرسوجوهای بولی پیچیده نیز مورد تحقیق قرار گرفته است.
مدل فضای بُرداری
در حالی که برخی تلاش کردند تا با انجام اصلاحاتی در مدل بولی بر نقاط ضعف آن غلبه کنند، دیگران با راهبرد متفاوتی به نام مدل فضای برداری به بازیابی اطلاعات پرداختند. در این مدل، مدارک و پرسوجوها به صورت بردارهایی در فضایی سه بعدی در نظر گرفته میشود که هر بعد با مدخلی در نمایه مقلوب متناظر است. مثلاً مدرک D و پرس و جوی Q در شکل برداری به صورت D= (d1, d2, d3,.... dn)) و Q= (q1, q2, q3,.... qn)) بیان میشود که n مجموع اصطلاحات نمایهای و هر کدام از مقادیر داخل پرانتز وزن هر اصطلاح بوده که بیانگر اهمیت اصطلاح است.
شناخته شدهترین وزن اصطلاحی، بسامد مقلوب مدرک نامیده میشود که با بسامد مجموعه (تعداد مدارک مجموعهای که در آن یک اصطلاح خاص وجود دارد) تغییر میکند. بسامد مقلوب مدرک نوعاً از طریقdkN Log محاسبه میشود که در آن N تعداد مدارک مجموعه و dk تعداد مدارکی است که اصطلاح k در آن ظاهر میشود. فرمولهای مختلفی برای محاسبه اوزان اصطلاح وجود دارد که برخی از آنها گونههایی از وزن IDFبوده و از بسامد مدرک (تعداد دفعاتی که اصطلاحی در مدرکی ظاهر میشود) و عادیسازی بهره میگیرند. مثلاً میتوان IDF را در بسامد مدرک ضرب کرد (تا اصطلاحاتی که مکرراً در مدرکی ظاهر میشوند اهمیت بیشتری پیدا کنند) و بر عامل عادیسازی طول بردارها تقسیم کرد تا طول متغیر بردارهای مدرک مجموعه تنظیم شود. این عمل تابع فرمول زیر است:
idf)2ס Svector i (tf i idf k×tf ki Wki=
که در آن Wki وزن اصطلاح K موجود در مدرک d، tfki بسامد اصطلاح k در مدرک d، idfk بسامد مقلوب مدرک، و مخرج کسر عامل عادیسازی، و idfk بسامد مقلوب مدرک است.
مدلبرداری، سیاههای ترتیبی از مدارک براساس مشابهت آنها با پرسش، با در نظر گرفتن زاویه میان بردار مدرک و بردار پرسش، به عنوان مقیاس مشابهت ارائه میدهد. علاوه بر فرمولهای توزین اصطلاح، فرمولهای دیگری نیز برای محاسبه مشابهت "پرسش ـ مدرک" پیشنهاد شده است. آزمایشها نشان داده است که انتخاب مقیاس جدید مشابهت میتواند بر عملکرد بازیابی تأثیر قابل ملاحظهای داشته باشد. یکی از مقیاسهای مشابهت که به طور گسترده مورد استفاده قرار گرفته مشابهت کسینوسی است که حاصل ضرب درونی میان عناصر عادی سازی شده بردار در طول بردارهاست.
گونه دیگری از مدلبرداری مدل خوشهای است که در آن با محاسبه مشابهت برداری مدرک به مدرک و با استفاده از معیارهای خوشهبندی گروهی از مدارک شکل میگیرد. معیارهای خوشهبندی مشخص میکند چه چیز خوشهای از مدارک را تشکیل میدهد. برخلاف مدل فضای برداری که در آن بردار هر پرسش با بردار هر مدرک مقایسه میشود، در اینجا، بردار هر پرسش با بردار مرکز خوشه، یعنی برداری که خوشه را به صورت کلی ارائه میکند، مقایسه میگردد.
مزیت رویکرد خوشهای زمانی جلوهگر میشود که با مجموعه مدارکی به کار رود که بتواند خوشههای فشرده تشکیل دهد. همچنین، این مدل در محیطی مؤثر شناخته میشود که خوشهها تمایل به ارائه مشترک مدارک مرتبط داشته باشند. با این حال، هیچ تضمینی وجود ندارد که مجموعه مدارک مفروض ضرورتاً به ساختار خوشهبندی مفیدی بینجامد، و حتی در موارد مفید، هزینه محاسبه ساخت، نگهداشت، و جستوجو در خوشههای کوچک و همبسته ممکن است به طور سرسام آوری بالا باشد.
مدل احتمالی
این مدل نخستین بار توسط استیو رابرتسن و کارن اسپارک جونز در سالهای 1970 معرفی شد. این مدل به لحاظ اینکه مدارک و پرسشها را به صورت بردار عرضه میکند شبیه مدلبرداری است، اما به جای بازیابی مدارک براساس میزان مشابهت با پرسش، مدارک را براساس احتمال ارتباطشان با پرسش بازیابی میکند. احتمال ربط مدرکی خاص به پرسش را میتوان با جمع اوزان ربط اصطلاحات آن مدرک، یعنی برآورد احتمال ظهور اصطلاحات موجود در پرسش و در مدرک مرتبط، و نه در مدرک غیرمرتبط، محاسبه کرد.
در مدل بازیابی کلاسیک احتمالی، این احتمالات اصطلاح از طریق مجموعهای نمونه از مدارک و پرسشها همراه با قضاوت مرتبط مربوط به آن تخمین زده میشود. با وجود این، اجرای فرایند تخمین به صورت عملیاتی مشکل است، زیرا جمعآوری دادههای ربط لازم قبل از جستوجوی واقعی عملاً غیرممکن است. در نتیجه، برای تخمین احتمال اصطلاح، معمولاً، در این مدل از بازخورد ربط استفاده میکنند.
فرامتن
شکل دیگری که برای جستوجو و بازیابی اطلاعات ارائه شده، و به خصوص در سالهای اخیر با رشد شبکه وب گسترش یافته است، بازیابی فرامتنی است. روشهایی که تاکنون ذکر شد عمدتاً بر این محور استوار است که کاربر پرسش خود را در قالب واژهها و عباراتی به نظام ارائه کند تا نظام، پس از جستوجو، تعدادی مدرک را به عنوان نتیجه جستوجو بازگرداند. در مقابل این نظامها که میتوان آنها را نظامهای پرسش مدار نامید، نظامهای فرامتن تلاش میکنند با ایجاد پیوندهای مفهومی میان مدارک و فراهمآوردن امکان مرور و راهبری، کاربر را در رسیدن به مدرک مورد نظر یاری دهند. از این دو نوع رویکرد، به ترتیب، به حرکت از کجا به چه (کاربر میداند در کجای بانک اطلاعاتی است و میخواهد بداند در آنجا چه چیز وجود دارد) و حرکت از چه به کجا (کاربر میداند چه چیزی میخواهد و میخواهد بداند آن چیز را در کجا میتواند بیابد) تعبیر شده است. در نظامهای فرامتن، هر کدام از مدارک یا الام اطلاعاتی، یک گره و رابطه میان گرهها، پیوند نامیده میشود. در هر گره یک یا چند واژه یا عبارت برجسته وجود دارد که آن را لنگر[10] مینامند و زمانی که از سوی کاربر انتخاب یا فعال میشوند، با استفاده از پیوندها، کاربر را به گره مرتبط دیگری هدایت میکنند. گرهها علاوه بر متن میتوانند شامل قطعات صوتی و تصویری مانند موسیقی، فیلم، عکس، و جز آن نیز باشند.
ارزیابی نظام بازیابی
در بحث از ارزیابی نظام باید به سه پرسش پاسخ گفت:
1) دلیل ارزیابی نظام چیست؟
2) چه عنصری از نظام ارزیابی میشود؟
3) ارزیابی نظام چگونه یا به چه شیوهای صورت میگیرد؟
ارزیابی نظام به منظور سنجش منافع یا زیانهایی که از نظام بازیابی حاصل میشود و نیز برای سنجش هزینه و سودمندی نظام صورت میگیرد. در ارزیابی معمولاً عناصر زیر که گویای توانایی نظام در رفع نیاز استفادهکننده است مورد توجه قرار میگیرد:
1) پوشش مجموعه، یا تعداد مدرک مرتبطی که در هر مجموعه وجود دارد؛
2) زمان پاسخگویی، یعنی فاصله متوسط میان زمان درخواست جستوجو و بهدستآوردن پاسخ؛
3) شکل خروجی، یعنی شکل مدارک بازیابی شده، شماره مدرک، مآخذ کتابشناختی، مآخذ همراه با چکیدهها، متن کامل، و جز آن؛
4) تلاش استفاده کننده، یعنی کوششی که استفادهکننده در مرحله خروجی (جدا کردن مدارک مرتبط از نامرتبط)، در مرحله درخواست (بیان هر چه دقیقتر پرسش یا نیاز اطلاعاتی)، و در مرحله تدوین راهبرد جستوجو (بررسی راهبرد تدوین شده و اصلاح آن) انجام میدهد؛
5) جامعیت، یعنی توانایی نظام در بازیابی متون مرتبط؛ و 6) مانعیت، یعنی توانایی نظام در بازیابی نکردن متون نامرتبط.
گفته میشود که موارد 1 تا 4 به راحتی قابل ارزیابی است لیکن این جامعیت و مانعیت است که در کنار یکدیگر سودمندی نظام را نشان میدهند. در واقع این دو معیار در کنار هم توانایی فیلتری نظام را بیان میکنند و استفاده از هر کدام از آنها به تنهایی چندان کارساز نیست. در هر نظام بازیابی، مطلوب آن است که نسبت جامعیت و مانعیت هر دو 100 درصد باشند، یعنی نظام بتواند کلیه مدارک مرتبط موجود را بازیابی کند و در عین حال هیچ یک از مدارک غیرمرتبط را را نیز ارائه ندهد. اما رسیدن به چنین آرمانی عملاً غیرممکن است، و در واقع این مسئله یکی از مهمترین تفاوتهای میان نظامهای ذخیره و بازیابی اطلاعات و نظامهای مدیریت پایگاه دادهها را تشکیل میدهد. جامعیت و مانعیت با یکدیگر رابطهای معکوس دارند، یعنی هر گونه تلاشی برای افزایش مانعیت منجر به کاهش جامعیت و هرگونه کوششی برای افزودن جامعیت باعث کاهش مانعیت میشود. بنابراین، در عمل باید به نسبتی معقول میان این دو رسید. نیاز استفادهکننده یکی از عوامل مؤثر در تعیین این نسبت است.
مآخذ :
1) Baeza - Yates, Ricarde; Ribeiro - Neto, Berthier. Modern Information Retrieval. New York: ACM Press, 1999;
2) Lancaster, F.W. Indexing and Abstracting in Theory and Practice. London: Library Association, 1991;
3) Idem; Warner, Amy J. Information Retrieval Today. Arlington: Information Resources Press, 1993;
4) Lucarella, D.; Zanzi, A. "Information Retrieval from Hypertext: an Approach Using Plausible Inference". Information Processing and Management. Vol.29. No.3 (1993): 299-312;
5) Salton, Gerarld. "Information Retrieval". Encyclopedia of Computer Science, PP. 661-662;
6) Van R.Jsbergen, C.J. Information Retrieval. 2nd ed. London: Butterworth, 1979;
7)Yang, Kiduk. Combining Multiple Document Representations and Multiple Relevance Feedback Methods to Improve Retrieval Performance. A Master Paper Submitted to the Faculty of the School of Information and Library Science of the Universtiy of North Carolina at Chapel Hill, 1997.
پی نوشت:
[1] Cordonnier
[2] Mooers
[3] Mortimer Tob
[4] Best match
[5] Vector space
[6] Probablistic
[7] Fuzzy set
[8] Latent semantic indexing
[9] Inference Network
[10] Anchor
● برگرفته از دایرة المعارف کتابداری و اطلاعرسانی، http://portal.nlai.ir/daka نوشته علیرضا بهمنآبادی
نظر شما