مبانی جست و جو در «اینترنت»;قسمت اول
مجله پیام صادق فروردین و اردیبهشت 1381، شماره 40
نویسنده : تهیه کننده: محمد رضا معبودیان اصفهانی maboodian@isu.ac.ir
25
به رغم افق نوینی که اینترنت و امکانات گوناگون آن به ویژه WEB در دسترسی یکپارچه و جهانی به اطلاعات، فرا روی انسان نهاده است، مشکلات بسیاری در جست و جو (search) و بازیابی اطلاعات به همراه دارد که از میزان موفقیت در دسترسی به اطلاعات مناسب و دلخواه میکاهد. زیرا برخلاف اطلاعات موجود در کتابخانهها و پایگاههای اطلاعاتی که با توجه به معیارهای مشخص و استاندارد شده، منابع اطلاعاتی را برای افزودن به مجموعه خود و یا نمایهسازی انتخاب میکنند، منابع موجود در اینترنت را افراد و سازمانهای گوناگون و با هدفهای متفاوت به آن میافزایند. به عبارت دیگر اکثر منابع اینترنتی، به ناچار بدون ضابطه والگوی مشخصی وارد اینترنت میشود.
ویلیام کنز مینویسد«اینترنت همچون مغازه سمساری است که همه چیز در آن یافت میشود. اینترنت پدیدهای بیشکل و قواره و در عین حال بسیار گرسنه است. بنابر این یک فرد بیتجربه ممکن است ساعتهای مدیدی غرق در جست و جوی بیفایده در اینترنت شود. حتی جست و جوهایی که با منطق اولیه شروع میشوند ممکن است بعدها در فضای نامتناهی شبکه گم شوند». و بینتیجه بمانند!
در نگاه اول بازیابی اطلاعات در اینترنت امری بسیار ساده است: جوینده اطلاعات با وارد کردن آدرس سایت در مرورگر اینترنت، به اطلاعات موجود در آن سایت دسترسی خواهد داشت. ولی مشکل وقتی نمایان میشود که جوینده اطلاعات نشانی از سایت مورد نطر را نمیداند و ی اینکه برای دریافت اطلاعات خود سایت یا سایتهای خاصی را در نظر ندارد، بلکه خواستار همه سایتهایی است که بتوانند اطلاعات مورد نیاز وی را ارائه نمایند. اینجاست که جذابیتهای جست و جو (search)، موتورهای جست و جو (search Engines)، ابرموتورها ی جست و جوMeta search Engines) ) ، عملگرها (operators) و مهارتهای کاوش آشکار میشود و جست و جو در اینترنت به یک هنر و حتی یک علم یا فن تبدیل میشود(چنان که نوع نافرجام آن به عامل خستگی یا یأس تبدیل میشود)
مرکز امور رایانهای دانشگاه امام صادق علیه السلام بر آن است از این شماره با ارائه تعاریف اولیه، معرفی ابزارهای جست و جو و تکنیکها و استراتژیهای کاوش، زمینه را برای بازیابی اطلاعات از اینترنت فراهم سازد.
تعاریف مقدماتی
1. طبقات اطلاعات: داده یا data به یک عدد یا یک واقعیت که بیانگر مشاهدات خارج از متن بوده و به طور مستقیم ممکن است معنی دار نباشد اطلاق میگردد و با اطلاعات یا Information که از قرار گرفتن داده در یک بافت معنیدار حاصل میشود و اغلب به صورت یک پیام است، متفاوت میباشد. همچنین دانش یا knowedge چیزی است که ما آن را داریم و برای آن ارزش قایل هستیم که بر اساس پیامهایی که از طریق تجربه، ارتباطات واستثناها به دست آمدهاند، تعریف میشود. ولی حکمت یا بینش یا Wisdom از کشف ارتباطات میان دانشهای گوناگون حاصل میشود.
2. جست و جو: فرآیند بازیابی اطلاعات
3. بانک اطلاعاتی: عبارت است از سیستمی رایانهای(شامل نرمافزارها و سخت افزارها) جهت ذخیره و بازیابی اطلاعات با قابلیت جست و جو، ویرایش و اضافه کردن اطلاعات(با توجه به جزئیات پیشبینی شده). بانکها میتوانند اطلاعات را در فرمتهایی مختلف در خود نگهداری کنند(چکیده، نمایه، تمام متن، تمام تصویر،....)
4. انواع جست و جو: در اینترنت ممکن است در یک سایت و یا در یک صفحه انجام گیرد.
1.ابزارهای جست و جو: موتورهای جست و جو (search engines): به طور کلی موتورهای جست و جو نرمافزارهایی در محیط وب هستند که به طرق مختلف امکان جست و جو در اینترنت (یا بهتر است بگوییم در صفحات وب ) را فراهم میآورند. ذکر این نکته ضروری است که به دلیل حجم بسیار زیاد این صفحات، هیچ موتوری با همه نقاط قوت خود، قادر به جست و جو در همه منابع موجود در اینترنت نیست و هر موتور با توجه به تواناییها و قابلیتهای خود، تعدادی از این صفحات را میتواند جست و جو کند، با توجه به آمارهای غیر رسمی، حدود 10 میلیارد صفحه در وب جای دارد Northern ight,Atavista, Hotbot و... هر یک به تنهایی تعدادی از این منابع وب را پوشش میدهند.
امکانات موتورهای جست و جو: گفته میشود که بیش از 2000 موتور جست و جو در وب طراحی شده است که هر یک از آنها، ویژگیهای خاص خود را دارند و برخی از آنها به علّت دارا بودن توان بیشتر در پاسخگویی به نیازهای کاربران، بسیار پراستفادهاند.
به طور کلی امکانات طراحی شده در موتورهای جست و جوی مختلف به شرح زیر است:
- راهنمای کمکی
- گزینههایی برای جست و جوی یک یا چند نوع از منابع اطلاعاتی
- جست و جوی کلید واژهای
- جست و جوی عبارتی
- جست و جوی مفهومی
- پالایش جست و جو
- کوتاه سازی یا بریدن بخشی از واژه
- استفاده از عملگرهای بولی
- استفاده از علامتهای+ و- (اصلاح کنندهها)
- جست و جو در فیلدی خاص
- استفاده از گیومه
- محدود کردن جست و جو به مناطق جغرافیایی
- محدود کردن جست و جو به سایتهای خاص
- ذخیره کردن راهبرد جست و جو
- بازبینی املای واژة مورد جست و جو
- جست و جو با حروف بزرگ
- استفاده از عملگرهایnear یا Adjacent
- نمایش نتایج جست و جو به صورت یکپارچه
- رتبهبندی درجه مرتبط بودن نتایج بازیابی شده
- ارایه گزارمان یا چکیده نتایج جست و جو
- حذف نتایج تکراری
تصمیم گیری در انتخاب موتور جست و جوی مناسب، برای اغلب کاربران بسیار دشوار است، به ویژه اینکه پایگاه دادهها و الگوریتم های جست و جو به کرات در حال تغییر هستند.
2-سایتها(پایگاههای) پرتال: سایتهای پرتال به بازدید کنندگان امکان میدهند تا تقریباً هر چیزی که در جست و جوی آن هستند در یک محل پیدا کنند. این سایتها معمولاً حاوی اخبار، وقایع ورزشی، گزارش وضعیت هوا، و همچنین امکان جست و جو در وب هستند. پیشتر وقتی کاربران واژه پرتال را میشنیدند، اغلب به یاد موتورهای جست و جو میافتادند و در واقع موتورهای جست و جو، نوع خاصی از پرتال یعنی پرتال افقی هستند. این گونه پرتالها، اطلاعات را در مجموعه بسیار گسترده از موضوعات مختلف، جمعآوری میکنند. نوع دیگر پرتالها که به پرتال عمودی معروف است اطلاعات را در مجموعه خاصی از موضوعات، جمعآوری میکند. به عبارت سادهتر، پرتالهای افقی، عمومی و پرتالهای عمودی، تخصصی هستند. خریدهای onine وکلاً تجارت الکترونیک، بخش عمدهای از سایتهای پرتال را به خود اختصاص میدهند. ضمناً پرتالهای عمودی، اطلاعات بسیار زیادی را تنها دربارة موضوعی خاص در اختیار کاربر قرار میدهند. این گونه سایتها، اغلب سایتهای اجتماعی نیز نامیده میشوند. سایتهای اجتماعی مملو از گروههای مختلف با علاقهمندیهای ویژه هستند. بهترین سایت پرتال افقی، Yahoo میباشد.
3-موتورهای جست و جوی نمایهای: شیوه کار بیشتر موتورهای جست و جو نمایهای است؛ یعنی هنگام دریافت یک سایت یا یک صفحه، به صورت خودکار واژههای مندرج در آنها را بر اساس الگوریتم مشخصی، مثلاً بسامد هر واژه و یا واژههای مندرج سر عنوان بخشهای مختلف سایت، استخراج و در نمایه خود ذخیره میکنند.
عیب این شیوه در آن است که موتورهای جست و جو هر اندازه که هوشمند باشند نمیتوانند مانند انسان به محتوای منابع پی ببرند و آن را در قالب یک یا چند واژه نشان دهند، لذا در بسیاری از موارد واژههای نامربوط که گویای محتوای سایت نیستند استخراج و به صورت کلید واژه ذخیره میشوند. دلیل بازیابی سایتهای نامربوط یا کم ربط در این گونه موتورهای جست و جو در همین مسأله نهفته است.
افزون بر آن، هنوز موتورهای جست و جو نتوانستهاند شکل نشان دادن جنبههای فرعی موضوعات و محتوای سایتها را حل کنند. بنابر این جست و جو در موتورهای جست و جوی نمایهای میتواند بسیار مشکل و منوط به استفاده از کلید واژه مناسب و استفاده از عملگرها و ... باشد.
4-های راهنما و موتورهای جست و جوی موضوعی: چون اطلاعات موجود در وب بسیار عظیم و فرّار است، داشتن فهرستی کاملاً جامع غیر ممکن مینماید، لذا تعدادی از مؤسسات و کاربران با گردآوریسطه; راهنمای وبDirectory) )ها، ابزار جست و جوگری را طراحی و قسمتی از این مشکل را حل نمودهاند.
های راهنما منابع بسیار خوبی هستند، البته در صورتی که شیوة استفاده از آن را فرا گرفته باشید.
حتی اگر منابع اندکی را مرتبط با عنوان مورد نظر خود بیابید، این منابع باز هم شما را به سوی اطلاعات مورد نیاز خود راهنمایی خواهد کرد.
های رایگانی بر روی وب وجود دارند که دو راه برای استفاده از آنها وجود دارد.
بعضی از های راهنما، صفحات خانگی (Home page) دارند که در گروههایی سازماندهی شدهاند و برای استفاده از آنها باید صفحه خانگی را بارگذاری (oad) نمود و گروه دلخواه را انتخاب کرد. در هر گروه نیز، زیرگروههایی وجود دارند که باید را آن قدر آنها را ادامه داد تا دقیقاً به آنچه مقصود است دسترسی پیدا کنم.
های راهنمایی وجود دارند که اجازه میدهند با استفاده از ماشین جست و جو (search Emgine) به دنبال مطلب خاص خود بگردید. استفاده از ماشین جست و جو بسیار ساده و آسان است. کافی است یک یا چند کلمه را در فرم مربوط تایپ و بر روی دکمه SUBMIT (یا Search) کلیک کرد و منتظر نتایج بعدی شد. اغلب ماشینهای جست و جو این اجازه را میدهند که از میان انواع گوناگون معیارهای جست و جو، کلید واژه مورد نظرتان را به روشی خاص فرمول بندی کنید. این گونه موتورها، یا به عبارتی راهنماها، سایتها و صفحات را در ساختاری موضوعی مثلاً سلسله مراتبی یا درختی (subject-tree Structure) دستهبندی کرده و در زیر هر مقوله موضوعی بزرگ، گروههای موضوعی کوچکتر را آورده و به همین ترتیب، این دستهبندی تا رسیدن به موضوعات ریز و خاص ادامه یافته است. به عبارت دیگر، ساختاری سلسله مراتبی دارند که ارتباط هر موضوع را با موضوعات مادر(اعم) و موضوعات فرعیتر(اخص) نشان میدهند.
5- ابرمورتورهای جست و جو (Meta Search Engines) همانگونه که میتوان حدس زد موتورهای جست و جو پیوسته روبه افزایش هستند. از سوی دیگر، کاربران حتی علیرغم رضایت از نتایج حاصل از جست و جو در یک موتور، تمایل به جست و جو در موتورهای جست و جوی دیگر را دارند، هر چند که این کار وقتگیر و هزینهبر است. برای رفع این مشکل از دهه 1990 به بعد، موتورهای جست و جویی طراحی شدند که قادر به جست و جوی همزمان در چندین موتور جست و جو هستند. ابرموتورهای جست و جو به خاطر اینکه خود پایگاه دادهای در اختیار ندارند، کلید واژهها یا عبارات وارد شده در کادر جست و جوی خود را همزمان به چندین پایگاه داده موتور جست و جوی منفرد و صفحات وب انتقال میدهند. سرعت بازیابی در این موتورها بسیار بالا است. زیرا این موتورها تنها به بازیابی مرتبطترین مدارک از هر یک از موتورهای جست و جو قناعت میکنند. بسیاری از ابرموتورها، به مجرد رخ دادن تأخیر در دریافت پاسخ پرسش مطرح شده، از موتور مورد نظر چشم میپوشند و ارتباط خود را با آن قطع میکنند. بدین ترتیب جامعیت جست و جو، قربانی سرعت در بازیابی میشود.
اصولاً متا(Meta) برابر واژه های «ورا و برتر» در فارسی و به این معناست که ابرموتور جست و جو (Meta search Engines) دارای امکانات و ویژگیهایی فراتر از امکانات یک موتور جست و جو میباشد.
واقعیت این است که تعدادی از موتورهای جست و جو که ادعای ابرموتور بودن دارند، حقیقتاً دارای ویژگیهای خاص ابرموتور نیستند. در واقع برخی از آنها به خاطر این که قابلیت ارسال و نمایش ندارند، بیشتر شبیه مجموعهای از موتورهای جست و جو یا راهنما و یا فهرستی بلند بالا از ابزارهای جست و جو هستند که برای هر یک از این ابزارها، یک کادر محاورهای طراحی شده است. کاربران، پرسش خود را در کادر محاورهای وارد میکنند. این پرسش به اولین موتور جست و جو ارسال میشود. پس از مشاهده نتایج، کاربر میتواند در صورت تمایل همان پرسش را به ترتیب به طور غیر همزمان در موتورهای جست و جو یا راهنماهای بعدی کپی یا درج کند.
ضمناً برای کار با موتورهای جست و جو آشنایی با دو مفهوم زیر لازم میباشد:
1. Hit ist : پس از جست و جو، موتور جست و جو لیستی از اطلاعات مرتبط با عبارت جست و جو را نمایش میدهد که به آن Hit ist میگویند.
2. درصد مطابقت: نتایج جست و جو در موتورهای جست و جو(مدارک یا صفحات بازیابی شده) بر اساس یک الگوریتم مشخص(که خاص هر کدام از موتورهای جست و جو است)، با توجه به ربط آنها به کلید واژه، مرتب و درجهبندی میشوند و برای آنها نمرهای (بر اساس حداکثر 100) تعلق میگیرد. این نمره در کنار آدرس منبع در hit ist درج میشود.
نظر شما