موضوع : پژوهش | مقاله

مبانی جست و جو در «اینترنت»;قسمت اول

مجله  پیام صادق  فروردین و اردیبهشت 1381، شماره 40 

نویسنده : تهیه کننده: محمد رضا معبودیان اصفهانی maboodian@isu.ac.ir
25
به رغم افق نوینی که اینترنت و امکانات گوناگون آن به ویژه WEB در دسترسی یکپارچه و جهانی به اطلاعات، فرا روی انسان نهاده است، مشکلات بسیاری در جست و جو (search) و بازیابی اطلاعات به همراه دارد که از میزان موفقیت در دسترسی به اطلاعات مناسب و دلخواه می‎کاهد. زیرا برخلاف اطلاعات موجود در کتابخانه‎ها و پایگاه‎های اطلاعاتی که با توجه به معیارهای مشخص و استاندارد شده، منابع اطلاعاتی را برای افزودن به مجموعه خود و یا نمایه‎سازی انتخاب می‎کنند، منابع موجود در اینترنت را افراد و سازمان‎های گوناگون و با هدف‎های متفاوت به آن می‎افزایند. به عبارت دیگر اکثر منابع اینترنتی، به ناچار بدون ضابطه والگوی مشخصی وارد اینترنت می‎شود.

ویلیام کنز می‎نویسد«اینترنت همچون مغازه سمساری است که همه چیز در آن یافت می‎شود. اینترنت پدیده‎ای بی‎شکل و قواره و در عین حال بسیار گرسنه است. بنابر این یک فرد بی‎تجربه ممکن است ساعتهای مدیدی غرق در جست و جوی بی‎فایده در اینترنت شود. حتی جست و جوهایی که با منطق اولیه شروع می‎شوند ممکن است بعدها در فضای نامتناهی شبکه گم شوند». و بی‎نتیجه بمانند!

در نگاه اول بازیابی اطلاعات در اینترنت امری بسیار ساده است: جوینده اطلاعات با وارد کردن آدرس سایت در مرورگر اینترنت، به اطلاعات موجود در آن سایت دسترسی خواهد داشت. ولی مشکل وقتی نمایان می‎شود که جوینده اطلاعات نشانی از سایت مورد نطر را نمی‎داند و ی اینکه برای دریافت اطلاعات خود سایت یا سایتهای خاصی را در نظر ندارد، بلکه خواستار همه سایت‎هایی است که بتوانند اطلاعات مورد نیاز وی را ارائه نمایند. اینجاست که جذابیت‎های جست و جو (search)، موتورهای جست و جو (search Engines)، ابرموتورها ی جست و جوMeta search Engines) ) ، عملگرها (operators) و مهارت‎های کاوش آشکار می‎شود و جست و جو در اینترنت به یک هنر و حتی یک علم یا فن تبدیل می‎شود(چنان که نوع نافرجام آن به عامل خستگی یا یأس تبدیل می‎شود)

مرکز امور رایانه‎ای دانشگاه امام صادق علیه السلام بر آن است از این شماره با ارائه تعاریف اولیه، معرفی ابزارهای جست و جو و تکنیک‎ها و استراتژی‎های کاوش، زمینه را برای بازیابی اطلاعات از اینترنت فراهم سازد.

تعاریف مقدماتی
1. طبقات اطلاعات: داده یا data به یک عدد یا یک واقعیت که بیانگر مشاهدات خارج از متن بوده و به طور مستقیم ممکن است معنی دار نباشد اطلاق می‎گردد و با اطلاعات یا Information که از قرار گرفتن داده در یک بافت معنی‎دار حاصل می‎شود و اغلب به صورت یک پیام است، متفاوت می‎باشد. همچنین دانش یا knowedge چیزی است که ما آن را داریم و برای آن ارزش قایل هستیم که بر اساس پیام‎هایی که از طریق تجربه، ارتباطات واستثناها به دست آمده‎اند، تعریف می‎شود. ولی حکمت یا بینش یا Wisdom از کشف ارتباطات میان دانش‎های گوناگون حاصل می‎شود.

2. جست و جو: فرآیند بازیابی اطلاعات

3. بانک اطلاعاتی: عبارت است از سیستمی رایانه‎ای(شامل نرم‎افزارها و سخت افزارها) جهت ذخیره و بازیابی اطلاعات با قابلیت جست و جو، ویرایش و اضافه کردن اطلاعات(با توجه به جزئیات پیش‎بینی شده). بانک‎ها می‎توانند اطلاعات را در فرمت‎هایی مختلف در خود نگهداری کنند(چکیده، نمایه، تمام متن، تمام تصویر،....)

4. انواع جست و جو: در اینترنت ممکن است در یک سایت و یا در یک صفحه انجام گیرد.

1.ابزارهای جست و جو: موتورهای جست و جو (search engines): به طور کلی موتورهای جست و جو نرم‎افزارهایی در محیط وب هستند که به طرق مختلف امکان جست و جو در اینترنت (یا بهتر است بگوییم در صفحات وب ) را فراهم می‎آورند. ذکر این نکته ضروری است که به دلیل حجم بسیار زیاد این صفحات، هیچ موتوری با همه نقاط قوت خود، قادر به جست و جو در همه منابع موجود در اینترنت نیست و هر موتور با توجه به توانایی‎ها و قابلیت‎های خود، تعدادی از این صفحات را می‎تواند جست و جو کند، با توجه به آمارهای غیر رسمی، حدود 10 میلیارد صفحه در وب جای دارد Northern ight,Atavista, Hotbot و... هر یک به تنهایی تعدادی از این منابع وب را پوشش می‎دهند.

امکانات موتورهای جست و جو: گفته می‎شود که بیش از 2000 موتور جست و جو در وب طراحی شده است که هر یک از آنها، ویژگی‎های خاص خود را دارند و برخی از آنها به علّت دارا بودن توان بیشتر در پاسخگویی به نیازهای کاربران، بسیار پراستفاده‎اند.

به طور کلی امکانات طراحی شده در موتورهای جست و جوی مختلف به شرح زیر است:

- راهنمای کمکی

- گزینه‎هایی برای جست و جوی یک یا چند نوع از منابع اطلاعاتی

- جست و جوی کلید واژه‎ای

- جست و جوی عبارتی

- جست و جوی مفهومی

- پالایش جست و جو

- کوتاه سازی یا بریدن بخشی از واژه

- استفاده از عملگرهای بولی

- استفاده از علامتهای+ و- (اصلاح کننده‎ها)

- جست و جو در فیلدی خاص

- استفاده از گیومه

- محدود کردن جست و جو به مناطق جغرافیایی

- محدود کردن جست و جو به سایت‎های خاص

- ذخیره کردن راهبرد جست و جو

- بازبینی املای واژة مورد جست و جو

- جست و جو با حروف بزرگ

- استفاده از عملگرهایnear یا Adjacent

- نمایش نتایج جست و جو به صورت یکپارچه

- رتبه‎بندی درجه مرتبط بودن نتایج بازیابی شده

- ارایه گزارمان یا چکیده نتایج جست و جو

- حذف نتایج تکراری

تصمیم گیری در انتخاب موتور جست و جوی مناسب، برای اغلب کاربران بسیار دشوار است، به ویژه اینکه پایگاه داده‎ها و الگوریتم های جست و جو به کرات در حال تغییر هستند.

2-سایت‎ها(پایگاه‎های) پرتال: سایت‎های پرتال به بازدید کنندگان امکان می‎دهند تا تقریباً هر چیزی که در جست و جوی آن هستند در یک محل پیدا کنند. این سایت‎ها معمولاً حاوی اخبار، وقایع ورزشی، گزارش وضعیت هوا، و همچنین امکان جست و جو در وب هستند. پیشتر وقتی کاربران واژه پرتال را می‎شنیدند، اغلب به یاد موتورهای جست و جو می‎افتادند و در واقع موتورهای جست و جو، نوع خاصی از پرتال یعنی پرتال افقی هستند. این گونه پرتال‎ها، اطلاعات را در مجموعه بسیار گسترده از موضوعات مختلف، جمع‎آوری می‎کنند. نوع دیگر پرتال‎ها که به پرتال عمودی معروف است اطلاعات را در مجموعه خاصی از موضوعات، جمع‎آوری می‎کند. به عبارت ساده‎تر، پرتال‎های افقی، عمومی و پرتالهای عمودی، تخصصی هستند. خریدهای onine وکلاً تجارت الکترونیک، بخش عمده‎ای از سایت‎های پرتال را به خود اختصاص می‎دهند. ضمناً پرتال‎های عمودی، اطلاعات بسیار زیادی را تنها دربارة موضوعی خاص در اختیار کاربر قرار می‎دهند. این گونه سایت‎ها، اغلب سایت‎های اجتماعی نیز نامیده می‎شوند. سایت‎های اجتماعی مملو از گروههای مختلف با علاقه‎مندی‎های ویژه هستند. بهترین سایت پرتال افقی، Yahoo می‎باشد.

3-موتورهای جست و جوی نمایه‎ای: شیوه کار بیشتر موتورهای جست و جو نمایه‎ای است؛ یعنی هنگام دریافت یک سایت یا یک صفحه، به صورت خودکار واژه‎های مندرج در آنها را بر اساس الگوریتم مشخصی، مثلاً بسامد هر واژه‎ و یا واژه‎های مندرج سر عنوان بخش‎های مختلف سایت، استخراج و در نمایه خود ذخیره می‎کنند.

عیب این شیوه در آن است که موتورهای جست و جو هر اندازه که هوشمند باشند نمی‎توانند مانند انسان به محتوای منابع پی ببرند و آن را در قالب یک یا چند واژه نشان دهند، لذا در بسیاری از موارد واژه‎های نامربوط که گویای محتوای سایت نیستند استخراج و به صورت کلید واژه ذخیره می‎شوند. دلیل بازیابی سایتهای نامربوط یا کم ربط در این گونه موتورهای جست و جو در همین مسأله نهفته است.

افزون بر آن، هنوز موتورهای جست و جو نتوانسته‎اند شکل نشان دادن جنبه‎های فرعی موضوعات و محتوای سایتها را حل کنند. بنابر این جست و جو در موتورهای جست و جوی نمایه‎ای می‎تواند بسیار مشکل و منوط به استفاده از کلید واژه مناسب و استفاده از عملگرها و ... ‎باشد.

4-‎های راهنما و موتورهای جست و جوی موضوعی: چون اطلاعات موجود در وب بسیار عظیم و فرّار است، داشتن فهرستی کاملاً جامع غیر ممکن می‎نماید، لذا تعدادی از مؤسسات و کاربران با گردآوریسطه; راهنمای وبDirectory) )ها، ابزار جست و جوگری را طراحی و قسمتی از این مشکل را حل نموده‎اند.

‎های راهنما منابع بسیار خوبی هستند، البته در صورتی که شیوة استفاده از آن را فرا گرفته باشید.

حتی اگر منابع اندکی را مرتبط با عنوان مورد نظر خود بیابید، این منابع باز هم شما را به سوی اطلاعات مورد نیاز خود راهنمایی خواهد کرد.

‎های رایگانی بر روی وب وجود دارند که دو راه برای استفاده از آنها وجود دارد.

بعضی از ‎های راهنما، صفحات خانگی (Home page) دارند که در گروه‎هایی سازماندهی شده‎اند و برای استفاده از آنها باید صفحه خانگی را بارگذاری (oad) نمود و گروه دلخواه را انتخاب کرد. در هر گروه نیز، زیرگروه‎هایی وجود دارند که باید را آن قدر آنها را ادامه داد تا دقیقاً به آنچه مقصود است دسترسی پیدا کنم.

‎های راهنمایی وجود دارند که اجازه می‎دهند با استفاده از ماشین جست و جو (search Emgine) به دنبال مطلب خاص خود بگردید. استفاده از ماشین جست و جو بسیار ساده و آسان است. کافی است یک یا چند کلمه را در فرم مربوط تایپ و بر روی دکمه SUBMIT (یا Search) کلیک کرد و منتظر نتایج بعدی شد. اغلب ماشینهای جست و جو این اجازه را می‎دهند که از میان انواع گوناگون معیارهای جست و جو، کلید واژه مورد نظرتان را به روشی خاص فرمول بندی کنید. این گونه موتورها، یا به عبارتی راهنماها، سایت‎ها و صفحات را در ساختاری موضوعی مثلاً سلسله مراتبی یا درختی (subject-tree Structure) دسته‎بندی کرده و در زیر هر مقوله موضوعی بزرگ، گروه‎های موضوعی کوچکتر را آورده و به همین ترتیب، این دسته‎بندی تا رسیدن به موضوعات ریز و خاص ادامه یافته است. به عبارت دیگر، ساختاری سلسله مراتبی دارند که ارتباط هر موضوع را با موضوعات مادر(اعم) و موضوعات فرعی‎تر(اخص) نشان می‎دهند.

5- ابرمورتورهای جست و جو (Meta Search Engines) همان‎گونه که می‎توان حدس زد موتورهای جست و جو پیوسته روبه افزایش هستند. از سوی دیگر، کاربران حتی علی‎رغم رضایت از نتایج حاصل از جست و جو در یک موتور، تمایل به جست و جو در موتورهای جست و جوی دیگر را دارند، هر چند که این کار وقت‎گیر و هزینه‎بر است. برای رفع این مشکل از دهه 1990 به بعد، موتورهای جست و جویی طراحی شدند که قادر به جست و جوی همزمان در چندین موتور جست و جو هستند. ابرموتورهای جست و جو به خاطر اینکه خود پایگا‎ه داده‎ای در اختیار ندارند، کلید واژه‎ها یا عبارات وارد شده در کادر جست و جوی خود را همزمان به چندین پایگاه داده موتور جست و جوی منفرد و صفحات وب انتقال می‎دهند. سرعت بازیابی در این موتورها بسیار بالا است. زیرا این موتورها تنها به بازیابی مرتبط‎ترین مدارک از هر یک از موتورهای جست و جو قناعت می‎کنند. بسیاری از ابرموتورها، به مجرد رخ دادن تأخیر در دریافت پاسخ پرسش مطرح شده، از موتور مورد نظر چشم می‎پوشند و ارتباط خود را با آن قطع می‎کنند. بدین ترتیب جامعیت جست و جو، قربانی سرعت در بازیابی می‎شود.

اصولاً متا(Meta) برابر واژه های «ورا و برتر» در فارسی و به این معناست که ابرموتور جست و جو (Meta search Engines) دارای امکانات و ویژگیهایی فراتر از امکانات یک موتور جست و جو می‎باشد.

واقعیت این است که تعدادی از موتورهای جست و جو که ادعای ابرموتور بودن دارند، حقیقتاً دارای ویژگی‎های خاص ابرموتور نیستند. در واقع برخی از آنها به خاطر این که قابلیت ارسال و نمایش ندارند، بیشتر شبیه مجموعه‎ای از موتورهای جست و جو یا راهنما و یا فهرستی بلند بالا از ابزارهای جست و جو هستند که برای هر یک از این ابزارها، یک کادر محاوره‎ای طراحی شده است. کاربران، پرسش خود را در کادر محاوره‎ای وارد می‎کنند. این پرسش به اولین موتور جست و جو ارسال می‎شود. پس از مشاهده نتایج، کاربر می‎تواند در صورت تمایل همان پرسش را به ترتیب به طور غیر همزمان در موتورهای جست و جو یا راهنماهای بعدی کپی یا درج کند.

ضمناً برای کار با موتورهای جست و جو آشنایی با دو مفهوم زیر لازم می‎باشد:

1. Hit ist : پس از جست و جو، موتور جست و جو لیستی از اطلاعات مرتبط با عبارت جست و جو را نمایش می‎دهد که به آن Hit ist می‎گویند.

2. درصد مطابقت: نتایج جست و جو در موتورهای جست و جو(مدارک یا صفحات بازیابی شده) بر اساس یک الگوریتم مشخص(که خاص هر کدام از موتورهای جست و جو است)، با توجه به ربط آنها به کلید واژه، مرتب و درجه‎بندی می‎شوند و برای آنها نمره‎ای (بر اساس حداکثر 100) تعلق می‎گیرد. این نمره در کنار آدرس منبع در hit ist درج می‎شود.

نظر شما