البحث الشابكي (على الخط)
بحث شابكي (علي خط)
Online search -
خليل عجمي
يُعرّف البحث الشابكي «على الخط» online search بأنه الإجراء الذي يسمح بتنفيذ بحث تفاعلي عن المعلومات باستخدام الحاسوب، ضمن قواعد معطيات وبيانات متوفرة على الشابكة (الإنترنت)، وباتصال مباشر ومتزامن مع المخدّمات العاملة عليها، والتي تحتفظ بهذه المعطيات. يُنفّذ البحث التفاعلي على الخط - في هذه الأيام- اعتماداً على أنظمة برمجية خاصة تسمى محرّكات البحث search engines .
لقد بات لمصطلحي «على الخط» online و «خارج الخط» offline معانٍ واستخدامات معرّفة ومحدّدة في العلوم المعلوماتية، وفي جميع الأدبيات المرتبطة بتقانات المعلومات والاتصالات، إذ يدل مصطلح «على الخط» -عند استخدامه في مجال البحث الشابكي- على حالة اتصال متزامن بين المستخدم ومخدّمات الشابكة التي تُعدّ مصدر المعلومات في عملية البحث. في حين يشير مصطلح «خارج الخط» إلى حالة عدم اتصال بالشابكة.
تجري عادةً عملية البحث الشابكي باستخدام أنظمة برمجية تسمى محركات البحث في الوب تتولى عملية البحث داخل مخدّمات الوب، ومختلف المخدّمات المتاحة لعملية البحث والموصولة بالشابكة. تكون نتائج أي بحث هي لائحة من الصفحات المعروفة باسم صفحات نتائج محرك البحث Search Engine (Result Pages (SERPs، وتتكون من صفحات وِب، وصور، إضافة إلى معلومات لها أشكال وأنماط مختلفة.
تجري التغذية والإدارة لمواقع الوِب وصفحاته عموماً من الأشخاص المسؤولين عن هذه الصفحات. كما تعتمد محرّكات البحث حالياً (إضافة إلى التغذية اليدوية من الأشخاص المسؤولين عنها) على أنظمة برمجية تسمى بالزواحف crawlers، تقوم بتغذية محرك البحث - على نحو مستمر وبالزمن الحقيقي، بمعلومات وروابط تساعده على تنفيذ عمليات بحث سريعة بحسب الطلب.
يُعرّف الزاحف بأنه برنامج حاسوبي يتصفّح صفحات الوب بأسلوب منهجي ومؤتمت ومرتّب. ويُستخدم للدلالة على الزاحف مصطلحات أخرى مثل «عنكبوت الوب» web spider، أو روبوت الوب web robot.
ظهر مفهوم استحضار المعلومات حاسوبياً
information retrieval في مقال نشره فينفار بوش Vannevar Bush في العام 1945 بعنوان «كما قد نفكر As We May Think». ووُضع أول نظام مؤتمت لاستحضار المعلومات بين عامي 1950 و1960. وبحلول العام 1970 طُوّرت عدة تقنيات لاستحضار المعلومات من نصوص موزّعة على عدة آلاف من الوثائق، فظهرت أولى الأنظمة لاستحضار المعلومات واسترجاعها من حجوم وأعداد كبيرة من النصوص، مثل نظام Lookheed Dialog System.
في العام 1992 قامت وزارة الدفاع الأمريكية بالتمويل والدعم للأعمال المتعلقة بموضوع البحث عن المعلومات وطرائقه والبنى التحتية اللازمة له، وأسس ذلك لنشوء ما يُعرف حالياً بمحرّكات البحث التي تعمل على نطاق عريض للمساعدة على البحث عن المعلومات على الشابكة.
عموماً يمكن تلخيص معضلة البحث عن المعلومات - التي كانت أساس العمل البحثي والتطوير التقني اللذين نُفــّـذا خلال العقدين الماضيين في هذا المجال - للحصول على أدوات بحث فعالة وقادرة على الوصول إلى المعلومات على الشابكة بأشكالها وأنماطها المختلفة بالنقاط التالية:
- الحاجة إلى سرعة معالجة للمجموعات الكبيرة من الوثائق المتزايدة -على الخط- من حيث حجمها وعددها.
- الحاجة إلى توفير أفضل توافق لغوي (لفظي وقواعدي ودلالي semantic) بين طلب المستخدم وبين النتائج الممكن الحصول عليها من محرّك البحث.
- الحاجة إلى ترتيب نتائج البحث على نحو يسمح للمستخدم بالحصول على أكثر النتائج الموافقة لطلبه مُجمعة في بداية لائحة النتائج، وليست موزعة بأسلوب عشوائي ضمن هذه اللائحة.
تم تعريف مصطلحي (على الخط) و(خارج الخط) بالمعيار الفدرالي Federal Standard 1037C المعنون “الاتصالات السلكية واللاسلكية: مسرد مصطلحات الاتصالات السلكية واللاسلكية»، وهو معيار فدرالي للولايات المتحدة تصدره إدارة الخدمات العامة عملاً بالقانون الاتحادي للملكية والخدمات الإدارية لعام 1949، بصيغته المعدلة.
يحدّد هذا المعيار حالة جهاز أو وحدة عمل بأنه (على الخط) إذا حقق الشروط التالية:
- يجري التحكم فيه من جهاز آخر.
- يجري التحكم فيه من نظام (تشغيل) مرتبط به.
- قابل للاستخدام المستمر وعند الطلب من النظام ومن دون تدخل بشري لتشغيله.
- متصل بالنظام، وفي طور التشغيل.
- في حالة عمل، وجاهز للخدمة.
وبالمقابل، يمكن وصف أي جهاز بأنه (خارج الخط) إذا لم يحقق الشروط السابقة، أو إذا كان مفصولاً عن التغذية، ومتوقفاً عن العمل ولا يقدّم أي خدمة.
من ناحية أخرى، في العام 1995 عُرِّف معيار جديد يسمى المعيار Z39.50 للبحث عن المعلومات، لتعريف خدمة البحث عن المعلومات في بيئة موزّعة وتوصيف البروتوكولات المتّبعة فيها.
يوصّف هذا المعيار بنى المعطيات وقواعد التواصل التي تسمح لجهاز زبون - يسمى «مصدر الطلب» - بالبحث في قواعد معطيات على مخدّم أو مجموعة مخدّمات تسمى «وجهة الطلب»، للعثور على السجلات التي يمكن عدّها نتائج البحث.
اشتُق الاسم (Z39.50) من المجموعة التي قامت باقتراحه، وهي اللجنة Z39 المسؤولة عن تطوير معايير تخديم النشر المكتبي وخدمات المعلومات، التابعة للمعهد الوطني الأمريكي للمعايير (American National Standard Institute (ANSI، التابع للمنظمة الوطنية للمعلومات المعيارية
National Information Standard Organization (NISO) . جرى اعتماد النسخة الحالية في العام 1995 بعد تطوير النسخة الأولى التي ظهرت في العام 1988 والثانية في العام 1992. تُسمى النسخة المستخدمة حالياً بالنسخة الثالثة من المعيار Z39.50.يفيد المعيار Z39.50 في مجال البحث عن المعلومات، وقد أصبح ناضجاً بما يكفي بعد عقدين من البحث والنقاش والتطوير والاختبار، بحيث بات قادراً على تقديم أداة مساعدة على نمذجة استحضار المعلومات ومعايرتها وتنجيزها في بيئات موزّعة.
يَستخدم محركُ البحث الزواحفَ لجلب المعلومات، حيث يولد الزاحف نسخاً عن جميع صفحات الوب التي يزورها لمعالجتها لاحقاً في محرك البحث، الذي يقوم بفهرستها لضمان تنفيذ بحث سريع فيها عند الطلب. يمكن استخدام الزواحف أيضاً لتجميع أنماط محدّدة من المعلومات من صفحات الوب، كتجميع عناوين البريد الإلكتروني لإرسال رسائل معمّمة على نطاق واسع.
تقنياً، يُعدّ الزاحف بمنزلة عميل برمجي software agent، وهذا يعني أنه قادر على العمل مستقلاً، وعلى الانتقال من مخدّم إلى آخر من دون تدخل من المستخدم. يبدأ الزاحف عمله عادةً بلائحة من عناوين صفحات الوب (URLs)، التي تمثل لائحة أولية تسمى اصطلاحاً بلائحة البذور seeds. يبحث الزاحف في لائحة البذور عن جميع الروابط hyperlinks التي تشير إلى صفحات جديدة، ويقوم بإضافة هذه الروابط إلى اللائحة. تجري زيارة اللائحة بشكل عودي مستمر ووفق سياسة ونهج يحددهما مبرمج الزاحف سلفاً.
تتبع عملية البحث العودية، التي يقوم بها الباحث في لائحة العناوين لتجميع المعلومات فيها، عدة سياسات، منها:
- سياسة الاختيار selection policy التي تساعد الزاحف على تحديد الصفحات التي سيجري اعتمادها وتحميلها.
- سياسة الزيارات الدورية re-visit policy التي تحدد شروط العودة إلى صفحة لاختبار التعديلات فيها.
- سياسة التفريع والتوزيع parallelization policy التي تحدد أسلوب التنسيق بين مجموعة من الزواحف الموزّعة على الشابكة.
- سياسة تخفيف الحمل politeness policy التي تفيد في تجنب إعادة تحميل صفحات تم تحميلها سابقاً.
تجمع محرّكات البحث المعلومات آلياً اعتماداً على الزواحف. ويبدأ إجراء البحث عن المعلومات واستحضارها عندما يقوم أحد المستخدمين بإدخال استعلام ما. تُعرَّف الاستعلامات (في هذا السياق) بأنها عبارات معيارية تعبِّر عن المعلومات التي يحتاجها المستخدم الذي كتب الاستعلام. وتجدر الإشارة إلى أن الاستعلام الذي يرسله المستخدم لا تضم بالضرورة غرضاً واحداً، بل يمكن أن تتألف من عدة أغراض ولكن بمستويات مختلفة من درجات التعبير عن رغبة المستخدم.
يُعرّف الغرض بأنه كيان يمثل معلومات مخزَّنة في قاعدة المعطيات التي يجري البحث فيها، ويمكن أن يكون وثيقة أو نصاً أو صورةً أو خريطةً أو ملفاً صوتياً، وتبعاً للطلب المقدّم في استعلام البحث. لا تحتفظ أنظمة البحث بالمعلومات الناتجة عن البحث بشكلها الأصلي، بل تقوم، عوضاً عن ذلك، بالاحتفاظ بعناوين تدل على مكان توفر هذه المعلومات، وبمعطيات مترفّعة metadata تعبِّر عن محتوى النتائج وأنماطها. كما تقوم معظم أنظمة البحث عن المعلومات بحساب قيمة رقمية تعبِّر عن مستوى تطابق وتوافق كل غرض تم الحصول عليه (كنتيجة لعملية الاستعلام) مع محتوى عملية الاستعلام نفسها.
يمكن عموماً تصنيف استعلامات البحث في ثلاثة أصناف:
- استعلامات المعلومات informational queries
- استعلامات التصفح navigational queries
- استعلامات التعاملات transactional queries
تبحث استعلامات المعلومات عادةً عن معلومات عامة في مواضيع عامة وعريضة، مثل الاستعلام عن مرض السل. في هذه الحالة، لا توجد صفحة واحدة قادرة على إعطاء نتائج متكاملة عن الموضوع، ويكون المستخدم مضطراً لتجميع معلوماته المطلوبة من عدد كبير من الصفحات الناتجة من البحث.
أما استعلامات التصفح، فتهدف إلى الوصول إلى موقع خاص أو غرض محدّد يحتاجه المستخدم، كالبحث عن الخطوط الجوية السورية – Syrian Airlines. في هذه الحالة، يتوقع المستخدم الوصول إلى الصفحة الرئيسية لموقع الخطوط الجوية السورية، ويكون عادةً غير مهتم بصفحات أخرى تحتوي ذات المصطلح (Syrian Airlines).
أما استعلامات التعاملات، فهي تخص الطلبات التي تهدف إلى تنفيذ تعاملات وتبادلات بين المستخدم ومخدّمات خدمات خاصة، كالبحث عن كتاب إلكتروني بهدف شرائه إلكترونياً على الخط، أو البحث عن حجز لبطاقة طيران وغيرها من الخدمات التي تهدف إلى تنفيذ تعاملات وتبادلات بين المستخدم وبين خدمة متوفرة على الخط.
تتنوع مجالات وتطبيقات البحث على الخط عن المعلومات. فهناك مجالات عامة كالمكتبات الإلكترونية ومحركات البحث على الشابكة، وهناك مجالات خاصة كالبحث في الخرائط الرقمية وفي أنظمة المعلومات الجغرافية. وفيما يلي شرح موجز عن المكتبات الإلكترونية، ومحرّكات البحث.
- المكتبات الإلكترونية: تُعدّ المكتبات الإلكترونية أحد أنواع أنظمة استحضار المعلومات، وهي مكتبات تُخزّن فيها المعلومات والوثائق رقمياً على شكل وسائط متعددة (نصوص، صور، صوت، ... الخ)، على مخدّم واحد أو على مجموعة من المخدّمات الموزّعة على شبكة أو على الشابكة. ويمكن النفاذ إلى هذا المحتوى اعتماداً على وسائل الاتصال الشبكي.
- محرّكات البحث: تُصمّم محرّكات البحث لتنفيذ عمليات بحث عن المعلومات على الشابكة للوصول إلى المعلومات المخزّنة في مخدّمات الوب web servers أو مخدّمات التحويل File Transfer Protocol (FTP) servers تُجمّع نتائج البحث على شكل مجموعة من الصفحات، تتألف من صفحات الوب، والنصوص، والصور، والفيديو، والصوت، فضلاً عن معلومات لها أشكال وأنماط مختلفة. كما تقوم بعض محرّكات البحث بالتنقيب عن المعطيات المخزّنة ضمن قواعد معطيات أو مجلدات.
تُعدّ محركات البحث من «نجوم» الشابكة حالياً، وهي تُصنّف، من معظم مؤسسات تصنيف المواقع، بأنها أكثر المواقع الإلكترونية استخداماً في العالم. لقد أدى هذا الانتشار وهذه الشهرة إلى تحفيز الكثير من الشركات التجارية البرمجية على الدخول في سوق بناء وبرمجة محركات بحث والتنافس على لقب أفضل محركات البحث المستخدمة، وذلك لأهداف دعائية وتجارية. فمنذ العام 2000، حصل محرّك البحث غوغل Google على قصب السبق في هذا المجال بعد تصنيفه خلال كل العقد السابق كأحد أفضل محرّكات البحث في العالم من حيث سرعة تقديمه لنتائج البحث وجودة النتائج ودرجة تطابقها مع رغبة المستخدم.
مراجع للاستزادة:
- S. Buttcher, C. Clarke, and C. Cormack, Information Retrieval: Implementing and Evaluating Search Engines, MIT Press, 2010.
- D. Dover, and E. Dafforn, Search Engine Optimization Secrets, Wiley, 2011.
- J. Han, M. Kamber, and J. Pei, Data Mining: concepts and techniques, Morgan-Kaufmann Publisher, 2012.
- التصنيف : كهرباء وحاسوب - النوع : كهرباء وحاسوب - المجلد : المجلد الرابع مشاركة :