كيف تعمل محركات البحث ؟

بواسطة أحمد علاء 9/3/2013 10:27:00 PM

تعد نظم استرجاع المعلومات Information Retrieval systems من أهم النظم التي نستعملها في حياتنا اليومية دون ان نشعر ففي جوجل على سبيل المثال يتم اظهار نتائج البحث بفضل هذه النظم تعرف معنا اكثر على عملها.

يمكن تعريف نظم استرجاع المعلومات بشكل عام على انها مشكلة اختيار وثائق المعلومات من وسائط تخزين بناء على اسئلة البحث ولنسقط هذا التعريف على ارض الواقع نجد اننا في جوجل نكتب كلمة بحث مفتاحية تدعى هذه الكلمة بالطلب query والذي تظهر النتائج وفقها بينما تمثل صفحات الويب مستندات يتم البحث فيها.

ان انظمة استرجاع المعلومات information retrieval systems تعالج استفسارات ( queries ) المستخدم للمعلومات من خلال تحليل مبني على المحتوى لعناصر المعلومات (على سبيل المثال مستندات ) المخزنة في الارشيف وان محتويات المستند يجب ان يتم تمثيلها بصيغة معينة بحيث يمكن معالجتها آلياً.

ان نظام استرجاع المعلومات الجيد يستطيع قبول استفسارات المستخدم مهما كانت , كما يجب عليه ان يفهم طلب المستخدم من خلال الاستفسار المقدم , كما يجب ان يستطيع البحث في قاعدة البيانات على وثائق ذات صلة " صفحات ويب مرتبطة بكلمة البحث ومرتبطة بالصفحة الحالية " , وبالنهاية يجب أن يقيِّم المستندات بناء على صلتها بالاستفسار المقدم.

انواع نظم استرجاع المعلومات عديدة ومتنوعة فيمكننا ان نجد نظم تقوم بالبحث عن الصور بناء على كلمات مفتاحية او البحث عن الصور من خلال رفع صور وايجاد الصور المشابهة , او البحث عن مستندات تحوي كلمة معينة كما في جوجل.

مكونات نظم الاسترجاع " بالنسبة لاسترجاع المستندات النصية ":

1. واجهة مستخدم لإظهار النتائج وادخال الاستفسار query:
تسمح للمستخدم بإدخال استفسارات مختلفة واظهار النتائج تبعاً للقيم ranks والشكل التالي يظهر كلمة الاستفسار ( query ) وتظهر خاصية الاكمال التلقائي :

جوجل

2. مفسر الطلب او الاستفسار :
يعالج المفسر طلب المستخدم واستفساره بطريقة مشابهة للمستندات.

3. وحدة الفهرسة :
تنشئ فهارس لتسمح بالبحث بشكل اسرع.

4. آلية مطابقة :
تحدد فيما اذا كان المستند ذات صلة ام لا.

5. تمثيل المستند والمستندات كيف تعمل محركات البحث؟
لنفترض ان احدنا يحب جمع معلومات عن كتب فقرر بناء موقع الكتروني يقوم بوضع فيه هذه الكتب ضمن تصنيفات معينة مثلا كتب الطب , الشعر , الرياضيات , اللغة ....ألخ.

ويكون بذلك أسس ما يسمى بالأرشيف ، فيأتي الزائر ليبحث عن شيكسبير لتظهر له جميع الكتب التي تحوي التصنيف شيكسبير ، أو قصص الحب ليظهر له جميع قصص الحب المؤلفة من قبله، وبهذا يعثر الزائر على طلبه.

لكن هذا الشخص مهما كان أداؤه قوياً فإن له طاقة معينة، وبهذا سيقوم يومياً بأرشفة أربع أو خمس كتب على أكثر تقدير، إذاً ما العمل؟ هل يقوم هذا الشخص بتوظيف عدة موظفين للقيام بعملية الارشفة معه؟ لكن هذا الموضوع مكلف جداً خاصة عند الأخذ بعين الاعتبار أن للموظفين طاقة أيضاً.

الحل هو ببساطة باستخدام برنامج ذكي،.يقوم بعملية الأرشفة يقوم هذا البرنامج او ما يعرف بالعناكب بالتجول في صفحات شبكة الانترنت، ومن ثم تحضر ملخصات عنها (تحوي الكلمات المفتاحية) مع روابطها لتضعها في أرشيف محرك البحث وعندما يقوم زائر محرك البحث بالبحث عن عبارة معينة او ادخال طلب query فإن النتائج الظاهرة هي النتائج الموجودة في أرشيف محرك البحث.

في الصورة التالية يشرح موقع (كيف تعمل الأشياء) ببساطة طريقة العمل:

يقوم العنكبوت بالمرور بكافة صفحات الموقع، ومن ثم يبني قائمة بالكلمات المفتاحية الموجودة في كل صفحة، ومن ثم يضغط المعلومات لتحتل أقل قدر ممكن من الذاكرة، ويخزنها في مساحات التخزين الخاصة بالأرشيف.

كانت العناكب في ما سبق تقرأ البرمجة التي تظهر الصفحة للزائر، لذا كان من السهل خداعها ، أما الآن فقد قامت محركات البحث وخاصة جوجل بإضافة ذكاء لعناكبها، فالعنكبوت يدخل لصفحة الموقع كما لو أنه زائر عادي، ويقوم بالاطلاع أولاً على عنوان الصفحة ومن ثم يلتفت إلى الكلمات المكتوبة بخطوط كبيرة وعريضة أو ملونة لوناً يختلف عن باقي الكلمات، ويفترض بذلك أن هذه الكلمات ذات أهمية عالية، فيقوم بتصنيفها على أنها كلمات مفتاحية للصفحة.

المصدر

المصدر 2