كيف يعمل محرك البحث على فهرسة صفحات الويب؟

كيف يعمل محرك البحث على فهرسة صفحات الويب؟

سنقدم لك في هذا الدليل مقدمة حول كيفية عمل محرك البحث على فهرسة صفحات الويب. سيغطي هذا الدليل عمليات الزحف والفهرسة بالإضافة إلى مفاهيم مثل ميزانية الزحف ونظام ترتيب الصفحات.

تعمل محركات البحث عن طريق الزحف إلى مئات المليارات من الصفحات باستخدام برامج زحف الويب الخاصة بها. يشار إلى برامج زحف الويب هذه عادةً باسم روبوتات محركات البحث Bots أو العناكب Spiders. يتنقل محرك بحث في الويب عن طريق تنزيل صفحات الويب واتباع الروابط الموجودة على هذه الصفحات لاكتشاف الصفحات الجديدة التي تمت إضافتها.

المحتويات:

1. فهرسة محرك البحث.

2. الهدف من خوارزمية محرك البحث.

3. أسباب عدم فهرسة الصفحة.

1. فهرسة محرك البحث.

تتم إضافة صفحات الويب التي تم اكتشافها بواسطة محرك البحث إلى بنية بيانات تسمى الفهرس Index. يتضمن الفهرس جميع عناوين URL المكتشفة جنباً إلى جنب مع عدد من الإشارات الرئيسية ذات الصلة حول محتويات كل عنوان URL مثل:

  • الكلمات الرئيسية التي تم اكتشافها داخل محتوى الصفحة، ما الموضوعات التي تغطيها الصفحة؟
  • نوع المحتوى الذي يتم زحف محرك البحث إليه (باستخدام بيانات جزئية تسمى المخطط)، ما الذي يتم تضمينه في الصفحة؟
  • حداثة الصفحة، متى تم تحديثها آخر مرة؟
  • تفاعل المستخدم السابق للصفحة و/أو المجال الخاص بها، كيف يتفاعل الأشخاص مع الصفحة؟

2. الهدف من خوارزمية محرك البحث.

الهدف من خوارزمية محرك البحث هو تقديم مجموعة ذات صلة من نتائج البحث عالية الجودة التي تلبي استفسارات أو أسئلة المستخدم في أسرع وقت ممكن. ثم يحدد المستخدم خياراً من قائمة نتائج البحث وهذا الإجراء، جنباً إلى جنب مع النشاط اللاحق، ثم يغذي التعلم المستقبلي الذي يمكن أن يؤثر على تصنيفات محرك البحث من الآن فصاعداً.

ماذا يحدث عند إجراء عملية البحث؟

عندما يتم إدخال استعلام بحث في محرك بحث بواسطة المستخدم، يتم تحديد جميع الصفحات التي تعتبر ذات صلة من الفهرس ويتم استخدام خوارزمية محرك البحث لترتيب الصفحات ذات الصلة بشكل هرمي في مجموعة من النتائج.

تختلف الخوارزميات المستخدمة في ترتيب النتائج الأكثر صلة لكل محرك بحث. على سبيل المثال، قد لا تحتل الصفحة التي تحتل مرتبة عالية لاستعلام البحث في Google ترتيباً عالياً لنفس الاستعلام في Bing.

بالإضافة إلى استعلام البحث، تستخدم محركات البحث البيانات الأخرى ذات الصلة لإرجاع النتائج، بما في ذلك:

  • الموقع، تعتمد بعض طلبات البحث على الموقع ، على سبيل المثال “المقاهي القريبة مني” أو “أوقات الأفلام”.
  • اللغة المستخدمة، ستعرض محركات البحث النتائج بلغة المستخدم، إذا كان من الممكن اكتشافها.
  • سجل البحث السابق، ستعرض محركات البحث نتائج مختلفة لاستعلام يعتمد على ما قام المستخدم بالبحث عنه مسبقاً.
  • الجهاز، قد يتم عرض مجموعة مختلفة من النتائج بناءً على الجهاز الذي تم إجراء الاستعلام منه.

إقرأ أيضاً… ما هي تقنيات القبعة السوداء في سيو Black Hat SEO؟ وكيف يمكن تجنبها؟

3. أسباب عدم فهرسة الصفحة.

هناك عدد من الحالات حيث لن يتم فهرسة عنوان URL بواسطة محرك البحث. قد يكون هذا بسبب:

  • استثناءات ملف Robots.txt، ملف يخبر محركات البحث بالأشياء التي يجب ألا تزورها على موقعك.
  • التوجيهات الموجودة على صفحة الويب، والتي تخبر محركات البحث بعدم فهرسة تلك الصفحة (علامة noindex) أو فهرسة صفحة أخرى مماثلة.
  • خوارزميات محرك البحث التي تحكم على الصفحة على أنها منخفضة الجودة أو ذات محتوى ضعيف أو تحتوي على محتوى مكرر.
  • يعرض عنوان URL صفحة خطأ (على سبيل المثال، رمز استجابة 404 لم يتم العثور على HTTP).