ما هي برامج الزحف (عناكب الزحف) في محركات البحث؟

ما هي برامج الزحف (عناكب الزحف) في محركات البحث؟
(اخر تعديل 2023-06-23 08:18:20 )

برامج الزحف Web Crawlers أو عناكب الزحف Spiders، هي نوع من الروبوتات التي يتم تشغيلها عادةً بواسطة محركات البحث مثل Google و Bing.

الغرض منها هو فهرسة محتوى مواقع الويب عبر الإنترنت بحيث تظهر تلك المواقع في نتائج محرك البحث.

ما هو برنامج الزحف؟

يقوم زاحف الويب أو العنكبوت أو روبوت محرك البحث بتنزيل وفهرسة المحتوى من جميع أنحاء الإنترنت.

الهدف من مثل هذا الروبوت هو معرفة ما تدور حوله (تقريبًا) كل صفحة ويب على الويب، بحيث يمكن استرداد المعلومات عند الحاجة إليها.

يطلق عليهم اسم “برامج زحف الويب” لأن الزحف هو المصطلح التقني للوصول تلقائيًا إلى موقع الويب والحصول على البيانات عبر برنامج.

يتم تشغيل هذه الروبوتات دائمًا تقريبًا بواسطة محركات البحث. من خلال تطبيق خوارزمية بحث على البيانات التي تم جمعها بواسطة برامج زحف الويب، يمكن لمحركات البحث توفير روابط ذات صلة استجابةً لاستعلامات بحث المستخدم، وإنشاء قائمة بصفحات الويب التي تظهر بعد قيام المستخدم بكتابة بحث في Google أو Bing (أو محرك بحث آخر).

يشبه روبوت زاحف الويب شخصًا يتصفح جميع الكتب في مكتبة غير منظمة ويجمع فهرسًا للبطاقات بحيث يمكن لأي شخص يزور المكتبة العثور بسرعة وسهولة على المعلومات التي يحتاجها.

للمساعدة في تصنيف وفرز كتب المكتبة حسب الموضوع، سيقرأ المنظم العنوان والملخص وبعض النص الداخلي لكل كتاب لمعرفة ما يدور حوله.

برامج الزحف تنظم المعلومات.

ومع ذلك، على عكس المكتبة، لا يتكون الإنترنت من أكوام مادية من الكتب، مما يجعل من الصعب معرفة ما إذا كانت جميع المعلومات الضرورية قد تمت فهرستها بشكل صحيح، أو إذا تم التغاضي عن كميات كبيرة منها.

لمحاولة العثور على جميع المعلومات والبيانات ذات الصلة التي يجب على الإنترنت تقديمها، سيبدأ روبوت متتبع ارتباطات الويب بمجموعة معينة من صفحات الويب المعروفة ثم يتبع الارتباطات التشعبية من تلك الصفحات إلى الصفحات الأخرى، ويتبع الارتباطات التشعبية من تلك الصفحات الأخرى إلى صفحات إضافية، وهكذا.

من غير المعروف مقدار الإنترنت المتاح للجمهور الذي يتم الزحف إليه فعليًا بواسطة روبوتات محرك البحث.

تقدر بعض المصادر أن 40-70٪ فقط من الإنترنت مفهرسة للبحث – وهذا يمثل مليارات من صفحات الويب. بقية الويب تكون موجودة في الويب العميق والويب المظلم أو الدارك ويب.

ما هي فهرسة البحث؟

يشبه فهرسة البحث إنشاء كتالوج بطاقة مكتبة للإنترنت بحيث يعرف محرك البحث مكان على الإنترنت لاسترداد المعلومات عندما يبحث عنها شخص ما.

يمكن أيضًا مقارنته بالفهرس الموجود في الجزء الخلفي من الكتاب أو في مقدمته، والذي يسرد جميع الأماكن في الكتاب حيث تم ذكر موضوع أو عبارة معينة.

تركز الفهرسة في الغالب على النص الذي يظهر على الصفحة وعلى البيانات الوصفية حول الصفحة التي لا يراها المستخدمون. عندما تقوم معظم محركات البحث بفهرسة صفحة ما، فإنها تضيف كل الكلمات الموجودة على الصفحة إلى الفهرس.

عندما يبحث المستخدمون عن هذه الكلمات، ينتقل محرك البحث عبر فهرسه لجميع الصفحات التي تظهر فيها هذه الكلمات ويختار أكثرها صلة بالموضوع.

إقرأ أيضاً… دليل المبتدئين إلى تحسين محركات البحث (سيو).

كيف تعمل برامج زحف الويب؟

الإنترنت يتغير ويتوسع باستمرار. نظرًا لأنه من غير الممكن معرفة عدد صفحات الويب الإجمالية الموجودة على الإنترنت، فإن روبوتات متتبع ارتباطات الويب تبدأ من بذرة أو قائمة بعناوين URL المعروفة.

يقومون بالزحف إلى صفحات الويب على عناوين URL هذه أولاً. أثناء قيامهم بالزحف إلى صفحات الويب هذه، سيجدون ارتباطات تشعبية لعناوين URL أخرى، ويضيفونها إلى قائمة الصفحات للزحف إليها بعد ذلك.

نظرًا للعدد الهائل من صفحات الويب على الإنترنت التي يمكن فهرستها للبحث، يمكن أن تستمر هذه العملية إلى أجل غير مسمى تقريبًا.

ومع ذلك، سيتبع زاحف الويب سياسات معينة تجعله أكثر انتقائية بشأن الصفحات التي يتم الزحف إليها وترتيب الزحف إليها وعدد مرات الزحف إليها مرة أخرى للتحقق من تحديثات المحتوى.

الأهمية النسبية لكل صفحة ويب.

لا تقوم معظم برامج زحف الويب بالزحف إلى الإنترنت المتاح للجمهور بالكامل وليس الغرض منها.

وبدلاً من ذلك، يقررون أي الصفحات يتم الزحف إليها أولاً بناءً على عدد الصفحات الأخرى التي ترتبط بهذه الصفحة. وعدد الزوار الذين يحصلون على هذه الصفحة، والعوامل الأخرى التي تشير إلى احتمالية احتواء الصفحة على معلومات مهمة.

الفكرة هي أنه من المحتمل أن تحتوي صفحة الويب التي يتم الاستشهاد بها من قبل الكثير من صفحات الويب الأخرى ويحصل عليها عدد كبير من الزوار على معلومات موثوقة وعالية الجودة.

لذلك من المهم بشكل خاص أن يقوم محرك البحث بفهرستها. تمامًا كما تفعل المكتبة تأكد من الاحتفاظ بنسخ كثيرة من كتاب يتم فحصه من قبل العديد من الأشخاص.

إعادة زيارة صفحات الويب.

يتم تحديث المحتوى الموجود على الويب أو إزالته أو نقله إلى مواقع جديدة باستمرار. ستحتاج برامج زحف الويب إلى إعادة زيارة الصفحات بشكل دوري للتأكد من فهرسة أحدث إصدار من المحتوى.

متطلبات ملف Robots.txt.

تحدد برامج زحف الويب أيضًا الصفحات المطلوب الزحف إليها استنادًا إلى بروتوكول robots.txt (المعروف أيضًا باسم بروتوكول استبعاد برامج الروبوت).

قبل الزحف إلى صفحة ويب، سيفحصون ملف robots.txt الذي يستضيفه خادم الويب لتلك الصفحة. ملف robots.txt هو ملف نصي يحدد القواعد لأي روبوت يصل إلى موقع الويب أو التطبيق المستضاف.

تحدد هذه القواعد الصفحات التي يمكن للروبوتات الزحف إليها والروابط التشعبية التي يمكن أن تتبعها. يتم ترجيح كل هذه العوامل بشكل مختلف ضمن الخوارزميات الخاصة التي يبنيها كل محرك بحث في روبوتات العنكبوت الخاصة به.

ستتصرف برامج زحف الويب من محركات البحث المختلفة بشكل مختلف قليلاً. على الرغم من أن الهدف النهائي هو نفسه: تنزيل المحتوى وفهرسته من صفحات الويب.

لماذا تسمى برامج زحف الويب “العناكب”؟

الإنترنت، أو على الأقل الجزء الذي يصل إليه معظم المستخدمين، يُعرف أيضًا باسم شبكة الويب العالمية (World Wide Web). في الواقع هذا هو المكان الذي يأتي منه جزء “www” من معظم عناوين URL لمواقع الويب.

كان من الطبيعي فقط تسمية روبوتات محركات البحث “عناكب”، لأنها تزحف في جميع أنحاء الويب، تمامًا كما تزحف العناكب الحقيقية على شبكات العنكبوت.

إقرأ أيضاً… ما هو الفرق ما بين Web 1.0 و Web 2.0 و Web 3.0 ؟

هل يجب أن يُسمح دائمًا لروبوتات زاحف الويب بالوصول إلى خصائص الويب؟

هذا الأمر متروك لموقع الويب، ويعتمد على عدد من العوامل. تتطلب برامج زحف الويب موارد الخادم لفهرسة المحتوى. فهي تقدم الطلبات التي يحتاج الخادم للاستجابة لها، تمامًا مثل المستخدم الذي يزور موقعًا إلكترونيًا أو برامج الروبوت الأخرى التي تصل إلى موقع ويب.

اعتمادًا على مقدار المحتوى في كل صفحة أو عدد الصفحات على الموقع، قد يكون من مصلحة مشغل موقع الويب عدم السماح بفهرسة البحث كثيرًا. نظرًا لأن الفهرسة المفرطة يمكن أن ترهق الخادم، أو تزيد من تكاليف النطاق الترددي، أو على حد سواء.

أيضًا، قد لا يرغب المطورون أو الشركات في أن تكون بعض صفحات الويب قابلة للاكتشاف ما لم يتم بالفعل منح المستخدم رابطًا للصفحة (دون وضع الصفحة خلف نظام حظر الاشتراك غير المدفوع أو تسجيل الدخول).

أحد الأمثلة على مثل هذه الحالة بالنسبة للمؤسسات هو عندما تنشئ صفحة مقصودة مخصصة لحملة تسويقية، لكنها لا تريد أن يصل أي شخص غير مستهدف من قبل الحملة إلى الصفحة. وبهذه الطريقة يمكنهم تخصيص الرسائل أو قياس أداء الصفحة بدقة.

في مثل هذه الحالات، يمكن للمؤسسة إضافة علامة “no index” إلى الصفحة المقصودة، ولن تظهر في نتائج محرك البحث. يمكنهم أيضًا إضافة علامة “disallow” في الصفحة أو في ملف robots.txt، ولن تقوم عناكب محرك البحث بالزحف إليها مطلقًا.

قد لا يرغب مالكوا مواقع الويب في قيام روبوتات متتبع ارتباطات الويب بالزحف إلى جزء من مواقعهم أو جميعها لمجموعة متنوعة من الأسباب الأخرى أيضًا.

على سبيل المثال، قد يرغب موقع الويب الذي يوفر للمستخدمين إمكانية البحث داخل الموقع في حظر صفحات نتائج البحث، حيث إنها ليست مفيدة لمعظم المستخدمين. يجب أيضًا حظر الصفحات الأخرى التي يتم إنشاؤها تلقائيًا والتي تكون مفيدة فقط لمستخدم واحد أو بضعة مستخدمين محددين.

ما الفرق بين زحف الويب وتجريف الويب؟

يحدث كشط الويب أو تجريف البيانات أو تجريف المحتوى (Web Scraping) عندما يقوم الروبوت بتنزيل المحتوى على موقع ويب دون إذن، غالبًا بقصد استخدام هذا المحتوى لغرض ضار.

عادةً ما يكون تجريف الويب أكثر استهدافًا من زحف الويب. قد تكون أدوات كشط الويب بعد صفحات معينة أو مواقع ويب محددة فقط، بينما تستمر برامج زحف الويب في متابعة الروابط والزحف إلى الصفحات باستمرار.

أيضًا، قد تتجاهل روبوتات تجريف الويب الضغط الذي تضعه على خوادم الويب،.في حين أن برامج زحف الويب، خاصة تلك الموجودة في محركات البحث الرئيسية، ستطيع ملف robots.txt وتحد من طلباتها حتى لا ترهق خادم الويب.

كيف تؤثر برامج زحف الويب على تحسين محركات البحث؟

يرمز SEO إلى تحسين محرك البحث (Search Engine Optimization). وهو نظام إعداد المحتوى لفهرسة البحث بحيث يظهر موقع الويب أعلى في نتائج محرك البحث.

إذا لم تزحف روبوتات العنكبوت إلى موقع ويب، فلا يمكن فهرستها ولن تظهر في نتائج البحث. لهذا السبب، إذا أراد مالك موقع الويب الحصول على حركة مرور عضوية من نتائج البحث. فمن المهم جدًا ألا يحظر روبوتات زحف الويب.

إقرأ أيضاً… هل يمكن تخزين الإنترنت واستخدامه لاحقاً؟

ما هي برامج الزحف النشطة على الإنترنت؟

تسمى الروبوتات من محركات البحث الرئيسية:

  • جوجل: Googlebot (في الواقع اثنان من برامج الزحف، Googlebot Desktop و Googlebot Mobile، لعمليات بحث سطح المكتب والجوال)
  • بينج: Bingbot.
  • ياندكس (محرك البحث الروسي): Yandex Bot.
  • بايدو (محرك البحث الصيني): Baidu Spider.

هناك أيضًا العديد من روبوتات زحف الويب الأقل شيوعًا، وبعضها غير مرتبط بأي محرك بحث.