-

ما هو نموذج اللغة الكبير (Llm)؟

(اخر تعديل 2024-09-09 11:26:08 )

نموذج اللغة الكبيرة (Large Language Models – LLM) هو نوع من نماذج التعلم الآلي التي يمكنها أداء مجموعة متنوعة من مهام معالجة اللغة الطبيعية (NLP)، بما في ذلك إنشاء النص وتصنيفه، والإجابة على الأسئلة بطريقة محادثة، وترجمة النص من لغة إلى أخرى.

تشير التسمية “كبيرة” إلى عدد القيم (المعلمات) التي يمكن للنموذج تغييرها بشكل مستقل أثناء تعلمه. بعض من أنجح LLM لديها مئات المليارات من المعلمات.

يتم تدريب LLM على كميات هائلة من البيانات واستخدام التعلم تحت الإشراف الذاتي للتنبؤ بالرمز المميز التالي في الجملة، بالنظر إلى السياق المحيط. تتكرر العملية مرارًا وتكرارًا حتى يصل النموذج إلى مستوى مقبول من الدقة.

بمجرد تدريب LLM، يمكن ضبطه لمجموعة واسعة من مهام البرمجة اللغوية العصبية، بما في ذلك:

  • بناء روبوتات محادثة مثل ChatGPT.
  • إنشاء نص لأوصاف المنتج ، منشورات المدونة والمقالات.
  • الإجابة على الأسئلة المتداولة (FAQs) وتوجيه استفسارات العملاء إلى الشخص الأنسب.
  • تحليل ملاحظات العملاء من البريد الإلكتروني ومنشورات وسائل التواصل الاجتماعي ومراجعات المنتجات.
  • ترجمة محتوى الأعمال إلى لغات مختلفة.
  • تصنيف وتصنيف كميات كبيرة من البيانات النصية من أجل معالجة وتحليل أكثر كفاءة.

إقرأ أيضاً… أفضل 21 موقع بديل لـ(ChatGPT).

شرح نموذج اللغة الكبير (LLM).

عادةً ما تحتوي نماذج اللغات الكبيرة على بنية قائمة على المحولات. يستخدم هذا النوع من بنية الذكاء الاصطناعي آليات الانتباه الذاتي لحساب مجموع مرجح لتسلسل إدخال وتحديد الرموز المميزة في التسلسل الأكثر صلة ببعضها البعض ديناميكيًا.

ما هي نماذج اللغات الكبيرة المستخدمة؟

تُستخدم نماذج اللغات الكبيرة للسيناريوهات ذات اللقطات القليلة والصفرية عندما يكون هناك القليل من البيانات المخصصة للمجال أو لا تتوفر لتدريب النموذج.

تتطلب كل من المقاربات ذات اللقطات القليلة والصفر إلى نموذج الذكاء الاصطناعي تحيزًا استقرائيًا جيدًا والقدرة على تعلم التمثيلات المفيدة من بيانات محدودة (أو لا).

كيف يتم تدريب النماذج اللغوية الكبيرة؟

يتم تدريب معظم LLM مسبقًا على مجموعة بيانات كبيرة للأغراض العامة مماثلة في التوزيع الإحصائي لمجموعة البيانات الخاصة بالمهمة.

كما أن الغرض من التدريب المسبق هو أن يتعلم النموذج ميزات عالية المستوى يمكن نقلها إلى مرحلة الضبط الدقيق لمهام محددة.

تتضمن عملية التدريب لنموذج لغوي كبير ما يلي:

  • المعالجة المسبقة للبيانات النصية لتحويلها إلى تمثيل رقمي يمكن إدخاله في النموذج.
  • التعيين العشوائي لمعلمات النموذج.
  • تغذية التمثيل العددي لبيانات النص في النموذج.
  • استخدام دالة الخسارة لقياس الفرق بين مخرجات النموذج والكلمة التالية الفعلية في الجملة.
  • تحسين معلمات النموذج لتقليل الخسارة.
  • تكرار العملية حتى تصل مخرجات النموذج إلى مستوى مقبول من الدقة.

إقرأ أيضاً… أفضل 24 أداة تساعد على تحليل البيانات.

كيف تعمل النماذج اللغوية الكبيرة؟

يستخدم نموذج لغة كبير شبكات عصبية عميقة لتوليد مخرجات بناءً على الأنماط المستفادة من بيانات التدريب. كما عادةً ما يكون نموذج اللغة الكبير بمثابة تنفيذ لهندسة المحولات.

تسمح معماريات المحولات لنموذج التعلم الآلي بتحديد العلاقات بين الكلمات في الجملة – بغض النظر عن موقعها في تسلسل النص – باستخدام آليات الانتباه الذاتي.

على عكس الشبكات العصبية المتكررة (RNNs) التي تستخدم التكرار كآلية رئيسية لالتقاط العلاقات بين الرموز في تسلسل، تستخدم الشبكات العصبية المحولة الانتباه الذاتي كآليتها الرئيسية لالتقاط العلاقات.

يتم حساب العلاقات بين الرموز المميزة في تسلسل باستخدام درجات الانتباه التي تمثل كيفية استيراد رمز مميز فيما يتعلق بالرموز المميزة الأخرى في تسلسل النص.

أمثلة على نماذج اللغة الكبيرة.

بعض نماذج اللغات الكبيرة الأكثر شيوعًا هي:

  • GPT-3 (محول مسبق التدريب 3 التوليدي) – تم تطويره بواسطة OpenAI.
  • BERT (تمثيلات التشفير ثنائية الاتجاه من المحولات) – تم تطويره بواسطة Google.
  • RoBERTa (نهج BERT المحسن بشكل قوي) – تم تطويره بواسطة Facebook AI.
  • T5 (محول تحويل النص إلى نص) – تم تطويره بواسطة Google.
  • CTRL (نموذج لغة المحولات الشرطية) – تم تطويره بواسطة Salesforce Research.
  • Megatron-Turing – تم تطويره بواسطة NVIDIA.