بيانات التدريب هي مجموعة بيانات كبيرة للغاية يتم استخدامها لتعليم نموذج التعلم الآلي. يتم استخدام بيانات التدريب لتعليم نماذج التنبؤ التي تستخدم خوارزميات التعلم الآلي كيفية استخراج الميزات ذات الصلة بأهداف عمل محددة.
بالنسبة لنماذج التعلم الآلي الخاضعة للإشراف، يتم تصنيفه هذه البيانات. لا يتم تصنيف البيانات المستخدمة لتدريب نماذج التعلم الآلي غير الخاضعة للإشراف.
تعد فكرة استخدامها في برامج التعلم الآلي مفهومًا بسيطًا، ولكنها أيضًا أساسية جدًا للطريقة التي تعمل بها هذه التقنيات.
وهي مجموعة أولية من البيانات المستخدمة لمساعدة البرنامج على فهم كيفية تطبيق تقنيات مثل الشبكات العصبية للتعلم وتحقيق نتائج معقدة.
يمكن استكمالها بمجموعات لاحقة من البيانات تسمى مجموعات التحقق والاختبار. كما تتم تسمية بيانات التدريب أيضًا باسم مجموعة التدريب أو مجموعة التعلم.
شرح بيانات التدريب.
مجموعة التدريب هي المادة التي يتعلم الكمبيوتر من خلالها كيفية معالجة المعلومات. يستخدم التعلم الآلي الخوارزميات – فهو يحاكي قدرات الدماغ البشري على استيعاب المدخلات المتنوعة ووزنها، من أجل إنتاج عمليات تنشيط في الدماغ، في الخلايا العصبية الفردية.
تقوم الخلايا العصبية الاصطناعية بتكرار الكثير من هذه العملية باستخدام البرامج – برامج التعلم الآلي والشبكات العصبية التي توفر نماذج مفصلة للغاية لكيفية عمل عمليات التفكير البشري لدينا.
مع وضع ذلك في الاعتبار، يمكن تنظيمها بطرق مختلفة.
بالنسبة لسلاسل القرار المتسلسلة وتلك الأنواع من الخوارزميات، ستكون مجموعة من النصوص الأولية أو البيانات الأبجدية الرقمية التي يتم تصنيفها أو معالجتها بطريقة أخرى.
من ناحية أخرى، بالنسبة للشبكات العصبية التلافيفية التي لها علاقة بمعالجة الصور ورؤية الكمبيوتر، غالبًا ما تتكون مجموعة التدريب من أعداد كبيرة من الصور.
الفكرة هي أنه نظرًا لأن برنامج التعلم الآلي معقد جدًا ومتطور للغاية، فإنه يستخدم تدريبًا متكررًا على كل من تلك الصور حتى يتمكن في النهاية من التعرف على الميزات والأشكال وحتى الموضوعات مثل الأشخاص أو الحيوانات.
كما تعتبر ضرورية للغاية للعملية – يمكن اعتبارها “الطعام” الذي يستخدمه النظام للعمل.