كيف تم تدريب شات جي بي تي؟

إذا كنت ملمًا بـ ChatGPT فربما سمعت أنه يتم تدريب البرنامج على مجموعة ضخمة من البيانات. ولكن ماذا يعني ذلك بالضبط؟ في هذه المقالة، سننغمس في تفاصيل كيف يتم تدريب ChatGPT."

تعد ChatGPT نموذج لغوي مدرب مسبقًا تم ضبطه من خلال مزيج من تقنيات التعلم المشرف والتعلم الإيجابي. تضمن عملية تدريب ChatGPT إدخال كمية كبيرة من بيانات النصوص في النموذج وضبط معلماته بحيث يمكنه إنتاج نصوص مشابهة للنصوص الموجودة في مجموعة التدريب.

تم استخدام نهج التعلم الغير مشرف عليه لهذه العملية، مما يعني أن النموذج لم يتم إعطاءه ردود فعل صريحة حول ما إذا كان النص الذي وضعه صحيحًا أو خاطئًا. بدلاً من ذلك، يضبط النموذج معلماته بناءً على احتمال أن يكون النص المولد مشابهًا للنص الموجود في مجموعة التدريب.

هو نموذج الوالد لـ GPT-3 ChatGPT-3، واحد من أكبر نماذج اللغة التي تم إنشاؤها على الإطلاق، بـ 175 مليار معلمة وسياق يحتوي على 2048 رمزًا. تم تدريبه على مئات المليارات من الكلمات من Common Crawl و WebText2 و Books1/2 وWikipedia in English ، وأمثلة للشفرة في CSS و JSX و Python وغيرها من لغات البرمجة.

الأسلوب التدريبي المستخدم لـ GPT-3 هو التدريب التوليدي المسبق ، وهو يعني أنه يتم تدريبه للتنبؤ بالرمز أو الكلمة التالية في جملة الإدخال.

أفضل بدائل تطبيق Chat GPT

التعلم الإشرافي

تم ضبط النموذج ChatGPT بواسطة عملية تعلم مشرف يشرف عليها مدربون بشريون. قام هؤلاء المدربون بالمشاركة في المحادثات، حيث تولوا دوري المستخدم ومساعد الذكاء الاصطناعي.

تم تزويدهم بمقترحات من النموذج لتوجيههم في صياغة ردودهم، والتي تم خلطها بمجموعة بيانات InstructGPT التي تم تحويلها إلى شكل حواري.

تعلم التعزيز

تم تحسين النموذج بشكل أكبر عن طريق التعلم المعزّز باستخدام الأمر المتزامن للسياسة (PPO). قام المدربون البشريون بتقييم الردود التي تم إنشاؤها بواسطة النموذج من محادثة سابقة واستخدموا تلك التقييمات لتطوير نماذج الجوائز. ثم تم تحسين النموذج بناءً على تلك النماذج.

تم إجراء عملية الضبط الدقيق عدة مرات لتحقيق أداء أفضل. تعتبر خوارزميات PPO فعالة التكلفة مقارنة بالخوارزميات الأخرى ولديها أداء أسرع مما يجعلها مثالية لهذه العملية.

تواصل OpenAI جمع المعلومات من المستخدمين الذين يتفاعلون مع ChatGPT، ثم يتم استخدامها لتعزيز وتحسين النموذج بشكل أفضل. يتم توفير خيار للمستخدمين للتصويت على ردود ChatGPT عن طريق تصويت إيجابي أو سلبي، كما يمكنهم تقديم ملاحظات إضافية. يتم استخدام هذه البيانات لتحسين أداء النموذج وجعله أفضل في توليد نص شبيه بالإنسان.

البيانات المستخدمة لتدريب النموذج

تعدَّدامل اليتة للغة المسمَى ChatGPT-3 نموذجًا لغويًا ،تمَّ تعديله للحصول على سلسلة GPT-3.5 المدرَّب بإستخدام طاقة حاسوبية ضخمة موفرًا من خلال Azure AI . تم تعليم النموذج على كمية هائلة من النصوص المستخرجة من الإنترنت، والتي تشمل الكتب والمنتديات الحوارية، والمقالات والمواقع الإلكترونية، والوثائق الأكاديمية، والرموز التعبيرية، وغير ذلك من المصادر.

جسم بيانات النص الذي تم استخدامه لتدريب شات جي بي تي-3 كان بحجم يزيد عن 45 تيرابايت، وهو حجم ضخم للغاية يساهم في قدرة النموذج على إنتاج نصوص مشابهة لما يمكن للصحفي أو الكاتب إنتاجه.

كيف يتم تدريب Chat GPT؟

التعلم الإشرافي

تعلم التعزيز

البيانات المستخدمة لتدريب النموذج

المقالات ذات الصلة