استمع إلى المقال

لا شك في أن روبوتات الدردشة العاملة بالذكاء الاصطناعي مثل “ChatGPT” تطورت كثيرا خلال الفترة الماضية، لكن هل تمثل النصائح البشرية المكون السري لنجاحها، وهل تقنية التعلم المعزز من ردود الفعل البشرية مثالية.

في شهر تشرين الثاني/نوفمبر الماضي، أطلقت شركة “ميتا” روبوت الدردشة المسمى “Galactica”، لكنها أزالته من الإنترنت بعد سيل من الشكاوى بأن الروبوت اختلق أحداثا تاريخية.

بعد أسبوعين، أصدرت شركة “OpenAI” الناشئة روبوت الدردشة المسمى “ChatGPT” الذي أحدث ضجة كبيرة في جميع أنحاء العالم.

كلا الروبوتين كانا يعملان بالتقنية التأسيسية نفسها، لكن على عكس “ميتا”، قامت “OpenAI” بتحسين روبوتها باستخدام تقنية كانت قد بدأت للتو في تغيير طريقة بناء الذكاء الاصطناعي.

النصائح البشرية

في الأشهر التي سبقت إصدار “ChatGPT”، عينت الشركة مئات الأشخاص لاستخدام إصدار مبكر وتقديم اقتراحات دقيقة يمكن أن تساعد في صقل مهارات الروبوت.

مثل مجموعة كبيرة من المعلمين الذين يرشدون طالبا في المدرسة الابتدائية، أظهر هؤلاء الأشخاص للروبوت كيفية الرد على أسئلة معينة، وقاموا بتقييم إجاباته وتصحيح أخطائه.

من خلال تحليل تلك الاقتراحات، تعلم “ChatGPT” أن يكون روبوت دردشة أفضل. الآن، تقود تقنية التعلم المعزز من ردود الفعل البشرية تطوير الذكاء الاصطناعي في جميع أنحاء الصناعة.

هذه التقنية حولت روبوتات الدردشة من مجرد فضول إلى تكنولوجيا سائدة، حيث تعتمد روبوتات الدردشة هذه على الموجة الجديدة من الذكاء الاصطناعي التي يمكنها تعلم المهارات من خلال تحليل البيانات.

الكثير من هذه البيانات منظمة ومنقحة بواسطة فرق هائلة من الموظفين ذوي الأجور المنخفضة في الولايات المتحدة وأجزاء أخرى من العالم.

لسنوات، اعتمدت شركات، مثل “جوجل” و”OpenAI”، على هؤلاء الموظفين لإعداد البيانات المستخدمة لتدريب الذكاء الاصطناعي.

الموظفون في أماكن، مثل الهند وأفريقيا، ساعدوا في تحديد كل شيء، بدءا من علامات التوقف في الصور المستخدمة لتدريب السيارات الذاتية القيادة إلى علامات سرطان القولون في مقاطع الفيديو المستخدمة لبناء التقنيات الطبية.

الجندي المجهول

في بناء روبوتات الدردشة، تعتمد الشركات على موظفين مماثلين، بالرغم من أنهم غالبا ما يكونون أفضل تعليما. 

التعلم المعزز من ردود الفعل البشرية يعد أكثر تعقيدا بكثير من العمل الروتيني لوضع علامات على البيانات التي غذت في الماضي تطور الذكاء الاصطناعي.

في هذه الحالة، يتصرف الموظفون مثل المعلمين، حيث يمنحون “ChatGPT” ردود فعل أعمق وأكثر تحديدا في محاولة لتحسين استجاباته.

خلال العام الماضي، استعانت شركة “OpenAI” ومنافستها “Anthropic” بموظفين مستقلين في الولايات المتحدة من خلال موقع “Upwork”.

بينما يستخدم “Hugging Face”، وهو مختبر بارز آخر، موظفين أميركيين معينين من خلال شركتي تنظيم البيانات “Scale AI” و”Surge”.

هؤلاء الموظفون تتراوح أعمارهم بين 19 و62 عاما، وتتراوح مؤهلاتهم التعليمية بين الشهادات التقنية والدكتوراه، ويكسب الموظفون المقيمون في الولايات المتحدة ما بين 15 إلى 30 دولارا تقريبا في الساعة.

الموظفون في البلدان الأخرى يحصلون على أجر أقل بكثير. عندما طلبت شركة “Hugging Face” موظفين من أحد أقسام شركة “أمازون”، أشارت الشركة إلى أن تكلفة الموظفين المقيمين في الولايات المتحدة أعلى بـ 5 مرات من تلك الموجودة في الخارج.

هذا العمل يتطلب ساعات من الكتابة الدقيقة والتحرير والتقييم، وقد يقضي الموظفون 20 دقيقة في كتابة توجيه واحد والرد عليه. 

ردود الفعل البشرية هي ما يسمح لروبوتات الدردشة اليوم مثل “ChatGPT” بإجراء محادثة خطوة بخطوة، بدلا من مجرد تقديم استجابة واحدة. 

كما أنها تساعد شركات، مثل “OpenAI”، على تقليل المعلومات الخطأ والتحيز والمعلومات السامة الأخرى التي تنتجها هذه الأنظمة.

تحذيرات بشأن التقنية

الباحثون يحذرون من أن هذه التقنية ليست مفهومة بالكامل. بالرغم من أنها تحسن سلوك هذه الروبوتات في بعض النواحي، إلا أنها قد تؤدي إلى انخفاض الأداء بطرق أخرى.

خلال الأشهر القليلة الماضية، انخفضت دقة “ChatGPT” في بعض المواقف، بما في ذلك أثناء حل المسائل الرياضية، وتوليد التعليمات البرمجية، ومحاولة التفكير، وذلك وفقا لدراسة حديثة أجراها باحثون في جامعة ستانفورد وجامعة كاليفورنيا بيركلي.

هذا الانخفاض قد يكون نتيجة للجهود المستمرة لتطبيق ردود الفعل البشرية، حيث لم يفهم الباحثون السبب بعد، لكنهم وجدوا أن ضبط “ChatGPT” في منطقة واحدة يمكن أن يجعله أقل دقة في منطقة أخرى.

جيمس زو، أستاذ علوم الحاسوب في جامعة ستانفورد، أوضح أن ضبط النظام قد يؤدي إلى تحيزات إضافية – آثار جانبية – تجعله ينجرف في اتجاهات غير متوقعة.

خلال عام 2016، قام فريق من الباحثين في “OpenAI” ببناء نظام ذكاء اصطناعي علم نفسه كيفية لعب لعبة فيديو قديمة لسباق القوارب تسمى “Coast Runners”. 

في محاولة لتسجيل النقاط عبر التقاط العناصر الخضراء الصغيرة التي تصطف على جانبي مضمار السباق قاد نظام الذكاء الاصطناعي القارب في دوائر لا نهاية لها، واصطدم بالجدران واشتعلت فيه النيران بشكل متكرر.

كما واجه نظام الذكاء الاصطناعي مشكلة في عبور خط النهاية، وهو الأمر الذي كان لا يقل أهمية عن تسجيل النقاط.

هذا هو اللغز الكامن في قلب تطوير الذكاء الاصطناعي، إذ بينما تتعلم الآلات أداء المهام من خلال ساعات من تحليل البيانات، فإن بإمكانها أيضا أن تجد طريقها إلى سلوك غير متوقع وغير مرغوب فيه وربما حتى ضار.

مواجهة المشاكل

باحثو “OpenAI” ابتكروا طريقة لمحاربة هذه المشكلة، حيث طوروا خوارزميات يمكنها تعلم المهام من خلال تحليل البيانات وتلقي إرشادات منتظمة من المعلمين البشريين.

من خلال بضع نقرات بالفأرة، يمكن للموظفين أن يظهروا لنظام الذكاء الاصطناعي أنه يجب أن يتحرك نحو خط النهاية، وليس مجرد جمع النقاط.

في الوقت نفسه تقريبا، بدأت شركتا “OpenAI” و”جوجل” وشركات أخرى في بناء أنظمة، تعرف باسم النماذج اللغوية الكبيرة.

هذه الأنظمة تعلمت من كميات هائلة من النصوص الرقمية المستمدة من الإنترنت، بما في ذلك الكتب ومقالات ويكيبيديا وسجلات الدردشة.

نتيجة لذلك، ظهرت أنظمة، مثل “Galactica”، قادرة على كتابة مقالاتها الخاصة، وحل المسائل الرياضية، وإنشاء التعليمات البرمجية، وإضافة تعليقات توضيحية إلى الصور.

لكن أنظمة الذكاء الاصطناعي هذه قادرة على توليد معلومات غير صادقة ومتحيزة وسامة، كما أظهر “Galactica”.

لذلك بدأت المختبرات في ضبط نماذج اللغات الكبيرة باستخدام نفس التقنيات التي طبقتها شركة “OpenAI” على لعبة الفيديو القديمة، وظهرت النتيجة من خلال روبوت الدردشة “ChatGPT”.

في بعض الأحيان، يوضح الموظفون للروبوت كيفية الاستجابة لمطالبة معينة، حيث يكتبون الإجابة المثالية كلمة كلمة.

في أحيان أخرى، يقومون بتحرير الاستجابات التي تم إنشاؤها بواسطة الروبوت، أو يقومون بتقييم استجابات الروبوت على مقياس من 1 إلى 8، والحكم على ما إذا كان مفيدا وصادقا وغير ضار. أو يختارون الإجابة الأفضل في ضوء استجابتين لنفس التوجيه.

لا تحاول شركة “OpenAI” والشركات الأخرى كتابة كل ما قد يقوله روبوت الدردشة مسبقا، لأن ذلك شبه مستحيل، لكنها تريد أن يتعلم نظام الذكاء الاصطناعي أنماط السلوك التي يمكن تطبيقها بعد ذلك في مواقف أخرى من خلال ردود الفعل البشرية.

بشكل عام، تختار روبوتات الدردشة مثل “ChatGPT” كلماتها باستخدام الاحتمالات الرياضية، ويعني هذا أن التغذية البشرية لا يمكنها حل جميع المشكلات، كما أنها قد تغير أداء روبوت الدردشة بطرق غير متوقعة.

ختاما، ردود الفعل البشرية تعمل بشكل جيد، حيث يمكنها منع حدوث أشياء سيئة، لكن لا يمكن أن تكون مثالية، لذا يجب تطوير تقنية جديدة قبل أن تصبح روبوتات الدردشة موثوقة تماما.

هل أعجبك المحتوى وتريد المزيد منه يصل إلى صندوق بريدك الإلكتروني بشكلٍ دوري؟
انضم إلى قائمة من يقدّرون محتوى إكسڤار واشترك بنشرتنا البريدية.
0 0 أصوات
قيم المقال
Subscribe
نبّهني عن
0 تعليقات
Inline Feedbacks
مشاهدة كل التعليقات