العلماء ينجحون بتطوير روبوت يتعلم سلوكه من مراقبة الأنشطة البشرية اليومية

العلماء ينجحون بتطوير روبوت يتعلم سلوكه من مراقبة الأنشطة البشرية اليومية
أستمع الى المقال

على مدى العقد الماضي، كان العديد من علماء الروبوتات، وعلماء الكمبيوتر بشكلٍ عام، يحاولون تطوير روبوتات يمكنها إكمال المهام في الأماكن التي يعيش ويتفاعل فيها البشر. على سبيل المثال، مساعدة المستخدمين على الطهي والتنظيف والترتيب. ولمعالجة الأعمال المنزلية والمهام اليدوية الأخرى، يجب أن تكون الروبوتات قادرةً على حل مهام التخطيط المعقدة التي تتضمن التنقل في البيئات والتفاعل مع الكائنات باتباع تسلسلاتٍ محددة.

وفي حين أن بعض التقنيات لحل مهام التخطيط المعقدة هذه قد حققت نتائج واعدة، إلا أن معظمها ليس مجهزًا بالكامل للتعامل بشكلٍ مثالي مع هذه البيئات. ونتيجةً لذلك، لا يمكن للروبوتات حتى الآن إكمال هذه المهام بنفس الكفاءة التي يمتلكها البشر.

الحل في مراقبة السلوك، وليس الأفعال نفسها

طور باحثون في جامعة تكساس في أوستن ومركز فيسبوك لأبحاث الذكاء الاصطناعي مؤخرًا إطارًا جديدًا يمكن أن يعيد تشكيل سلوك الروبوتات المساعدة بشكلٍ أكثر فعالية، وذلك باستخدام مقاطع فيديو تركّز على سلوك البشر الذين يؤدّون المهام اليومية. وتقدّم ورقتهم البحثية، المنشورة على خادم ما قبل النشر “arXiv”، والتي من المقرر تقديمها في مؤتمر أنظمة معالجة المعلومات العصبية (NeurIPS) في ديسمبر/كانون الأول القادم، نهجًا أكثر كفاءةً لتدريب الروبوتات على إكمال الأعمال المنزلية والمهام الأخرى ذات التفاعل المكثف.

الهدف من هذا المشروع هو بناء عوامل آلية مجسدة يمكنها التعلم من خلال مشاهدة الأشخاص يتفاعلون مع محيطهم. وتجدر الإشارة إلى توضيح الفرق الجوهري بين الآليتين المتّبعتين لهكذا مشاريع؛ تتطلب مناهج التعلم المعزز الملايين من المحاولات لتعلم السلوك الذكي بعد ما تبدأ الروبوتات بمحاولة القيام بالإجراءات بشكلٍ عشوائي، بينما تتطلب مناهج التعلم بالتقليد خبراء بشريين للتحكم في سلوك الروبوت حتى يصل إلى صورته المثالية، ومن ثم تثبيته، وهو أمرٌ مكلفٌ لجمعه ويتطلب أجهزةً متطورة إضافية.

وعلى عكس الأنظمة الآلية، عند دخول بيئة جديدة، يمكن للبشر إكمال المهام التي تتضمن كائنات مختلفة دون عناء. وهكذا شرع الباحثون في التحقيق فيما إذا كان بإمكان الروبوتات تعلّم إكمال المهام في بيئاتٍ مماثلة ببساطة عن طريق مراقبة سلوك البشر.

فبدلاً من تدريب الروبوتات باستخدام عروض الفيديو التعليمية المخصصة من إعداد البشر، والتي غالبًا ما يكون إعدادها باهظ الثمن، أراد الباحثون الاستفادة من لقطات الفيديو المتمركزة حول الذات (من منظور الشخص الأول) والتي تُظهر أشخاصًا يؤدون أنشطةً يومية، مثل طهي وجبة أو غسل الأطباق. فمن الأسهل جمع مقاطع الفيديو هذه ويمكن الوصول إليها بسهولة أكبر من العروض التوضيحية التي تُستخدم عادةً للشرح.

 آلية عمل النظام

كتب أحد الباحثين: “إن عملنا هو أول من استخدم فيديو حر من إنشاء الإنسان تم التقاطه في العالم الحقيقي لتعلم الأساسيات التي يجب أن تكون موجودةً قبل الشروع بعملية التفاعل مع الأشياء المحيطة. إذ يحول نهجنا الفيديو المتمركز حول الذات للبشر الذين يتفاعلون مع محيطهم إلى تحديد أولوياتٍ مرتبة، ومتى يجب استخدامها مع بعضها البعض، وماذا ينتج عن ذلك.”

على سبيل المثال، تشير مشاهدة البشر وهم يغسلون الأطباق إلى أن الأواني وصابون الأطباق والإسفنج أشياء جيدة يجب أن تكون لديك قبل تشغيل الصنبور في الحوض.

للحصول على هذه “المقدمات”؛ أي المعلومات المفيدة حول الأشياء التي يجب جمعها قبل إكمال المهمة، يقوم النموذج الذي أنشأه الباحثون بتجميع إحصائيات حول أزواج من الأشياء التي يميل البشر إلى استخدامها أثناء أدائهم أنشطةً محددة. واكتشف نموذجهم هذه الكائنات مباشرةً في مقاطع الفيديو التي تركز على سلوك الذات من بين مجموعة البيانات الكبيرة التي استخدمها الباحثون.

وبعد ذلك، قام النموذج بترميز تلك الأساسيات التي حصل عليها على أنها مكافأة في إطار التعلم المعزز؛ ويعني هذا  أن الروبوت يُكافأ بناءً على العناصر التي اختارها لإكمال مهمة معينة.

على سبيل المثال، يُمنح فتح الصنبور مكافأةً عاليةً عندما يتم وضع وعاء بالقرب من الحوض، ومكافأةً منخفضةً إذا تم إحضار كتاب بالقرب منه. ونتيجةً لذلك، يجب على الروبوت بذكاء إحضار المجموعة الصحيحة من الأشياء إلى المواقع الصحيحة قبل محاولة التفاعل معها من أجل زيادة مكافأته. وهذا يساعده في الوصول إلى الحالات المثالية لتأدية الأنشطة، مما يؤدي إلى تسريع عملية التعلم.

تحسين نظام المكافآت

حاولت الدراسات المشابهة السابقة تسريع عملية تعلّم الروبوت للمعايير باستخدام وظائف المكافأة المماثلة. ولكن عادةً ما تكون هذه مكافآت استكشاف تشجع الروبوتات على استكشاف مواقع جديدة أو إجراء تفاعلاتٍ جديدة، دون النظر في مدى كفاءة المهام البشرية التي يتعلمون إكمالها.

لذلك، يمكن اعتبار هذا النهج تحسينًا على الأساليب السابقة نفسها، وذلك من خلال مواءمة المكافآت مع كفاءة الأنشطة البشرية، ومساعدة الروبوتات على استكشاف الأشياء الأكثر صلةً من حولها من أجل التفاعلات. كما أن هذا العمل فريدٌ من ناحية أنه يتعلم الأساسيات حول التفاعلات مع الأشياء من الفيديو الحر، بدلاً من الفيديو المرتبط بأهداف محددة (كما هو الحال في عمليات استنساخ السلوك). والنتيجة هي مكافأة إضافية للأغراض العامة لتشجيع التعلم المعزز الفعال.

على النقيض من الأساسيات (المقدمات) التي تم النظر فيها من خلال المناهج المطورة سابقًا، فإن المقدمات التي تم أخذها في الاعتبار من خلال هذا النموذج تلتقط أيضًا كيفية ارتباط الأشياء في سياق الإجراءات التي يتعلم الروبوت تنفيذها، بدلاً من مجرد حدوثها المادي المشترك. أي على سبيل المثال، يمكن العثور على الملاعق بالقرب من السكاكين. أو التشابه الدلالي، على سبيل المثال؛ البطاطس والطماطم كائنات متشابهة.

منهاج الروبوتات الدراسي المستقبلي

قام الباحثون بتقييم نموذجهم باستخدام مجموعة بيانات من مقاطع الفيديو التي تركز على الذات، والتي تُظهر البشر وهم يكملون الأعمال والمهام اليومية في المطبخ. وكانت نتائجهم واعدة، مما يشير إلى أنه يمكن استخدام نموذجهم لتدريب الروبوتات المنزلية بشكلٍ أكثر فاعلية من التقنيات الأخرى المطورة سابقًا.

وهذا هو العمل الأول الذي يوضح أن الفيديو العادي للبشر الذين يؤدون الأنشطة اليومية يمكن استخدامه لتعلّم سياسات التفاعل المجسدة. ويعد هذا إنجازًا مهمًا، حيث يتوفر الفيديو المتمركز حول الذات بسهولة وبكمياتٍ كبيرة من مجموعات البيانات الحديثة. ويعد هذا العمل كذلك خطوةً أولى نحو تمكين التطبيقات التي يمكنها التعرف على كيفية أداء البشر للأنشطة دون الحاجة إلى العروض التوضيحية المكلفة، ثم تقديم المساعدة في إعداد الروبوتات المنزلية.

في المستقبل، يمكن استخدام الإطار الجديد الذي طوره هذا الفريق من الباحثين لتدريب مجموعة متنوعة من الروبوتات المادية لإكمال مجموعة متنوعة من المهام اليومية البسيطة. بالإضافة إلى ذلك، يمكن استخدامه لتدريب روتات مساعدي الواقع المعزز، والتي يمكنها، على سبيل المثال، مراقبة كيف يطبخ الإنسان طبقًا معينًا ثم تعليم المستخدمين الجدد كيفية تحضيره.

هل أعجبك المحتوى وتريد المزيد منه يصل إلى صندوق بريدك الإلكتروني بشكلٍ دوري؟
انضم إلى قائمة من يقدّرون محتوى إكسڤار واشترك بنشرتنا البريدية.