لأول مرة: تطوير نموذج ذكاء اصطناعي يتسطيع لعب الشطرنج والبوكر وغيرها

لأول مرة: تطوير نموذج ذكاء اصطناعي يتسطيع لعب الشطرنج والبوكر وغيرها
أستمع الى المقال

استثمرت شركة “ديب مايند” (DeepMind)، مختبر الذكاء الاصطناعي لشركة “ألفابِت”؛ الشركة الأم لشركة جوجل،  منذ فترة طويلة في أنظمة الذكاء الاصطناعي للعب الألعاب. إنها فلسفة المعمل القائلة بأن الألعاب، رغم افتقارها إلى تطبيق تجاري واضح، تمثل تحدياتٍ فريدة بالقدرات المعرفية والاستدلالية لنماذج الذكاء الاصطناعي، وهذا يجعلها معايير ذات فائدة كبرى لتقدمه. وفي العقود الأخيرة، كانت الألعاب بمثابة نقطة الانطلاق نحو ظهور أنظمة التعلم الذاتي للذكاء الاصطناعي؛ مثل تلك التي تدعم الرؤية الحاسوبية، والسيارات ذاتية القيادة، ومعالجة اللغات الطبيعية.

وفي استمرارٍ لعملها، أنشأت “ديب مايند” نظامًا يسمى “لاعب الألعاب” (Player of Games)، والذي كشفت عنه الشركة لأول مرة في ورقةٍ بحثيةٍ نُشرت على خادم ما قبل الطباعة “Arxiv” الأسبوع المنصرم. وعلى عكس أنظمة لعب الألعاب الأخرى التي طورتها الشركة مسبقًا، مثل “AlphaZero” المخصص للعبة الشطرنج، و “AlphaStar” المخصص للعبة “StarCraft II”، يمكن أن يؤدي “لاعب الألعاب” أداءً جيدًا في كل من ألعاب المعلومات المثالية (أي التي لا تعتمد على الحظ؛ مثل الشطرنج وألعاب اللوحات) بالإضافة إلى ألعاب المعلومات غير الكاملة (أي التي لا يمكن التنبؤ بالرابح بها استنادًا على معلومات واحتمالات مسبقة تمامًا؛ مثل لعبة البوكر).

تتضمن بعض المهام، مثل تخطيط المسار في حالات الازدحام، ومفاوضات العقود، وحتى التفاعل مع العملاء حل وسط والنظر في كيفية توافق تفضيلات الأشخاص وتعارضها، كما هو الحال في الألعاب. وحتى عندما تكون أنظمة الذكاء الاصطناعي متمحورة حول أدائها نفسها، فقد تتمكن من الكسب من خلال التنسيق والتعاون والتفاعل بين مجموعات من الأشخاص أو المنظمات. إذن، يمكن لأنظمة مثل “لاعب الألعاب”، التي يمكنها التفكير في أهداف الآخرين ودوافعهم، أن تمهد الطريق للذكاء الاصطناعي الذي يمكنه العمل بنجاح مع الآخرين، بما في ذلك التعامل مع الأسئلة الشائعة حول موثوقية الذكاء الاصطناعي.

تفوق أمام الناقص وصمود أمام المثالي

تحتوي ألعاب المعلومات غير الكاملة على معلومات مخفية عن اللاعبين أثناء اللعبة. على النقيض من ذلك، تُظهر ألعاب المعلومات المثالية جميع المعلومات منذ البداية.

تتطلب ألعاب المعلومات المثالية قدرًا لائقًا من التفكير والتخطيط للّعب بشكل جيد. إذ يتعين على اللاعبين معالجة ما يرونه على اللوحة وتحديد ما من المرجح أن يفعله خصومهم أثناء العمل نحو الهدف النهائي المتمثل في الفوز. من ناحيةٍ أخرى، تتطلب ألعاب المعلومات غير الكاملة من اللاعبين مراعاة المعلومات المخفية ومعرفة كيفية التصرف بعد ذلك من أجل الفوز؛ بما في ذلك الخداع المحتمل أو تكوين فريقٍ ضد خصمٍ ما.

تتفوق أنظمة مثل “AlphaZero” في ألعاب المعلومات المثالية مثل الشطرنج، بينما تؤدي الخوارزميات مثل “DeepStack” و “Libratus” أداءً جيدًا بشكلٍ ملحوظ في ألعاب المعلومات غير الكاملة مثل البوكر. لكن “ديب مايند” تدّعي أن نموذج “لاعب الألعاب” هو أول “خوارزمية بحث عامة وسليمة” تحقق أداءً قويًا عبر كل من ألعاب المعلومات المثالية وغير الكاملة.

وعلى الرغم من أن نموذج “لاعب الألعاب” يقبل للتعميم بشكلٍ كبير، إلا أنه لا يستطيع لعب أي لعبة. إذ أنّ النظام يحتاج إلى التفكير في جميع وجهات النظر الممكنة لكل لاعب في حالة وجوده داخل اللعبة. وبينما لا يوجد سوى منظور واحد في ألعاب المعلومات المثالية، يمكن أن يكون هناك العديد من وجهات النظر المماثلة في ألعاب المعلومات غير الكاملة. علاوةً على ذلك، وعلى عكس نموذج “MuZero”، خليفة ديب مايند لنموذج “AlphaZero”، يحتاج “لاعب الألعاب” أيضًا إلى معرفة قواعد اللعبة التي يلعبها، بينما يمكن لـ “MuZero” أن يلتقط قواعد ألعاب المعلومات المثالية أثناء اللعب.

في بحثها، قيّمت “ديب مايند” برنامج “لاعب الألعاب” -الذي تم تدريبه باستخدام شرائح تسريع TPUv4 من جوجل- على الشطرنج ولعبة اللوحة الصينية الشهيرة “غو” (Go) ولعبة البوكر ولعبة اللوحة الإستراتيجية سكوتلاند يارد. بالنسبة إلى “غو”، أقامت بطولة من 200 لعبة بين AlphaZero و “لاعب الألعاب”، أما بالنسبة للشطرنج، جعلت “ديب مايند” برنامج “لاعب الألعاب” يلعب ضد الأنظمة الأخرى عالية الأداء بما في ذلك “GnuGo” و “Pachi” و “Stockfish” بالإضافة إلى “AlphaZero”. بينما تم لعب جولة البوكر الخاصة بـ “لاعب الألعاب” باستخدام منصة Slumbot المتاحة علنًا على الإنترنت للعب البوكر مع الآلة، ولعبت خوارزمية “لاعب الألعاب” لعبة سكوتلاند يارد ضد روبوت أطلق عليه باحثو “ديب مايند” اسم “PimBot”.

في لعبتيّ الشطرنج و “غو”، أثبت لاعب الألعاب أنه أقوى من نماذج “Stockfish” و “Pachi” في تكوينات معينة -ولكن ليس كلها- وفاز بنسبة 0.5% من ألعابه ضد “AlphaZero”. لكن على الرغم من الخسائر الفادحة ضد “AlphaZero”، تعتقد ديب مايند أن “لاعب الألعاب” كان يؤدي على أعلى مستوى من مستويات الهواة البشريين، وربما حتى على المستوى الاحترافي. بينما كان أداء “لاعب الألعاب” أفضل في ألعاب البوكر وسكوتلاند يارد. 

مستقبل لا يقتصر على الألعاب

يعتقد مارتن شميد؛ أحد مطوّري “لاعب الألعاب” ومؤلفي الورقة البحثية، أن “لاعب الألعاب” هو خطوة كبيرة نحو أنظمة لعب عامة حقيقية، وبالتأكيد لن يكون آخرها. وكان الاتجاه العام في التجارب هو أن أداء الخوارزمية يكون أفضل بالنظر إلى موارد حسابية أكثر (تم تدريب لاعب الألعاب على مجموعة بيانات من 17 مليون “خطوة” أو إجراءات للعبة سكوتلاند يارد وحدها)، ويتوقع شميد أن هذا النهج سيتوسع في المدى المنظور مستقبل.

بطبيعة الحال، فإن الأساليب التي تفضّل كميات هائلة من الحوسبة تضع المؤسسات ذات الموارد الأقل، مثل الشركات الناشئة والمؤسسات الأكاديمية، في وضع غير مواتٍ للمواكبة. وتجلّى ذلك بشكلٍ خاص في مجال اللغة، حيث حققت النماذج الضخمة مثل “GPT-3” من “OpenAI” أداءً رائدًا ولكن بمتطلباتٍ للموارد تبلغ عشرات ملايين الدولارات وتتجاوز ميزانيات معظم مجموعات البحث.

وترتفع التكاليف أحيانًا عمّا يعتبر مقبولاً حتى في شركة ذات تمويلٍ ضخم مثل “ديب مايند”. بالنسبة إلى “AlphaStar”، لم يستطع باحثو الشركة تجربة طرقًا متعددة لتصميم المكوّن الرئيسي لأن تكلفة التدريب كانت ستكون عالية جدًا بالنسبة للمديرين التنفيذيين.

ويُذكر أن “ديب مايند” لم تحقق أرباحها الأولى حتى العام الماضي، رغم تأسيسها عام 2010. إذ جنت 1.13 مليار دولار أمريكي في الإيرادات. بينما في عام 2019، سجلت “ديب مايند” خسائر بقيمة 572 مليون دولار مع ديونٍ وصلت إلى المليار دولار.

تشير التقديرات إلى أن تدريب “AlphaZero” كلف عشرات الملايين من الدولارات. بينما لم تكشف “ديب مايند” عن ميزانية البحث الخاصة بـ “لاعب الألعاب”، ولكن ليس من المحتمل أن تكون منخفضة بالنظر إلى أن عدد خطوات التدريب لكل لعبة يتراوح بين مئات الآلاف إلى الملايين.

نظرًا لأن البحث ينتقل في النهاية من الألعاب إلى المجالات التجارية الأخرى؛ مثل توصيات التطبيقات، وتحسين تبريد مراكز البيانات، والتنبؤ بالطقس، ونمذجة المواد، والرياضيات، والرعاية الصحية، وحسابات الطاقة الذرية، فمن المرجح أن تتجلى الفروقات بين هذا النظام والأنظمة الأخرى والبشر بشكلٍ أوضح. وهذا ما يتأمله شميد وزملاؤه المؤلفون المشاركون في الورقة البحثية، حيث كتبوا: “السؤال المثير للاهتمام هو ما إذا كان هذا المستوى من اللعب يمكن تحقيقه بموارد حسابية أقل”، تاركين الإجابة للمستقبل..

هل أعجبك المحتوى وتريد المزيد منه يصل إلى صندوق بريدك الإلكتروني بشكلٍ دوري؟
انضم إلى قائمة من يقدّرون محتوى إكسڤار واشترك بنشرتنا البريدية.