واشنطن (أ ف ب)

صمم فريق من المبرمجين في شركة بريطانية للذكاء الصناعي، لاعبين آليين في لعبة «كويك 3 أرينا»، تمكنوا من الانتصار بانتظام على مجموعة لاعبين من البشر. وورد عمل الباحثين في شركة «ديب مايند» التي تملكها مجموعة «ألفابت» الشركة الأم لـ «جوجل»، في مجلة «ساينس». وتشكل النتيجة هذه سابقة في هذا المجال.
وأثبتت الحواسيب حتى الآن، مراراً وتكراراً، تفوقها على البشر في ألعاب فردية مثل الشطرنج، منذ تغلب حاسوب «ديب بلو» من شركة «آي بي أم» على بطل العالم السابق جاري كاسباروف في 1997.
وفي عام 2017، تغلب لاعب آلي يتحلى بذكاء صناعي من «جوجل» على اللاعب المصنف أولاً في العالم في لعبة «جو».
إلا أن القدرة على المواجهة في لعبة يشارك فيها لاعبون عدة، وتقوم على العمل الجماعي والتفاعل في بيئات معقدة، كانت حتى الآن مهمة مستحيلة.
وفي إطار الدراسة، عمل الفريق بقيادة ماك جادربرج على نسخة معدلة من لعبة «كويك 3 أرينا»، التي أطلقت للمرة الأولى عام 1999، إلا أنها لا تزال تلقى رواجاً في مسابقات الألعاب الإلكترونية.
وقد اختار الفريق فئة «كابتشر ذي فلاج» (الاستيلاء على العلم) في اللعبة التي تقوم على العمل ضمن فريق لانتزاع علم الفريق الخصم مع المحافظة على علمهم الخاص، ما يرغم اللاعبين على وضع استراتيجيات معقدة تمزج بين الدفاع والهجوم.
وبعد تلقي العناصر الآلية التدريبات اللازمة، تواجهت مع مجربي ألعاب محترفين. وكتب الفريق: «حتى بعد 12 ساعة من الممارسة، لم يتمكن الفريق البشري من الفوز إلا بـ25% من المواجهات مع الفريق الآلي». وبقي ميزان الربح والخسارة لصالح فريق الذكاء الاصطناعي، حتى عندما تم إبطاء سرعة تفاعله وخفض قدرته على التصويب.
واستند المبرمجون إلى ما يعرف «بالتعليم المعزز» لإضفاء الذكاء على اللاعبين الآليين. وأوضح جادربرج: «في البداية، لم يكن اللاعبون الآليون يعرفون شيئاً وكانوا يتحركون بشكل عشوائي في كل الاتجاهات».
ولقّن اللاعبون الآليون مكافأة أنفسهم عند استيلائهم على العلم، لكن الفريق استحدث أيضاً سلسلة وسائل جديدة وابتكارية لتوسيع حدود ما هو ممكن من خلال التعليم المعزز». وأضاف جادربرج: «قد ساهمت هذه الدراسة خصوصاً في إظهار أن كل لاعب يستحدث نظامه الخاص للمكافأة الداخلية»، أي أن اللاعبين المجهزين بالذكاء الصناعي حددوا بأنفسهم قيمة المهمات المنجزة مثل الاستيلاء على العلم أو إصابة الخصم.
بعد ذلك، تبين للمبرمجين أن تدريب مجموعة اللاعبين الآليين معاً يجعل هذه المجموعة تتعلم بسرعة أكبر.
واستحدث المبرمجون كذلك هندسة جديدة لما يعرف بالتعلم «بسرعتين مختلفتين».
وأوضح جادربرج قائلاً: «لدينا جزء من اللاعب يتفاعل بسرعة كبيرة ويحدّث بياناته بسرعة، ولدينا جزء آخر من اللاعب يحدّث بياناته بسرعة أقل. نوعا البيانات يؤثران على بعضهما بعضاً ويحددان نظرة اللاعب إلى العالم».
ويفضل فريق «ديب مايند» عدم الرد على سؤال حول احتمال استخدام هذا النوع من الذكاء الصناعي لأغراض عسكرية. وسبق لشركة «ديب مايند» أن أكدت علناً التزامها عدم العمل مع القطاعات العسكرية أو المراقبة. وكلمة «إطلاق النار» لا ترد أبداً في المقال المنشور في مجلة «ساينس». وقال ماكس جادربرج: «نحن نستخدم الألعاب كبيئة فيها تحديات للغوص في مفاهيم عامة مثل التخطيط والاستراتيجية والذاكرة، التي نعتبرها أساسية في تطوير برامج حسابية تساعدنا على حل مشكلات في العالم الفعلي».