هل نفذت AlphaStar السرعة الخارقة كرقعة لخطأ التدريب على المحاكاة؟

من المحتمل أن الجميع قد سمعوا بالفعل أن AI يُدعى AlphaStar من Google Deepmind قد لطخت المهنيين في إستراتيجية الوقت الفعلي لـ Starcraft 2 هذه حالة غير مسبوقة في أبحاث الذكاء الاصطناعي. لكنني أريد أن أعرب عن انتقادات بناءة لهذا الإنجاز.

سأحاول إثبات ما يلي بشكل مقنع:

  1. لعبت AlphaStar بسرعة فائقة الدقة والدقة.
  2. Deepmind تدعي أنها منعت الذكاء الاصطناعي من القيام بأعمال مستحيلة جسديًا للبشر. لم تنجح المطورين في هذا وربما يعرفون عن غير قادر.
  3. السبب الذي يجعل AlphaStar يلعب بسرعات خارقة على الأرجح هو عدم قدرته على التخلص من مهارة النقر المزعجة المكتسبة. أظن أن المطورين أرادوا جعل البرنامج أكثر إنسانية ، لكن لم يستطع. سوف يستغرق الأمر بعض الوقت لمقاربة هذه الأطروحة. ولكن هذا هو السبب الرئيسي وراء كتابة مقال ، لذا يرجى التحلي بالصبر.

بادئ ذي بدء ، أود أن أوضح أنني غير محترف. تابعت تطور الذكاء الاصطناعى ومشهد ستاركرافت 2 لسنوات عديدة ، لكنني لا أدعي أنني خبير. إذا لاحظت أي أخطاء ، يرجى الإشارة إليها. أنا مجرد معجب وكل هذا مثير بشكل لا يصدق بالنسبة لي. هناك الكثير من التكهنات في المقال ، وأعترف بأنه لا يمكنني إثبات الادعاءات الرئيسية بشكل قاطع. مع كل التحفظات ، إذا كنت قد قرأت المقال وتختلف معي ، فيرجى الجدال بناءً. أنا حقا أريدك أن تثني عني.

بعد كل شيء ، AlphaStar هو إنجاز رائع. في رأيي ، أعظم إنجاز لـ Deepmind اليوم ، وأنا أتطلع إلى كيفية زيادة تحسين هذا البرنامج. شكرا على سعة صدرك لذلك دعونا نذهب.

الخارقة سرعة AlphaStar


ديفيد سيلفر ، المدير المشارك لـ AlphaStar: "لا يمكن أن يستجيب AlphaStar بشكل أسرع ولا يمكنه إجراء المزيد من النقرات أكثر من اللاعب المباشر."


إليكم مصمم الذكاء الاصطناعى الرائد الذي أدلى ببيان مهم (من 1:39)

في عام 2018 ، سيطر Serral على مشهد Starcraft 2. إنه بطل العالم الحاكم ، وقد فاز بسبع من أصل تسع بطولات كبرى شارك فيها ، مما أدى إلى واحدة من أقوى الأمثلة على هيمنة اللاعب الواحد في تاريخ Starcraft 2. الرجل سريع جدًا. ربما الأسرع في العالم.

عرض أول شخص (من الساعة 13:00):


نلقي نظرة على APM له في الجزء العلوي الأيسر. هذا تخفيض لعدد الإجراءات في الدقيقة. في الواقع ، يعكس هذا الرقم مدى سرعة اللاعب في الضغط على أزرار الماوس ولوحة المفاتيح. لا يمكن لـ Serral الاحتفاظ بـ APM لأكثر من 500 لفترة طويلة.هناك زيادة واحدة تصل إلى APM 800 ، ولكن فقط لثانية واحدة على الأرجح ، نتيجة لنقرات البريد العشوائي ، والتي سأتحدث عنها قريبًا.

لذلك ، فإن أسرع لاعب في العالم قادر على الحفاظ على مستوى مثير للإعجاب من APM 500 ، لكن AlphaStar كان لديه ارتفاع يصل إلى 1500+. استمرت هذه المؤشرات غير البشرية التي تزيد عن APM 1000 أحيانًا خمس ثوانٍ وهي مليئة بالإجراءات الهادفة. 1500 إجراء في الدقيقة هو 25 إجراء في الثانية. هذا مستحيل جسديا للبشر. أيضًا ، يرجى العلم أن خمس ثوانٍ في Starcraft هي وقت طويل ، خاصة في بداية معركة كبيرة. إذا كان المعدل الخارق في الثواني الخمس الأولى يمنح الذكاء الاصطناعي ميزة ، فسينتصر بسهولة في المعركة بفضل تأثير كرة الثلج. هذه هي بداية معركة AlphaStar في المباراة الثالثة ضد مانا (من 59:30):


AlphaStar يحمل APM 1000+ لمدة خمس ثوان. تعقيد آخر في اللعبة الرابعة مع APM 1500+ (ارتفاع 2:11:32)


يشير أحد المعلقين إلى متوسط ​​APM مقبول. لكن من الواضح أن هذه الانفجارات أعلى بكثير من القدرات البشرية.

نقرات غير مرغوب فيها ، APM ، ودقة روبوت الجراحية


معظم اللاعبين عرضة لنقرات البريد العشوائي. النقرات التي لا معنى لها والتي لا تؤثر على أي شيء. على سبيل المثال ، يقوم شخص بنقل الجيش ولسبب ما ينقر عدة مرات في الوجهة. ما تأثير؟ لا شيء الجيش لن يذهب بشكل أسرع. كان نقرة واحدة كافية. ثم لماذا يفعل هذا؟ هناك سببان:

  1. يُعد النقر غير المرغوب فيه أحد الآثار الجانبية الطبيعية عندما يحاول الشخص النقر فوقها في أسرع وقت ممكن.
  2. يساعد الاحماء أصابعك.

تذكر سيرال؟ قوتها المثيرة للإعجاب في الواقع ليست في السرعة ، ولكن في الدقة. لا يحتوي هذا التطبيق على APM عالية جدًا فحسب ، ولكنه فعال أيضًا بشكل مذهل (إجمالي النقرات في الدقيقة ، باستثناء نقرات البريد العشوائي). من الآن فصاعدًا ، سأقوم بتخفيض APM الفعال مثل EPM. من المهم أن تتذكر أن EPM لا يفكر إلا في أعمال ذات معنى.

ألقِ نظرة على كيف خسر أحد المحترفين السابق عقله على Twitter عندما تعرف على EPral الخاص بـ Serral:


له EPM 344 ​​هو مؤشر غير واقعي تقريبا. إنه طويل جدًا لدرجة أنه لا يزال من الصعب علي أن أصدق أن هذا حقيقي. كما أثر الفرق بين APM و EPM على AlphaStar. إذا كان بإمكان الذكاء الاصطناعي اللعب دون نقرات غير مرغوب فيها ، فهل هذا يعني أن ذروته في EPM تساوي أحيانًا ذروة APM؟ هذا يجعل العواصف تصل إلى 1000+ أكثر إنسانية. عندما نأخذ في الاعتبار أن AlphaStar يلعب بدقة فائقة ، فإن قدراته الميكانيكية تبدو سخيفة تمامًا. دائمًا ما ينقر بالضبط حيث يريد النقر. يفوت الناس ، ويبدأ AlphaStar في اللحظات المناسبة العمل أربع مرات أسرع من أسرع لاعب في العالم - بدقة لا يمكن لأي شخص أن يحلم بها.

يوافق الجميع في المجتمع تقريبًا على أن AlphaStar قام بإجراء تسلسلات لا يستطيع أي إنسان تكرارها. لقد كان أسرع وأكثر دقة من الناحية البدنية. الأسرع في العالم هو أبطأ عدة مرات. لا يمكن مقارنة الدقة.

ادعاء ديفيد سيلفر أن AlphaStar يمكنه فقط تنفيذ تصرفات يمكن لأي شخص إعادة إنتاجها هو ببساطة غير صحيح.

هل كل شيء صحيح أو مجرد تشغيل السرعة؟


أوريول فينياليس ، كبير المهندسين المعماريين ، AlphaStar: "من المهم إتقان الألعاب التي يتم الاعتراف بها على أنها" تحديات أساسية لمنظمة العفو الدولية ". نحاول إنشاء أنظمة ذكية تتولى قدراتنا المدهشة ، لذلك من المهم جدًا أن يتعلموا إنسانيًا قدر الإمكان. بغض النظر عن مدى روعة الأصوات ، إلا أن تحقيق أقصى أداء في اللعبة ، مثل APMs المرتفعة جدًا ، لا يساعدنا حقًا في قياس قدرات وكلاءنا وتقدمهم ، مما يجعل المؤشر غير ذي فائدة. "

لماذا يريد Deepmind الحد من العامل للعب كشخص؟ لماذا لا ندعه يمضي بشكل سيء دون أي قيود؟ والسبب هو أنه في Starcraft 2 ، تدمر القوى العظمى الميكانيكية اللعبة. في هذا الفيديو ، يهاجم الروبوت مجموعة من الدبابات بعدة زركلينج ، مما يحقق الدقة الدقيقة. عادةً ما لا يمكن للانزلاق أن يفعل شيئًا تقريبًا ضد الدبابات ، ولكن بفضل الروبوتات ، تصبح الكائنات الدقيقة أكثر فتكًا: فهي تدمر الدبابات بأقل الخسائر. مع هذه الإدارة الجيدة للوحدة ، لا تحتاج الذكاء الاصطناعي إلى تعلم الإستراتيجية. بعد كل شيء ، Deepmind غير مهتم بإنشاء AI الذي يهزم ببساطة محترفي Starcraft ؛ في الواقع ، يريدون استخدام هذا المشروع كنقطة انطلاق في الترويج لأبحاث الذكاء الاصطناعى العامة. إنه لأمر محزن للغاية أن يعلن أحد مديري المشاريع عن وجود قيود بالإضافة إلى القدرات البشرية ، عندما ينتهك العميل بوضوح ويفوز بألعابه على وجه الدقة بفضل الإعدام الخارق.

AlphaStar متفوقة على الأشخاص في إدارة الوحدة - لم يتم أخذ هذا العامل في الاعتبار عندما قام المطورون بموازنة اللعبة بعناية. هذه السيطرة اللاإنسانية قادرة على إفساد أي تفكير استراتيجي اتقنته منظمة العفو الدولية. يمكن أن يجعل التفكير الاستراتيجي غير ضروري على الإطلاق. البرنامج ليس فقط عالقًا بحد أقصى محلي. إذا تم لعب اللعبة بالسرعة والدقة اللاإنسانية ، فمن المحتمل أن تكون إساءة استخدام وحدة التحكم المثالية هي أفضل الطرق وأكثرها فعالية وموثوقية للفوز. مهما كان حزينا يبدو.

إليكم ما قاله أحد المحترفين حول نقاط القوة والضعف في AlphaStar ، حيث خسر أمامه بنتيجة 1-5:

مانا: "أود أن أقول إن أفضل ما لديه هو إدارة الوحدات. هزم AlphaStar جميع الألعاب بنفس عدد الوحدات تقريبًا. أسوأ جانب في عدد قليل من الألعاب هو الرفض العنيد للترقية. لقد كان مقتنعًا جدًا بفوز الوحدات الأساسية إلى درجة أنه لم يرفع أي شيء عمليًا ، والذي دفع مقابله في مباراة المعرض [المباراة الأخيرة مع مانا ، حيث خسر الذكاء الاصطناعى - تقريبا. عبر.]. لم تكن هناك لحظات حاسمة كثيرة في صنع القرار ، لذلك أود أن أقول إن الميكانيكا أصبحت السبب وراء النصر ".

بين مشجعي ستار كرافت ، أصبح بالإجماع تقريبًا أن فاز ألفا ستار حصريًا تقريبًا بسبب سرعته الفائقة ووقت رد فعله ودقته. يبدو أن الايجابيات التي لعبت ضده تتفق مع ذلك. لعب موظف Deepmind ضد AlphaStar قبل تشغيل البرنامج ضد المحترفين. على الأرجح ، سوف يوافق أيضًا على مثل هذا التقييم. يعيد David Silver و Oriol Vinyals تعويذة أن AlphaStar قادر على فعل فقط ما هو شخص ، لكننا رأينا بالفعل أن هذا ببساطة ليس كذلك.

AlphaStar لا يبدو أنه "يفعل ذلك بشكل صحيح" ، كما يقول ديفيد (من 1:38):


هناك خطأ ما بوضوح هنا.

لماذا Deepmind تسمح AlphaStar سرعة خارقة؟


وأخيرا ، دعنا ننتقل إلى الشيء الرئيسي. شكرا لقراءة هذا المكان. ولكن أولا ، لتلخيص.

  • نحن نعرف ما هي نقرات APM و EPM والبريد العشوائي.
  • لدينا بعض الفهم للقدرات القصوى للإنسان.
  • تتناقض لعبة AlphaStar مباشرة مع ادعاءات المطورين حول حدودها.
  • وافق مجتمع Starcraft 2 على أن AlphaStar فاز بفضل السيطرة اللاإنسانية على الوحدات ولم يكن بحاجة إلى تفكير استراتيجي ممتاز.
  • Deepmind لا ينطلق لإنشاء روبوت سريع ، لذلك لا ينبغي أن يكون لعبت مثل هذا.
  • من غير المرجح أن يكون أي من فريق Starcraft AI يعتقد أن الشخص غير قادر على تكرار رشقات APM 1500+. يجب أن يعرف اختصاصي ستار كرافت المزيد عن ستار كرافت أكثر مني. إنهم يعملون عن كثب مع Blizzard ، التي تمتلك الملكية الفكرية في StarCraft. من مصلحتهم (انظر الفقرة السابقة ، وكذلك تصريحات Silver and Vinyals) لجعل الروبوت يعمل أقرب ما يكون إلى الشخص.

بالنظر إلى كل هذه النقاط ، لماذا سمح Deepmind لمنظمة العفو الدولية بالتحايل صراحةً على حدود جسم الإنسان؟

هذه تكهنات خالصة من جانبي ، ولا أدعي معرفة القصة بالضبط. لكنني أظن أن ما يلي قد حدث:

في بداية المشروع ، وافق Deepmind على حدود ضيقة. في هذه المرحلة ، حظر AlphaStar رشقات APM الخارقة التي رأيناها في العرض التوضيحي. إذا قمت بتصميم النظام ، فسوف أقوم بتعيين هذه القيود:

  • أقصى متوسط ​​APM طوال اللعبة .
  • انفجار قصير الحد الأقصى من الألغام المضادة للأفراد . أعتقد أنه من الحكمة ضبطه على 4-6 نقرات في الثانية. تذكر سيرال و EPM 344 ​​، وهو خفض فوق المنافسة؟ هذا أقل من ست نقرات في الثانية. ضد MNA ، أنتج البرنامج 25 نقرة في الثانية لفترات طويلة من الزمن. هذا هو أسرع بكثير من أسرع نقرات البريد المزعج للشخص ، لذلك فمن غير المرجح أن القيود الأولية سمحت بذلك.
  • الحد الأدنى للوقت بين النقرات . حتى لو قمت بتحديد الحد الأقصى للسرعة أثناء رشقات نارية ، يمكن للبوت أن ينقر بسرعة كبيرة في لحظة وجيزة خلال الفاصل الزمني المسموح به ، والذي لا يستطيع الشخص القيام به.

يقترح البعض إضافة عنصر من العشوائية إلى دقة النقرات ، لكنني أظن أن هذا سوف يقلل من سرعة التعلم أكثر من اللازم.

لذلك ، وضع حدود. ما التالي؟ ثم بدأ Deepmind تدريبات محاكاة على الآلاف من ألعاب الفيديو للهواة الراقية. في هذه المرحلة ، يحاول الوكيل ببساطة تقليد ما يفعله الناس - ويتحكم في نقرات البريد العشوائي. هذا مرجح للغاية لأن الناس يصنعونهم كثيرًا. هذا هو النموذج الأكثر تكرارًا للسلوك لدى الأشخاص ، لذلك يجب أن يكون متجذرًا بعمق في سلوك العامل.

الحد الأقصى لرشقات APM في AlphaStar قريب في البداية من الحدود المحددة. ولكن تبين أن معظم نقرات AlphaStar هي نقرات غير مرغوب فيها ، لذلك فإن APM لم يكن كافيًا للقتال العادي. لكن بدون تجربة ، لا يوجد تدريب. إليكم ما قاله أحد المطورين في AMA بالأمس: أعتقد أنه لطخته قليلاً في هذا الاحتيال:

Oriol Vinyals ، المهندس المعماري الرئيسي ، AlphaStar: "تعليم AI للعب مع APM منخفض أمر مثير للاهتمام للغاية. في الأيام الأولى ، تدرب عملاؤنا باستخدام الألغام المضادة للأفراد منخفضة للغاية وكانوا عمومًا غير قادرين على الإدارة المصغرة. "

لتسريع عملية التعلم ، يقوم المطورون بزيادة حدود APM من خلال السماح بدفقات قصيرة. فيما يلي قيود APM التي كانت سارية المفعول لـ AlphaStar في تطابق تجريبي:

Oriol Vinyals: "على وجه الخصوص ، حددنا 600 APM بحد أقصى 5 فواصل زمنية و 400 APM بفواصل زمنية مدتها 15 ثانية و 320 لمدة 30 ثانية و 300 لمدة 60 ثانية. إذا أصدر الوكيل المزيد من الإجراءات في هذه الفواصل الزمنية ، فإننا نتجاهلها / نتجاهلها. هذه القيم مأخوذة من الإحصاءات البشرية. "

إذا لم تكن معتادًا على لعبة ستاركرافت ، فإن هذه الحدود تبدو معقولة ، لكنها تسمح بتفجيرات APM الخارقة للطبيعة ، التي تحدثنا عنها سابقًا ، فضلاً عن الدقة الفائقة عن البشر.

يوجد حد أقصى لعدد نقرات البريد العشوائي. عادة ما تكون هذه أوامر للتنقل أو الهجوم عند إجراء نقرة على الخريطة. حاول مدى السرعة التي يمكنك النقر فوق زر الماوس. تعلم العامل نقرات البريد العشوائي من اللاعبين ولن ينقر أسرع من أي شخص. أي أن نقرات APM الإضافية بسرعة تفوق البشر "تعسفية" لإجراء التجارب.

يستخدم APM التعسفي للتجارب المعركة. يحدث هذا التفاعل غالبًا أثناء التدريب. يبدأ AlphaStar في دراسة نوع جديد من السلوك يؤدي إلى نتائج أفضل ، ويتم تقليل نسبة البريد العشوائي في النقرات.

إذا تعلم الوكيل الفوائد ، فلماذا لم يرجع Deepmind إلى القيود الأكثر صرامة والأكثر إنسانية على APM؟ بالتأكيد أدركوا أن الذكاء الاصطناعي يدل على قدرات خارقة. لقد اعترف مجتمع Starcraft بالإجماع تقريبًا بالإدارة الجزئية غير الإنسانية لـ AlphaStar. وقال إيجابيات لـ AMA إن القوة الرئيسية لشركة AlphaStar هي سيطرتها على الوحدات ، وضعفها الرئيسي هو التفكير الاستراتيجي. يجب أن يكون لدى مطوري Deepmind نفس الاستنتاج. ربما السبب هو أن الوكيل لم يستطع التخلص من نقرات البريد العشوائي. على الرغم من أنه يتصرف بوضوح في معظم الوقت ، إلا أنه لا يزال يقع في نقرات غير مرغوب فيها بشكل منتظم. هذا واضح في المباراة الأولى ضد مانا ، عندما يرتفع ألفاستار (39:30):


ننظر بعناية في الدوائر الزرقاء مع وحدات تسليط الضوء

نقر وكيل البريد العشوائي على فرق لنقل الوحدات بسرعة 800 APM. لم يكن أبدًا غباءًا بشريًا مطلقًا ، على الرغم من أن هذه الإجراءات عديمة الفائدة تمامًا وتلتهم حد APM. علة خطيرة بشكل خاص خلال المعارك الكبيرة. ربما ، تم رفع حد APM لإصلاح المفصل والسماح للوكيل بالعمل بشكل طبيعي في مثل هذه الأوقات.

ما هو المهم جدا في هذا؟


أظن أن العميل لم يستطع التخلص من نقرات البريد العشوائي التي تعلمها أثناء تدريب المحاكاة على البشر. كان على Deepmind أن يعبث بحد APM لجعل التجريب والمزيد من التقدم ممكنًا. ومع ذلك ، ظهر تأثير جانبي غير سار للعبة الخارقة ، والتي بسببها ، في جوهرها ، ينتهك العميل القواعد ، ويكون قادرًا على تنفيذ الاستراتيجيات التي كانت محظورة عليه في البداية.

هذا شيء مهم ، لأن مثل هذا الضرب من المحترفين يناقض مباشرة المهمة التي ذكرها Deepmind مرارًا وتكرارًا. لهذا السبب ، فإن هذا الرسم البياني يترك طعم النفاق الحامض في الفم:



تم نشر هذه الصورة بواسطة Deepmind على مدونتها.

يبدو أن المخطط مصمم لتضليل الأشخاص غير المألوفين في Starcraft 2. وهو يصور APM المفترض أنها مقبولة من AlphaStar. ألقِ نظرة على APM MaNa وقارنها مع AlphaStar. على الرغم من أن المتوسط ​​أعلى في مانا ، إلا أن ذيل AlphaStar يتجاوز القدرات البشرية. يرجى ملاحظة أن MNa لديها ذروة APM تبلغ حوالي 750 ، في حين يبلغ ذروة AlphaStar أكثر من 1500. والآن ، ضع في اعتبارك أنه في شخص ما ، يتكون APM من أكثر من نصف نقرات غير مرغوب فيها ، و AlphaMar EPMs هي نقرات دقيقة تمامًا.

الآن نلقي نظرة على APMs في TLO. يترك الذيل لعام 2000. فكر في الأمر لثانية واحدة. كيف هذا ممكن؟ أصبح هذا ممكنًا بفضل خدعة تسمى "إطلاق النار السريع". TLO لا ينقر بسرعة فائقة. إنه يحمل فقط الزر - وتسجله اللعبة باسم 2000 APM. الشيء الوحيد الذي يمكنك فعله بالنار السريع هو البريد العشوائي بسرعة جنونية. هذا كل شيء. يستخدم TLO هذا فقط لسبب ما. لكن في الوقت نفسه ، فإن رشقات APM الخارقة للطبيعة من شركة AlphaStar ملثمين - والأرقام تبدو واقعية للأشخاص الذين ليسوا على دراية بـ Starcraft.

لا يحاول منشور مدونة Deepmind تفسير أرقام TLO السخيفة. إذا لم يشرحوا TLOs مبالغ فيها ، فلا ينبغي إدراجها في الجدول. النقطة.

هذه الإحصاءات قريبة بشكل خطير من كذبة. يجب على العقل العميق الالتزام بمعايير أعلى.

Source: https://habr.com/ru/post/ar437796/


All Articles