"Dormammu ، جئت للاتفاق": خوارزمية للتعاون متبادل المنفعة مع شخص



تأملات في موضوع الذكاء الاصطناعي كانت تزور عقول الناس العظماء لقرون عديدة. مع مرور الوقت وتطور التكنولوجيا ، تحولت الأفكار إلى التنفيذ ، ونظريات إلى الممارسة ، والخيال العلمي إلى المستقبل الحقيقي للبشرية. الجوهر الرئيسي للذكاء الاصطناعي هو مساعدة الناس. وبعبارة أخرى ، يجب أن تخدم الآلات الذكية شخصًا بالكامل ، دون انتهاك القوانين الأساسية للروبوتات ، والتي عبر عنها إسحاق أسيموف سيئ السمعة. لكن مثل هذا التفاعل ، إذا فكرت في الأمر على الأرض ، لديه ناقل واحد فقط: قال الشخص - قامت منظمة العفو الدولية. أي أن عمل الذكاء الاصطناعي يستهدف الإنسان فقط. ولكن ماذا لو اعتقدت منظمة العفو الدولية بما يتماشى مع الخير لكلا جانبي التفاعل؟ كيف تعلم سيارة للتنازل والتفاوض وحتى التفاوض مع شخص ما؟ حسنًا ، هذه الأسئلة بالتحديد هي التي تعطي دراسة اليوم إجابات ، حيث تم إنشاء خوارزمية تسمح للآلة بالتوصل إلى اتفاق مفيد للطرفين مع شخص. دعونا نلقي نظرة فاحصة على هذه القضايا. دعنا نذهب.

فكرة البحث

لاحظ الباحثون أنه منذ أن بدأ تورينج في الحديث عن الذكاء الاصطناعي ، حاول الإنسان إنشاء آلة يمكنها تجاوزها في شيء ما. بطريقة أو بأخرى ، نحن جميعًا على دراية بالعديد من المسابقات والمسابقات والتجارب عندما يتنافس الشخص مع آلة (الشطرنج والبوكر وحتى فنون الدفاع عن النفس). ومع ذلك ، حتى الآن تم إيلاء القليل من الاهتمام لنوع مختلف من التفاعل بين الإنسان والآلة. بعد كل شيء ، ليس دائمًا في الحياة مجرد نصر أو هزيمة. في بعض الأحيان يكون الإجماع ضروريًا عندما يتم تلبية احتياجات و / أو رغبات طرفين.

من الخطأ اعتبار عمل الذكاء الاصطناعي حصريًا من موقف "نعم أو لا" ، لأنه يوجد دائمًا خيار "ربما".

تمكن العلماء من إنشاء خوارزمية يمكنها تقييم الوضع ، وموازنة الإيجابيات والسلبيات ، وتحديد الأولويات والوصول إلى حل وسط. للتحقق من تشغيل الخوارزمية ، تم استخدام ألعاب عشوائية متكررة * .
لعبة عشوائية * هي لعبة متكررة مع لاعب واحد أو أكثر ، عندما تتغير حالتها باستمرار بترتيب عشوائي.
إن إنشاء خوارزمية يمكنها العمل في مثل هذه الظروف "العائمة" ليست مهمة سهلة. لكي تعمل بكفاءة ، يجب أن تحتوي الخوارزمية على بعض الميزات. مزيد من المعلومات عنها بمزيد من التفصيل.

أولاً ، لا يجب أن تكون الخوارزمية موجهة للموضوع ، أي أنها يجب أن تعمل في عدد غير محدود من السيناريوهات (في هذه الحالة ، اللعبة). ويطلق العلماء على هذه الميزة اسم "العالمية".

ثانيًا ، يجب أن تتعلم الخوارزمية بناء علاقات ناجحة مع أي شخص / خوارزميات دون التعرف على سلوكهم أولاً. هذه "مرونة". لتحقيق ذلك ، يجب أن تأخذ الخوارزمية في الاعتبار أن شريكها-الخصم دائمًا ما يلتزم بالسلوك التشغيلي ، أي يريد استخدام الخوارزمية حصريًا لمصلحته الخاصة. ونتيجة لذلك ، يجب عليه تحديد متى وكيف يجذب التعاون من الذي لا ينوي التعاون على الأرجح.

وأخيرًا ، ثالثًا ، يجب أن تعمل الخوارزمية بسرعة ، خاصة عند اللعب مع شخص. تسمى هذه الميزة "سرعة التعلم".

بكلمات ، كل شيء جميل جداً ، واضح وبسيط. ولكن في الواقع ، فإن تحقيق هذه الخصائص محفوف بالصعوبات. ناهيك عن حقيقة أن القدرة على التكيف مع الخصم يمكن أن تكون معقدة بسبب حقيقة أن الخصم نفسه يعرف كيف يتكيف. هذه مشكلة ، لأن خوارزميتي التكيف ، على الرغم من كل محاولاتهم للتكيف مع بعضها البعض ، لا يمكن أن تصل إلى حل وسط.

يلاحظ العلماء أيضًا أنه أثناء التفاعل بين شخصين ، فإن إحدى الأدوات المهمة لتحقيق نتائج مفيدة للطرفين هي الأشياء التي يصعب ربطها بآلة ، مثل الحدس والعواطف والغرائز وما إلى ذلك. وقد ثبت أن "الحديث الرخيص" يرافق بقوة نتائج مفيدة للطرفين.
الحديث الرخيص * - في نظرية اللعبة ، هذا تفاعل بين لاعبين لا يؤثر بشكل مباشر على نتيجة اللعبة. وبعبارة أخرى ، "محادثة خارج الموضوع".
قرر الباحثون تنفيذ ذلك في خوارزميتهم ، مما يساعده على التعامل بشكل أفضل مع حسابات المواقف المعقدة وتطوير فكرة مشتركة عن الموقف مع الشخص. على الرغم من أنه حتى الآن لا يزال من غير الواضح كيف ستطبق الخوارزمية هذه "المهارات" بالتزامن مع ميزاتها الرئيسية (المرونة والعالمية وسرعة التعلم).

الهدف الرئيسي من الدراسة هو دراسة أكبر عدد ممكن من الخوارزميات الموجودة ، وتطوير خوارزمية تستند إلى التعلم الآلي مع آلية للاستجابة للإشارات وتوليدها بمستوى مفهومة للبشر ، وإجراء العديد من ألعاب الألعاب التجريبية لإثبات قابلية تعلم الخوارزمية وقدرتها على التكيف مع مختلف الخصوم (الناس أو خوارزميات أخرى).

إجراء ونتائج الدراسة

توجد خوارزميات السلوك الاستراتيجي في الألعاب المتكررة في العديد من جوانب المجتمع: الاقتصاد ، علم الأحياء التطوري ، الذكاء الاصطناعي ، إلخ. في الوقت الحالي ، تم إنشاء العديد من هذه الخوارزميات ، لكل منها مجموعة من المزايا الخاصة به. بطبيعة الحال ، قرر العلماء استخدامها لتطوير خوارزمية. وهكذا ، تم اختيار 25 خوارزمية.

تم تحديد ستة مؤشرات للأداء على أساس ثلاثة خيارات للعبة: 100 و 1000 و 50000 طلقة.

مؤشرات الأداء:

  • متوسط ​​قيمة Round-Robin * ؛
  • أفضل نتيجة
  • أسوأ نتيجة النتيجة ؛
  • ديناميات الناسخ * ؛
  • بطولة المجموعة الأولى ؛
  • بطولة المجموعة الثانية.
Round-Robin * - نوع من تفاعل اللعبة ، عندما يلعب كل مشارك بالتناوب مع جميع المشاركين الآخرين أثناء الجولة.
المعادلة المكررة * هي ديناميات لعبة غير خطية رتيبة حتمية تستخدم في نظرية اللعبة التطورية.
يتيح لنا المؤشر الأول (متوسط ​​قيمة Round-Robin) فهم مدى قدرة الخوارزمية على إقامة علاقات مفيدة مع مجموعة متنوعة من شركاء الألعاب.

المؤشر الثاني (أفضل نتيجة) هو عدد الخوارزميات الشريكة في اللعبة التي حصلت بها الخوارزمية التي تم التحقيق فيها على أكبر عدد من النقاط. يتم التعبير عنها كنسبة مئوية. يعكس هذا المؤشر عدد المرات التي ستكون فيها الخوارزمية خيارًا مرحبًا ، نظرًا للمعلومات حول خوارزمية شريك اللعبة.

المؤشر الثالث (أسوأ نتيجة بالنقاط) هو تقييم قدرة الخوارزمية على ربط خسائرها (أخطاء ، أخطاء).

تهدف المؤشرات الثلاثة المتبقية إلى تحديد استقرار الخوارزمية لمجموعات سكانية مختلفة.

على سبيل المثال ، البطولة (مجموعة -1) هي سلسلة من الألعاب التي يتم فيها تقسيم الخوارزميات إلى 4 مجموعات. يتقدم قادة كل مجموعة إلى النهائيات ، حيث يتم تحديد الفائز الوحيد. ولكن في بطولة المجموعة 2 ، يتم اختيار أفضل خوارزميات من كل مجموعة ، والتي تذهب إلى الدور نصف النهائي ، ثم يذهب الفائزون إلى المباراة النهائية ، حيث يتم تحديد أفضل خوارزمية فقط.

وفقًا للعلماء ، لم تشارك أي من الخوارزميات المختارة (25 قطعة) سابقًا في مثل هذا التحقق على نطاق واسع (العديد من الشركاء والمؤشرات المقاسة). يُظهر هذا الفحص مدى جودة عمل كل خوارزميات في لعبة عادية مع مشاركين ، ولا يتم "برمجته" لسيناريو معين.


الجدول 1: نتائج تجريبية تشمل 25 خوارزمية سلوك استراتيجي مختلفة.

النتائج التي تم الحصول عليها هي مجرد أداة تسمح لك بفهم إيجابيات وسلبيات خوارزمية معينة بشكل أفضل. على سبيل المثال ، أظهرت خوارزميات gTFT و WSLS و Mem-1 و Mem-2 نتائج ممتازة في "معضلة السجين" * .
معضلة السجين * - في نظرية اللعبة ، حالة لا يكون فيها اللاعبون مستعدين دائمًا للتعاون ، حتى لو كان ذلك مفيدًا لهم. في هذه الحالة ، للاعب ("السجين") اهتماماته الخاصة بالأولوية ، ولا يفكر في فوائد الآخرين.
ومع ذلك ، أظهرت هذه الخوارزميات نفسها نتائج ضعيفة في جميع ألعاب 2x2 ، مما يشير إلى عدم كفاءتها في التفاعلات الأطول. لذلك ، لا يمكنهم التكيف مع سلوك الشريك (لاعب آخر).

ملاحظة مضحكة كانت حقيقة أن خوارزميات Exp3 و GIGA-WoLF و WMA ، والتي هي أساس خوارزميات بطولة العالم للبوكر ، أظهرت أيضًا نتيجة سيئة. وهو أمر واضح تمامًا ، لأن خوارزمية البوكر يجب ألا تتعاون مع لاعبين آخرين ، بل تتفوق عليهم وتهزمهم.

إذا أخذنا في الاعتبار جميع المؤشرات ككل ، فإن خوارزمية واحدة تبرز - S ++ ، والتي أظهرت نفسها بشكل مثالي في جميع أنواع الألعاب مع فحص جميع التركيبات الممكنة. بالإضافة إلى ذلك ، تجدر الإشارة إلى أنه بالنسبة لمعظم الخوارزميات ، حدث تطور سلوك التعاون فقط بعد آلاف الجولات. بالنسبة لـ S ++ ، استغرقت هذه العملية بضع جولات فقط ، مما يجعلها خيارًا رائعًا ، نظرًا لأهمية هذا المؤشر في لعبة لا تتضمن خوارزمية ، ولكن شخصًا حيًا. كلما زادت سرعة "الخوارزمية المختبرة" تدرك ضرورة وربحية التعاون والحلول الوسط ، كلما كانت أسهل وأسرع في تحقيق ذلك.


نتائج التجربة "S ++ ضد البشر".

أظهر تفاعل S ++ مع الخوارزميات الأخرى نتيجة جيدة ، لذلك كان من الضروري التحقق من كيفية تصرف S ++ في العمل مع الأشخاص الأحياء.

تضمنت التجربة (4 ألعاب متكررة من 50 طلقة أو أكثر) خوارزميات S ++ و MBRL-1 ، بالإضافة إلى مجموعة من الأشخاص. نتائج هذه التجربة مرئية في الرسوم البيانية أعلاه. نرى أن إنشاء تعاون S ++ مع نسخته ممتاز ، لكن هذه العملية لا تتسق مع الناس. علاوة على ذلك ، تمكنت S ++ من تحقيق تعاون طويل الأمد مع شخص في أقل من 30 ٪ من الجولات. ليست النتيجة الأكثر تشجيعًا ، لكن الأشخاص الذين يلعبون مع الناس فشلوا أيضًا في إقامة تعاون طويل الأمد.

على الرغم من بروز S ++ بين الخوارزميات الأخرى ، إلا أن هذا لم يسمح له بأن يصبح فائزًا واضحًا في هذه الدراسة. لا يمكن لأي من الخوارزميات الخمسة والعشرين أن تثبت القدرة على بناء علاقات تعاونية طويلة الأمد مع لاعب بشري.

S #: خوارزمية تعاونية بشرية

كما ذكرنا سابقًا ، يلعب جانب مثل "المكالمات الرخيصة" دورًا مهمًا في تحقيق تعاون طويل الأمد بين الأطراف ، ومع ذلك ، لم يتم تنفيذ مثل هذه التقنية مسبقًا في أي من الألعاب المذكورة أعلاه. لذلك ، قرر العلماء إنشاء نسختهم الخاصة ، والتي ستسمح للاعبين باستخدام هذه التقنية ، ولكن إلى حد محدود - رسالة واحدة في بداية كل جولة.

بالنسبة لشخص ما ، هذه المحادثات طبيعية. ومع ذلك ، بالنسبة للآلة التي تهدف إلى حل مشكلة وستفعل ذلك ، ما هو منطقي ، مثل أشكال التفاعل هذه غريبة. تقود فكرة إدخال مثل هذا السلوك العلماء مباشرة إلى مفهوم مثل "الذكاء الاصطناعي القابل للتفسير" ("الذكاء الاصطناعي القابل للتفسير") ، عندما تكون أفعال الآلة مفهومة بسهولة للبشر. تكمن المشكلة في أن معظم الخوارزميات المستندة إلى التعلم الآلي لها تمثيل داخلي منخفض المستوى ، والذي يصعب التعبير عنه على مستوى مفهوم للبشر.

لحسن الحظ ، تتمتع البنية الداخلية لـ S ++ بمستوى عالٍ للغاية ، مما يسمح باستخدامها كأساس لتطبيق تقنية "الكلام الرخيص". قدمت S ++ إطار عمل اتصالات يسمح لك بإنشاء "مكالمات رخيصة" والرد عليها.


تم استدعاء شكل جديد من خوارزمية S ++ S #.

تُظهر الصورة (أ) مخطط الخوارزمية ، و ) تُظهر مخطط التفاعل مع شريك في اللعبة باستخدام تقنية "الكلام الرخيص". أيضًا في b ، يمكننا التعرف على العبارات التي يمكن أن تنتجها خوارزمية S # ونوع الاستجابة التي يتوقعها لعبارة معينة.

وبالتالي ، فإن S # قادر على الرد على "إشارات" (عبارات وأفعال) اللاعب الشريك ، مما يسمح له بتحديد التكتيكات التي سيطبقها بعد ذلك. جنبًا إلى جنب مع درجة عالية من التعلم الذاتي لخوارزمية S ++ الأصلية ، يمكن للخوارزمية الناتجة إنشاء علاقات مفيدة متبادلة طويلة الأمد مع لاعب أو شخص أو خوارزمية أخرى.

من أجل التحقق من هذا البيان ، نظم العلماء تجربة مع 220 شخصًا. تم لعب ما مجموعه 472 مباراة متكررة. تم تضمين تقنية "الكلام الرخيص" أيضًا في التجربة ، ولكن ليس دائمًا. وتم إخفاء هويات اللاعبين ، لذلك لم يعرف أحد (لا الخوارزمية ولا الناس) مع من يلعبون.


نتائج التجربة ضمت 220 شخصا.

عندما لم يتم تضمين "الحديث الرخيص" في عملية اللعبة ، لم يؤد التفاعل بين الإنسان أو الشخص - S # إلى تعاون طويل الأمد. عندما تم تضمين هذه التقنية في اللعبة ، تضاعفت مؤشرات التعاون.



يعرض الرسم البياني (أ) نوع العبارات التي تم استخدامها أثناء لعبة الشخص وخوارزمية S # (الكراهية أو التهديد أو التحكم أو المديح أو التخطيط).

بعد التجربة ، طُلب من جميع المشاركين تقييم درجة ذكاء شركائهم في اللعبة ، ومدى وضوح نواياهم وفائدة التفاعل معهم. نتائج المسح على الرسم البياني (ب) . الأكثر تسلية هو الجدول ( الجداول ) . يظهر النسبة المئوية لعدد المرات التي اعتبر فيها الشخص أو الخوارزمية أن شريكه في اللعبة إنسان. كما ترون ، شعر معظم المشاركين من البشر أن S # هو شخص.

يلاحظ العلماء أيضًا أن نتائج S # أفضل حتى عند مقارنتها بكيفية تفاعل أزواج الأشخاص و S # -S #. درجة حدوث العلاقات التعاونية طويلة الأمد بين شخص و S # هي تقريبًا على نفس المستوى مثل زوج شخص-شخص. والزوج S # -S # بدون استخدام تقنية "الكلام الرخيص" له نتيجة أفضل بكثير من الزوج - الشخص الذي أتيحت له الفرصة لاستخدامه.

تلخيصًا لكل ما سبق ، أظهرت خوارزمية S # نتائج يمكن وضعها على قدم المساواة مع نتائج التفاعل بين الأشخاص.

ألعاب عشوائية متكررة

جعلت الألعاب من النوع العادي من الممكن فهم أن خوارزمية S # هي ناقل واعد للبحث. ومع ذلك ، فإن هذه الألعاب محدودة ، فهي أكثر تجريدية. لذلك ، قرر العلماء استخدام لعبة عشوائية متكررة حيث يجب على المشاركين فصل الكتل من الأشكال والألوان المختلفة. بالنسبة لخوارزمية S # ، تمت إضافة عبارتي "دعونا نتعاون" و "أحصل على المزيد من النقاط". بالإضافة إلى ذلك ، كانت S # محدودة في استخدامها لتقنية "الكلام الرخيص" - يمكنها استخدام العبارات ، ولكن لا يمكنها الرد على عبارات من لاعب بشري.


مخطط اللعبة مع كتل متعددة الألوان (مربع ودائرة ومثلث).

جوهر اللعبة على النحو التالي. كل لاعب لديه مجموعة من 9 كتل (مختلفة بالطبع). في كل دور ، يقوم اللاعب بإزالة كتلة واحدة من مجموعته حتى يكون لديه 3 فقط. يجب أن تلبي هذه الكتل الثلاثة المتطلبات (نفس الشكل / اللون أو شكل ولون مختلفين في نفس الوقت). كل كتلة تكلف كمية معينة من النقاط (النقاط). إذا لم يكن الكتلة مناسبًا ، فسيصبح هذا الرقم سالبًا. يوضح الرسم البياني أعلاه 5 خيارات لنتائج اللعبة.


استخدام وعدم استخدام "مكالمات رخيصة".

عند اللعب بين الناس ، لم يؤثر استخدام "الكلام الرخيص" بشكل كبير على نتائجه. ومع ذلك ، زادت هذه التقنية بشكل كبير نتيجة خوارزمية S # في لعبة مع شخص.

اختلافات S # عن الخوارزميات الأخرى

تجاوزت خوارزمية S # جميع المواضيع الأخرى ، ولكن لماذا؟ ما خصائص هذه الخوارزمية التي ميزتها عن عدد من المنافسين؟ وقد أحصى العلماء ما يصل إلى ثلاثة.

أولاً ، إنها القدرة على توليد الإشارات المناسبة (العبارات والأفعال) والاستجابة لها والتي يمكن أن يفهمها البشر. وهذا يجعل هذه الخوارزمية مرنة للغاية وقادرة على التطور اعتمادًا على الموقف. وبالطبع ، يسمح لك بتشكيل علاقات طويلة الأمد متبادلة المنفعة مع لاعبين آخرين.

ثانيًا ، يستخدم S # مجموعة متنوعة من الاستراتيجيات ، والتي تتيح لك التكيف مع لاعبين شركاء مختلفين وأنواع مختلفة من الألعاب. في الوقت نفسه ، لا يمكن للخوارزميات المصممة للعمل بكفاءة في سيناريو واحد محدد أن تعمل بشكل فعال خارج "منطقة الراحة" الخاصة بهم.

ثالثًا ، تحتفظ خوارزمية S # بحالة المنفعة المتبادلة ، في حين أن الخوارزميات الأخرى ، بعد أن تلقت ما تريده ، تتحول إلى استراتيجية مختلفة.


الرسوم البيانية لمدة حالة التعاون متبادل المنفعة.

كما يتبين من الرسم البياني أعلاه (أ) ، ينشئ S # اتصالًا مفيدًا للطرفين مع المشغل في وقت سابق عن الخوارزميات الأخرى. كما أن لديها حالة تعاون مفيد للطرفين مع عدد أكبر بكثير من الجولات من الخوارزميات المتنافسة (الرسم البياني (ب) ).

تظهر مرونة S # بوضوح من الرسم البياني (ج) ، حيث نرى أنه يصل إلى الهدف أكثر من غيره ، بغض النظر عن نوع اللعبة أو الشريك.

من غير المعتاد تمامًا تأكيد العلماء على أن خوارزمية S # قد تعلمت الإخلاص. والحقيقة هي أنه بعد إقامة التعاون في زوج S # -S # ، فإن الخوارزمية ليست في عجلة من أمرها لكسرها ، حتى عندما لا تكون هناك فائدة كبيرة في ذلك. وفي الوقت نفسه ، غالبًا ما ينهار التعاون بين الأزواج من رجل لرجل فور تحقيق الفوائد الضرورية قصيرة المدى. أدى هذا السلوك بطبيعة الحال إلى نتائج سيئة في نهاية المباراة لكلا الجانبين.

يمكن للراغبين في التعرف على تقرير العلماء العثور عليه هنا .

تتوفر مواد بحثية إضافية هنا .

الخاتمة

تختلف هذه الدراسة تمامًا عن غيرها من حيث أنها لا تهدف إلى إنشاء ذكاء اصطناعي قادر على هزيمة شخص ما في شيء ما ، ولكن إلى إنشاء ذكاء اصطناعي قادر على الاستعداد للتوافق. هل يعني هذا أن الأجهزة الذكية ستصبح أكثر إنسانية بفضل هذه الخوارزمية؟ ربما. , , , , .

, S# «». , . , .

شكرا لك على البقاء معنا. هل تحب مقالاتنا؟ هل تريد رؤية مواد أكثر إثارة للاهتمام؟ ادعمنا عن طريق تقديم طلب أو التوصية به لأصدقائك ، خصم 30 ٪ لمستخدمي Habr على نظير فريد من خوادم مستوى الدخول التي اخترعناها لك: الحقيقة الكاملة حول VPS (KVM) E5-2650 v4 (6 نوى) 10GB DDR4 240GB SSD 1Gbps من 20 $ أو كيفية تقسيم الخادم؟ (تتوفر الخيارات مع RAID1 و RAID10 ، حتى 24 مركزًا وحتى 40 جيجابايت DDR4).

3 Dell R630 — 2 Intel Deca-Core Xeon E5-2630 v4 / 128GB DDR4 / 41TB HDD 2240GB SSD / 1Gbps 10 TB — $99,33 , , .

ديل R730xd أرخص مرتين؟ فقط لدينا 2 x Intel Dodeca-Core Xeon E5-2650v4 128GB DDR4 6x480GB SSD 1Gbps 100 TV من 249 دولارًا في هولندا والولايات المتحدة! اقرأ عن كيفية بناء مبنى البنية التحتية الطبقة باستخدام خوادم Dell R730xd E5-2650 v4 بتكلفة 9000 يورو مقابل سنت واحد؟

Source: https://habr.com/ru/post/ar422263/


All Articles