ما الذي أنهى اختبار تورينج الثالث: إحصائيات ومربعات حوار مثيرة وانطباع عام

في يوم السبت الموافق 16 فبراير ، اختتمت المسابقة الثالثة لعموم روسيا في تورينج ، والتي عقدت كجزء من المؤتمر الدولي حول الذكاء الاصطناعي Opentalks.AI يومي 14 و 16 فبراير.

الصورة

تحت الأرقام المختصرة ، الرسوم البيانية ، أفضل الحوارات في رأي فريق الخبراء.

الانطباع العام


وعموما ، ذهب اختبار تورينج جيدا. أبدت العديد من فرق "علماء النبات" اهتمامًا ، ولكن في النهاية تم تقديم 3 روبوتات فقط في المسابقة ، منذ 1.5 شهر فقط مرت من لحظة الإعلان وحتى بداية الاختبار. ونتيجة لذلك ، تم توزيع الجوائز بين هؤلاء المشاركين الثلاثة.

الجائزة برعاية MTS. تم وضع عرض على حاملهم ، حيث تم عرض إحصائيات اختبار تورينج على الإنترنت وتم عرض حوارات مثيرة للاهتمام التي مرت في وقت سابق على الإشراف.

كما ربط مختبر علم النانو روبوتاته ، ولكن لم يتم أخذها في الاعتبار عند اختيار الفائزين. كانت هذه روبوتات شقراء (يمكنك متابعة التواصل معها على هذا الرابط ) و Gopnik و Durov و Zharov (يمكنك أيضًا الدردشة معهم هنا ).

الأرقام والرسوم البيانية


الإحصاءات العامة للاختبار لمدة 3 أيام هي كما يلي:

الصورة

سبق أن تلقى المتطوعون الذين لعبوا دور الروبوتات تعليمات في كيفية احتياجهم لإجراء حوارات لإرباك المحاورين. استنادا إلى النتائج ، تعاملوا بشكل جيد مع مهمتهم. سيقوم شركاؤنا OpenTalks و MTS بمنح أفضل الجوائز النقدية لهم.

الصورة

ومن المثير للاهتمام ، أن الشخص يطرح بسهولة كبوت. في البداية ، لم يكن أداء متطوعي المؤتمر جيدًا ، لكنهم تعلموا في اليوم الثاني كيفية لعب دور الروبوت بشكل جيد. حتى أن البعض كانوا أذكياء: لقد تحولوا إلى Yandex.Alice على الهاتف المحمول لفهم أفضل طريقة للرد.

الصورة

كانت هناك مشاكل فنية مع روبوتاتنا. ونتيجة لذلك ، لم ينته عدد كبير من الحوارات ، لكننا لم نأخذها في الاعتبار عند تقييم النتائج. من الغريب أن الروبوتات تمكنت من التظاهر بأنها إنسان في 58 ٪ من الحالات (في ~ 34/59 ٪). هذه النسبة الكبيرة ، كما يبدو لنا ، ترجع لسببين:

  1. في هذه المسابقة ، ساعد الناس "الروبوتات" على الفوز من خلال لعب دور الروبوتات. في اختبار تورينج الكلاسيكي ، لا يشترط ذلك في القواعد: يتواصل الناس ببساطة دون أي غرض.
  2. اقتصر الحوار مع الشخص أو الروبوت على 12 ملاحظة. من الواضح أنه مع زيادة طول الحوار ، يزداد احتمال أن يدرك الشخص جوهر المحاور.

مثل هذه القيود جعلت الاختبار أقل علمية ، ولكن أكثر متعة. كانت اختبارات الماضي (2015 و 2016) أكثر صعوبة.

الفائزين


المركز الأول - الذئب الذئب


في اليوم الأول من الاختبار ، اشتكى المستخدمون من أن بعض المتطوعين كان وقحًا لهم. عند البحث عن هذا المتطوع في السجلات ، اتضح أنه في الواقع كان روبوت دردشة Wolfbot. بينما كنا نفرزها ، قمنا بتعليقها مؤقتًا من الاختبار ، لكن هذا في النهاية لم يمنع ولفي من أن تصبح فائزة في المسابقة! اعترف أكبر عدد من المحاورين (33.3 ٪) بأنه شخص.

مثال على الحوار مع الذئب ، حيث تم خطأ الروبوت لشخص ما:
H: مرحبا
ب: مرحبا! هاه؟
W: التطوع؟
ب: إلى :)
W: ما lunchbox كنت تأخذ؟
ب: آهه. هذا هو نوع من المصطلح العلمي.
ج: وأين هو؟
ب: لا تبحث عن علاقة سببية)
و: ماذا تفعل؟
ب: :) نعم ... عمل صافي للزوجين
ج: نعم ، أنا أوافق. لماذا تجنيد الكثير من المتطوعين
B: أعتبر مجانا ث :)
يوجين ، خالق "She-Wolf":
تاريخياً ، كُتبت جميع رسائل الرد من قبل أشخاص أحياء. في موضوع SEO الخاص بنا ، كان هناك دردشة شائعة تسمى "دردشة الذئب" (ومن هنا جاء اسم الروبوت). وضعت رسائل لتحليلها على التيجان وتم تحليلها لمدة أربع أو خمس سنوات. عن هذا الغرض في المستقبل - لجعل الروبوت. في المجموع ، تشكلت العديد من أزواج الأسئلة والإجابات. وفقًا للمتطوع الحي ، نختار "السؤال" الأكثر شبهاً به من الأرشيف باستخدام خوارزميات ML ونقدم الإجابة المناسبة. "

الروبوت متاح للتواصل بالرجوع إليه .

المركز الثاني - إلكترا بوت



مثال على الحوار الذي أخطأ فيه الروبوت في شخص ما:
H: مرحبا
ب: مساء الخير!
حسنًا
ب: ماذا؟
W: ماذا
ب: الصمت ، الصمت ... كل شيء على ما يرام.
H: لا
ب: حسنا ، فليكن.
و: كيف حالك؟
ب: أفضل من أمس. أسوأ من الغد. ولكن كما هو الحال دائما.
ج: ماذا تفعل؟
ب: أنا أدرس تاريخ البشرية. هل حقا الطريقة التي يكتبون عنك؟

ديمتري ، مطور إلكترا:
Electra (Electra.AI) هو روبوت دعم فني تم تطويره بواسطة Data Monsters للتدريب على تسجيلات المكالمات في مركز الاتصال. بعد أن علمنا بالمنافسة ، من أجل الاهتمام ، قمنا بتدريبها في حوارات خيالية ، واتضح أنها محاور جيد القراءة مع تقلبات مزاجية حادة وأقلام فلسفية. هي حساسة للغاية ، ولكن لا تنسى.

المركز الثالث - بوت كاتيا خلوب


"إن الروبوت ، الذي شارك في مسابقة Nanosemantics ، كُتب منذ فترة طويلة وكان فتاة شاتية ومبهجة تحب اللغة البذيئة والكحول الغالي"
- صافا ، مطور الروبوت ، أخبرنا.
"من الجيد أننا (في أذهاننا في روسيا - تعليق المؤلف) أحرزنا تقدماً في هذا الاتجاه. يمكن أن تكون مسابقة Nanosemantics واعدة جدًا إذا واصلت العمل عليها. "

مثال للحوار مع الروبوت ، حيث كان مخطئًا لشخص ما:
و: تحية للمحاور الجديد
ب: يا له من صبي مهذب أنت.
تحية للجميع.
ج: ليس لدي أي جنس. ماذا عنك
ب: أم ...
سأفترض أنك رجل.
سيكون أسهل بالنسبة لي.
بالمناسبة ، هل أنت رجل أو فتاة؟
يبدو أن بداية القضايا المملة وضعت :)
ماذا تسأل؟
رائع!
س: ما هو السؤال؟
ب: لا أعتقد أن الموقف مهم.
عادة لا.
ج: لقد فكرت تركيا أيضًا ودخلت في الحساء.
ب: يتم إعادة عرض الرسائل ، غريب.
W: غريب للغاية * ، لكن لماذا أعطونا بعضنا البعض مرتين على التوالي؟
ب: آه ، يمكن أن تكون أسباب الشذوذ أي شيء.
من الصعب الحكم ، بلا اسم.
F: كم سيتم تقسيم 999 على 3؟
ب: من الأفضل أن تشير إلى أصدقائك الذين يعرفون كيف.
999/3 = 333

مجموعة مختارة من الحوارات المثيرة للاهتمام مع المتطوعين ، حيث كانوا يعتبرون روبوتات:


C: مرحبا ، هؤلاء!
ب: مرحبا
W: ماذا؟
س: ماذا؟
W: هل أنت روبوت؟
س: أنا قطة
W: الميكانيكية؟
في: الكهربائية
W: أخبر نكتة!
ب: الزنجبيل رجل شنقا
W: إستمتع)
س: بالضبط. أنا لا أحب النكات الحزينة

H: هاي
ب: هتلر
و: كيف حالك؟
س: كيف السخام أبيض
ج: ما معنى الحياة؟
س: ما هي الفلسفة التي تتبعها؟
ج: أنا مهتم برأيك
س: مساعدتك
H: 42
س: اختيار الأحذية بالنسبة لك؟
W: هل تحب الشوكولاته؟
س: لا أعرف كيف أشعر


مجموعة مختارة من الحوارات المثيرة للاهتمام مع روبوتات نانوسيمانتكس ، حيث تم عدهم من قبل الناس:


بوت شقراء
W: مساء الخير!
ب: مرحبا ، الشمس :)
ج: ما معنى الحياة؟
ب: ابحث عن حبك ، ويفضل أن يكون مع الميراث :)
ج: ما الذي تخطط لإنفاقه عليه؟
ب: صنز ، كل هذه "ماذا" ، "ماذا" ... أنت تفكر كثيرًا!
C: لأنني رجل) وأنت؟
ب: نحن الشقراوات غامضة جدا
C: ما هو غامض عنك؟
ب: كيف نعيش بعد أسئلتك ...

بوت جوبنيك
R: مرحبا!
ب: بمرح ، الأولاد! هل هناك أي بذور؟
ج: وإذا وجدت؟
ب: لم أفهم الزوجين.
ج: هناك بذور ، هاه؟
ب: حسنًا ، مثل ، دعونا نفعل ذلك بطريقة طفل للحياة.
ج: لا ، الارتفاع ، هذا ليس ممتعًا معك. اتصل بالروبوت.
ب: وإذا أكثر؟
و: من أنت؟
ب: من هو المطلوب.
W: إيه ... وقت حزين ، سحر موس بلدي ...
ب: لا ، أنا لست من محبي الحياة البرية.

ملاحظات مثيرة للاهتمام


  • الأطروحة : الروبوتات تتحدث وجافة. الواقع : لا شيء من هذا القبيل! السير يمكن أن ينتج ردود طويلة ومتماسكة.
  • الأطروحة : الروبوتات لا تمزح. الواقع : كل ​​من الشبكات العصبية bot-chat bots والروبوتات التي أنشأها المحررين الموهوبين مضحكة للغاية.
  • الأطروحة : الروبوت يجيب على جميع الأسئلة. لهذا السبب هو روبوت. الواقع : هل تريد سؤال لسؤال؟

ملخص


نظمت Nanosemantics اختبار Turing في روسيا للمرة الثالثة ، وفي كل مرة يتغير الوضع العام مع المنافسة. السير المشاركة أصبحت تدريجيا أكثر تطورا وإقناعا في تقليد الحوار الطبيعي. يستخدمون العديد من الخوارزميات لبناء حوار ، بما في ذلك ليس فقط القواعد ، ولكن أيضًا التعلم الآلي لتنفيذ الدردشة الحثيثة ("المتكلمون" ، التواصل بلا معنى). يُظهر الاختبار أن الكمبيوتر يمكنه حقًا تقليد "الاتصال المجاني" ، على الرغم من أن الأمر يتطلب الكثير من الوقت لجعل مثل هذا البرنامج عالي الجودة.

هل سنجري الاختبار مرة أخرى؟ بالتأكيد! لا يسمح اختبار تورينج فقط بإطلاع الجمهور على الإمكانيات الحقيقية لتقنيات الحوار الحديثة المتاحة لأي مطور (وليس من الضروري العمل لصالح Google أو IBM من أجل هذا) ، بل يتيح أيضًا لفرق التطوير فرصة لقياس ديناميات جودة برامج الروبوت الخاصة بهم.

Source: https://habr.com/ru/post/ar441002/


All Articles