كيفية إنشاء عمل رائع لمساعد Google. Lifehacks من مجرد منظمة العفو الدولية

صورة

النظام البيئي حول Google Assistant ينمو بسرعة مذهلة. في نيسان (أبريل) 2017 ، كان هناك 165 إجراء متاحًا للمستخدمين ، واليوم باللغة الإنجليزية فقط هناك أكثر من 4500. يعتمد مدى تنوع ومثيرة للاهتمام في الزاوية الناطقة باللغة الروسية في عالم مساعد Google على المطورين. هل هناك صيغة عمل مثالية؟ لماذا فصل الكود والمحتوى عن البرنامج النصي؟ ما الذي يجب تذكره عند العمل على واجهة محادثة؟ لقد طلبنا من فريق Just AI ، مطورو تقنيات AI للمحادثة ، مشاركة خارقة الحياة لإنشاء تطبيقات لمساعد Google. على منصة Aimylogic من Just AI ، تم إنشاء عدة مئات من ألعاب الحركة ، من بينها ألعاب شائعة جدًا - أكثر من 140 ألف شخص لعبوا لعبة "نعم يا سيدي" . يقول Dmitry Chechetkin ، رئيس المشروعات الإستراتيجية في Just AI: "كيف نبني العمل بشكل صحيح في حركة الأحلام".

اهتز ولكن ليس المزيج: دور البرنامج النصي والمحتوى والرمز


يتكون أي تطبيق صوتي من ثلاثة مكونات - برنامج نصي تفاعلي ، ومحتوى يتفاعل فيه الإجراء ، ومنطق قابل للبرمجة ، أي التعليمات البرمجية.

السيناريو ربما هو الشيء الرئيسي. فهو يصف العبارات التي يمكن للمستخدم التحدث بها ، وكيف ينبغي أن يتفاعل أي إجراء معهم ، وما ينص عليه ، وكيف يستجيب له بالضبط. لقد كنت أبرمج منذ 12 عامًا ، لكن عندما يتعلق الأمر بإنشاء واجهة محادثة ، فإنني ألجأ إلى العديد من الأدوات المرئية.

بالنسبة للمبتدئين ، لا يؤلم رسم مخطط بسيط للنص على الورق. لذلك عليك أن تقرر ماذا وما يلي في الحوار. ثم يمكنك نقل البرنامج النصي إلى بعض المنتجات لتصور ذلك. تقدم Google إنشاء مربع حوار Dialogflow مخصص بالكامل ، ولأبسط السيناريوهات التي لا تتطلب فهمًا شاملًا للغة ، الإجراءات SDK . هناك خيار آخر وهو مصمم مرئي باستخدام Aimylogic NLU ( كيفية إنشاء إجراء لمساعد Google في Aimylogic ) ، حيث يمكنك إنشاء برنامج نصي دون أي مهارات برمجة متعمقة ، وكذلك اختبار الإجراء على الفور. أستخدم Aimylogic لنرى كيف ستعمل جميع التحولات في مربع الحوار الخاص بي ، لاختبار والتحقق من صحة الفرضية نفسها وفكرة ما أريد تنفيذه.



غالبًا ما يكون المنطق القابل للبرمجة مطلوبًا. على سبيل المثال ، قد يبدو موقعك رائعًا ، ولكن لكي "يعرف كيف" ، سيتعين عليه الرجوع إلى الكود الموجود على الخادم وستتمكن الشفرة من حساب شيء ما وحفظ النتيجة وإعادتها. نفس الشيء مع السيناريو العمل. يجب تشغيل الرمز بسلاسة ، وأفضل إذا كان مجانيًا تمامًا. اليوم ليست هناك حاجة لدفع آلاف الدولارات حتى يتوفر رمز من 50 ، 100 ، 1000 سطر لعملك 24/7. يمكنني استخدام العديد من الخدمات في هذا الوقت: Google Cloud Functions و Heroku و Webtask.io و Amazon Lambda. يوفر Google Cloud Platform مجموعة واسعة إلى حد ما من الخدمات مجانًا في المستوى المجاني .

يمكن للبرنامج النصي الوصول إلى الرمز باستخدام أبسط مكالمات http التي اعتدنا عليها جميعًا. ولكن في نفس الوقت ، لا يختلط الكود والنص. وهذا أمر جيد ، لأنه يمكنك تحديث كلا المكونين ، قم بتوسيعهما كما تريد دون تعقيد العمل في الإجراء.



المكون الثالث هو المحتوى. هذه هي البيانات التي يمكن أن تتغير في كل وقت ، دون التأثير على هيكل البرنامج النصي نفسه. على سبيل المثال ، أسئلة الاختبار أو الحلقات في لعبة نعم نعم لدينا. إذا عاش المحتوى مع البرنامج النصي أو مع الكود ، فسيصبح هذا النص أكثر تعقيدًا. وفي هذه الحالة ، بغض النظر عن الأداة التي تستخدمها لإنشاء إجراء ما ، فإن العمل به سيظل غير مناسب لك. لذلك ، أوصي بتخزين المحتوى بشكل منفصل: في قاعدة البيانات ، أو في ملف في التخزين السحابي ، أو في جدول يمكن للبرنامج النصي الوصول إليه أيضًا من خلال واجهة برمجة التطبيقات (API) لتلقي البيانات أثناء الطيران. بفصل المحتوى عن البرنامج النصي والرمز ، يمكنك جذب أشخاص آخرين للعمل على هذا الإجراء - سيكون بإمكانهم تجديد المحتوى بشكل مستقل عنك. وتطوير المحتوى مهم للغاية ، لأن المستخدم يتوقع من الإجراء ، الذي يعود إليه مرة بعد مرة ، ومحتوى جديد ومتنوع.



كيفية استخدام الجداول العادية في السحابة حتى لا تخزن كل المحتوى في البرنامج النصي نفسه؟ على سبيل المثال ، في لعبة "First or Second" ، استخدمنا جدول بيانات Excel يستند إلى مجموعة النظراء حيث يمكن لأي من المشاركين في المشروع إضافة أسئلة وإجابات جديدة للإجراء. يصل البرنامج النصي Aimylogic إلى هذا الجدول باستخدام طلب http واحد من خلال واجهة برمجة تطبيقات خاصة. كما ترى ، البرنامج النصي نفسه صغير - لأنه لا يخزن كل البيانات من الجدول ، والذي يتم تحديثه كل يوم. وبالتالي ، فإننا نفصل بين البرنامج النصي التفاعلي والمحتوى ، والذي يسمح لنا بالعمل مع المحتوى بشكل مستقل ومجتمع تجديد البرنامج النصي ببيانات جديدة. بالمناسبة ، 50 ألف شخص لعبوا هذه اللعبة بالفعل.

قائمة التحقق: أشياء يجب تذكرها عند إنشاء واجهة محادثة


تحتوي أي واجهة على مكونات يتفاعل معها المستخدم: القوائم والأزرار والصور وأكثر من ذلك. توجد واجهة المحادثة وفقًا لنفس القوانين ، لكن الفرق الأساسي هو أن الشخص يتواصل مع البرنامج عن طريق الصوت. من هذا يجب علينا أن نبني عليه ، وخلق عملنا الخاص.

لا ينبغي أن يكون الإجراء الصحيح قادراً على القيام بكل شيء في العالم. عندما يتحدث شخص ما مع أحد البرامج ، لا يمكنه الاحتفاظ بالكثير من المعلومات في رأسه (تذكر كيف تستمع إلى العروض الشخصية متعددة الطوابق من بنك أو مشغل للهاتف عبر الهاتف). تخل عن الزائدة والتركيز على واحدة ، ولكن أهم وظيفة في خدمتك ، والتي سيتم تنفيذها بسهولة أكثر باستخدام صوتك ، دون لمس الشاشة.

على سبيل المثال ، لديك خدمة التذاكر. لا ينبغي أن تأمل في أن يقوم العميل بإخراج السيناريو المعتاد بصوت - ابحث عن تذكرة وفقًا لخمسة أو ستة معايير ، واختر بين شركات النقل ، قارن ودفع. لكن التطبيق الذي يخبرك بالحد الأدنى للسعر في الاتجاه الذي تم اختياره قد يكون في متناول يدي: هذه عملية سريعة للغاية ، وهي ملائمة لتنفيذها عن طريق الصوت دون فتح الموقع ، دون الحاجة إلى متابعة البرنامج النصي "ملء النموذج" في كل مرة (عند ملء الحقول وتحديد المرشحات ).

العمل يتعلق بالصوت ، وليس عن الخدمة ككل. لا ينبغي أن يندم المستخدم على بدء الإجراء في المساعد ، ولم يذهب ، على سبيل المثال ، إلى التطبيق أو الموقع. ولكن كيف نفهم أن المرء لا يستطيع الاستغناء عن صوت؟ للبدء ، جرب فكرة العمل على نفسك. إذا كنت تستطيع القيام بنفس الإجراء بسهولة بدون صوت ، فلن يكون هناك أي معنى. أحد تطبيقات مساعدتي الأولى كانت Yoga for the Eyes . هذا هو المدرب الشخصي الافتراضي الذي يساعد على القيام بتمارين للرؤية. مما لا شك فيه أن هناك حاجة إلى صوت هنا: عيناك مشغولتان بالتمارين ، أنت مرتاح وتركزان على التوصيات الشفوية. من شأن إلقاء نظرة على المذكرة ، وصرف الانتباه عن التدريب ، أن يكون غير مريح وغير فعال.

أو هنا مثال على برنامج نصي فاشل لتطبيق صوتي. غالبًا ما أسمع كيف يريد متجر آخر عبر الإنترنت بيع شيء ما من خلال مساعد افتراضي. ولكن ملء السلة بصوت غير مريح وغير عملي. ومن غير المرجح أن يفهم العميل سبب حاجته إليه. لكن القدرة على تكرار الطلب الأخير عن طريق الصوت أو رمي شيء أثناء التنقل في قائمة التسوق أمر آخر.

تذكر حول UX. يجب أن يكون الإجراء مع المستخدم: مرافقته وإرشاده في سياق الحوار حتى يفهم بسهولة ما يجب قوله. إذا وصل الشخص إلى طريق مسدود ، يبدأ في التفكير ، "وماذا بعد؟" هو الفشل. ليست هناك حاجة للأمل في أن يشير المستخدم الخاص بك دائمًا إلى المساعدة. يجب مراقبة "طريق مسدود" (على سبيل المثال ، في التحليلات في وحدة التحكم بالإجراءات ) ، ويجب مساعدة المستخدم في طرح أسئلة أو نصائح موحية. في حالة الحركة الصوتية ، لا تكون القدرة على التنبؤ نذرة. على سبيل المثال ، في لعبتنا "نعم يا سيدي" ، تنتهي كل عبارة بحيث يمكن للمشارك الإجابة إما "نعم" أو "لا". ليس مطلوبًا منه اختراع شيء بمفرده. وليس الأمر أن هذه لعبة أولية. إنه يتم تنظيم القواعد بطريقة تجعل كل شيء واضحًا للغاية للمستخدم.


"إنه يتحدث جيدًا!" "يسمع" الإجراء جيدًا بفضل "المساعد" وكذلك "يتحدث" - بفضل مطور البرامج النصية. أعطى التحديث الأخير لـ Google Assistant خيارات صوتية جديدة ونطقًا أكثر واقعية. كل شيء رائع ، لكن يجب على المطور التفكير في العبارة وهيكلها وصوتها حتى يتمكن المستخدم من فهم كل شيء في المرة الأولى. رتب الضغوط ، واستخدم الإيقاف المؤقت لجعل عبارات العمل تبدو إنسانية.

أبدا تحميل المستخدم. بالنسبة لألعاب الحركة التي تعبر عن الأخبار أو قراءة القصص الخيالية للأطفال ، فهذه ليست مشكلة. لكن الاستماع إلى خطاب مساعد صوتي إلى ما لا نهاية عندما تريد طلب البيتزا أمر صعب. حاول أن تجعل النسخ المتماثلة موجزة ، ولكن ليست أحادية اللون ومتنوعة (على سبيل المثال ، للتفكير من خلال عدة خيارات للتحية ، وداعًا ، وحتى عبارات في حالة إساءة فهم المساعد لشيء ما). يجب أن يبدو الحوار طبيعيًا وودودًا ، لذلك يمكنك إضافة عناصر من الكلام العام ، والعواطف ، والتدخل في العبارات.

المستخدم لا يغفر الغباء. غالبًا ما يلوم الناس المساعدين الصوتيين على الغباء. ويحدث هذا بشكل أساسي عندما يتعذر على المساعد أو الطلب الخاص به التعرف على الأشكال المختلفة لنفس العبارة. دع نشاطك بسيطًا مثل ضبط المنبه ، من المهم أنه لا يزال يفهم المترادفات وأشكال مختلفة من الكلمات متطابقة في المعنى ولا تفشل إذا كان المستخدم يستجيب بطريقة غير متوقعة.

كيف يمكن الخروج من المواقف التي يرفض فيها العمل فهمه؟ أولاً ، يمكنك تنويع الإجابات في القصد الافتراضي للانعكاس - لا تستخدم فقط المعايير المتوفرة ، ولكن أيضًا تلك المخصصة. وثانياً ، يمكنك تدريب Fallback Intent باستخدام جميع أنواع عبارات البريد العشوائي التي لا تتعلق باللعبة. سيقوم هذا بتدريس التطبيق ليس فقط للاستجابة بشكل كاف للطلبات غير ذات الصلة ، ولكن أيضًا زيادة دقة تصنيف أنواع الطلبات الأخرى.

صورة

ونصيحة واحدة أخرى. لا تقم أبدًا بإعداد قائمة زر لإخراجك من حياتك لجعل حياة المستخدم أسهل - فهي تزعج وتشتت الانتباه عن الحوار وتجعلك تشكك في الحاجة إلى استخدام الصوت.

تعليم العمل المداراة. يجب أن ينتهي العمل أروع. من الناحية المثالية ، وداعا ، وبعد ذلك تريد العودة إليه مرة أخرى. بالمناسبة ، تذكر أنه إذا كان الإجراء لا يطرح سؤالًا ، ولكن ببساطة يجيب على سؤال المستخدم ، يجب عليه "إغلاق الميكروفون" (وإلا لن يتم الإشراف على التطبيق ولن يتم نشره). في حالة Aimylogic ، تحتاج فقط إلى إضافة كتلة "إكمال البرنامج النصي" إلى البرنامج النصي.

وإذا كنت تعتمد على الاستبقاء ، فمن المهم توفير قواعد أخرى جيدة للنبرة: يجب أن يعمل الإجراء في سياق - تذكر اسم المستخدم ونوع جنسه وألا يسأل مرة أخرى عما تم تحديده بالفعل.

كيفية العمل مع التقييمات والمراجعات


يمكن لمستخدمي Google Assistant تقييم ألعاب الحركة وبالتالي التأثير على تصنيفهم. لذلك ، من المهم معرفة كيفية استخدام نظام التصنيف لصالحك. يبدو أنك تحتاج فقط إلى إعطاء المستخدم رابطًا إلى صفحة مع الإجراء الخاص بك واطلب منه ترك التعليق. ولكن هناك قواعد. على سبيل المثال ، لا تعرض تقييم الإجراء في الرسالة الأولى: يجب أن يفهم المستخدم ما هو التصنيف. انتظر حتى يفي التطبيق فعليًا بمهمة المستخدم المفيدة أو المثيرة للاهتمام ، وعندها فقط عرض لترك مراجعة.



ومن الأفضل عدم محاولة التعبير عن هذا الطلب بصوتك ، وذلك بمساعدة توليف الكلام - أنت تقضي وقت المستخدم فقط. علاوة على ذلك ، قد لا يتبع الرابط ، ولكن يقول "أراهن على خمسة" ، وهذا ليس هو ما تحتاجه على الإطلاق في هذه الحالة.

في لعبة "نعم يا سيدي" ، نعرض الرابط للتعليقات فقط بعد أن يلعب المستخدم الجولة التالية. وفي الوقت نفسه ، لا نعبر عن صوت الطلب ، ولكن ببساطة نعرض رابطًا إلى الشاشة ونعرضه مرة أخرى. سأنتبه مرة أخرى - قدم هذا الرابط عندما يكون المستخدم مضمونًا لتلقي بعض المزايا أو المتعة. إذا قمت بذلك في الوقت الخطأ ، عندما لا يفهم الإجراء شيئًا ما أو يبطئ ، يمكنك الحصول على ردود فعل سلبية.

بشكل عام ، جرّب أعمالنا Aimylogic "Yoga for the eyes" ، والألعاب "First or Second" و "Yes ، سيدي" (وسرعان ما تظهر المعاملات ، وسيكون من الأسهل على ربي الحفاظ على قوتها وثروتها!). ومؤخراً ، أصدرنا أول بحث صوتي عن مساعد Google "Lovecraft World" - دراما تفاعلية بأسلوب صوفي "Call of Cthulhu" ، حيث يتم التعبير عن المشاهد بواسطة ممثلين محترفين ، يمكن التحكم في المؤامرة عن طريق الصوت وإجراء عمليات الدفع داخل اللعبة. تم تطوير هذا الإجراء بالفعل على Just AI Conversational Platform ، وهو حل مؤسسة احترافي.

ثلاثة أسرار مساعد جوجل


  1. استخدام الموسيقى. من بين المساعدين الصوتيين باللغة الروسية ، يسمح لك Google Assistant فقط باستخدام الموسيقى مباشرة في البرنامج النصي للعمل. يبدو الترتيب الموسيقي رائعًا في ألعاب حركة الألعاب ، ومن اليوغا إلى الموسيقى ، توجد أحاسيس مختلفة تمامًا.

  2. خيارات الدفع داخل الإجراء. لعمليات الشراء داخل التطبيق ، يستخدم مساعد Google منصة Google Play. شروط العمل مع النظام الأساسي لمنشئي تصرفات الألعاب هي نفسها المطبقة على مطوري تطبيقات الأجهزة المحمولة - يتم خصم 70٪ من المعاملة للمطور.
  3. الاعتدال . من أجل الإشراف الناجح ، يجب أن يحتوي الإجراء على سياسة معالجة البيانات الشخصية. يلزمك وضعها على sites.google.com ، وبيان اسم الإجراء والبريد الإلكتروني - وهو نفس اسم المطور في وحدة تحكم المطور ، واكتب أن التطبيق لا يستخدم بيانات المستخدم. تدوم عملية إجراء ما بدون معاملات من يومين إلى ثلاثة أيام ، لكن يمكن أن يستغرق الإشراف على تطبيق ذي دفعات مدمجة 4-6 أسابيع. المزيد عن إجراء المراجعة



المزيد من المتطفلين على الحياة ، والمزيد من الحالات والملاحم المفيدة في انتظار المطورين في المؤتمر الخاص بمحادثات منظمة العفو الدولية ، التي ستعقد يومي 27 و 28 يونيو في سان بطرسبرغ. سيتحدث أندري ليباتسيف ، مدير تطوير الشريك الاستراتيجي في Google ، عن التجربة الدولية والخصائص الروسية لمساعد Google. وفي يوم المطورين ، سيتحدث تانيا لاندو ، وهو لغوي بارز في Google ، مع المشاركين حول مربعات الحوار والإشارات والمنهجيات وكيفية اختيارهم لمهامك ؛ وسيقوم المطورون أنفسهم بمشاركة تجربتهم الشخصية في إنشاء تطبيقات صوتية للمساعدين - من سكرتير افتراضي لـ Google Home إلى الألعاب الصوتية وإجراءات B2B التي يمكن أن تعمل مع البنية الأساسية المغلقة للشركة.

وبالمناسبة ، في 28 يونيو ، كجزء من المؤتمر ، ستعقد Google و Just AI اختراقًا مفتوحًا للمطورين المحترفين والمبتدئين - يمكنك العمل على ألعاب الحركة للمساعد وتجربة UX للمحادثة وتوليف الكلام وأدوات NLU والتنافس على جوائز نقدية! سجل - عدد المقاعد محدود!

صورة

Source: https://habr.com/ru/post/ar455816/


All Articles