Secrets, trucs et astuces: comment créer une action sympa pour Google Assistant

L'écosystème autour de Google Assistant se développe rapidement. En avril 2017, seules 165 actions étaient disponibles pour les utilisateurs, et aujourd'hui seulement en anglais, il y en a plus de 4 500. La diversité et l'intérêt du coin russe de cet univers dépendront des développeurs. Dmitry Chechetkin, responsable des projets stratégiques chez Just AI et auteur de «Yes, my lord», l' un des jeux les plus populaires pour l'Assistant non seulement en Russie mais aussi dans le monde (plus de 240 000 personnes l'ont déjà joué), partage des astuces de vie importantes pour créer des jeux d'action pour Assistant Google. Pourquoi séparer le code et le contenu du script? Que faut-il retenir lorsque l'on travaille sur une interface conversationnelle? En général, nous comprenons comment entailler une action d'un rêve.



Secouez mais ne mélangez pas: le rôle du script, du contenu et du code


Toute application vocale se compose de trois composants - un script interactif, du contenu avec lequel l'action interagit et une logique programmable, c'est-à-dire code.

Le scénario est peut-être l'essentiel. Il décrit les phrases qu'un utilisateur peut prononcer, comment une action doit y réagir, dans quels états il va et comment il répond exactement. Je programme depuis 12 ans, mais quand il s'agit de créer une interface conversationnelle, j'ai recours à différents outils visuels.

Pour commencer, cela ne fait pas de mal de dessiner un simple contour du script sur papier. Vous décidez donc de quoi et de ce qui suit dans le dialogue. Ensuite, vous pouvez transférer le script vers un produit pour le visualiser. J'utilise notre constructeur visuel avec NLU Aimylogic ( comment créer une action pour Google Assistant dans Aimylogic ) pour voir comment toutes les transitions dans ma boîte de dialogue fonctionneront, tester et valider l'hypothèse elle-même et l'idée de ce que je veux implémenter. Dans Aimylogic, vous pouvez créer un script sans compétences approfondies en programmation et vous pouvez immédiatement tester l'action. Google lui-même propose le Dialogflow pour créer un dialogue personnalisé et pour des scripts simples et courts qui ne nécessitent pas une compréhension approfondie de la langue, Actions SDK .



Une logique programmable est souvent requise. Par exemple, votre site peut sembler cool, mais pour qu'il "sache comment", il devra se référer au code sur le serveur et le code pourra calculer quelque chose, enregistrer et renvoyer le résultat. Même chose avec le script d'action. Le code devrait fonctionner correctement et mieux s'il est complètement gratuit. Aujourd'hui il n'est plus nécessaire de payer des milliers de dollars pour qu'un code de 50, 100, 1000 lignes soit disponible pour votre action 24h / 24 et 7j / 7. J'utilise plusieurs services pour cela à la fois: Cloud Functions, Heroku, Webtask.io, Amazon Lambda. Des instances gratuites sont disponibles sur la plateforme Google Cloud.

Le script peut accéder au code en utilisant les appels http les plus simples auxquels nous sommes tous habitués. Mais en même temps, le code et le script ne se mélangent pas. Et c'est bien, car vous pouvez garder ces deux composants à jour, les développer à votre guise, sans compliquer le travail sur l'action.



Le troisième élément est le contenu. Ce sont des données qui peuvent changer tout le temps, sans affecter la structure du script lui-même. Par exemple, des questions ou des épisodes de quiz dans notre jeu Oui Oui . Si le contenu vivait avec le script ou avec le code, alors un tel script deviendrait plus lourd. Et dans ce cas, quel que soit l'outil que vous utilisez pour créer une action, travailler avec elle sera toujours gênant pour vous. Par conséquent, je recommande de stocker le contenu séparément: dans la base de données, dans un fichier dans le stockage cloud ou dans une table à laquelle le script peut également accéder via l'API afin de recevoir des données à la volée. En séparant le contenu du script et du code, vous pouvez attirer d'autres personnes pour travailler sur l'action - elles pourront reconstituer le contenu indépendamment de vous. Et le développement de contenu est très important, car l'utilisateur attend de l'action, à laquelle il renvoie à chaque fois, un contenu frais et diversifié.



Comment utiliser des tables ordinaires dans le cloud pour ne pas stocker tout le contenu dans le script lui-même? Par exemple, dans le jeu «First or Second», nous avons utilisé une feuille de calcul Excel basée sur le cloud où n'importe lequel des participants au projet pouvait ajouter de nouvelles questions et réponses pour l'action. Le script Aimylogic accède à ce tableau à l'aide d'une seule requête http via une API spéciale. Comme vous pouvez le voir, le script lui-même est petit - car il ne stocke pas toutes les données de la table, qui est mise à jour quotidiennement. Ainsi, nous séparons le script interactif du contenu, ce qui nous permet de travailler avec le contenu indépendamment et de reconstituer collectivement le script avec de nouvelles données. Soit dit en passant, 80 000 personnes ont déjà joué à ce jeu.

Liste de contrôle: éléments à retenir lors de la création d'une interface conversationnelle


Toute interface a des composants avec lesquels l'utilisateur interagit: listes, boutons, images, etc. L'interface conversationnelle existe selon les mêmes lois, mais la différence fondamentale est qu'une personne communique avec le programme par la voix. À partir de cela, nous devons construire, créer notre propre action.

La bonne action ne devrait pas être en mesure de tout faire dans le monde. Lorsqu'une personne parle avec un programme, elle ne peut pas garder beaucoup d'informations dans sa tête (rappelez-vous comment vous écoutez des offres personnelles à plusieurs étages d'une banque ou d'un opérateur mobile par téléphone). Abandonnez le superflu et concentrez-vous sur une seule, mais la fonction la plus importante de votre service, qui sera exécutée de la manière la plus pratique avec votre voix, sans toucher l'écran.
Par exemple, vous avez un service de billetterie. Vous ne devez pas espérer que le client exécute le scénario habituel avec une voix - recherchez un billet selon cinq ou six critères, choisissez entre les transporteurs, comparez et payez. Mais une application qui vous indique le prix minimum dans la direction choisie peut être utile: c'est une opération très rapide, et il est pratique de l'exécuter par la voix sans ouvrir le site, sans avoir à passer par le script de «remplissage de formulaire» à chaque fois (lorsque vous remplissez les champs et sélectionnez des filtres )

L'action concerne la voix, pas le service dans son ensemble. L'utilisateur ne doit pas regretter d'avoir lancé l'action dans l'Assistant, et n'est pas allé, par exemple, dans l'application ou le site. Mais comment comprendre qu'on ne peut pas se passer d'une voix? Pour commencer, essayez l'idée d'action sur vous-même. Si vous pouvez facilement effectuer la même action sans voix, cela n'aura aucun sens. L'une de mes premières applications Assistant était Yoga for the Eyes . Il s'agit d'un entraîneur personnel virtuel qui aide à faire des exercices de vision. Il ne fait aucun doute qu'une voix est nécessaire ici: vos yeux sont occupés par des exercices, vous êtes détendu et concentré sur les recommandations orales. Regarder le mémo, distraire de la formation, serait gênant et inefficace.

Ou voici un exemple de script qui a échoué pour une application vocale. Souvent, j'entends comment une autre boutique en ligne veut vendre quelque chose via un assistant virtuel. Mais remplir le panier de voix est gênant et peu pratique. Et il est peu probable que le client comprenne pourquoi il en a besoin. Mais la possibilité de répéter la dernière commande par la voix ou de lancer quelque chose sur la liste d'achats est une autre affaire.

N'oubliez pas UX. L'action doit être accompagnée de l'utilisateur: l'accompagner et le guider au cours du dialogue pour qu'il comprenne facilement ce qu'il faut dire. Si une personne s'arrête, elle commence à penser: «Et quelle est la prochaine étape?» Est un échec. Il n'est pas nécessaire d'espérer que votre utilisateur se réfère toujours à l'aide. Les interblocages doivent être surveillés et aider l'utilisateur à poser des questions ou des conseils. Dans le cas de l'action vocale, la prévisibilité n'est pas un vice. Par exemple, dans notre jeu «Oui, mon seigneur», chaque phrase se termine pour que le participant puisse répondre «oui» ou «non». Il n'est pas obligé d'inventer quelque chose par lui-même. Et ce n'est pas que ce soit un jeu si élémentaire. C'est juste que les règles sont organisées pour que l'utilisateur soit très clair.


"Il parle bien!" L'action «entend» bien grâce à l'assistant, et «parle» bien - grâce au développeur du script. Une mise à jour récente a donné à l'Assistant Google de nouvelles options vocales et une prononciation plus réaliste. Tout est cool, mais le développeur doit réfléchir à la phrase, sa structure, le son, afin que l'utilisateur puisse tout comprendre la première fois. Organisez les contraintes, utilisez des pauses pour faire sonner les phrases d'action humaines.

Ne chargez jamais l'utilisateur. Pour les jeux d'action qui diffusent des fils d'actualité ou lisent des contes de fées aux enfants, ce n'est pas un problème. Mais écouter le discours d'un assistant vocal sans fin lorsque vous souhaitez commander une pizza est difficile. Essayez de faire des répliques concises, mais pas monosyllabiques et variées (par exemple, pour réfléchir à plusieurs options de salutations, d'adieux et même de phrases au cas où l'assistant aurait mal compris quelque chose). Le dialogue doit sembler naturel et amical, pour cela, vous pouvez ajouter des éléments de langage familier, d'émotions, d'interjection aux phrases.

L'utilisateur ne pardonne pas la bêtise. Les gens accusent souvent les assistants vocaux de stupidité. Et fondamentalement, cela se produit lorsqu'un assistant ou une application pour lui ne peut pas reconnaître différentes variations de la même phrase. Que votre action soit aussi simple que de déclencher une alarme, il est important qu'il comprenne toujours les synonymes, différentes formes de mots qui ont un sens identique et n'échouent pas si l'utilisateur répond de façon imprévisible.

Comment sortir des situations où une action refuse de comprendre? Tout d'abord, vous pouvez diversifier les réponses dans l'intention de repli par défaut - utilisez non seulement la norme fournie, mais également des réponses personnalisées. Et deuxièmement, vous pouvez former l'intention de repli avec toutes sortes de phrases de spam qui ne sont pas liées au jeu. Cela enseignera à l'application non seulement à répondre adéquatement aux demandes non pertinentes, mais aussi à augmenter la précision de la classification des autres types de demandes.



Et encore une astuce. Ne faites jamais un menu de boutons à partir de votre action pour faciliter la vie de l'utilisateur - cela dérange, distrait du dialogue et vous fait douter de la nécessité d'utiliser la voix.

Enseignez l'action de politesse. Même l'action la plus cool devrait se terminer. Idéalement, au revoir, après quoi vous voulez revenir à lui. Soit dit en passant, rappelez-vous que si l'action ne pose pas de question, mais répond simplement à la question de l'utilisateur, il doit «fermer le microphone» (sinon l'application ne sera pas modérée et ne sera pas publiée). Dans le cas d'Aimylogic, il vous suffit d'ajouter le bloc "Achèvement du script" au script.
Et si vous comptez sur la rétention, il est important de prévoir d'autres règles de bon ton dans le script: l'action doit fonctionner dans un contexte - se souvenir du nom et du sexe de l'utilisateur et ne plus demander ce qui a déjà été spécifié.

Comment travailler avec les notes et les avis


Les utilisateurs de Google Assistant peuvent évaluer les jeux d'action et ainsi influencer leur évaluation. Par conséquent, il est important d'apprendre à utiliser le système de notation à votre avantage. Il semblerait que vous ayez juste besoin de donner à l'utilisateur un lien vers une page avec votre action et lui demander de laisser un avis. Mais il y a des règles. Par exemple, ne proposez pas d'évaluer l'action dans le premier message: l'utilisateur doit comprendre ce qu'il évalue. Attendez que l'application remplisse vraiment une mission utilisateur utile ou intéressante, puis proposez de laisser un avis.



Et il vaut mieux ne pas essayer d'exprimer cette demande avec votre voix, à l'aide de la synthèse vocale - vous ne passez que votre temps. De plus, il peut ne pas suivre le lien, mais dire «je parie cinq», et ce n'est pas du tout ce dont vous avez besoin dans ce cas.

Dans le jeu «Oui, mon seigneur», nous affichons le lien pour les commentaires uniquement après que l'utilisateur a joué le tour suivant. Et en même temps, nous n'exprimons pas la demande, mais affichons simplement un lien vers l'écran et proposons de jouer à nouveau. Je ferai de nouveau attention - offrez ce lien lorsque l'utilisateur est assuré de bénéficier d'un avantage ou d'un plaisir. Si vous le faites au mauvais moment, lorsque l'action ne comprend pas quelque chose ou ralentit, vous pouvez obtenir un retour négatif.

Trois secrets de l'Assistant Google


  1. L'utilisation de la musique. Parmi les assistants vocaux en russe, seul Google Assistant vous permet d'utiliser la musique directement dans le script d'action. L'arrangement musical sonne bien dans les jeux d'action, et du yoga à la musique, il y a des sensations complètement différentes.

  2. Options de paiement dans l'action. Pour les achats intégrés, l'assistant Google utilise la plateforme Google Play. Les conditions de travail avec la plate-forme pour les créateurs d'action de jeu sont les mêmes que pour les développeurs d'applications mobiles - 70% de la transaction est déduite du développeur.
  3. Modération . Pour une modération réussie, l'action doit avoir une politique de traitement des données personnelles. Vous devez le placer sur sites.google.com , indiquer le nom de votre action et de votre e-mail - le même que celui du développeur dans la console du développeur, et écrire que l'application n'utilise pas les données utilisateur. La modération d'une action sans transactions dure 2-3 jours, mais la modération d'une application avec des paiements intégrés peut prendre 4 à 6 semaines. En savoir plus sur la procédure de révision

En général, essayez nos actions Yoga for the Eyes , les jeux First or Second et Yes, my seigneur vous-même (et bientôt des transactions y apparaîtront, et il sera plus facile pour mon seigneur de maintenir son pouvoir et sa richesse!).

Et nous avons également développé Voice Quest «Lovecraft World» pour Google Assistant - mais il n'a pas été créé dans Aimylogic, mais sur Just AI Conversational Platform, une solution d'entreprise professionnelle, nous allons donc vous parler de cette action séparément. Il s'agit d'un drame interactif dans le style mystique de «Call of Cthulhu», où les scènes sont exprimées par des acteurs professionnels, l'intrigue peut être contrôlée à l'aide de la voix et effectuer des paiements dans le jeu.

Source: https://habr.com/ru/post/fr462301/


All Articles