UX Voice Guide: situações, padrões, ferramentas (e um pouco de apoio moral)

Os designers de UX e UI ainda são céticos em relação às interfaces de voz. Parece um exagero de marketing que em breve será inútil. Outros não usam assistentes de voz e, portanto, confiam que a voz é desconfortável e antinatural. Mas enquanto duvidavam, uma esfera profissional independente se desenvolveu - com seus segredos, padrões e mecânicos (e até o mercado de trabalho). Juntamente com a arquiteta da Just AI UX, Yekaterina Yulina, descobrimos como abordar as tecnologias de voz e o que o designer de interfaces tradicionais UX deve mudar em seu pensamento, assumindo a voz.



Mas primeiro, um pouco retrospectivo. No quintal de 1995. A Microsoft lança o Windows 95 e uma revolução está ocorrendo no mundo. Lembro-me de como os pais e outros adultos falaram sobre os benefícios e perigos dos computadores. E nos fins de semana, toda a família ia visitar nossos amigos para jogar Kosinka e Minesweeper.

O Nokia 3310 foi lançado em 2000. O mundo mudou novamente, desta vez graças aos telefones com uma interface de botão de pressão. Apareceram mais tarde smartphones com caneta. Eu também tive um. Cutucar com uma caneta na tela foi muito legal. Imediatamente de alguma forma se destaca no contexto de pessoas com telefones com botão de pressão. Mas "a melhor caneta é seu próprio dedo", disse Steve Jobs. Em 2007, a Apple começou a vender o iPhone - e desde então as pessoas tocam e passam o dedo, e cutucar com uma caneta ficou mudo há muito tempo.

E então começou: 2011 - Apple apresenta Siri, em 2014 a Amazon lança Alexa e Amazon Echo, em 2016, o Google Assistant sai, em 2017 - "Alice" da Yandex ... Portas na frente de desenvolvedores e empresas abertas ecossistema de assistentes, como uma vez - nas lojas de aplicativos móveis. E logo apenas um preguiçoso (e míope!) Não criará habilidades para assistentes de voz.

Situações em que a voz é realmente conveniente


É impossível imaginar que uma experiência do usuário (UX, experiência do usuário) seja construída no vácuo. A habilidade de voz nasce em uma situação específica em que é útil e orgânica - não faz sentido criar um script de voz e depois pensar sobre onde aplicá-lo. É importante descobrir essa situação e vencê-la com maestria.

A voz é mais conveniente do que aplicativos da Web ou móveis quando precisamos de uma função específica para resolver um problema específico. Porque Como você não precisa esperar o site carregar, rolar páginas, pesquisar no menu, pressionar botões. Sites e aplicativos são multifuncionais. A habilidade de voz deve ser aprimorada para um único caso, em "aqui e agora".

Em fevereiro de 2019, o canal americano TNT transmitiu partidas da NBA. Entre os jogos do Los Angeles Lakers e do Boston Celtics, o comentarista Ernie Johnson anuncia que os tênis de edição limitada da Nike estão à venda e os espectadores podem pedir ao Google Assistant para reservar um par por US $ 350.


Seis minutos depois, o tênis desapareceu. Mais de 15 mil pessoas fizeram a reserva com a ajuda de um assistente de voz (o número de pedidos excedeu a quantidade de mercadorias disponíveis). A situação ideal para vender tênis de basquete era um jogo real.





Em 2017, a Starbucks descobriu como usar um assistente de voz para reduzir o tempo de espera de um pedido e o caminho do cliente para a xícara de café desejada. Você pode dizer "Alexa, peça meu Starbucks" ("Alexa, peça meu Starbucks") e pegue sua bebida favorita no local mais próximo em alguns minutos. Não há necessidade de ficar na fila e esperar o barista gritar seu nome. Não há necessidade de entrar no aplicativo, procure seu pedido habitual, confirme a escolha. Então, o mesmo caso venceu a Ford: o Alexa foi integrado ao sistema multimídia SYNC3, para que os motoristas tivessem a oportunidade de pedir e pagar por seus Starbucks por voz diretamente no carro, sem se distrair da estrada.


Mas colegas da Alan AI me disseram como encontraram um caso de usuário aplicado - não para marketing, mas para tarefas corporativas. O pessoal técnico que atende aos elevadores nos EUA precisa ler toneladas de documentação, preencher vários formulários, inserir dados de reparo, informar sobre a conclusão de tarefas - e fazer tudo isso em diferentes sistemas de contabilidade. Escrever leva muito tempo, no qual o elevador realmente não funciona. O Alan AI aplicou a tecnologia de inteligência artificial de voz para que os usuários do levantador possam preencher formulários com voz durante o trabalho ou enquanto viajam para a instalação.
O Voice UX não é sobre imagens, mas sobre o contexto da situação. A tarefa do designer é estudar o contexto em detalhes e entender o que o usuário deseja em uma situação específica.

Padrões UX na voz


Uma função Então, uma habilidade é uma função. Se o motorista pedir café, ele resolve esse problema específico. Terminou com café e quer saber a distância até a lua? Outra habilidade de voz já é responsável por isso. Fazer uma faca suíça em uma habilidade é uma má idéia.

Scroll. Os designers de UX e UI estão constantemente discutindo com os profissionais de marketing a quantidade de informações a serem exibidas na primeira tela. Não há nada pior do que esperar o carregamento do conteúdo, rolar a página sem parar. As interfaces de diálogo também têm uma primeira tela e, ao contrário da web, não há rolagem. Ele não é necessário, porque o assistente de voz é um conjunto de habilidades. O usuário, sob comando, ativa a habilidade e inicia uma única função.

Janelas e botões modais. O segundo nome para janelas modais é diálogo. Qual é a essência das janelas modais? Confirme ou recuse a intenção de executar a operação. Na vida real, as pessoas expressam intenções dizendo sim ou não, e você não precisa de botões para isso.

Multimodalidade. Alto-falantes e telas inteligentes, smartphones, brinquedos para crianças, casas inteligentes, painel de instrumentos em um carro - os dispositivos determinam o contexto de uso. O que é conveniente para o usuário fazer em casa através de um alto-falante “inteligente” será diferente do uso de um assistente de voz em um carro. O mesmo assistente em plataformas diferentes tem um conjunto diferente de habilidades.
Defina o contexto de uso e o dispositivo. Verifique se você pode combinar a voz com outro tipo de interação neste dispositivo.

Plataforma cruzada . Outro aspecto é como criar uma habilidade para vários assistentes. A mecânica e a lógica podem ser preservadas, mas o diabo ficará oculto nos detalhes da implementação e no caminho do usuário para a habilidade. Vamos ver como o caminho para as habilidades de Alice e as ações do Assistente do Google se parece na mesma plataforma.

Alice no iOS . Os usuários de Alice devem primeiro fazer o download do aplicativo Yandex.Browser, permitir que ele use o local e o microfone, clicar no ícone do assistente e dizer a frase de ativação da habilidade. Por exemplo, "Lance a habilidade" Sim, meu senhor. " A segunda e subsequente experiência do usuário consiste em três etapas: abra o Yandex.Browser, clique no botão de chamada do assistente e diga uma frase de ativação.



Assistente do Google no iOS . O usuário baixa o aplicativo Google Assistant, efetua login na sua conta, permite o envio de notificações e concorda em acessar o microfone. Se o idioma padrão for o inglês, na interface do aplicativo você precisará selecionar russo, peça ao assistente para alterar o idioma com sua voz e diga a frase de ativação para acionar a ação. Aqui ela é diferente - "Fale com o aplicativo" Sim, meu senhor. " Em seguida, o caminho é encurtado - na segunda vez em que o usuário abre o aplicativo Google Assistant e simplesmente dá voz ao comando.



Sem conhecer a frase de ativação (e os comandos para invocar a mesma habilidade em diferentes ecossistemas serão diferentes), você não executará a habilidade - e, em termos de UX, essa é uma das fraquezas dos assistentes de voz. Mas o Google, Yandex e outras empresas estão agora trabalhando na tarefa de descoberta conveniente de habilidades (como transmitir corretamente informações sobre novas habilidades aos consumidores), para que seja mais fácil encontrar habilidades úteis e relevantes em algum momento.

A propósito, os designers da VUI insistem que uma habilidade com a mesma mecânica para diferentes assistentes ainda é um projeto separado.

Projetando uma interface em sete etapas


Perguntei aos designers da VUI, colegas da Just AI e usuários do construtor de habilidades Aimylogic, com o qual eles geralmente começam a trabalhar no script. Todo mundo diz "com uma idéia". Você pode descrevê-lo de forma livre em um editor de texto.
Pavel Gvay, fundador do tortu.io - uma ferramenta para projetar aplicativos de voz: “A maneira mais rápida e barata de entender como a conversa entre o usuário e seu aplicativo será criada é escrever um exemplo de diálogo. Este é um arquivo de texto que descreve a operação de um fluxo. Em formato, os exemplos de diálogo se assemelham ao roteiro do filme, onde todas as observações são pintadas por papel. ”


Exemplo de diálogo no Noção

Cumprimentar usuário

Diga-nos o que o bot faz. Use frases espaçosas de tamanho médio. Termine a frase com uma pergunta fechada: para que o usuário entenda o que deseja dele.
Ruim - “Olá! Eu sou atividade. Eu não posso viver um dia sem esportes. Ele é meu tudo, minha vida, minha inspiração! Eu também tenho muita experiência como treinador e centenas de exercícios no banco de dados! Terei prazer em compartilhar meus exercícios favoritos com você!
Bom - "Olá! Sou Activity, um atleta de bot. Terei todo o gosto em recomendar-lhe um conjunto de exercícios. Você quer falar sobre yoga?

Elabore caminhos de usuário

No idioma dos programadores, intenção é intenção (intenção em inglês). A analogia com interfaces clássicas é uma solicitação formalizada ou informal. É mais fácil trabalhar com os formalizados, e os informais podem transformar a vida em um pesadelo.

Designers usam um fluxograma ao trabalhar com caminhos do usuário. Sua tarefa é ajudar a descrever a lógica do aplicativo. O fluxograma consiste em etapas de diálogo em nome do usuário e do sistema, às vezes são adicionados elementos lógicos a ele - chamadas de API, funcionam com o contexto.


Fluxograma em Miro

Freqüentemente, o fluxograma descreve as principais encruzilhadas na habilidade de voz. Alguns designers bloqueiam todos os detalhes da habilidade. Pavel Guy não recomenda fazer isso, porque rapidamente deixará de ser legível e as alterações levarão muito tempo.

A maneira mais fácil de descobrir o caminho do usuário é acompanhá-lo do começo ao fim e ver em que pontos as condições e os desvios do cenário principal aparecerão.

Criar navegação

Não importa em que etapa o usuário esteja, ele deve sempre ter a oportunidade de começar tudo de novo, voltar, avançar e responder de forma variável. Não faça ele memorizar comandos.

Um exemplo da vida. A habilidade já mencionada “Sim, meu senhor” (seu público em “Alice” é de 650 mil pessoas, além disso, é um dos jogos mais populares para o Google Assistant, não só na Rússia, mas também no mundo) é um jogo atmosférico com música síntese de fala decente, histórias interessantes, mecânica de jogos. No começo, ele podia controlar o jogo apenas com a ajuda de "Sim", "Não" e "Suficiente". Na história, o jogador - meu senhor, dono de terras e camponeses, entra na situação "Sua Graça! Grandes depósitos de cobre foram encontrados em nossas terras férteis! Por favor, comece a construir uma mina? Seria possível simplesmente responder que sim, mas eu gostaria de me acostumar com o papel e falar, como convém a uma pessoa de alto nível.
- Sua Graça! Grandes depósitos de cobre foram encontrados em nossas terras férteis! Por favor, comece a construir uma mina?
Amor!
O designer da VUI descobriu esse ponto e treinou a habilidade para entender melhor os usuários, dando-lhes mais liberdade de resposta.

Escreva exemplos de diálogos e torne as respostas do bot mais diversas

Meus colegas do Just AI escrevem exemplos de diálogos em tabelas. Eles são muito mais convenientes, mas isso está longe de ser a opção mais conveniente - descrever a lógica e as possíveis transições. Alguém escreve scripts no Word. Não há um formato e regulamento único para a descrição.

Os usuários ficam muito irritados quando o assistente começa a repetir. A hipótese é confirmada por Nelly Kamaeva, designer Alan AI. Durante um teste de habilidade para crianças, ela viu a rapidez com que os caras perdiam o interesse quando se deparavam com a mesma resposta.
Vale a pena considerar várias réplicas com significado sinônimo, que o usuário ouvirá quando chegar à mesma etapa do script. Os designers da VUI recomendam o uso de três a dez variações de uma única frase.
Procure no lixo por intenções não reconhecidas

"Lixeira", ou catch-all na linguagem dos programadores, é o local em que as frases do usuário se enquadram por vários motivos.
"Com quem estou falando?" Você é um robô ?!
"Você me fez passar." Deseja continuar conversando?
A frase "eu estou falando com alguém?" Você é um robô ?! cairá em tudo (se você não tiver fornecido um script). “Você me fez passar. Deseja continuar a comunicação? - réplica padrão em tais situações. Pense antecipadamente em como ajudar um usuário que falha no catch-all.

Pense em voz e personagem

Lembre-se dos interlocutores que o aborreceram. Não é interessante para eles: relutância em continuar a conversa, nós os chamamos de chatos. O mesmo acontece quando se lida com habilidades. Alice, Alexa e Google Assistant têm seu próprio Speech Toolkit com uma ampla variedade de vozes masculinas e femininas, sotaques e efeitos sonoros para animar a fala do bot como tossir e cheirar.

Se você deseja impressionar o usuário e envolvê-lo na conversa, mexa com o estilo da fala, trabalhe na síntese: organize tensões, pausas e entonações. Este é um trabalho minucioso, mas acredite, o resultado vale a pena. Em um workshop interno, um colega criou uma habilidade para o Alexa - ouça o fragmento:


Ei, cara. Clima ruim, sim? Quer ficar bêbado? Deixe seu velho amigo Joe misturar uma boa bebida irlandesa. Ok
- E agora, quando você se sentir melhor, pegue seu traseiro e vá ao pub Joe. Lá você nunca vai beber sozinho. Estou te esperando
Outra maneira de trabalhar com voz é gravar áudio com atores profissionais. Por muito tempo, a flexibilidade é perdida se você deseja adicionar algo ao script, mas de maneira espetacular. A habilidade pode falar com as vozes de celebridades, políticos e heróis de filmes (bem, você já podia ouvir nossa voz atuando no jogo Lovecraft World , mas o Google Assistant fala com a voz de John Legend, vencedor do Grammy - tyk ).

Para um dos casos de negócios, também usamos gravações de voz de atores profissionais. Apenas 0,5% dos clientes conseguiram suspeitar (nem mesmo adivinhar, mas suspeitar) que o bot estava conversando com eles.

Use sons e ilustrações para criar uma atmosfera.

Você pode captar sons de bibliotecas prontas ou criar o seu próprio (o Alexa é exigente quanto a extensões de arquivo, portanto, é necessário mexer na conversão). No mesmo jogo, "Sim, meu senhor", para "Alice", sons são usados ​​para criar uma atmosfera: relinchar um cavalo, murmurar uma multidão, uma risada sinistra, uma gaita de fole. E recentemente em "Alice" apareceu a habilidade "Aves da Rússia", onde em uma conversa você pode ouvir como uma cotovia, pardal ou outros pássaros cantam e cantam.

O design da interface de voz não se limita a fluxogramas e texto seco. O designer tem tudo para criar habilidades que envolvam o usuário no processo.

E mais dicas dos designers da VUI


Não ensine a interface. A linguagem é uma interface familiar e intuitiva. Não há necessidade de ensinar uma pessoa a falar. Ele sabe como
Ruim - "Para ouvir a mensagem novamente, diga" Ouça novamente ". Para ir para a próxima mensagem, diga "Vá para a próxima mensagem".
Bom - "Ouça a mensagem novamente ou passe para a próxima?"

Faça perguntas fechadas . Eu recomendo evitar perguntas abertas e o final aberto das declarações do bot, o usuário deve ser direcionado para a ação.
Ruim - “Olá! Sou Symphony, um amante da música. Fico feliz em recomendar um álbum e falar sobre ele. "
Bom - "Olá! Sou Symphony, um amante da música. Terei todo o prazer em recomendar um álbum e falar sobre ele. Quer saber sobre a trilha do dia?

Evite clericalismo. Uma recomendação óbvia que poucas pessoas seguem. Nenhum de nós quer ler um texto complexo e sobrecarregado, e ouvi-lo é ainda mais insuportável.
Ruim - "É importante ter em mente que os outros álbuns desse artista se tornarão platina, o que nos permite concluir que esse álbum de estréia é bem-sucedido como um meio de entrar efetivamente na arena internacional".
Bom - “O álbum de estréia atraiu a atenção de todo o mundo para o artista. Não sem razão, seus próximos discos se tornaram platina duas vezes! ”

Teste e treinamento


Teste a habilidade em silêncio, na rua, em uma sala barulhenta, fale com entonações diferentes e em velocidades diferentes. Mesmo no lugar mais silencioso, algo pode dar errado. Talvez o processo de teste pareça entediante para alguns, mas garanto que não é. A habilidade precisa de um teste de colisão real!

Da experiência pessoal. Em uma das oficinas, projetei uma habilidade de condicionamento físico: de acordo com a idéia, Alexa primeiro deu instruções, depois a música ligou e a pessoa repetiu o exercício. Eu testei tudo entusiasticamente: pulei e corri para a música cortada, mudei o comprimento das faixas, repeti os exercícios várias vezes e, finalmente, a habilidade de UX me satisfez.

Provocar e jurar

Usuários são provocadores. Eles checam a reação da habilidade fora do tópico: a habilidade para pedir pizza, e o usuário - parece muito esperto - perguntará sobre sushi. Crie uma resposta decente. E amaldiçoe seu coração. Estou falando serio! Apenas a AI possui uma lista de verificação para o tapete usado nos testes.

Fale e ouça

Diga tudo o que você criar. Ouça com seus ouvidos tudo o que o usuário ouvirá. Peça aos colegas para lerem e até interpretarem o script. Grave o discurso, retorne às gravações, experimente.

Treinar habilidade

Mas a primeira vez que você não prevê tudo na habilidade. Aceite e se humilhe. Sua habilidade exigirá educação adicional. Leia diálogos e analise logs. Como fazer isso usando o Python, em uma das edições da Alice's School, diz Daria Serdyuk, engenheira de pesquisa da PNL Just AI.


Ferramentas de Designer


Papel, lápis ou cartolina - nada melhor foi inventado para começar o trabalho ou transmitir rapidamente uma ideia a uma equipe ou cliente. Mas existem ferramentas mais avançadas que simplificarão a vida profissional do designer de interface de voz e ajudarão a concretizar a ideia.

Aimylogic
Construtor com um mecanismo NLU (entendimento da linguagem natural). Mais de 10 mil usuários e mais de 1100 habilidades para assistentes de voz com um público total de 1 milhão de usuários. Há uma assinatura gratuita e um período de demonstração gratuito para assinaturas pagas.



No designer, você pode criar um script, testá-lo e conectá-lo a mais de dez canais (Alice, Google Assistant, Telegram, VKontakte e outros). Há suporte técnico e uma comunidade no Telegram. Aqui estão alguns exemplos de habilidades de voz:


Tortu.io
Ferramenta para prototipagem rápida. Você literalmente constrói um diálogo entre o usuário e o sistema nas etapas de um diagrama de blocos e depois testa usando um protótipo. Adequado para testes WoZ e testes rápidos de hipóteses.

Voiceflow
Designer Gráfico Alexa Skills. Permite criar o Alexa Skills sem habilidades de programação. Adequado para testes UX.

Flow.ai
Ferramenta gráfica para criar chatbots. Permite criar bots sem habilidades de programação. Também adequado para testes UX.

Materiais para bombeamento



A psicologia e a experiência real dos usuários de assistentes de voz são significativamente diferentes daquilo a que estamos acostumados na Web ou no ambiente móvel. Mas o design da voz é interessante porque é uma área nova e ainda pouco explorada, na qual muitas descobertas e descobertas podem ser feitas.

A experiência e os materiais dos designers da VUI mencionados no artigo foram usados ​​com o seu consentimento.

Agradecimentos:

Dmitry Chechetkin , co-fundador e chefe de projetos estratégicos, Just AI.
Daria Serdyuk , engenheira de pesquisa em PNL, Just AI.
Paul Gwai , fundador do Tortu.io.
Nelly Kamaeva , Designer de Produto, Alan AI.

Source: https://habr.com/ru/post/pt464925/


All Articles