😶 🎒 ✍️ UX语音指南：情况，模式，工具（以及一些道义上的支持） 🅰️ 🀄️ 👷🏻

UX和UI设计人员仍然对语音界面持怀疑态度。似乎是一种市场宣传大肆宣传，但很快就消失了。其他人不使用语音助手，因此确信语音不舒服且不自然。但是，尽管他们对此表示怀疑，但已经建立了一个独立的专业领域，包括其秘密，模式和机制（甚至是劳动力市场）。我们与Just AI UX架构师Yekaterina Yulina一起，探讨了如何采用语音技术，以及传统界面的UX设计师应该在他的思维方式上发生变化，从而占用语音。

但是首先，要回顾一下。在院子里1995 微软发布了Windows 95，世界正在发生一场革命。我记得父母和其他成年人谈论计算机的好处和危险。在周末，全家人去拜访我们的朋友，玩科辛卡和扫雷。

诺基亚3310于2000年发布。这次世界有了新的改变，这要归功于带有按钮界面的手机。后来出现了带有手写笔的智能手机。我也有一个。在屏幕上用手写笔戳非常酷。立即以按键电话在人们的背景下脱颖而出。但是“最好的手写笔是你自己的手指，”史蒂夫·乔布斯说。从2007年开始，苹果公司开始销售iPhone-从那以后，人们一直在窃听和刷卡，并且用手写笔戳一直很笨。

然后开始：2011年-苹果公司推出Siri，2014年亚马逊推出Alexa和Amazon Echo，2016年推出Google Assistant，2017年推出Google助手-Yandex的“爱丽丝” ...在开发人员和企业面前掀开了大门助手生态系统，一次-在移动应用商店中。很快，只有一个懒惰的人（而且是近视的！）不会为语音助手提高技能。

声音真的很方便的情况

很难想象用户体验（UX，用户体验）是在真空中构建的。语音技能是在特定的情况下诞生的，在这种情况下它是有用且有机的-创建语音脚本然后考虑将其应用在哪里是没有意义的。重要的是发现这种情况并熟练地击败它。

当我们需要特定功能来解决特定问题时，语音比Web或移动应用程序更方便。怎么了因为您无需等待网站加载，所以可以滚动页面，搜索菜单，按按钮。网站和应用程序是多功能的。对于单个案例，应在“此处和现在”下提高语音技能。

2019年2月，美国频道TNT播放了NBA比赛。在洛杉矶湖人队和波士顿凯尔特人队的比赛之间，评论员厄尼·约翰逊宣布耐克限量版运动鞋正在销售，观众可以要求Google助理为它们预订一双，价格为350美元。

六分钟后，运动鞋消失了。超过1.5万人在语音助手的帮助下进行了预订（订单数量超过了可用商品的数量）。销售篮球鞋的理想情况是进行实战。

早在2017年，星巴克就想出了如何使用语音助手来减少订单等待时间以及客户获得所需咖啡的路径的方法。您可以说“ Alexa，点我的星巴克”（“ Alexa，点我的星巴克”），然后在几分钟内到附近的地方拿起您喜欢的饮料。无需排队，等待咖啡师喊出您的名字。无需进入应用程序，查找您的常规订单，确认选择。随后，福特公司又遇到了同样的情况：Alexa被集成到SYNC3多媒体系统中，因此驾驶员有机会在车内通过语音直接订购和为星巴克付款，而不必分心。

但是来自Alan AI的同事告诉我，他们如何找到适用的用例-不是用于营销，而是用于企业任务。在美国为电梯服务的技术人员必须阅读大量文档，填写大量表格，输入维修数据，报告任务完成情况-并在不同的会计系统中进行所有这些工作。写入会花费很多时间，在此期间电梯实际上无法工作。 Alan AI应用了语音人工智能技术，因此升降机用户可以在工作中或前往设施时用语音填写表格。

语音UX与图片无关，而与情况相关。设计者的任务是详细研究上下文并了解用户在特定情况下的需求。

语音中的UX模式

一种功能。 因此，一项技能是一项功能。如果驾驶员点咖啡，那么他将解决此特定问题。喝完咖啡，想知道到月球的距离吗？另一个语音技能已经对此负责。用一种技能制造一把瑞士刀是一个坏主意。

卷动 UX和UI设计师一直在与营销人员争论在第一个屏幕上显示多少信息。没有什么比等待内容加载，不断滚动页面更糟糕了。对话界面也有第一个屏幕，与网络不同，它没有滚动。不需要他，因为语音助手是一套技能。用户根据命令激活技能并启动单个功能。

模态窗口和按钮。 模态窗口的第二个名称是对话。模态窗口的本质是什么？确认或拒绝执行操作的意图。在现实生活中，人们通过说是或否来表达意图，而您不需要按钮。

多模式。 智能扬声器和屏幕，智能手机，儿童说话玩具，智能家居，汽车仪表板-设备确定了使用环境。用户通过“智能”扬声器在家中进行的便利不同于在汽车中使用语音助手。不同平台上的同一助手具有不同的技能集。

定义使用环境和设备。检查您是否可以在此设备上将语音与其他类型的交互结合在一起。

跨平台 。另一个方面是如何为多个助手提高技能。可以保留力学和逻辑，但是魔鬼将隐藏在实现细节和用户的技能之路中。让我们看看在同一平台上如何获得Alice的技能和Google Assistant的行为的路径。

iOS上的Alice 。爱丽丝用户需要首先下载Yandex.Browser应用程序，允许他使用位置和麦克风，单击助手图标并说出该技能的激活短语。例如，“启动技能”，是的，我的主人。第二个及以后的用户体验包括三个步骤：打开Yandex.Browser，单击助手呼叫按钮，说出一个激活短语。

iOS上的Google助手 。用户下载Google Assistant应用程序，通过其帐户登录，允许发送通知并同意访问麦克风。如果默认语言是英语，则需要在应用程序界面中选择俄语，要求助手用您的声音更改语言并说出激活短语以触发操作。在这里她与众不同-“与应用程序对话”是的，我的主。然后，路径缩短了-用户第二次打开Google Assistant应用并简单地发出命令的声音。

如果不知道激活短语（在不同的生态系统中调用相同技能的命令会有所不同），就无法启动该技能-就UX而言，这是语音助手的弱点之一。但是Google，Yandex和其他公司现在正在研究便捷技能发现（如何将有关新技能的信息正确传达给消费者）的任务，因此在某个时间点更容易找到有用和相关的技能。

顺便说一句，VUI设计人员坚持认为，针对不同助手的具有相同机制的技能仍然是单独的项目。

七个步骤设计界面

我问了VUI设计师，Just AI同事和Aimylogic技能构建者的用户，他们通常开始与之合作编写脚本。每个人都说“有一个主意”。您可以在文本编辑器中以自由形式描述它。

tortu.io的创始人Pavel Gvay，这是一种用于设计语音应用程序的工具：“了解用户和应用程序之间的会话将如何建立的最快，最便宜的方法是编写一个对话示例。这是描述流操作的文本文件。在格式上，对话示例类似于电影的脚本，其中所有评论均按角色进行描绘。”

概念中的示例对话框

招呼用户

告诉我们该机器人做什么。使用中等长度的宽大短语。用一个封闭的问题结束该短语：用户将了解他们想要的东西。
不好 -“你好！我是活动。我不能没有运动过一天。他是我的一切，我的生活，我的灵感！我也有作为培训师的丰富经验和数据库中的数百项练习！我很乐意与您分享我最喜欢的练习！”
好 -“你好！我是Activity，是一名机器人运动员。我很乐意为您推荐一套练习。您想谈谈瑜伽吗？”

制定用户路径

用程序员的语言来说，意图就是意图（英语意图）。与经典接口的类比是正式或非正式的请求。与正式人员一起工作更容易，非正式人员可以将生活变成噩梦。

设计人员在使用用户路径时使用流程图。她的任务是帮助描述应用程序的逻辑。该流程图由代表用户和系统的对话步骤组成，有时向其中添加逻辑元素-API调用，可与上下文一起使用。

米罗流程图

通常，流程图描述了语音技能的主要十字路口。一些设计师将技能的每个细节都排除在外。 Pavel Guy不建议您这样做，因为它将很快变得不可读，并且进行任何更改将花费大量时间。

确定用户路径的最简单方法是从头到尾与他一起走，看看在什么点上会出现条件和与主要场景的偏离。

创建导航

无论用户走到哪一步，他都应该始终有机会重新开始，返回，前进并做出不同的响应。不要让他记住命令。

生活中的一个例子。已经提到的技能“是的，我的主人”（“爱丽丝”的观众为65万人，而且，不仅是俄罗斯，而且是世界上最受欢迎的Google Assistant游戏之一）是一种带有音乐的氛围游戏体面的语音合成，有趣的故事，游戏机制。一开始，他只能在“是”，“否”和“足够”的帮助下控制游戏。在故事中，玩家-我的主人，土地和农民的所有者，陷入了“您的恩典！在我们肥沃的土地上发现了大量的铜矿！请开始建造一个地雷吗？” 可以简单地回答“是”，但我想适应这个角色并说话，因为它适合一位知名人士。

-恩典！在我们肥沃的土地上发现了大量的铜矿！请开始建造地雷？
-爱！

VUI设计师发现了这一点，并对其技能进行了培训，以更好地了解用户，使他们有更多的回答自由。

编写对话框示例，使机器人的答案更加多样化

我的Just AI同事在表格中编写了对话框示例。它们非常方便，但这远非最方便的选择-描述逻辑和可能的转换。有人用Word编写脚本。该说明没有单一的格式和规定。

当助手开始重复操作时，用户会非常恼火。该假设已由设计师Alan AI的Nelly Kamaeva证实。在对孩子的技能测试中，她看到了当他们面对相同的答案时，他们很快失去了兴趣。

值得考虑几个含义相同的副本，当用户到达脚本中的同一步骤时，用户会听到这些副本。 VUI设计人员建议对单个短语使用三到十个变体。

在垃圾桶中寻找无法识别的意图

“ Trash”（即程序员的全部语言）是用户短语由于各种原因而落空的地方。
“我在跟谁说话？” 您是机器人吗？
“你让我通过。” 想继续聊天吗？
“我在跟任何人说话？”这句话。您是机器人吗？！” （如果您没有提供脚本的话）将全包。 “你让我通过了。您要继续交流吗？” -在这种情况下的默认副本。预先考虑如何为全面失败的用户提供帮助。

考虑声音和性格

记住让您感到无聊的对话者。和他们在一起没意思；不愿继续谈话，我们称他们为无聊。处理技能时也会发生同样的事情。爱丽丝（Alice），亚历克斯（Alexa）和Google助理（Google Assistant）拥有自己的语音工具包，其中包含多种男性和女性声音，口音和声音效果，可以使机器人的语音（例如咳嗽和嗅探）更加生动。

如果您想打动用户并使其参与对话，请调整讲话风格，并进行综合：安排重音，暂停和语调。这是艰苦的工作，但请相信我，结果值得。在内部研讨会上，一位同事为Alexa创建了一项技能-听片段：

嘿，伙计糟糕的天气，是吗？想喝醉吗？让您的老朋友乔为您混合好爱尔兰的饮料。好啦
-现在，当您感觉好些时，带上去吧，去乔的酒吧。在这里，您永远不会一个人喝酒。我在等你

使用语音的另一种方法是与专业演员录制音频。如果您想在脚本中添加一些内容，那么很长一段时间就会失去昂贵的灵活性。该技能可以与电影中的名人，政客和英雄的声音说话（嗯，您已经可以听到我们为Lovecraft World游戏所扮演的声音，但Google Assistant则与获得格莱美奖的约翰· 莱恩-tyk说话）。

对于其中一个业务案例，我们还使用了专业演员的录音。只有0.5％的客户能够怀疑（甚至没有猜测，但是怀疑）该机器人正在与他们交谈。

使用声音和插图营造气氛。

您可以从现成的库中拾取声音，也可以创建自己的库（Alexa对文件扩展名很挑剔，因此您必须进行转换）。在同一游戏中，“爱丽丝”是“爱丽丝”的声音，被用来营造一种氛围：嘶哑一匹马，喃喃自语，不祥的笑声，风笛。最近，在“爱丽丝”中出现了“俄罗斯鸟类”技能，在对话中您可以听到百灵鸟，麻雀或其他鸟类如何唱歌和鸣叫。

语音界面设计不仅限于流程图和干文本。设计人员拥有创建与用户相关的技能的一切能力。

VUI设计师的更多技巧

不要示教界面。 语言是一种熟悉且直观的界面。无需教人说话。他知道如何。
不好 -“要再次收听消息，请说“再次收听”。要转到下一条消息，请说“转到下一条消息”。
好 -“再次收听消息还是继续下一个？”

提出封闭的问题 。我建议避免公开问题和机器人声明的公开结尾，应指导用户采取行动。
不好 -“你好！我是交响曲，音乐爱好者。很高兴为您推荐一张专辑并告诉您。”
好 -“你好！我是交响曲，音乐爱好者。我很乐意为您推荐一张专辑，并向您介绍。想知道今天的日子吗？”

避免文职。 一个很少有人遵循的明显建议。我们谁也不想阅读复杂而又繁重的文本，而聆听文本则更让人难以忍受。
Bad- “请牢记，这位歌手的更多专辑将成为白金唱片，这使我们得出结论，这张首张专辑是成功进入国际舞台的一种成功手段，因此我们得出结论。”
好 -首张专辑吸引了全世界的目光。他的下一张唱片并非没有理由两次成为白金！”

测试与培训

在街道上，嘈杂的房间中以沉默的方式测试技能，以不同的语调和不同的速度说话。即使在最安静的地方，也可能出问题。也许对于某些人来说，测试过程似乎很无聊，但是我向您保证，事实并非如此。技能需要真正的碰撞测试！

从个人经验。在一个讲习班中，我设计了一种健身技巧：根据这个想法，Alexa首先给出了指导，然后打开了音乐，此人重复了锻炼。我对自己的一切进行了热情的测试：我跳了起来，跑向切碎的音乐，改变了曲目的长度，多次重复了练习，最终使UX技术使我满意。

挑衅和发誓

用户是挑衅者。他们将检查离题技能的反应：订购披萨的技能，并且用户-似乎很狡猾-将询问寿司。提出一个体面的答案。诅咒你的心。我是认真的！ Just AI拥有用于测试的垫子的清单。

说和听

说出您想出的一切。用耳朵聆听用户会听到的所有内容。要求同事阅读甚至播放脚本。录制语音，返回录音，进行实验。

训练技巧

但是，您第一次没有预见到这项技能的所有内容。接受它，谦虚自己。您的技能将需要进一步的教育。阅读对话框并分析日志。 NLP研究工程师Just AI的Daria Serdyuk说，在Alice's School的其中一个版本中，如何使用Python做到这一点。

设计工具

纸，铅笔或记号板-没有什么更好的发明可以使他们开始工作或将想法快速传达给团队或客户。但是，还有更先进的工具可以简化语音接口设计人员的职业生涯，并有助于实现这一想法。

Aimylogic
具有NLU引擎的构造函数（自然语言理解）。超过1万名用户和1100多种语音助手技能，总共有100万用户。付费订阅有免费订阅和免费试用期。

在设计器中，您可以创建一个脚本，对其进行测试并将其连接到十多个通道（Alice，Google Assistant，Telegram，VKontakte等）。 Telegram中有技术支持和社区。以下是一些语音技巧示例：

Tortu.io
快速原型制作工具。您可以按照框图上的步骤从字面上构建用户与系统之间的对话，然后使用原型进行测试。适用于WoZ测试和快速假设测试。

语音流
平面设计师Alexa Skills。使您无需编程即可创建Alexa技能。适用于UX测试。

流
用于创建聊天机器人的图形工具。允许您创建没有编程技能的机器人。也适用于UX测试。

泵送材料

语音技术对语音工具的研究。
语音工具的目录站点。
带有语音工具的Github存储库。
专用于对话界面的电报聊天。该渠道并未附加到特定的平台或工具，而是讨论从业务组件和趋势到开发和设计的所有内容。
语音工具。

语音助手用户的心理和实际经验与我们在Web或移动环境中所习惯的心理和实际经验有很大不同。但是语音设计很有趣，因为它是一个新的但尚未探索的领域，可以在其中找到许多发现和突破。

经他们同意，使用了本文中提到的VUI设计师的经验和材料。

致谢：Just AI联合创始人兼战略项目负责人

Dmitry Chechetkin。Just AI的NLP研究工程师
Daria Serdyuk。
Tortu.io的创始人Paul Gwai。
Nelly Kamaeva，Alan AI产品设计师。

UX语音指南：情况，模式，工具（以及一些道义上的支持）