认识Yandex.Station Mini。 小型设备的大故事

我们刚刚推出了新设备-Yandex.Station Mini。 这是一款紧凑型智能扬声器,可以播放音乐,管理智能家居,设置提醒等等。 这也是Alice的第一列,可以通过手势进行控制。

今天,我们将向哈勃(Habr)的读者讲述几个有关迷你站创建阶段的故事。 从光学校准和UX测试到使用电源的明显功能。 您还将了解Theremin是什么以及它如何与Yandex设备关联。



但是对于初学者来说,闪回很小。

去年,我们在Habré上谈论了“大型” Yandex.Station(以及我们和合作伙伴使用的Yandex.IO平台)的开发。 这是我们与爱丽丝(Alice)共同设计的旗舰设备,该设备设计在电视旁大房间的中央。 她具有强大的50瓦声音。 三个有源扬声器,频率范围广。 七个麦克风作为一个雷达工作。 毕竟是HDMI输出。

今年以来,我们并没有停滞不前。 爱丽丝的声音越来越自然。 她学会了解决许多同形异义词的发音问题,也就是说,根据上下文,强调书写相同但含义不同的单词是正确的。 听力也得到了发展:最近,我们已经讨论过如何教爱丽丝不要回应别人的名字。 最近,我们开始测试通过语音识别列所有者的功能。

我们还推出了智能家居平台。 现在,借助语音,您可以控制第三方设备,甚至可以将它们组合为脚本。 拒绝遥控器和按钮以支持语音是我们平台的关键功能。 为此,爱丽丝应该在附近。

此外,智能扬声器不仅包括音乐,广播和视频,还包括提醒,闹钟,天气,事实答案,童话故事和儿童游戏等。该设备可在床上,办公室,厨房,公寓的任何其他角落。

因此,我们决定为需要使用Alice的更简单,更紧凑的设备的用户制作另一个工作站。

减少设备


迷你版本不需要响亮的声音,因此笨重的扬声器被一个trehvatnym取代。 对于简单的任务,这已绰绰有余。 尽管即使它可能会给电源带来麻烦,但是如果您不考虑一个细微差别,那么稍后会更多。

拒绝访问电视。 这减少了负载,热量并因此减少了对电子设备的需求。 该站的大型金属框架以及用于冷却的无源散热器也不再需要。

剩下的四个麦克风代替了七个,因为声音不再干扰语音获取。 但是与此同时,像在电台中一样,麦克风是按照相控阵天线或定向麦克风的原理工作的。 该设备通过算法在周围的噪音中搜索带有单词“ Alice”的语音命令。 然后,它确定方向并清除噪声中的信号,包括减去音乐。 并且只有在此之后,信号才进入云层并被识别。

为了使语音识别最准确地工作,需要在专门为此设备说过的记录上训练神经网络。 从“大型”站获取神经网络模型是没有意义的,因为它在迷你站中的效率不会很高。

该问题可以通过多种方式解决。 例如,雇用人们读出一张纸上的短语列。 但是,我们将收到很少与实际用户请求不同的记录,因为实际上这些记录包含不可预测的噪音,声音重叠等等。

因此,我们没有节省质量,而是立即在工厂订购了几百个现成的扬声器,我们将其分发给Yandex的封闭Beta测试参与者,以换取训练神经网络的帮助。 而且有效。

顺便说一句,他们没有拒绝硬件按钮“静音”的问题,后者使麦克风断电并使Alice的“听力”静音。 它不会增加设备的任何特殊复杂性,现在位于侧面。



但是其余的按钮被遗弃了。 从这里开始乐趣。

添加魔法和激光


看看下面的照片。 这是我们两个站的顶视图。 今天,我们不再谈论设计-尝试找到另一个重要的区别。



请注意:没有按钮。 而且没有旋转环可以调节声音。 如果我们制造一个小型,轻巧的设备,几乎所有电子设备都安装在一块板上,那么机械元件只会使设计复杂化并增加尺寸。

语音是控制智能扬声器的最自然的方法。 但是碰巧一个人在电话里或在吃饭时说话,所以仍然需要研究。 我们找到了一个选择。 而且自然也不少。

想象:您正在做手势-您喜欢的歌曲越来越响。 或者只是将您的手掌放在色谱柱上,警报响起。

那么魔术与手势如何工作? 隐藏在设备盖下的深度传感器对此负责。 这就是它在板上的样子,并且明显增加了(实际上长度仅为4 mm,厚度仅为1 mm):



这是一种垂直发射的红外激光,波长为940 nm,与接收光电二极管一起使用。 光束从柱子上方的障碍物反弹并返回。 并且由于光速是已知的,因此可以随时确定到物体的距离。



购买传感器并将其连接到板上似乎足够了,以便一切正常。 但是没有

传感器隐藏在内部,在其上方的壳体中有孔(否则,它将如何工作)。 这意味着灰尘和其他碎屑会扭曲测量。

我们需要一块能覆盖激光器和光电二极管的保护板,但它能适合外壳。 由于并非所有类型的塑料在近红外范围内都能正常工作,因此其材料受到严格管制。 出于强烈的愿望,也可以切出玻璃,但这非常困难,这意味着它非常昂贵。



而且,每个保护板都是铸造的,从字面上讲是唯一的。 不可能制作两个相同的板。 因此,它们各自以自己的方式影响光束的传播。 如果不考虑这一点,则在测量距离时会出现错误。

每个新的迷你工作站都会在传送带上进行传感器校准步骤,以考虑到镜头的各个特性。 简而言之,以便该设备在此高度处15厘米的高度可以感知障碍物。 校准是这样的。 纸张取自与相纸相似的材料,但不超过红外范围,并静态放置在已知高度。

结果,我们到达了您需要测试组装设备中传感器的准确性的阶段。 但是事实证明,根本不存在用于此目的的现成工业设备。 没有什么可做的-他们制造了他们的设备。 在下面的照片中,您可以看到我们在莫斯科办公室的第一个原型,该原型实际上是用3D灌木丛印刷机上的胶合板,两个电机和一个用于控制它们的控制器组装而成的。 这东西会自动移动平台,模拟一只手在柱上方,以评估传感器确定距离的准确性。



精美副本随后被送去生产。

我们正在稳定力量


现在该考虑电源了,我们已承诺在上面讨论。

该柱消耗能量。 即使在高音量下,平均也只有不到5瓦。 但是,与许多其他小型家用电器不同,它的消耗极为不均。 当我们在听这首曲目时使用手势传感器时,我们在早期的原型上注意到了这种效果:


尝试猜测他怎么了? 突然过渡到低频。 低频与高频有何不同? 扬声器的振动膜的振幅。 越高,设备消耗的能量越多。

加上手势控制,语音命令,网络流量,您会感到短暂而又不可预测的时刻,即功耗急剧增加,以至于简单的电源根本无法应付稳定电压的支持。 例如,智能手机的典型充电并非为此设计的,因为此类设备具有电池并且消耗量相当均匀。 如果电源电压短暂下降,则该列可以简单地重新启动。

为避免此问题,我们在100 Hz的声音上测试了原型。 扬声器在上面产生最大的负载。 我们的外部电源,尽管看起来像是USB Type-C的1.5安培的典型充电,但已为这种情况做好了准备。 此外,我们了解到人们可以连接自己的电源,因此在开发过程中,他们用可以承受短期压降的电源代替了内部电源转换器(所谓的DC-DC转换器)。 当然,第三方电源是不同的,我们不对其进行测试也不推荐使用它们,但是更换转换器的解决方案会有所帮助。

顺便说一句,我们还考虑了用户的意愿:白色Station Mini具有白色电源和电线。 有点琐事,但很好。

做手势


稳定的设备和传感器只是成功的一半。 仍然需要自己提出手势。 提出建议的最好方法是收集最多的想法,然后将其过滤掉并逐步进行测试。 我们就是这样做的:组织了一次有奖的内部黑客马拉松。 公司的任何员工都可以提供并立即意识到他们对设备的手势。 在Yandex中,这种方法效果很好。

有很多选择。 我们根据几个条件消除了它们,但最重要的是两个。 首先,如果某个功能很流行并且经常需要,那么它的手势应该是简单且易于再现的。 其次,成功的手势是直观的。 您可以编写说明,拍摄培训视频,但这些效果远不及良好的旧直觉。

我们迅速决定了手势“爱丽丝,别说了”。 用户已经习惯于将手放在闹钟,电话,智能手表上以停止声音。

但是,通过调整声音的手势,一切都不那么明显。 我们有两个获胜者选择。 在这两种方法中,都可以理解,声音是使用扬声器上方的假想垂直刻度来控制的。 但是,仅将手放在扬声器上方就足够了吗:距离越大,音量越高? 还是采用相对比例并向上/向下移动手掌以平滑地改变音量更好?



UX测试非常适合寻找此类问题的答案。 在Yandex中,为此创建了一个特殊的实验室:我们将人们从街上带到那里,观察他们如何使用该产品。 这种做法非常有用。

我们希望在UX测试中肯定会赢得两个选择之一。 但是这次不是。 人们的行为大致相等。 因此,您需要检查两个选项。 因此,我们在Beta版中进行了测试,其参与者很快就指出了绝对规​​模的重大缺陷。 此选项导致以下事实:手的随机波动(或猫的飞行)会突然打开最大音量。 这是不愉快的。

相对比例选项获胜。 尽管根据Beta用户的反馈进行了改进。 例如,从随机掉落的物体上添加了试探法:为了改变声音,手掌应该在相同的高度冻结片刻,然后才移动。 他们还添加了声音指示音量,以便人们可以准确听到他已更改了多少步。

故事可能就此结束了,但是研究手势的同事却是音乐和非标准演奏方式的忠实拥护者。

添加gravitsapu


在手势工作过程中,产生了以下想法:借助手部动作,不仅可以调节音量,还可以创作音乐。 后来我们想起了这个想法已经在Theremin中应用了。 这种电子乐器是由苏联发明家列夫·谢尔盖耶维奇·特尔门(Lev Sergeyevich Termen)于1920年发明的。 Theremin的工作原理如下:指针的移动会改变其振荡电路的容量,从而改变声音的频率。 只需自己听发明人:



Leo Theremin的经典乐器使用电磁场和两个天线:控制音量和音高。 我们只有一条红外线,因此您可以控制一件事。 我们把音量作为常数。

彼得·特门(Peter Termen)是特里敏的作曲家和表演者,也是列夫·特里敏的曾孙,他帮助我们建立了一个新政权。 实验音乐人Anton Maskeliade和Monoleak工作室为合成器创造了乐器风格:从熟悉的钢琴和吉他,到不寻常的剑拔pan张。 您甚至可以播放太空音乐-只需说:“爱丽丝,给人一种引力的声音。” 该系列已经有几十种工具,并且将得到补充。

在Thereminvox中,手的最小移动都会改变声音的频率。 您需要专业并且有力的手才能准确地敲击音符并重现旋律。 我们希望每个人都能在扬声器上播放音乐。 因此,对于许多乐器风格,将虚构的光线分为多个部分,为每个部分分配特定的声音。

顺便说一下,最初,合成器模式是我们一位同事的个人项目。 但是,我们也邀请他们参加UX研究的孩子们对新制度非常热心。 因此,我们意识到我们不应该害羞,应该对产品采取个人主动性。

***


今天,我们证明,即使是一个看似简单的小型设备也隐藏了整个历史和众多技术解决方案。 您想听些什么故事?

我们相信,语音控制将成为未来,因为在很多情况下,说起来很容易-比按下按钮更方便,更自然。 新设备是朝这个方向迈出的又一步。

Source: https://habr.com/ru/post/zh-CN470642/


All Articles