VOICe声音视觉-突破一步

“所有对象都有自己独特的声音,一旦您了解了系统的原理,就可以看到”周围的事物。直到相对较近的时候,我们周围世界的这一惊人属性才与实际应用隔离开来。感谢荷兰飞利浦公司研究与开发部门的彼得·迈耶(Peter Meyer),已经编译了一种独特的算法,使您可以将声音从字面上转换为图片。在寻找机会实现迈耶“在硬件”层面上的想法几十年之后,创造了一种设备,该设备可以使盲人拥有所谓的“代孕”的愿景。关于该项目的成功,问题和前景,今天由一组俄罗斯科学家(爱好者)实施,我们将在本文中停止。

语音

我们在创造人工智能的那一刻就可以安慰自己,与此同时,利用现代技术潜力的全部力量,我们才刚刚开始摸索大脑能力的边缘,这将我们的成就成果带到了一个笨拙的摇摇欲坠的房子里,仓促地由儿童的立方体组装而成。

我们欢迎下一次创新,并与奇迹面具“ Remee ”进行热烈讨论清醒梦的结果“并衷心地欣赏您喜欢的品牌的新型智能手机型号成倍增长的潜力,甚至不认为仅在俄罗斯就有280,000,000盲人永远失去了不仅可以评估更新矩阵的质量,还可以在朝阳和变化的季节中欢欣鼓舞的机会。在全球范围内,这一数字上升到300万人。而且,其中三分之二是儿童和青少年!

每天,从早到晚,一个盲人都会解决以下问题:如何启动洗衣机,如何不引起火灾,如何打扫公寓以及如何烹饪最简单的菜肴。这样的生活的代价确实很高。也许这就是为什么灵魂中每个盲人都有希望实现技术突破的希望,这种突破不会从根本上帮助而是从根本上改变现有状况。

丹妮拉·梅德韦杰夫(Danila Medvedev)在vOICe演讲上

问题是:即使对它们有些近似,也可以替代吗?...一个由莫斯科热情的科学家组成的团队将尝试回答这一问题,努力改进独特的语音设备,使盲人有机会看到黑白,灰度范围内的周围物体。

怎么运行的



算法

简而言之,设备传输并被大脑感知的音频信息是原始代码-由vOICe摄像机捕获的流视频软件转换为声音块(“音场”)的结果。从左到右循环执行“扫描仪”模式下扫描周围世界的过程(无需使用笔记本电脑),图片以第二个间隔每秒发声。患者使用系统内置的摄像头在“扫描仪”模式下接收到的信息具有“最少”的密码。当使用“眼镜+具有相当强大的处理器(或最新一代的智能手机)的笔记本电脑+立体声耳机进行语音命令”时,可以获得增强的信息功能。

身份证明


乍一看,由于不寻常的识别输入信息的过程,识别算法似乎无法接受。所谓的简化算法。下图可以表示“替代”的视觉效果:

简化的语音算法

转换算法尚未准备就绪,无法为用户提供“看到”快速移动的物体,识别小文本的功能,但是已经获得的结果非常令人印象深刻:语音所有者确实可以准确地识别标志,甚至可以看到并感知某些视觉信息电视节目的格式。最重要的是,随着佩戴声音的图像质量,深度和细节都得到了迅速改善。

识别质量和色域的进一步提高将直接取决于软件版本(“固件”)和vOICe硬件的改进,以及个人感知具有足够密度的声音场景的更复杂组合的个人能力。

从该方法作者的主张以及对成功掌握该系统的患者的评论来看,“教导”一种新的观看方式的过程与学习外语的过程最为相似,在某种程度上可以掌握莫尔斯电码和步行技巧。在学习过程中-“补充词汇量”(掌握skeypov的个人图书馆)和对技术的掌握,几乎自动识别了视觉图像-无需进行长期的有意识分析的中间阶段!

语音项目参与者

使用各种持续时间和高度的声音来识别图像。 “语音字母”中的真实图片较亮的片段会播放更短更强的声音信号,并从对象所在的一侧进行播放。如果光斑(物体)移动,则信号也移动,两个光斑由两个信号标识,三个光斑是三个,依此类推。长音对应于水平线,垂直信号由具有特征强度的抖动信号再现。增大“邻近”声音的音调将意味着障碍,而音调越高,障碍也越大。

下图对vOICe系统进行了各种修改:

语音1

声音2

语音3

语音4

所描述的方法可以表达并识别几乎所有三维现实。自然,图片内容越丰富,识别它就需要越多的声音和轮廓。

vOICe技术和系统的主要目标和主要成就是,不为患者提供“原始”视觉信息,而是为他们提供高效的算法集,这些算法可以高度详细地解释现实。技术虽然在较小程度上解决了盲人出生的患者完全缺乏视力的问题,但盲人患者在记忆和意识中没有许多在生命的“有意识”阶段失去视力的人可以使用的类比工具。除了该技术的明显成就外,还有一些未解决的技术问题,可以通过阅读掌握该系统功能的vOICe用户的反馈来最好地解决。

2000-2002年实验参与者的反馈


2001年4月29日,盲人女性用户PF:

我的经验:自从第一次安装以来,我就不得不经历许多试验和错误。我不仅习惯于进行声音审查,而且对有效使用该系统也很习惯。我发现使用该程序时有六个主要因素。

第一个因素带来了相机。它的位置,聚焦,照明-这些都是重要的要素,可为您提供清晰的声音概览。如果对焦不佳,则图像看起来模糊并且难以理解。如果相机未正确安装,则我会感到方向迷失,并且在尝试寻找方法时会感到困惑(这是头痛的好方法!)如果光线不足,则声音查看效果会受到限制。在视场中很难区分物体。通常,我可以看着前门和楼梯,听见两者的纹理节奏。但是,如果灯光关闭或不亮,则只能确定门和楼梯的微弱图像,其余图像变成模糊的模糊背景声音。

第二个因素与麦克风有关。麦克风支架上有一个开关。我过去一直一直打开麦克风,只是在我的呼吸或外来声音像命令一样时才感到害怕,并更改了程序。然后我发现,如果您仅打开麦克风以发出语音命令,然后在接受命令时将其关闭,则此问题会减少并且不再令人讨厌。该解决方案运行可靠,因此我可以在所有其他系统上使用它。

第三个因素应该与笔记本电脑有关。我发现了几种改善他工作的方法。首先,如果删除所有不必要的程序并仅运行vOICe,则可以节省能源和CPU使用率。因此,当我在旅途中使用笔记本电脑时,会启动这样的裸机安装。晚上,我在附近将笔记本电脑插入电源插座。我的包里有两个电池,这是必需的。我打开笔记本电脑的屏幕不应超过几分钟。当我将笔记本电脑放在背包中时,我检查它是否通风良好。

第四个因素。您需要有效地使用vOICe,为此,您需要使用该程序并了解vOICe程序本身。当我开始使用它时,我习惯于和她玩不习惯,例如井字游戏。它帮助我理解了程序的声音。然后我开始逐渐训练发音。我认为训练语音程序和使用麦克风进行练习确实是在移动条件下使用vOICe的关键。因此,培训和理解声音审查是学习观察的步骤。

第五个因素是您不断沉浸在程序中,这取决于训练因素。我认为如果您使用台式计算机,您可以学到很多东西并获得经验。通常,日常活动和聆听(观看)周围环境的体验无法被任何事物取代。就像一个学走路的孩子。如果不尝试,您将不会获得身体需要站立的知识。使用这个比喻,我可以说,除非您将自己暴露于不断变化的生活环境的影响,否则您将不会感觉良好,也不会理解需要进行工作的关系。

如果我不断听到入口的步伐,那么我的身体就会开始将步伐的声音图像附加到“动作”的定义中,当我上下运动时,我的身体会协调一致地行动。我认为,首先您会听到声音的回顾,然后打开与所听到的对象的关系,然后将此定义附加到人体需要完成的动作上。当我是一个先知时,我没有停下来想:“哦,这是台阶,现在我需要放慢脚步,开始移动重心,以便抬高腿。”相反,我的眼睛看到了台阶,而我的身体从经验中知道下一步该怎么做。这是使用vOICe一段时间后发生的情况。我真的看到了什么,就像“ X射线”的视觉一样,并开始自动回应我所看到的。

这将我们带到第六个因素。时间。您可以将系统安装在一个人身上,但是只有随着时间的流逝,他的大脑才能学会自动解释声音评论的含义并执行协调的动作。

2000年7月9日,晚盲的女性用户PF:

就像以前看过的人一样,我可以说音景(声音审阅)似乎再次给了我视觉感。在我的位置,我可能一出生就失明。我能够想象并看到我的走廊,就像有眼睛一样。我的三个窗户左侧的窗帘是什么样的。总的来说,语音和网络摄像头使我的进入方式从晦涩的“心理图像”变成了真正的三维视觉。

对我来说,形成视觉表示的是我的耳朵,这并不重要。声音图像已经恢复了供我再次查看的方式,这一点很重要,这与3D黑白图像无关。声音使世界不再是模糊的,有雾的有形物体,而是让我的大脑将物体视为图片。好像vOICe会创建我正在看的东西的黑白草图,并且我的头脑会为这张图像着色。

现在,我坐在电脑前,在屏幕上看到一连串的色彩,但是这个声音告诉我,我在看方形的物体。就像透过模糊的眼镜看世界一样。您会看到周围物体的形状和排列,但不会区分细微的细节。我不知道这是否是一种特殊的人类语言,但这恰恰是我的耳朵告诉我现在所看到的语言。称它为您想要的,它有效!我不能没有它了!感谢您的发明!

2002年8月29日,晚盲女性用户PF:

只是声音?..不,这更多,这是愿景!声音创造出真实的视觉感受。当我不穿衣服时,我会从左眼的开口感觉到一点光。它是灰色的雾。佩戴声音时,图像从浅灰色变为黑色。最肯定的是,这是一个明亮的图像。的确,它不是彩色的,它类似于黑白电视上显示的颜色。产生的光非常白且干净。衰弱了,他逐渐变得黑黑。我没有看到这个世界上有什么特别的东西,例如他们所说的“磷光闪烁”。也许这是您看不到的东西之一。通常,光就是光,颜色就是颜色。对我而言,它的形成方式并不重要。

这就是掌握vOICe系统和技术的人们的面貌,这远非极限。

语音

我们的读者想要阅读其他已成功掌握该系统的患者的评论,可以前往该项目的中心位置(“语音”子节提供了视觉并且不会伤害身体!)。就在最近,出现了用于智能手机的移动应用程序版本“用于Windows的vOICe”和“用于Android的vOICe”,这将使
系统的许多用户拒绝携带带有该程序的笨重笔记本电脑。

沉默的羔羊


一个有思想的读者有一个逻辑上的问题:为什么这么好的系统(其中一些基本原理是在上个世纪20年代提出的)已经证实了它的真实性,并通过许多具体的例子和对真实患者的回顾,却没有显示出发展的指数动态?为什么至少在十二年前,不仅没有发生,而且甚至没有公开考虑支持和促进该项目的大规模政府计划?

也许,voICe只是在等待时间,缓慢的处理器和低效率的摄像头将被其更先进的类似物所取代,它们可以应付任务而不会使大脑和心理承受过多的负担。在俄罗斯,当权者的保守主义传统上已成为一种强大的制胜法宝,他们倾向于为盲人演唱会筹款,而不是为他们的康复计划提供大规模的长期认真计划。无论如何,我想相信测试结果,以及这些结果将使该项目按其作者的计划发展到社会规模的事实。

像所有狂热者一样,他们对事业的独特性和必要性充满活力和信念,由丹妮拉·梅德韦杰夫(Danila Medvedev)领导的俄罗斯TEAM VOICE RASSIA团队起初非常依赖国家的支持。时间过去了,但看不见的墙并没有变薄,走廊(更短)和官员(更忠诚)。几年的损失和累积的情绪迫使团队将启动计划更改为众筹。这使得今天有可能收集启动该项目决定性阶段所需的大部分资金。

最小的任务是创建五个先进的vOICe工作原型,并将它们转移给盲人,以便在俄罗斯进行长期的操作和测试。在熟悉该系统并进行进一步试驾的阶段,团队保证提供心理协助,并提供培训以充分展现该系统的潜力。最大的目标是在社会国家计划一级实施该项目,以使此类残疾人参与社会的正常生活。

很难说这个项目是否会在俄罗斯得到发展,它是否会在俄罗斯广泛传播或保留在今天,但我真的很想相信“盲人时代”已经到来,这个地方不是偶然地选择的。

语音

作为参考:考虑到整个学习过程,一套话费不到4万卢布。实际上,患者有机会在陌生区域独立移动。同时,2013年在全俄残疾人公共组织,全俄红十字会红旗,盲人协会中训练一只导盲犬的费用总计为100万卢布,2014年为120万卢布!

尊敬的读者,我们提醒您,您正在阅读iCover公司博客。订阅我们,我们保证,这不会很无聊。

Source: https://habr.com/ru/post/zh-CN383717/


All Articles