万岁! 我们已经完成
UseData Conf 2019会议计划的形成! 该会议面向那些使用机器学习方法解决实际问题的人。 真空中的理想算法与其在实际数据中的应用之间通常存在差距。 我们希望那些能够弥合这一鸿沟的人能够见面并交流经验。
对于管理人员而言,机器学习的魔力,使用ML分析电视广告效果,无人驾驶玩具车,机油和车号的历史只是UseData 2019的部分报告。
在
程序中,我们分为5个部分。 部门报告按其解决任务的方向分组。
- 商业中的机器学习和数据分析。
- 计算机视觉。
- 自然语言文字处理。
- 决策系统。
- 机器学习框架和工具。
在上述每个主题中,都发现了一些有趣的东西。
商业中的机器学习和数据分析
电视广告的效果:评估和优化
亚历山德拉·洛马金(Joandra)
我的广告预算浪费了一半。 问题是我不知道哪一个。
这是来自美国企业家约翰·瓦纳梅克(John Wanamaker)的名言,他开了第一家百货商店并首先应用了价格标签。 他对商业有所了解。

Joom还考虑了浪费电视广告预算的多少,并决定在科学家提供数据之前评估其有效性。 如何理解用户来自电视广告,需要跟踪什么工具以及需要什么数据?
亚历山德拉(Alexandra)已经走到了尽头,并准备
分享答案 。 剧透:优化的空间很大。
机器学习,用于预测OZON.RU在线商店的销售。 使用需求预测模型进行价格优化。
OZON.RU的亚历山大·阿列克谢采夫(Alexander Alekseytsev)

OZON.ru是一家大型商店,拥有大量商品,复杂的物流和价格。 该模型适用于仓库的补充和需求预测。 大型商店是模型可以学习的大量数据。 一方面,这很好,而且可以方便地进行预测。 另一方面,在这样的规模上,如果有的话,很快就会出现错误。
例如,某产品很长时间没有库存,然后出现,并且模型与预测有误。 一件产品可以,但OZON.ru每天有数百种这样的产品。 由于错误,仓库可能没货了,或者装满了。
亚历山大(Alexander)
将告诉您如何处理预测和供应错误,以及如何确保不会出现错误。 他的报告不仅是成功的机器学习案例研究,而且是对主题领域的有趣考察。 如果您建立销售预测模型,您会发现很多。
电脑视觉
在本节中,我们将讨论对状态的识别。 数字,资源问题,并听科学报告。
512 KB的内存已足够每个人使用! 在带有摄像头的微控制器上通过面部识别人
亚历山大·斯莫卡洛夫(Alexander Smorkalov),Xperience.ai

碰巧您需要识别依靠电池供电的计算能力较弱的设备上的人脸。 他们的内存很少,但是根本没有听说过GPU。 亚历山大
将分享成功将模型转移到此类设备
的故事 。 将模型转移到非标准设备的经验极大地拓宽了视野。 如果设备是标准设备,但是消耗的资源是不可接受的,想法可以派上用场。
Wasserstein正则化的生成性和歧视性学习
马克斯·普朗克研究所的Guido Montufar

Vanya Yamshchikov说服他的同事Guido非常高兴我们参加会议。 这是会议上唯一的科学报告,但实际适用性仍是确定的。 努力围绕识别或生成在图像内部广泛分布的类。 还记得不同品种的狗不一样的猫狗的经典任务吗? 因此,与发生的情况相比,这些差异是轻而易举的。
我不是该主题的专家,但在我看来,此类任务迫使创建具有大量层的神经网络。 这加剧了梯度衰减的问题,装甲和外壳的无休止斗争无目的地消耗了数百计算资源。 Guido
探索的方法可以更便宜,更快速地解决各个类别中的问题。
如何查找和关闭状态。 在汽车的照片上标明数字,并通过对抗性攻击防止复制内容
艾维托·伊利亚·谢尔盖夫(Ilya Sergeev)

曾几何时,我在Yandex和Y. Maps工作,与计算机视觉团队一起创建了街道全景图。 在全景图中,必须遮盖意外掉入车架的汽车的面部和车牌。 对此没有现成的解决方案,我必须自己看。
在Avito,他们也做出了类似的决定。 在2019年,此任务不再令人兴奋。 看来现在任何人都可以学习如何关闭状态。 每小时膝盖数。 但这似乎只有这样。 事实证明,对于某些公司而言,从Avito复制图像更容易,用自己的图像替换图片上的标记,因为比数字更容易检测到它。 Avito必须做出特殊的努力才能使内容窃贼公开。
这个故事的部分内容已经在哈布雷(Habré)上发表,但是在我们的会议上,伊利亚(Ilya)将完全以故事而非文章的形式来
介绍它。
神经网络如何帮助您了解地下发生的情况并确定在哪里寻找石油
俄罗斯天然气工业股份公司的Darima Mylzenova

谁在童年时代从计算机视觉解决了关于手写数字识别的模型问题? 谁在纸上写下数字,然后扫描并检查他是否看到模型(什么都没有)? 当面对来自现实世界的任务时,人们会感受到大致相同的感觉。
我们真的很喜欢来自实际部门的任务,因为人们习惯于学习的数据与生活数据之间的区别清晰可见:不准确,有错误和限制,具有不同的分辨率和空间。 Darima不仅
会告诉我们神经网络模型在分析地球内部领域方面的能力,
还会告诉他们仍有多少不知道如何做,但我想知道。
自然语言处理
机器可以理解笑话和笑话吗? 如何教一个模型来理解陌生的名字? 并识别代码?
通过全名示例搜索个人数据中的异常
乔治·舒舒耶夫(CFT)

一些用户几乎不会用俄语写他们的名字,而且他们的名字很不寻常。 Iuria的Butnaru,Sashka Sedlay Konya Neatly,Eyide Lucky,Pulovov Aslam Akhmat Zhon Ugli,Bebalau Ion不,我已经很累Ilyasovich-这叫什么名字? 这组字母中有名字,但您认为对吗? 这就出现了困难-教导模型识别名字,即使一个人并不总是成功。
我们喜欢没有老师就成功学习的故事,这只是其中之一。 乔治
将讨论从Markov模型到神经网络的个人数据中异常检测器的演变,并分享为短文本集开发此类检测器的终生技巧。
机器学习代码
Egor Bulychev,来源{d}

这是使用代码领域的最新发展的概述。 如何查找任务相似的存储库? 如何在GitHub上找到具有类似经验的开发人员? 如何将这种相似性形式化? 以及如何优化一切以一次与所有GitHub一起使用? Egor正是从事这些任务,
并将分享他的经验。
可以教车幽默感吗?
弗拉迪斯拉夫·布利诺夫(Vladislav Blinov),瓦莱里亚·巴拉诺娃(Valeria Baranova),廷科夫

弗拉迪斯拉夫(Vladislav)和瓦莱里亚(Valeria)教车了解俄语的笑话。 那不是完美的吗? 没有什么可谈的-只需
来听 。
从实际的角度来看,一切都如我们所爱:几乎没有标记的数据集,没有水,没有植被,它是机器人居住的地方。 认真研究一个有趣的话题。
如何基于点击流,转换器和近似搜索(ANNS)在您的项目中实现快速有效的语义搜索
克努埃玛弗拉基米尔·布加(Vladimir Bugay)

在有大量数字和少量文本的情况下,如何进行常规搜索? Knoema是分析数据的汇总,几乎所有数据都具有时间序列的形式。 如果出于某种原因您想了解委内瑞拉石油储量的最新估计或刚果的钻石产量,那么这就是获得最新数据的地方。 唯一的问题是如何找到它们。
有些数据直接包含在数据库中,有些是可计算的。 为了进行良好的搜索,您必须建立数据之间关系的模型。 现在它已经是一个基于USE的神经网络模型。 弗拉基米尔(Vladimir)
将讨论使用非标准数据开展搜索的几个重要步骤:如何相对快速地从现成的组件中进行这样的搜索,如何使用他的附加信息(例如点击)重新训练它,如何减小索引的大小并优化其他瓶颈。
决策系统
现代神经网络架构/ 2019年版本
Grigory Sapunov,Intento

格雷戈里似乎不需要介绍。 他是Intento的共同创始人,Intento是机器学习会议的定期演讲者和部门负责人,是关注和推动行业发展的人。 并不是所有人都听说过的最新法规之一是,在列表中的机器学习类别中包括了Google Developer Expert。 在撰写本文时,名单上只有109人,其中只有一个来自俄罗斯。 Grisha,恭喜!
这正是专业水平,您可以在过去的几年中对神经网络领域
的新产品进行
有趣的评论 。 网络学会了解决什么新任务? 为此您需要做什么? 我们在等待什么方向的下一个突破?
善与恶:推荐系统的指标
Irina Pchelintseva,Yandex

如何衡量电影推荐系统的有效性? 预测特定观看者会给某部电影的等级,并仅在该等级较高时才会观看。 但是有细微差别。
大多数人肯定会说,《教父》或《辛德勒的名单》是好电影,即使他本人也没有看过。 但是,想象一下如何从工作中恢复过来。 日子很艰难:项目没有完成,老板吃了全脑,明天也一样。 在这种状态下,他不太可能想要看一部精巧而深刻的电影,而一部愚蠢的动作片,其价格是十分之六。 因此,推荐系统应该提供您所
看的内容 ,而不是
通常要赞美的内容 。
这只是任务中意外的方面之一,并且有许多这样的方面。 要了解它们,请听伊琳娜的
演讲 。
智能代理的开发与实施
廷科夫(Andrew Ivanov),廷科夫

智能代理是解决人的智能任务的系统的一部分。 该代理由机器学习专家开发,该代理将接管一些任务。 例如,对于银行来说,这是一个推荐系统,可以根据用户的了解提供贷款,存款,卡或其他产品。
Andrei的
演讲非常实用:在Tinkoff中如何使用知识分子(例如“故事”),其发展过程中会遇到什么困难以及哪些工具可以帮助实现这一点。
钻井事故预测
伊凡·伊萨夫(Ivan Isaev)

再一次谈到实体部门和石油。 伊凡(Ivan)
将讲一个很好的实践故事,讲述如何从客户那里获取少量数据,基于该数据创建有用的模型,然后再获取更多数据,并在这些数据上获得不错的结果。
基于机器学习的自动驾驶算法
萨洛尼·加尔(Saloni garg)

这个故事似乎并非如此。 萨洛尼(Saloni)碰巧解决了我们大多数人都不知道的问题。
在贫困地区,公共汽车的燃料是宝贵的资源。 驾驶员借助许多惊人的技术来节省车速:他们不打开大灯,不踩中立线行驶并且不遵循路线。 在这种情况下如何迫使他安全驾驶?
周围的钱不多,因此用于解决问题的硬件是最原始的,大多数估计都需要在本地构建,从摄像机到服务器的视频无法传输。 如何在这样的条件下工作,并
告诉 Saloni Garg。
机器学习框架和工具
将数据控件添加到ML管道
Artyom Seleznev,扩音器

您可以从MegaFon中获得带有新服务和资费的推荐系统,或者有关Elena的故事。 但是,不,这次Artyom
将介绍实现DVC工具的经验以及在其之上制作的其他功能。 钟声是有趣且不平凡的。 如果您希望机器学习实验具有可重复性,请来谈谈。
AWS DeepRacer:通过游戏了解挑战
亚历山大·帕特鲁舍夫(AWS)

是的,训练无人驾驶赛车模型会很有趣吗? 但是为了使最少的汽车中断。 理想情况下,我希望拥有一个接近现实的虚拟环境,在其中可以捕获大多数错误。 这种环境的一种选择是使用模型。 比例为1到18的玩具车用于训练算法。 Alexander
将分享创建AWS DeepRacer
的故事,以及在开发虚拟学习环境以及将模型转移到实际设备时遇到的困难。
离场管理报告
项目管理2.0:人工智能转型
Eduard Tyantov,Mail.ru集团

世界在变化,机器学习模型越来越渗透到我们的产品中,有时它们已成为它们的核心部分。 您曾经生气过吗?“为什么?!” 来自当局,有罪回答“嗯,模型是如此调整……”? 上个世纪末在软件开发实践中成长的老板们,常常不明白从机器学习中得到什么,以及这种魔咒的价格是多少。
爱德华(Edward)在
他的报告中将从团队和产品的领导来研究问题。 在开发周期,任务设置和质量控制方面有哪些变化? 他就是可以对此说很多话的人,因为多年来,他已经在Mail.ru上成功地进行了基于机器学习的项目。 在我看来,最著名的项目是Artisto,一种视频样式应用程序。
奖金轨道
我们还将举办一次为期三个小时的Yandex动手研讨会,内容涉及如何使用Yandex.Tolki收集数据! 它由开发Toloka的人以及持续使用它的人(Alexei Druta和Olga Megorskaya)领导。
您将大致了解众包机制(例如Toloka或Mechanical Turk)如何工作。 然后,您可以从几个建议的任务中选择一项来标记数据,为交易者创建任务,准备测试任务以及为作弊者准备“陷阱”。 最后,您将尝试使用系统提供的算法,从最终的加价和可疑的代币中确定真实的估算值。
对于那些想通过Toloka收集数据的人来说,该研讨会将非常有用,但是由于不准备就花费全部预算的危险,他们不敢这样做。
为了跨越真空算法与真实算法之间的鸿沟,我们正在等待9月16日。 一整天的报告,会议,沟通,机器学习和案例研究-美丽! UseData Conf 2019的下一次也是最终的提价已经是9月9日,所以现在预订您的票来确定价格。 在Infraspace见!