我们在实践中使用数据

理想的机器学习算法在真空中及其在实际数据上的应用之间通常存在差距。 似乎要写一篇文章:有一种算法,这种或那种类型的数据具有收敛性-接受并应用它。 但是由于某种原因,事实证明您的数据不足以进行训练,并且它们与本文的模型有所不同,因为实际数据不是合成的。

证实算法的通常做法是对数据的纯度及其分布进行假设,而这些是您在现实生活中找不到的。 例如,一篇文章的作者对成年名人的照片进行实验,发现一切与他格格不入,并与他进行了分类,在我们的真实示例中,还包括儿童和卡通人物,并且一切都突然崩溃了。 但是有些人可以应付这个问题,以至于理论与实践之间的鸿沟似乎不再牢固,因此有必要向人们展示如何立即找到想要克服它的人。



我们已经在HighLoad ++上看到了这种情况,但是此外,还有单独的报告,这些报告接近确保高负荷工作的任务。 因此,现在我们想为那些使用机器学习方法解决实际问题的人组织一个单独的会议。 而且,进行规划非常简单-我们想召开一次我们自己想要的机器学习和数据分析会议。

我同意,这听起来很幼稚,但“不是喜欢自己”不是最好的动力吗? 此外,我们在组织会议方面有丰富的经验,似乎我们对会议的进行情况有很好的了解。 当然,您可以发表自己的看法,所以我将在9月16日的 UseData Conf 告诉您确切的内容以及我们计划进行的讨论。

Ontiko举行了工程会议,从业人员会拉起第一把小提琴。 对于所有会议: HighLoad ++ (所有三个实例),Moscow Python Conf ++,PHP Russia和许多其他会议,我们发现使用与会议主题相关的技术正在做有用的事情的人并准备分享它。

在过去的几年中,我一直在帮助演讲者准备演讲,因此我有能力提出正确的问题。 诸如此类,只能从说话者身上学到什么。 为了使报告不仅仅包含一个配方(我们在过去一周中从摄像机中拍摄了视频,在端到端网络上对其进行了培训,并且一切正常),但是所有导致最终结果的关键点。 如果您知道自己尝试过什么,所进行的工作,没有进行的工作,因此可以解决问题,那么您可以得出自己的结论,并考虑是否采用这种解决方案。

目前没有任何机器学习会议可以以此原则为基础。 在大型学术会议上,从业者只占所有报告的一小部分,并且与纯科学成果和初学者培训材料相邻。 此外,还有关于人工智能的一系列会议。 通常情况下,他们大肆宣传,很少有真正有效的方法,我们尝试绕过这些方法。

彼此区分开来很容易:如果使用Python完成,则这是机器学习,如果使用PowerPoint,则是人工智能。 我们对不仅在PowerPoint中存在的内容感兴趣。

部分中的UseData Conf


基于我们会议的每个演示都应包含实际制作经验的想法,我们选择了几个要披露的主题。 这并不意味着我们不会高兴,也不会接受不适合这些要求的申请,而这恰恰是从从业者到从业者的正确传递。

商业任务中的机器学习和数据分析 。 与需求预测,采购预测,建议和个人折扣计算有关的所有内容。 在这里,故事将是有意义的,因为机器学习方法有助于更好地发展业务并增加电子商务的利润。

计算机视觉 。 如果您已教过机器人从传送带上取走某些零件,请钻孔并放回去-这就是您在本节中应该讨论的内容。 毕竟,细节可能是不同的,它们可能分散在传送带上,可能没有单个成品要训练,而只有CAD模型,还有许多其他因素将无菌传送带的理想学术任务与实际情况区分开来。

用自然语言处理文本 。 告诉我们有关在非标准任务中使用NLP的信息,或说明为什么现有方法不合适,而您必须开发自己的方法。 机器翻译和语音助手是本节的首批竞争者。

决策系统 。 这不仅是诊断疾病的任务,而且还包括任何人依赖于算法提出的选项(包括并包括导弹防御系统)做出决定的系统。 例如,如果不需要人,系统本身会指定驾驶员在出租车上订购(当然,除非解决方案的生成不限于贪婪算法),否则效果会更好。

机器学习框架和工具 。 为了扩展这个主题,我们想直接邀请框架的开发人员。 我们在HighLoad ++上采用这种方法-从工具开发人员那里了解工具的复杂性-并尝试在UseData Conf上实现它。 因此,如果您只是在开发CatBoost,XGBoost,TensorFlow,PyTorch,LightGBM,Keras,请写信给我们。 如果您确定自己了解许多数据科学家都不知道的流行框架,并且这将使他们的生活变得更轻松,那么我们也在等待申请报告的机会。

机器学习竞赛分为两个部分:进行机器学习竞赛的技术以及赢得竞赛的策略。 尽管像Kaggle这样的比赛更像是一种招聘工具,而不是用于解决实际问题的工具,但某些方面对于从业者来说非常方便。 最后,在比赛的帮助下,您可以成功地换工作,这也很好。

测试,监控,解释,数据准备 。 我们知道机器训练的模型容易犯规。 许多人在培训,投入生产时都熟悉这种情况,实际上一个月后,该算法产生了不良结果。 您需要能够及时注意到该模型不起作用,并及时对其进行重新训练。 如果出了问题,那么能够解释结果很重要,并且您需要能够准备数据。 这些特定问题的整体解决方案,可以在战斗中使用ML。

征集论文


如果您在上述任何一个主题中都认识到您的工作任务,并认为您的经验可以帮助某人,请申请报告。 如果机器学习是您日常任务的一部分,但您对此感到怀疑,那么可以通过一种可靠的方式来理解该主题是否合适-写信给计划委员会,我们将澄清细节并帮助使该报告有用。

但是,有一个一般性建议。 如果您的任务如此具体,只有行业巨头才能解决,反之亦然,那么小型但非常专业的创业公司就可以了,乍看之下,这种经验似乎对其他人没有用,这并不完全正确。 因为无论如何我们都很难做出和重复某人的决定,所以如果我们谈论的是复杂的案例,但是想出一种尝试另一种方法的想法,那就换个角度,可能会有截然不同的经历。

另外, 人们总是可以从一个特定的问题过渡到一种普遍的方法 。 例如,如果我们正在谈论过滤异常的网络流量(感谢来自莫斯科的观众Pavel,他在与计划委员会举行的Zoom会议上提出了一个问题),那么异构训练样本也会出现类似的问题,并且在不同区域会出现一小部分异常现象,因此可以建议归纳一下。

我们认为,应用报告中最有价值的是解决方案路径,而不是解决方案本身 。 当他们采用库方法并且一切都准备就绪时,它当然很酷,但这没什么用。 当他们尝试这样做时,另一个有趣的是,另一个发现了局限性,遇到了麻烦,发明了一些东西,然后他们谈论它。

另一方面,如果您在没有机器学习的情况下解决了与机器学习相关的行业问题,则可以证明它是如何盈利的,甚至可以在遵循示例的情况下给出配方-很好,我们需要这样的报告。

征稿截止至7月16日,8月16日我们将尝试制定整个程序,而9月16日,UseData Conf会议将在Infospace举行。

提交报告很简单-您需要一个大概的主题以及2-3个段落的论文,可以通过向计划委员会提出上诉来补充申请,该委员会不披露详细信息以供公布。 最好提交几份报告,而不要提交一份报告,否则我们将有更多的问题要解决。

已经在程序中


我们不等待报告的接受开始在程序中选择报告。 因此,首先,如果您不希望在截止日期之后参与更多的演讲者竞争,请不要拖延申请。 其次,您可以计划以听众的身份参加会议。

关于ML的商业用途的第一部分已经采用了两个报告。 亚历山大·阿列克谢采夫(Alexander Alekseytsev) 将讨论使用机器学习来预测OZON.RU在线商店的销售。 他将提出一种使用需求预测模型进行价格优化的方法,展示如何在补充仓库的过程中运用概率论,并描述生产用机器学习解决方案的开发周期。 第一个版本以HighLoad ++提出,引起了强烈的兴趣。

Joom Alexandra Lomakina 会告诉您如何成功解决优化电视广告的问题。 这项任务非常有趣,因为它是一种昂贵的乐趣,几乎没有任何反馈-您无需计算点击率。 但是您仍然可以测量一些东西,但是我们将在9月下旬了解如何使用它。

到目前为止,在计算机视觉方面,我们仅采纳 Guido Montufar撰写的少量学术报告 。 Guido计划讨论一种对输入数据具有鲁棒性的正则化模型方法,我们希望能从中得到更多实践。

此外,我们还接受了Grigory Sapunov的研究,并提供了有关神经网络体系结构最新发展的报告 。 这是在少数情况下需要审查报告的情况,因为格雷戈里绝对会根据他的丰富经验向其提供实用建议。

我们还同意Eduard Tyantov撰写的有关机器学习项目管理的报告 。 特别是对他来说,我们开始了“其他”部分,因为在我们看来这个主题非常必要。 如果有人可以告诉您很多机器学习项目的具体细节是什么,如何开发产品并在生产中进行领导,如何将其出售给人们和开发人员,那么这可能是Edward的幕后推手,包括Artisto发布的后端以及Mail中反垃圾邮件和机器学习小组的管理.ru。

征求意见


如果您阅读这里的内容,那么首先,谢谢,我们正在会议上等您。 其次,如果还不够,请在评论中写。 告诉我们与您个人最相关的主题,告诉我您需要哪种报告,您不会错过的方法(无论如何,以及跳入计划的内容)。 您想在这样的会议上听到什么名字-我们很可能已经联系了这位专家,但是如果没有,我们一定会做到的。 程序委员会中有同样的人-我们有很多经验,但是我们仍然会忘记一些事情。
UseData Conf是针对使用机器学习方法解决实际问题的人员的会议。 提交报告,注册并在9月16日见。

Source: https://habr.com/ru/post/zh-CN455644/


All Articles