oktech Data Sense#3:演讲者迷你访谈



大约Tech Data Tolk这个项目是作为一个讨论平台而诞生的,是供从事大数据处理和分析的专家使用的讨论平台。 每次我们强调会议的主要任务不是报告,尽管它们也很重要,而是与发言人进行公开讨论,在此期间,参与者有时间讨论活动范围内的任何问题。 我们认为,在这种情况下,当数据科学领域的问题和未解决的问题数量迅速增长时,公开对话非常重要。

我们举行了2次会议, 首先讨论了不同数据存储方法的优缺点以及这些方法如何影响不同团队的工作,还谈到了数据仓库的发展。 第二次会议专门讨论数据科学教育,在该站点上有不同意见的代表会面,演讲者谈到了大学教育的重要性,各种在线课程及其功能,以及成为酷炫的抢手数据中心需要具备哪些技能。

预期将于11月6日在莫斯科举行第三次会议将专门讨论推荐系统,我们与演讲者讨论了他们开发推荐系统的途径,他们如何看待这个方向的未来,并要求他们建议现在应该做什么,以便知识和知识。几年后,技能仍然很重要。 我们还询问了他们将在会议上谈论什么以及为什么值得参加此活动。

注册数据探索#3

告诉我一些关于你自己的事吗?


安德烈·库兹涅佐夫(Andrey Kuznetsov),同学
嗨,我是一名经过培训的电信工程师。 毕业后,他去写论文,同时任教。 在某些时候,在我看来,在过去的地方,我做了我想做的所有事情,然后去了数据科学领域工作。 不久之前,我一直在处理企业中的建议,但是我通过在线课程和竞争性DS获得了该领域的主要经验。

弗拉迪斯拉夫·格罗津(J.
他在Alexei Natekin的提示下进入了推荐系统的世界,他在DataMining Lab学习了该系统。 我几乎不知道要做什么,但最终,我比在大学的实验室中为Linux编写网络驱动程序要好得多(我以前做过)。

Evgeny Frolov,SkolTech
我的推荐系统之旅非常简单。 2014年,我是Skoltech的一名学生,寻找在我感兴趣的机器学习领域进行应用研究的机会。 我确实想要一些与智力助手有关的东西。 就在那一刻,我未来的主管Ivan Oseledets宣布了与德国办事处的一个新项目,该项目有兴趣研究高级数学方法在推荐系统中的适用性。 星星聚集在一起,所以我开始攻读博士学位。

告诉我您在生产中的首次部署?


安德烈·库兹涅佐夫(Andrey Kuznetsov),同学
生产中的首次推出与OK小组的建议有关,当然,这是一次令人兴奋的经历。 但是,团队中经验丰富的同事以及经过调试的工具和流程的存在极大地简化了工作。 顺便说一句,这一假设奏效了,产品线进入了生产阶段,但是三个月后,我们用更有效的解决方案代替了它。

弗拉迪斯拉夫·格罗津(J.Joom)
我在产品中启动的第一个模型不是真正关于建议,而是关于搜索。 我完全记得当现场交通涌入的那一刻。 流量很小,每隔一两秒钟就会出现用户的请求,从而在屏幕上创建了另一行(我查看了日志)。 令人兴奋的是:我对模型及其周围的基础结构负责,并希望某些事情会破裂并需要紧急干预。 但是一切都进行得很顺利,大约十五分钟后,我平静下来喝咖啡。

Evgeny Frolov,SkolTech
在生产中,我个人没有推出模型。 “我是研究员。” 到目前为止,我的任务主要与开发新方法和方法有关,并且不超出原型的实现范围。

您认为更重要的是什么:出色的算法或对领域的了解?


安德烈·库兹涅佐夫(Andrey Kuznetsov),同学
在建议范围内,似乎所有大型项目都持有这两条平等的鲸鱼。 了解数据本身的细节,如何收集数据以及系统如何运行(尤其是在与我们的负载相当的负载下),可以帮助很多人提前评估该算法是否有效以及是否值得花时间。 好吧,您需要了解实现它们的算法和工具,以便能够快速将它们用于您的任务并为A / B测试推出一些概念验证。

弗拉迪斯拉夫·格罗津(J.Joom)
重要的是,采用适合任务和开发和资源时间限制的最酷算法,而不要害怕在产品中启动它。

Evgeny Frolov,SkolTech
如果我们专门讨论推荐系统领域,那么,正如实践所示(并非没有中断研究),对主题领域的理解更为重要。 有这样一个公认的观点,我更同意算法占推荐系统成功的5%。 现在该领域已经到了发展阶段,找到一个方便的库或软件包,将其投入生产并开始获利非常容易。 是的,选择可能不是最佳的,但是从一开始它就足够了,可以让您专注于重要的业务任务。

推荐系统将应用于哪些新领域?


安德烈·库兹涅佐夫(Andrey Kuznetsov),同学
我认为,最有雄心的未来是等待教育中的推荐系统,当时教育系统本身(尤其是俄罗斯的)已经为此做好了准备:)。 实际上,事实上,我们已经被商业建议所宠坏了,但是拥有一些“类固醇的职业指导”非常有价值。

弗拉迪斯拉夫·格罗津(J.Joom)
似乎很快将在机器人警察中内置推荐系统,以便向他们推荐将物理影响方法应用于法治主体以建设性道德化的相关性。

Evgeny Frolov,SkolTech
推荐系统的方法可用于解决许多缺少数据的问题。 例如,化学家发现以这种方式,可以基于不同离子/阳离子的组合来预测新的,以前未知的无机化合物。 另一任务是基于具有特殊抑制特性的蛋白质鉴定出有效的抗病毒药物。 如果以前没有进行过测试,则很难知道哪种蛋白质可以有效对抗特定的病毒株。 两者都有许多可能的选择,病毒也会快速发展,您无法测量所有内容。 但是,根据病毒反应的一些常见模式,您可以尝试在尚未进行测试的情况下预测结果。 几乎像在线零售一样,但效果相反-该病毒不太应该喜欢“产品”。

现在这些都是怯的步骤,但是,我认为,我们将看到推荐系统的方法越来越多地渗透到常规的商业,娱乐和广告领域。 我至少希望如此。 通过帮助做出复杂的决定,例如为个人提供良好的学习途径,选择有趣且抢手的职业或获得个性化的医疗服务,似乎将逐渐从单纯提供舒适感转变为生活水平的质变。

使用推荐系统的人应该读什么书或文章?


安德烈·库兹涅佐夫(Andrey Kuznetsov),同学
很难推荐一本特定的书,因为该领域已被广泛应用。 我会推荐在线课程,例如Coursera的MIPT的数据分析专业非常好。

弗拉迪斯拉夫·格罗津(J.
在我看来,所有科学家都应该阅读GroupLens:一种用于Netnews协同过滤的开放体系结构。 本文介绍了第一个已部署的推荐系统,我们现在知道它们。 这篇文章与我们现在经常阅读的文章有很大不同,因为它不仅影响算法本身,而且影响算法的工作环境。

Evgeny Frolov,SkolTech
这个领域的书籍并不多,如果您愿意,您至少可以阅读所有内容,至少能流利地阅读。 看看有多少初学者沿着相同的道路通向同一“耙子”,我将在2010年发表有关Paolo Cremonesi,Yehuda Koren和Roberto Turrin的PureSVD方法的文章。 在本次会议的整个历史中,她是ACM推荐系统会议论文集中的第三位获奖者,这并非偶然。 一次,如果请求的提出范围太广,她会帮助我以不同的方式看待搜索结果顶部出现的那堆文章。

最好的开源库推荐?


安德烈·库兹涅佐夫(Andrey Kuznetsov),同学
它取决于要解决的问题,数据量以及构建推荐系统的平台。 似乎可以将某些LightFM推荐为几乎所有任务建议的基准。

弗拉迪斯拉夫·格罗津(J.Joom)
PyTorch?

叶夫根尼·弗洛洛夫(Evgeny Frolov)^ SkolTech
就我而言,答案很明显-我正在开发的Polara库。

您对oktech Data Explained#3的报告会有什么看法,为什么要听它


安德烈·库兹涅佐夫(Andrey Kuznetsov),同学
该报告将成为OK项目团队推荐系统开发的历史。 我将讨论为什么这本身就是一个有趣的案例,以及它与经典建议(例如电子商务产品)之间的区别。 我将分别提及开发过程中遇到的困难,得出的结论以及为什么没有足够的数据和通用算法。

弗拉迪斯拉夫·格罗津(J.Joom)
我会告诉您您在会议上会得到什么。 许多人都想去,因为它看起来很酷,但是却不愿花时间和金钱,因为这次旅行的细节和实际好处尚不清楚。 我希望通过我的故事来澄清这些问题。

Evgeny Frolov,SkolTech
我将谈论我们的开发-一种称为HybridSVD的新模型-我最近在ACM RecSys会议上介绍了该模型。 这是PureSVD模型对混合推荐系统的直接概括,其中考虑了有关用户和产品的其他信息。 该模型很有趣,因为它不超出奇异分解的计算范围,这意味着它继承了所有的计算优势和易用性。 我将对此进行讨论,同时还将详细介绍技术方面的内容。

伙计们,非常感谢您抽出宝贵的时间回答问题!

在11月6日于莫斯科办公室举行的会议上,我们正在等待所有想要与推荐系统领域的专家进行交流的人。

来吧,这将很有趣!

注册参加活动

Source: https://habr.com/ru/post/zh-CN472032/


All Articles