布达佩斯会议(10月29日至31日)数据紧缩

今年,我参加了在布达佩斯举行的Data Crunch会议,该会议专门讨论数据分析和数据工程。 来自Linkedin,Uber,Github和许多第二线公司的发言人应邀参加了这次会议,人们可以分享他们的经验或谈论数据工具。 好吧,对我而言,同样有趣的是与会议的参与者交谈,以了解我们的俄罗斯现实与欧洲和美国有何不同。


为了让我注意这一点:


  1. Full Stack Data Sceince-2报告专门讨论了我之前写过的同一主题。 使DS / DA成为一个能够从头到尾解决问题的人。 不要将作品分为“功能”,而要将DS分为“主题”。 即 处理数据并不是在准备,处理,分析,构建模型和可视化的人员之间进行划分,而是可以完全完成所有工作的专家之间的“主题”划分。
  2. 从零到英雄-这些家伙谈论了他们如何从头开始建立DS部门。 通常,通常,普通的声音创意会起作用:
    • 最小团队人数为2 DS。
    • 和2个数据生成器。
    • B产品负责人,他将与企业进行沟通。
    • 建立良好的生态系统。 演讲者通常淹没于开源。 每个报告通常都提到Hadoop。 这个问题在很多方面都是正确的,因为在我工作的项目以及许多读者中,不需要Hadoop,因为 只要有收益,就没有那么多数据。 总的来说,我对开源的态度是尝试,研究,但是,如果您的公司已经购买了某些东西,那么继续生活在专有软件的生态系统中可能比冲入其他技术然后“配对”或从头开始学习它们更有利可图。
    • 测试您在做什么。 A / B测试和评估结果。 奇怪的是,但是简单的建议实际上并不能解决所有问题。
  3. Uber中的数据民主化-关于这一点,我已经写了另一篇文章
  4. AI伦理-讨论了许多任务有几个根本不同的最优方法。 有条件地,您可能有一个“有效”的决定和一个“道德的决定”。 问题是它们的最大化发生在不同的条件下。 在数学或算法上没有正确的解决方案。 人们可以根据自己的“汽车”来决定他们想要什么。 举例来说,发言者说,犯罪复发风险评估算法趋向于给黑人美国人增加风险评估。 该风险评估用于做出假释决定。 困境是,黑人的社会上无法接受的“歧视”导致后来犯罪的客观上无法接受的增加,而白白提前释放了那些人。 并且不可能将两种解决方案组合在一个算法中。 有趣的是,美国黑人社区主要针对自己的黑人“兄弟姐妹”犯罪,因此即使试图“平等”白人和黑人也没有危险,但根据释放的黑人和黑人的数量,这将导致黑人受害者的数量成倍增加。
  5. 机器学习和信息战-这名花花公子通过分析文本和彼此之间的链接来讲述如何做,并在特朗普选举前在Facebook上发现了可疑活动。 他声称有人大规模监督了“俄罗斯”议程,因此保守派团体所说的语言变得更加种族主义。 他通过分析新纳粹团体中使用的词汇来对此进行调查,然后将其与保守派的语言进行比较。 他发现,在特朗普当选之前,该词典开始变得非常接近,尽管之前从未观察到类似的情况。 总的来说,他暗示普京应该受到指责:)

从会议中与人的对话:


  1. R与Python。 人们使用两种工具生活,通常R受到来自科学和数学背景的人们的喜爱,而python则受到具有开发背景的人们的喜爱。 R最常见的用途是用于探索,Python用于管道。 模型都写在两者上。 例如,我有在R上生产生产模型的个人经验。
  2. A / B测试-对公司进行定期评估并基于A / B测试选择解决方案仍然是公司的一种罕见做法(在我与之交谈的十几个小组中,只有1个具有A / B测试)。 人们不想在A / B测试上投入精力,他们说他们已经知道了,或者首席执行官“看到”了如何...
  3. 每个人都有沟通问题-与经理,客户,公司内部等等。 对几乎所有团队来说,改善沟通都是一个增长点。
  4. 机器学习的主要工作不是选择最酷的模型,而是具有工程设计和数据准备功能。 google和facebook都没有“秘密”模型,但是在处理和准备这些模型的数据时,其算法的有效性更高。 这通常是个好消息,因为这意味着公共xgboost或回归是大多数任务的最先进算法。

Source: https://habr.com/ru/post/zh-CN430278/


All Articles