🤱🏻 🎇 🎛️ 布达佩斯会议（10月29日至31日）数据紧缩 🚴🏾 👈🏽 👴🏾

今年，我参加了在布达佩斯举行的Data Crunch会议，该会议专门讨论数据分析和数据工程。来自Linkedin，Uber，Github和许多第二线公司的发言人应邀参加了这次会议，人们可以分享他们的经验或谈论数据工具。好吧，对我而言，同样有趣的是与会议的参与者交谈，以了解我们的俄罗斯现实与欧洲和美国有何不同。

为了让我注意这一点：

Full Stack Data Sceince-2报告专门讨论了我之前写过的同一主题。使DS / DA成为一个能够从头到尾解决问题的人。不要将作品分为“功能”，而要将DS分为“主题”。即处理数据并不是在准备，处理，分析，构建模型和可视化的人员之间进行划分，而是可以完全完成所有工作的专家之间的“主题”划分。
从零到英雄-这些家伙谈论了他们如何从头开始建立DS部门。通常，通常，普通的声音创意会起作用：
- 最小团队人数为2 DS。
- 和2个数据生成器。
- B产品负责人，他将与企业进行沟通。
- 建立良好的生态系统。演讲者通常淹没于开源。每个报告通常都提到Hadoop。这个问题在很多方面都是正确的，因为在我工作的项目以及许多读者中，不需要Hadoop，因为只要有收益，就没有那么多数据。总的来说，我对开源的态度是尝试，研究，但是，如果您的公司已经购买了某些东西，那么继续生活在专有软件的生态系统中可能比冲入其他技术然后“配对”或从头开始学习它们更有利可图。
- 测试您在做什么。 A / B测试和评估结果。奇怪的是，但是简单的建议实际上并不能解决所有问题。
Uber中的数据民主化-关于这一点，我已经写了另一篇文章
AI伦理-讨论了许多任务有几个根本不同的最优方法。有条件地，您可能有一个“有效”的决定和一个“道德的决定”。问题是它们的最大化发生在不同的条件下。在数学或算法上没有正确的解决方案。人们可以根据自己的“汽车”来决定他们想要什么。举例来说，发言者说，犯罪复发风险评估算法趋向于给黑人美国人增加风险评估。该风险评估用于做出假释决定。困境是，黑人的社会上无法接受的“歧视”导致后来犯罪的客观上无法接受的增加，而白白提前释放了那些人。并且不可能将两种解决方案组合在一个算法中。有趣的是，美国黑人社区主要针对自己的黑人“兄弟姐妹”犯罪，因此即使试图“平等”白人和黑人也没有危险，但根据释放的黑人和黑人的数量，这将导致黑人受害者的数量成倍增加。
机器学习和信息战-这名花花公子通过分析文本和彼此之间的链接来讲述如何做，并在特朗普选举前在Facebook上发现了可疑活动。他声称有人大规模监督了“俄罗斯”议程，因此保守派团体所说的语言变得更加种族主义。他通过分析新纳粹团体中使用的词汇来对此进行调查，然后将其与保守派的语言进行比较。他发现，在特朗普当选之前，该词典开始变得非常接近，尽管之前从未观察到类似的情况。总的来说，他暗示普京应该受到指责：)

从会议中与人的对话：

R与Python。人们使用两种工具生活，通常R受到来自科学和数学背景的人们的喜爱，而python则受到具有开发背景的人们的喜爱。 R最常见的用途是用于探索，Python用于管道。模型都写在两者上。例如，我有在R上生产生产模型的个人经验。
A / B测试-对公司进行定期评估并基于A / B测试选择解决方案仍然是公司的一种罕见做法（在我与之交谈的十几个小组中，只有1个具有A / B测试）。人们不想在A / B测试上投入精力，他们说他们已经知道了，或者首席执行官“看到”了如何...
每个人都有沟通问题-与经理，客户，公司内部等等。对几乎所有团队来说，改善沟通都是一个增长点。
机器学习的主要工作不是选择最酷的模型，而是具有工程设计和数据准备功能。 google和facebook都没有“秘密”模型，但是在处理和准备这些模型的数据时，其算法的有效性更高。这通常是个好消息，因为这意味着公共xgboost或回归是大多数任务的最先进算法。

布达佩斯会议（10月29日至31日）数据紧缩

More articles: