大数据-兄弟与否

由Sistema_VC基金会组织的大数据会议,Meet Big Brother,在莫斯科举行。 一切都在那里:以色列开发人员到了,他知道如何处理数据的速度比任何人都要快一百倍。 MTS表示,如果不成为IT公司,MTS将死亡。 俄罗斯商人正在发出警报,试图消除它。



似乎每个人都已经习惯了这样一个事实,即在谈论大数据时,特别是如果它们是哲学性的话,奥威尔式的超级大佬“老大哥”迟早会出现-就像希特勒在互联网上的所有争议中一样。 组织者并没有立即在标题中击败并击败该邮票。 焦虑-是否合理-是炒作的一部分,该怎么办。

实际上,当人们改写以了解如何更有效地使用它们时,他们一直在梦见古代的大约会-来自各种各样的古埃及人。 在彼得一世时期,大数据(征税普查)收集了三年,然后又处理了三年。 现在,除了此过程之外,我们自己添加了线路,速度和数据类型。 所有这些都是以效率,优化和人类更古老的梦想为名的-一切都以某种方式变为自制。

企业梦想着一切都应该被清楚地分割,应该决定谁,什么以及何时出售。 买家希望购买,开启,咀嚼和消化所需的一切。 在会议上,聪明的人聚集在一起讨论如何实现这一目标。 我巧妙地听了他们的声音,四处询问并写下所有内容。

大数据中的Yorgan Calllebout和心理学




会议以心理学家Jorgan Calllebaut的演讲开始。 他为DataSine工作。 借助机器学习和心理模型,他们可以细分受众群体并研究谁需要展示哪些广告。

它的工作方式是这样的:他们收集找到的所有数据-从Internet上的记录到付款历史-并在机器学习的帮助下将它们叠加到“大五国”的心理模型上。
外向性-内向性
附件-隔离
自我控制-冲动
情绪不稳定-情绪稳定
表现力-实用性

Yorgan声称他们的公司不使用第四点,因为这是不道德的。 据他说,据称,我们可以得出关于一个人的心理健康的结论,并用它来对付他。

当然,分发方法是由人推导的,并且,如果不深入,则似乎是定型的。 例如,雅根(Yorgan)说,如果您买很多书,您很可能是一个内向的人。 如果您经常在酒吧里花钱-可能是性格外向的人(因为性格内向的人坐在家里而沉默)。

对于问题“为什么还要?!” Yorgan有医疗反应。 事情是激素乙酰胆碱,所有人对此都有不同程度的敏感性。 如果一个人对这种激素敏感,它就会变成一个内向的人,并且由于与人的互动而产生强烈的排放,它会变成肿块并吞下舌头。 外向型的激素刺激阈值较高。 因此,很长一段时间内的人群,噪音和交流都不会打扰他们。

这种激素不仅会在人们的视线外飞溅,还会对许多事物产生反应-颜色,声音,文字。 因此,对于性格外向的人,雅根的团队会制作各种广告信。
例如,我们使用相同的数字和事实,但是我们以不同的方式在邮件列表中排列字母。 对于性格外向的人,我们放橙色的照片,明亮。 对于性格内向的人,蓝色和寒冷。 机器学习可以帮助我们挑选这些图片。 由于您更改了电子邮件中的一张图片,因此链接的点击次数增加了40%。 如果还配置了文本,则系数将增加到80%。

当亚根(Yorgan)急切地问到引入大数据是否会使我们所有人都变得内向时,他回答不,他不会。 怎么出生的,所以你会成为。

但这是最令人不安的问题。 其余的都是经典作品-但是公司会不会开始用这些您的心理小玩意操纵我们?

许多公司甚至还没有达到可以使用大数据的水平,更不用说在他们的帮助下操纵某人了。 通常,我们不会操纵您。 我们不想强迫您违背自己的意愿。 我们只会个性化报价,以便每个人都很高兴。

Ami Gal和GPU Speed Database




SQream的创始人Ami Gal来自特拉维夫参加了会议。 他的公司正在开发其数据库,该声明称,由于处理了对GPU的请求,该数据库的速度比平时快100倍。 这使其适合处理大数据。

在这些例子中,阿美谈到了以色列癌症研究中心的案子。 有一个数据库,可对数十年来数十万名患者进行治疗,其中包含每个患者的基因样本,有关所有异常情况,反应的信息,当然还有特定治疗的成功信息。

将庞大的数据集组合在一起,科学家们学会了为每位新患者选择在统计学上最合适的治疗方法。 问题在于,此类表的仅一列中可能有多达60亿条记录。 以前,分析需要2个月的时间-现在需要2个小时。

也就是说,科学家一旦收到患者DNA的样本,便立即知道哪种方法最有可能成功。

我有兴趣了解有关Ami,他的公司和技术的更多信息,所以我亲自问了他所有问题。



阿美(Ami)在特拉维夫大学(University of Tel Aviv)学习计算机科学和物理学,然后担任程序员,并于1996年成立了他的第一家公司。 根据他的说法,这不像技术初创公司的现代日常生活:“我们必须做某事,然后立即卖给客户以求生存。”

2000年,他与合作伙伴共同创立了Magic Software。 Ami接任了技术总监和R&D副总裁一职,但后来逐渐从技术转向业务-“转移到了阴暗面”。

在离开魔术三年后,Ami开始投资创业公司。 他笑着说:“如果初创公司依靠亲戚,朋友和傻瓜,那我就是最后一批。”

最后,在2010年,Ami与俄罗斯移民Kostya Varakin一起提出了使用GPU加速数据库的想法,并创立了SQream。

-当这个想法出现时,并没有像“是的,很明显! 为什么没人还在GPU上处理SQL查询?”

今天很明显。 但是当我们开始时,没有人想听我们的话。 在所有人看来,这是不可能的。

这个想法来自我的联合创始人,来自圣彼得堡的Kostya Varakin。 但是她似乎不可能,他没有立即决定发声。 我认为-使用GPU不是用于游戏,而是用于数据处理-很酷。 我们开始工作,并将这种方法放在公司的核心位置。

当然,我们认为GPU非常适合用于数据,每个人都将在那里立即使用它。 但是他们没有开始。 我记得当我想进行投资时,商界人士的反应是这样的:“你在开玩笑吗? GPU数据处理? 这不会发生,离开。”

仅仅六年之后(大约两到三年前),GPU凭借其与AI(深度机器学习)的合作而成为主流。 而且,当然,现在在GPU上处理数据已不再是一个奇怪的主意。

“您提出这个主意的人看不到速度吗?”

看到了,所有人都看到了。 但事实是,GPU设计为可与矢量图形一起使用。 而且,我们处理数据的方式与使用向量完全相反。 该芯片不是为这种计算而设计的。 因此,对于软件,我们必须使处理器相信它可以处理例如视频,尽管事实并非如此。 也就是说,您必须转换GPU之前和之后的所有内容,因为它仅接受向量。

我们必须处理复杂的问题,并将其分解为处理器的简单指令列表。 但这看起来几乎是不可能的。

-最难开发的是什么?

和俄罗斯人一起工作(笑)。 实际上,公司历史上最困难的事情不是技术解决方案。 从一开始,我们就计划只开发用于其他人的数据库的加速器。 某些将加快Oracle,MS SQL的速度。 假设我们向Oracle发送了一个请求,由于有了GPU,它的运行速度更快。

我们进入市场时遇到的问题是:“您是否需要使数据库运行速度提高20倍的东西”? 市场回答:“不,不需要。”

问题是我们在引擎和客户端之间拦截了请求。 这是对Oracle的干扰。 我们被告知:“这是不可能的-向您的引擎发送请求并自行处理。” 我们说:“我们没有数据库。”
“就是这样。”

我们研究了其他公司的行为,以及如何安排具有MPP架构的数据仓库。 它们都是在另一个数据库(主要是PostgreSQL或MySQL)的基础上创建的。 Vertica,Greenplum和其他旧版存储库都是围绕PostgreS构建的。

我们决定也尝试一下。 他们采用了PostgreSQL,并在GPU上实现了它。 结果非常缓慢:速度仅增加了两倍。 为了加速,没有人会在GPU上转换数据库。 我们不知道该怎么办,没有睡一个星期。 出于对我和我的同事的所有应有的尊重,我们无法从头开始构建数据库-这是一个很大的项目。

但是我们尝试了一下,在建造了第一个街区之后,生产率提高了18倍。 然后我们决定继续,尽管我们知道这条路将是漫长而艰难的。 事实证明,这一决定对于SQream一直是最困难的。 毕竟,这意味着我们需要更多的金钱,人员和时间来建立公司。

从技术角度来讲,最困难的是在磁盘上两个大表之间使用GPU启动JOIN。

-你的筹码是多少?

我们使用CUDA与GPU配合使用。 我们用C ++,Haskell和Erlang编写所有内容。

当您在一定时间内处理数十亿笔交易时,例如,在一瞬间,您需要与硬件非常接近的东西。
我们从汇编程序转到Cuda,再到C ++。 如果在此过程中添加其他内容,速度将会降低,因此我们需要尽可能降低速度。 我们尝试与其他平台一起使用:例如,我们使用OpenCL而不是Cuda,但是所有这些都没有很好地解决,过程进行得太慢。

我们需要尽可能深入,以便提高生产率。
为此,我们使用编程语言,例如C ++,Haskell,Cuda。 在某些时候,我们实现了Erlang,但是这种情况发生的频率要少得多-我们越来越多地使用相同的C ++。

-如果我只使用常规数据库,如果要切换到您的数据库,是否需要重新培训?

从语言的角度来看,不需要学习任何新知识。 如果您使用SQL编写,则此处的所有内容都相同。 有些事情的工作方式有所不同。 但是这些规范很好地描述了如何设置所有内容。

-声明的100倍加速是您可以从GPU中挤出的最大值?

我认为我们公司的可能性没有达到10%。 我们已经在9月发布了该产品的第三个版本,该版本将使生产率提高一倍。 将来,我们计划越来越多地增加它。 自2006年以来,CPU的性能几乎没有增长,并且数据量呈指数增长。 GPU性能以相同的方式增长。

事实证明,我们正处于生命周期的开始。 我们计划不久的事情之一就是不仅要在一个GPU上提高性能,而且还要在多个GPU上工作。 试想一下它将达到何种速度! 这是一个持续100秒的请求。 我们将其分为10个GPU之间的几个小组件-请求立即通过。

我通常认为,我们正处在GPU计算将在数据处理中占主导地位的新时代的边缘。

“为什么他们还没有?” 什么停了?

很多。 我可以列举三个障碍。

第一个不像以前那么强大,但仍然存在。 当我们来到与Oracle或IBM合作的公司时,他们会面临一个选择-去特拉维夫的一家小型初创公司或与一个大公司呆在一起。 即使解决了问题,该过程也会大大延迟。

第二个障碍是缺少人。 特拉维夫是一个小的硅谷。 以色列在员工方面的竞争非常激烈:我需要三个月才能找到合适的员工,尽管我需要三秒钟。

最后,第三点-作为一家科技公司的所有者,我可以说总有一个人比你聪明,还有更多。 我们必须不断确保技术处于机遇高峰,并且需要大量投资。

-在您看来,GPU还是“拐杖”吗?对于数据而言,最好是找到或发明自己的处理单元?

当然,我们正在寻找新型处理器-不仅是图形处理器。 现在有了更好的技术-它们将在未来几年内投放市场。 必须为此做好准备。 这就是为什么我们与包括量子计算机在内的新兴企业,计算芯片制造商保持联系。

随着这些技术的发展,世界将能够更快地解决问题,这当然迫不及待了。 非常乐观的是,五年内将出现首台此类机器,它们的早期版本适合学术研究。 在首次尝试将这种技术引入公共领域(医学和安全性)之前,甚至还不到十年。 在此之前,GPU将运行良好。 有趣的是,最终将变得更快。

俄罗斯公司和大数据




在表演之间,年轻而美丽的人们在时尚的空间中徘徊,在屋顶上行走,聊天并喝着柠檬水。 由于笨拙的乙酰胆碱,我没有得到它(感谢Yorgan的解释),但我没有受到冒犯。

然后,MTS大数据部门负责人Leonid Tkachenko,GOSU Data Lab创始人Alisa Chumachenko,Segmento创始人Roma Nester和Tinkoff Bank的Yevgeny Isupov进入了讨论大数据的阶段。

列昂尼德的讲话使我和听众都非常满意。 从俄罗斯最大的公司之一的高层听到如此坦率的说法是不寻常的。 我在这里多引用他的事实并不意味着他说的比任何人都多(这不是MTS广告。我有不同的操作员,Leonid根据他的话判断已经忍受了。尽管在这种情况下,他还是在谈论我比我想象的要了解得多)。



他立即开始的事实是,大数据现在确实无法正常工作,神话膨胀了。 据他介绍,如果用常规方法不能解决问题,那么大数据的到来将不会改变。

例如,MTS具有成功的客户流失预测模型。 当应用大数据时,增长完全可以忽略不计。 相反。 MTS未能预测订户何时决定改用较便宜的资费(以便提前致电并劝阻一些奖金)。 当我们尝试使用大数据解决问题时,它仍然无法正常工作。
无需在大数据技术上寻找奇迹

叶夫根尼·伊苏波夫(Evgeny Isupov)反对他:

-当我们添加新数据或更专业的数学方法(允许我们进行高级特征工程)来生成人难以想像的特征时,我们发现那里的数据显着增加。

并以此列昂尼德同意:
-这也是添加新数据起重要作用的示例。 如果我们观察订户的呼叫方式,我们就知道他们正在呼叫。 值得进行最少的地理分析,在手机上度过大多数夜晚的基站以及每周工作五天的基站。 一切-我们知道您的生活和工作地点。

如果我们基于呼叫配置文件添加了建模(并且这样做了),那么我们可以恢复整个家庭。 我们看到其中有三个MTS用户,另一个是直线,另一个是扩音器。 我们没有地理分析师,我们只知道他们如何称呼我们的网络。

在此模型中,有超过一千种您自己不会生成的非常微妙的重要事物。 例如,这样的功能-人与人之间的交流密度在星期五从3变为4,从4变为5。依此类推。 我们将彼此经常打电话的成对朋友或陌生人联系起来,强加成千上万个功能,并能够将它们分为两个部分-夫妻同居和夫妻不同居。

Alisa Chumachenko在务实的方向上提出了这个想法-首先,根据她的说法,任务在进行,而不是技术。 如果在大数据的帮助下做某件事是有意义的,并且它比旧方法更有利可图,更有效,那么将使用它们。 不必为了大数据而使用大数据,但是出于某些原因,许多人正在尝试。
大数据恰恰是炒作,它会出现在根本不属于任何地方的地方。

当她问是否有人听说过DeepMind时,我伸出了手,想着:“主啊,当然,每个人都听说过,他们比教皇更知名。” 但是大约有五个人举起了手臂。

然后,爱丽丝开始谈论AI在Go中的胜利,并添加了一个使我个人感到惊讶的事实。 事实证明,对于训练有素的神经网络来说,它具有实际应用价值。 它用于冷却Google服务器。AI负责在何时何地扭曲,学习,鼓励自己和惩罚的冷却线圈的种类,而这一过程已经使服务器成本降低了40%。

爱丽丝本人,因为她从事游戏工作,所以梦想着建立一个系统,该系统将全面了解她的游戏偏好。她记得第一次进入英雄联盟,游戏让她有30秒的时间从几百个英雄中选择一个。

-如果游戏知道我一直都在支持游戏-它会突出显示更适合我的英雄,并建议我不要碰其他人。如果游戏知道我爱,我会转换为用户并从中赚钱。



在谈到大数据的未来时,Leonid再次发表了很酷的独白:

-MTS是50多岁的男人,一切都落后了。未来要么是悲惨的生活,要么通常是瓦格科科沃的生活。经典电信到此结束。我们意识到这一点,作为一家企业,我们正在寻找一个新的机构,将我们的灵魂转移到新的企业中。至此,我们就完成了。

大数据可以成为一体。我们有三种策略:
-即使我们不了解如何使用它,通常也会完整地收集有关客户端的所有数据。 存储技术便宜到足以存储所有内容。
-开放数据科学家访问数据并尝试使某些东西蒙蔽。
-基于对人的了解,基于对人的头脑,灵魂和欲望的渗透,建立新的业务。尽可能实现个性化。 要了解有关您的所有信息,就好像我们没有这样做就在观察和窃听您一样。

这项业务的最后一英里已经建成-在互联网上吸引一个人并向他展示广告。 建立第一个,深入了解并找出这个人想要看到的东西,仍然是剩下的。 这样,第二个人就会购买。

列昂尼德(Leonid)认为,数据的未来可以有两种方式。 否则数据将成为人们的财产,他们将能够出售有关自身的信息,决定哪家公司以及开什么公司。 否则数据将成为州的全部财产。
它绝对会知道关于我们的一切。但是至少生活会更安全。

每个人都同意,将以一种或另一种方式对数据进行严格监管。
-在过去六个月中一直面对GDPR的每个人都知道,对私有数据的访问将受到严格的监管。另一方面,有中国在看,但你知道它不是。俄罗斯可能会遵循中文版本。无论如何,存储这些数据的大公司(狡猾地看着Leonid)将很难。

小说认为焦虑源于无知和误解:

-我们处于技术恐慌状态。每个人都害怕有人会对他们有所了解,每个人都不喜欢。例如,有15种技术和商业原因导致Facebook不能通过窃听他人获利。但是人们对此深信不疑,现在对服务的看法有所不同。
数据收集过程应透明,以使人们不惧怕。

与所有全球性问题一样,矛盾源于小事情。在何处划定隐私与舒适之间的界限,在何处以及在什么情况下将个人信息公开。

正如Eugene所说,当诸如“昨晚您做了什么”之类的信息被用来嘲笑甚至伤害您时,您当然不希望打开它。但是,如果这些信息可以(例如)改善健康或睡眠,则可以将其泄露出去。

罗曼认为,值得惧怕小公司:

“大型公司将比出售我的数据付出更多的代价。” 他们使小型公司不堪重负,这些公司正在竭尽全力通过数据获利。我们从40个来源购买数据,其中一些是从没有向我们提供任何有关人的数据的公司购买的。明天可以休假时,您对社会和人民没有太大的责任。

相反,爱丽丝相信美好的未来:

-我只是想认为您没有银行帐户,他们只给过您一张卡。今天,我们所做的一切都变得公开。但我不相信极端情况,因此我希望AI能够早日出现,从而向我们展示并提供与我们相关的一切。

Leonid总结道:
- 如果您想全力以赴,最好关闭手机。

而不是结论


在谈论“老大哥”时,我总是记得一个故事。当奥威尔(Orwell)撰写1984年时,他将副本发送给了他的学校老师Aldous Huxley。在一封信中回答 -他赞扬了这本书,但不同意这个想法。他认为,“提倡婴儿成长和毒品催眠要比监狱和警棍更适合获得权力。”

当然,对“老大哥在看着你”这一事实感到恐惧的事情要多得多,而害怕它会更加有趣。但是,亲爱的Sistema_VC,我认为“大数据,遇见勇敢的新世界”这个名字会更好。

Source: https://habr.com/ru/post/zh-CN418925/


All Articles