关于大数据的大访谈:他们为什么在社交网络上关注我们,谁出售我们的数据?

免责声明 大数据专家Arthur Khachuyan讲述了社交网络如何读取我们的消息,我们的电话如何窃听我们以及谁需要这一切。 本文是一次精彩采访的笔录。 有些人节省了时间并喜欢文字,有些人无法在工作中或路上观看视频,但乐于阅读Habr,还有听力障碍的人,他们的音轨无法访问或难以理解。 我们决定为所有这些内容和您解密出色的内容。 不管是谁喜欢的视频,都是结尾处的链接。



我们每天都在Internet上进行写作,搜索和发布,并且每天都有人在屏幕的另一侧看着我们。 特殊程序会扫描照片,喜欢和文字,以将我们的数据出售给广告公司或警察。 您可以将其称为偏执狂或科幻小说,但电话,社交圈,往来信件或方向不再是秘密。

为什么Facebook应用程序要求访问我们的相机,麦克风和联系人


访员:-我举一个小例子。 将Facebook应用程序放在智能手机上时,我们同意的内容。 因此,它可以访问数据:关于联系人,关于正在运行的应用程序,关于USB驱动器上的文件,无限制地访问Internet,可以在智能手机开启时启动,更改壁纸,下载文件,按要求查看SMS,拍摄视频,拨打电话,录制声音。 为什么这一切都是必要的?

Arthur Khachuyan:-嗯,事实上,在每个功能下都有一个真正的Facebook功能,在每个要求下都有。 Facebook会说,当然,所有这些都是改善与应用程序交互的必要条件。 但是我们都知道这样做是为了收集数据。

应用程序是否记录了我们的对话


实际上,这里也有一条很好的界线-现在我举一个例子:由于“我说了些什么,Yandex”导航员听到了,我开始收到广告,所以有些人非常“偏执” “或者,有条件的” Facebook“(没关系)-”我在某处说,我的应用程序在桌子上“ ...

有3种发展方式,可以说……这个偏执的故事。 首先,在人们看来,他们忘记了某个时候某个地​​方消费了某些内容,或者只是陷入了统计样本中,此时此年龄,兴趣和行为方式的人们应该对英语课程感兴趣。 他们在那儿说了些什么,在他们看来好像有人在看着他们。

我们的帖子是否在社交网络中阅读


但是实际上有第二个故事,我多次进行了这样的实验:在社交网络中建立了两个干净的帐户,一条消息相互之间写了一条消息,例如“一个朋友去了Syktyvkar”(我开玩笑地说这一切,我一生都不知道, (Syktyvkar),但是两三天后,您会开始收到有关那里旅行的广告。 也就是说,社交网络扫描私人消息,这似乎违反了与其达成的协议,但您无法证明这一点。 实际上,启动的移动应用经常会聚集在一起以了解该人的收入。 伙计们做了很多这样的研究:您知道,从“ iPhone”和“ Android”从同一地方叫出租车,而价格不同的出租车车队是因为他们确定平台,确定正在运行的应用程序……好吧,首先确定平台并了解谁需要该平台的价值?

应用程序如何显示一个人的一切


运行应用程序通常是一种功能,使您可以对一个人说很多话。 我们如何了解他是谁? 由它消耗的内容。 根据已安装的应用程序,我们可以了解所有内容,包括性取向。 因此,安装哪些应用程序是此人的真正兴趣。 就是说,如果他安装了某种用于租用私人飞机的“附件”,那就好。 如果您已经安装了某种“ Booking”,“ Avita”,其他待售应用程序,或者有很多应用程序可以进行某些廉价购买和折扣,现金返还,那么您通常都可以理解。 如果您现在自己查看自己的应用程序,则...

如何不在互联网上发布任何东西并且仍然在那里


我。:-还是他是玩家?
A. Kh .:-是的,您当然可以立即理解。 这是他在哪个银行开设帐户的基本方法。
我::-首先,让我们为所有人揭开一个秘密:当一个人在自己的社交网络上写东西或发布照片时,不仅其订户可以看到。
A. Kh .:-是的,是的。 我总是展示这么大的图片,上面有俄罗斯社交网络普通用户的画像。 在那里,他,他的朋友,朋友的朋友,朋友的朋友一直屈膝。 这是一个庞大的受众群体,大约有八十万用户有时会随机看到此人的内容(由于社交网络上的现代集成供稿),但是新手最大的错误是某个人可能根本没有社交网络帐户但是他去了某个地方的某个活动,他们给他拍了张照片,他在那里做了些事,然后将其张贴了出来,因此,一些知识进入了这个庞大的开源数据库。
我。:-也就是说,他可以坐在餐厅里或在集会中,处于某种照片的背景下-系统会识别出他...
A. Kh。:-在前面,一个年轻女孩将用她6百万像素的前置摄像头拍照,实际上就是这样...

在社交网络中我的照片上收集了哪些数据


也就是说,在这种情况下,我们再次使用照片,提取有关此人的知识,然后将这些知识与获得的其他照片进行比较,即“这台机器是您的还是不是您的”,也就是说,如果您出版了一年半的时间,至少有五次使用相同的编号,品牌,颜色……她不在“ Avto.ru”,“ Drom.ru”上,也不在您的朋友中,因此我们将把这辆车分配给您。

我。:-您会了解我的大约财富吗?
A. Kh .:-是的。 或以后,当您在莫斯科环路附近转转时,会受到如此巨大的“数字超级一面”(大型电视)的欢迎,几乎每个人都可以在上面识别到车号。 在三百米的时间内,他们会识别出您的汽车编号,并将其交给我们,我们会告诉您哪种广告可以展示给您。
I。:-您是否从内置相机的每个广告牌接收数据?
A. Kh。:-不,我们有一个合作伙伴,这是户外广告最大的供应商之一,我们有一个API,他们为我们提供了汽车编号-我们说这个人感兴趣的内容。 即,从业务的角度来看,这是对两个问题的解决方案:为了不显示某人已经遇到的东西的广告; 因此,在信息流中,选择80%至90%兴趣相似的人,并向他们展示一些特定的内容。

公司如何以及为什么计算我的位置


现在,最生动的故事(不是我们的故事)与“ wi-fi”的分析相关。 在所有购物中心中,当一个人到达时,分别连接到“ wi-fi”,便会监视其mac地址-我们可以了解该人如何移动。 这是一个非常特殊的暗物质,因为似乎硬件供应商引入了新的协议来干扰这种跟踪,但是苹果似乎没有很好地实现此协议,您实际上可以获取这些mac地址-分别跟踪这个人在移动。

如何按地点计算工资


然后,有条件地,这个系统所在的大都会购物中心与有条件的“内部分析”共享数据(有条件的是,地铁中所有这些数据的运营商)。 我们可以了解您坐在哪个站台,离开哪个站台。 因此,收集几天的有关您的数据,您可以了解您的住所,工作地点-几乎每个人:工作近在咫尺,下一步在家里。 因此,您可以了解自己是否居住在大都市附近,以及搬家的频率。 通常,当一个人进出地铁时,人们可以理解他的行为方式-工人,学生,访客,有孩子的母亲...嗯,确实存在统计依赖性。 相应地,通过完善此示例,我们可以了解哪个人在哪里工作。 另外,从那里的社交网络添加他的照片。 然后,一旦我们了解了他在哪里工作,您就可以通过那里的一些参数大致了解他的位置; 因此,将其与猎头公司SuperJob进行比较,了解该职位该职位的平均工资。 因此,因此获得了知识。

我::-在某些条件下向他提供贷款。
A. Kh .:-是的,是的。 然后,他将前往某个国家/地区,在某处签到,在同一个Facebook上拍照-“我正从谢列梅捷沃飞往巴拿马”。 您可以查看Skyscanner,该日期根据人们到目的地的请求的数量,机票的价格,酒店的价格-以及相应地,了解人们在度假上花费了多少钱,旅行了多少次,拥有多少免费资金,以及实际上,基于此做出预测等。
I。:-出售商业产品,银行产品。
A. Kh .:-是的。 银行产品,财务管理或对其进行征税,因为个体企业家的法人实体附有一张卡,然后他通过税收缴纳了10万,然后又买了一辆新车。 在这里 也有一个。

人工智能如何在社交网络上“读取”我们的照片及其得出的结论


我::-我在Instagram上发布了一张照片。 我说的是在汽车背景下描绘的,在某个房子附近,我穿着某些衣服。 这些人工算法如何开始看待我,又开始理解什么?
A. Kh .:-好的,我们转到页面收集了这张照片。 要做的第一件事是让您的脸突出,以了解您是否是自己,是否是您的帐户。 也许是其他人拍了照片,或者您拍了某人的照片。 实际上,下一步是用于模式识别(计算机视觉)的“卷积”网络。 我们的任务是了解照片中的内容? 许多事情是无法理解的。 我们需要了解汽车,颜色,品牌,并因此识别编号。 您可以了解外套的颜色; 可能的风格 可能具有70-80%的发型准确性。 这样的东西。 如果有人拍摄了此自拍照,则可以确定眼睛的颜色。
我::-我们如何使用发型?
A. Kh .:-好吧,头发的长度……哦,您知道,“美容”品牌对此很着迷。 一些洗发水出售给某些染发一定的女性。
我。:-您能在桌上说出香槟的品牌吗?
A. Kh .:-是的。 您不仅可以确定香槟的品牌。 您可以确定它是哪种酒精。 即,可以识别出一杯酒。 如果没有瓶子,则无法确定品牌。 但是对于大多数酒精来说,瓶子是特定的-那里的杰克丹尼尔斯有一定的形状……依此类推。 从图像中,您可以了解它是什么,并制作人们喝什么的样本。 例如,有许多商业客户要求寻找喜欢与可口可乐和杰克丹尼尔斯一起在家里举行聚会的人; 然后他们与他们做一些事情。 这样的东西。

即,品牌给人礼物。 他认为:“哦,太酷了! 他们不小心选择了我!” 但实际上,这并非偶然。 据估计,他的潜力可以吸引新的听众,交流,内容分发的速度以及50种不同的指标。

人工智能通过与拉达·普里拉(Lada Priora)的合影看待蒂玛蒂的富裕


我。:-听着,我给你个小游戏。 我将向您展示在Instagram上最受欢迎或典型的照片,并告诉我人工智能可以在照片上看到什么以及得出什么结论。 让我们开始:首先。



A. Kh .:-我认为服装的风格,汽车的品牌,地点都可以理解。 我看到了,这里有一个灭火器。 您可以100%理解这是停车位。 超市停车,从照片判断,从包装判断。 我将代替人工智能,将100%记录在出租车司机中。 但是,“聪明”,可以这么说,他的外表(意思是衣服),汽车品牌和蓝色书包,他会属于某类人群,收入在50-80000欧元之间...
I。:-小额信贷,一种廉价的汽车...
答:-是的,是的,是的。

我如何收集有关尚未出生的人的数据


I。:-Instagram上最受欢迎的照片之一-这是直到去年的第一张照片,当时出现了其他更受欢迎的照片。



A. Kh .:-好,这里一切都清楚了。 这里将得出的主要结论是怀孕。 该算法将从照片或最有可能从...评估这个女孩的月份。孕妇至少一次输入“ Guys,我们在第三个月”或“我们正在等待奇迹”之类的文字。 但是摄影也可以做到这一点。
I。:-是否可以通过腹部的文字或数量确定月份?
A. Kh .:-是的,是的。 是的 所做的医疗样本非常小...完成的工作:我们确定建议的出生日期。 因此,我们将知道孩子何时是六个月,八个月,一年,两个,三个,五个...
我::-25!
A. Kh .:-是的,是的。 在每个这样的时刻,都会为妈妈提供某些材料:婴儿衣服,两岁大的婴儿尿布,两个月大的婴儿尿布,等等,等等。 但最重要的是,对于将来的一定储备,我们已经知道孩子的出生日期。 首先,加号或减号,但是随后,如果他们澄清其他出版物,我们已经开始收集有关此孩子的数据。 他还没有出生,我们已经对他有所了解。 当然,这实际上是一个令人恐惧的故事,就我所不知道的……一面黑镜子。

从Ramzan Kadyrov的照片中收集了什么数据


我。:-从这张照片可以理解什么?



答:-实际上,这里的人们将以武器为代价立即获得“极端主义的力量”。 识别照片中的武器,即时识别照片中的武器常用于“故事”中。 也就是说,他们将立即出现一个勾号,表明他们使用武器“拍照”。 如果此人有一定程度的危险,那么这些信号将立即发送到控制武器流通的当局,因为……这是“卡拉什尼科夫”,我是否正确理解? 有点像在这里禁止使用枪支。 好吧。 是的,几个人。 我不知道用户在这里是否有头像,不是吗?
I。:-用户实际上是Ramzan Kadyrov本人,但他删除了自己的个人资料。
A. Kh .:-是的,好的。 好吧,这是历史,因此,一切都会保留。 该机枪无法识别,但是这种“卡拉什尼科夫”绝对是可能的。
我。:-如果是玩具?
A. Kh .:-嗯,还有一些具体的事情。 通常,在玩具中,皮带不是那么绿。我不是专家。 我知道我们对武器的认识大大提高。 在我看来,这里有些喇叭被修改了,也就是说,大约有一万个参数,其中有用于识别的不同武器...切开,修改-仍然存在某种方式...我在这方面并不特别。

为什么用别人的车拍照很不好


我::-一个拥有昂贵老爷车的女孩。



A. Kh .:-使用昂贵的老爷车,没有牌照。 很有可能可以识别汽车模型。 但是在这里它清晰可见-有些算法可以按性别识别视野。 也就是说,在这里可以清楚地看到汽车在地板上方,也就是说,它将被展示,再加上没有数字,再加上这很可能是该车的唯一照片,并且很可能同一地理位置的其他照片中是同一辆车,所以它不会被认作是她的。 我在后台看到,您可以了解它是哪种国家/地区,因为它是一种特定的语言。 我了解这是某种捷克共和国,对吗? 斯科普斯广场(Plaza de Skopice)...好吧,就是这样。 如果没有地理信息,从文字,语言学角度,您可以了解这是一个什么样的国家。 除了衣服等等,所有关于人的事情都无法说。 但这又是有条件的喜欢旅游的城市类型游客的其余部分。 这样的东西。 实际上,以这种方式用昂贵的礼物,昂贵的汽车拍照的人总是低估财富水平。 我不知道为什么,但是从统计学上来说,通常会发生这种情况。
我:-接下来。 Instagram的。

Instagram说Medvedev怎么说




A. Kh .:-两个人。 我们首先需要确定的是谁的帐户。 这些是普通人。 因此,将获得什么知识? 这些人在自然界中放松对于喜欢在自然界中放松的人们来说是非常普遍的一类。 因此,他们可能会陷入非常奇怪的部分-例如,夏季居民。 他们有一个夏季农舍季节-我不知道在那里,他们出售视频监控和法律服务。 好吧,通常来说,夏季居民有一定的行为模式。
I。:-您说过:确定帐户的所有者。 弗拉基米尔·普京(Vladimir Putin)没有Instagram,也没有公开可用的数据。
A. Kh .:-因此他也将成为夏季居民。 好吧,如果不是弗拉基米尔·普京(Vladimir Putin),而是其他一些(例如,他的朋友曾拍照)的人,那么他对他的了解也会出现。

我们可以通过社交网络了解普京的哪些知识


我::-如果我们使用所有可能的算法分析网络上已知的有关他的信息,我们将得到什么,我们将从这项研究的结果中学到弗拉基米尔·普京的知识?
答:-在我看来,我们实际上会学到太多。 处理与弗拉基米尔·普京有关的所有信息的成本(指机器时间)将超过此请求的商业有效性。
我..--但是,如果我们采取并分析其照片中的人物,一些物体等,我们可以比较这些数据并得出一些有趣的结果,您认为呢?
A. Kh ::-特别是对于弗拉基米尔·弗拉基米罗维奇(Fladimir Vladimirovich)来说,这并不有趣,但是我们对不同的官员进行了多次此类研究(我稍后会向您展示研究的一个例子),具体如下:我们接受了俄罗斯最大的一万次公共采购,这些购买地点,生产地点; 他们在那里尝试用照片和通讯方式(我有一个这样的项目,即“交互式地图”)从那一万个州购买的地图中构建地图-那里很有趣(我稍后会向您展示)。 在那里,所有人都聚集在这样的堆,簇中,现在他们只能在彼此之间交易。 由于某种原因,它们出现在所有可能的照片,游艇,通讯等上,与他们下达政府购买的方式不谋而合。 为什么发生,我们不知道。

我们在哪里出售数据以及为什么


我::-我们发现此信息可以从网络中获取。 如何使用?
答:-有很多不同的情况-好,坏等等。 大部分处于第一层的人都试图收集一些联系信息,收集有条件的垃圾邮件数据库,然后将其卖给那里的某个人,那里的某个地方等等。第二层的人要诚实一些-他们收集一些信息,进行分析,然后出售这些分析。我们进入了有条件的第三层-我们出售知识。也就是说,我们在这里不出售任何出版物评论的任何上载,也不出售特定人员的联系方式,我们收集有关某个事件,事件,地理位置的所有信息,并从中提取知识。这些人是谁,他们旅行多久了一次,观看了什么样的色情片,有狗,公寓,汽车,妻子,孩子等等。现在,我们出售这些知识时并不参考特定的人。

是否有可能根据来自社交网络的数据来确定一个人的取向


我:或者你从中得出一些明确的结论。如果实际上可以做到这一点,例如,相对而言,是否可以确定不做广告的人的性取向,并找出与社会的相关性?以百分比表示。



A. Kh。:-是的,是的。实际上,这很容易做到,因为人们(我刚刚在“ Tinder”和其他社交网络上进行了很多这样的约会实验)……通常,人们会被分为几类,即使他们看起来是隐藏的,您也可以理解在这些集群中与谁进行通信。这是我们不会传递给客户的禁止指标之一。
我。:-但是可以使用什么算法呢?哪些数据可以用于此目的?

如何通过喜欢来了解一个人的一切


答:-最基本的(可能是历史)是一个人消费的内容。这些都是喜欢的。现在,每个人都相信没有人看到他们。的确如此,并且您不能使用任何技术方法来获得特定用户的喜欢,而无需收集社交网络上的所有内容。为了解决这个特定问题,一些高度专业化的内容就足够了-例如,您在最大的色情跟踪器Vkontakte中收集并收集所有色情内容,然后查看谁喜欢它(对于VK,大约八分之一的用户喜欢它色情-我们仍然不明白为什么)。因此,在此基础上,可以有条件地按兴趣细分所有人。

两三年前,当我和“联合俄罗斯”的“初选”在一起时,我和生命进行了这样的研究,他们强迫所有打算去“联合俄罗斯”的家伙(4400名候选人)...其中大约600名在社交网络上提交了他们的帐户-我们查看了他们喜欢哪种色情。那里很有趣:大约70-75人参加了这样不讨人喜欢的活动-纳瓦尔尼喜欢的人,“罗斯皮尔”的人,儿童色情的人。总的来说,这很有趣。

所有这些都导致我们试图向用户解释的事实:无论您做什么,所有这些都将在公共领域中。因为现在人们不了解在公共领域中所说的实际上是在公共领域中,并且您不会从那里删除它,所以您也不会摆脱它。

I。:-也就是说,人们认为自己在社交网络上的个人资料中谈论自己,并且可以通过自己喜欢的方式找到更多信息吗?如果算命先生过去常常猜测算命,那么现在您进行分析,喜好分析并进行偏好分析。

答:-是的,通过消耗的内容,您可以理解所有内容。这个人是谁:家庭主妇,有孩子的母亲,她的总体兴趣是什么?最重要的是,从业务角度出发,您可以基于此做出预测:一个人在一周,一个月,六个月,一年中将购买什么产品。因此,我们有一个男人,他只有一个孩子,我们知道他有汽车-我们立即为他提供一个儿童座椅。是的,例如,这个女孩去了一家在线商店网站,然后发现了她,我们知道她过去五年在Instagram上的所有照片,在什么天气下她穿着上下衣服的颜色在什么情感色彩上等等-和。实际上,我们为她提供了完美的选择。

如何找到一个人的电话


I。:-我了解您不会公开使用该信息,也不会传输该信息,但是有可能找到更多有关某人的私密数据,以查找电话号码,尽管他没有将其上传到个人资料中的任何位置以进行查找,他如何在当前所在的城市中移动。

答:可以。第一个与电话号码有关的故事:每个人总是在某些留言板上碰到过-这确实是每个人的祸害。我给你讲一个这样的故事:很久以前,我们曾经在主管当局的监督下进行过一项研究:这意味着我们花了“笔迹”钱从其他人那里购买毒品–在摩西五经,在电报中,等等。但是只有知道电话号码的人才能知道该电话号码的匿名性。
I。:-“脚本”是自动机器人吗?
A. Kh .:-是的,当然。相应地,这些新手贩毒者大多数都对以下内容着迷:他们的电话号码确实干净,没有任何联系或社交网络。但是他们在Avito卖东西!因此,您可以了解他们的地理位置,因为他们在居住地附近出售所有物品。好吧,因此,他们是谁。由于一个人出售的商品,您还可以对这个人是谁做一些假设。好吧,因此,我们然后比较了他们居住的地方和他们离开“礼物”的地方。

如何帮助父母在社交网络上控制自己的孩子


我们曾经启动一个项目来分析未成年人的行为(父母照顾)。然后,它也被称为“家长控制”。然后,我们选择了这样一个荒谬的口号:“我们比FSB更好。”实际上,这绝对是个好主意:我们将警告未成年人的父母孩子正在产生某种some亵行为。现在,我们每天约有70万未成年人在写某种废话,他们可以来这里而不会在头上擦:烧些炸薯条,敲打玻璃等等。我们认为(作为状态算法的开发者,知道一个人在状态与他进行某些针对性的动作之前必须获得何种程度的“极端主义”),这对警告父母是更正确的。好吧,总的来说,Navalny的支持者,特别是Alexey Bulkov,他们对这个新闻不太满意-他们在Facebook上写下了所有的愤怒。这很有趣,但是当您收到第5,000条评论“纳瓦尼当总统-像您这样的人将要入狱”时,这有点不太舒服...

但实际上,我们对此保持冷静,因为人们根本不了解正在发生的事情。就是说,他们-来自Skolkovo的浮渣将收集个人信件,地理信息...好吧,每件物品都在那里...我们与Skolkovo毫无关系。什么是地理运动,什么是“支票”?好吧,一般来说,什么是私人讯息?一般来说,以某种方式。



我::-就像成年人在集会上做噩梦一样,现在,他们收养了孩子……“家长控制”有什么有趣的结果吗?
A. Kh.:-是的,事实上,这是整个研究的“开始”:我们决定让3万个随机的未成年人从事某种非消费活动,找到他们的父母并为他们的父母编写机器人:看,您的孩子写道明天他将要烧一口薯条(还有某种报价等等)。好吧,一般来说,大约有99.8%的父母把我们送进了屁股,说:你是谁,你在做什么?我们写了绝对和平,诚实的信息:请注意,注册表中禁止使用此材料,依此类推。总的来说,我们都被送进了屁股。我们意识到这里的人们非常喜欢关于偏执狂的歇斯底里状态-国家正变得胆小,但实际上他们对数据如此粗心,以至于很难解释一些东西。教育工作-这是最卑鄙,最忘恩负义的事情。


我。:-我正确理解有些公司像Jabon这样的公司,他们为活动制作手镯...
A. Kh。:-Fintes追踪器。
I。:-“ Huawei”,生产智能手机...除了销售小工具外,他们还通过了解很多客户并进行销售来赚取可观的收入?
A. Kh .:-是的,通常,从美国卫生部开始出售有关这些人的平均知识,最后是将这些数据与Facebook上的关联帐户“匹配”,然后将这些故事出售给广告网站。这似乎也不是一个非常符合道德的故事,但另一方面,这就像问题出在不阅读该协议的人中。该协议规定了何时以及向谁传输数据,传输量是多少。

一个无辜的小工具如何显示美国军事基地的位置


但是仍然有一个有趣的案例(我不知道您是否遇到过)。有一个这样的应用程序“ Strava”-这是一个phytines跟踪器。他们在今年年初做了一个非常酷的项目。他们绘制了一张地图:整个世界-一张关于人们奔跑,骑行的巨大热图-一般而言,它们的轨迹,他们的健身轨迹。实际上,该公司甚至都没有考虑过要开多少人。美国在叙利亚利比亚的所有军事基地秘密基地都被突出显示。

我。:-也就是说,根据地图,这正式只是一片沙漠,其中...
A. Kh .:-是的。在没有任何东西的叙利亚或利比亚沙漠中,每天都有许多人跑得非常非常活跃。事实证明,他们“烧毁”了美国的一堆军事基地,依此类推。他们很快清理了它,但是有一个有趣的先例。

约会应用是私人数据的最可靠来源


I。:-相同的“火种”是您最喜欢的信息来源之一。
答:-我的,是的。因为人们的真正兴趣-您可以将Tinder与照片上的Facebook“匹配”,并且通常有信息表明此人对他的工作非常感兴趣,等等:我喜欢打猎,钓鱼和...怎么做-这样的事情。有很多系统可以预测选举的投票率,政治偏好以及谁会投票支持哪个政党。在这里,唯一的事情就是我们有大量的选民-它不是很数字化。这样的东西。但是甚至可以了解一些关于它们的知识。那里……谁,谁在住房和公共服务中发誓,和谁一起起诉。
我。:-根据什么数据?
A. Kh .:-俄罗斯联邦法院公开国家登记册和州司法。我们的司法实践几乎是完全开放的。没有非常高质量的数据,但是它们是开放的。有……法警服务,黄页,区域性住房和公共服务场所。您可以从任何地方收集信息。

来自社交网络的数据如何影响俄罗斯政治


我::-但据我所知,最简单的事情是收集有关持反对意见的人的信息?他们年轻而活跃。
A. Kh .:-是的,当然有这样的事情。
I。:-您如何看待,将来如何改变全俄政策-大数据的使用?
A. Kh .:-我认为它不太可能特别坚固。让我解释一下原因:因为在这种情况下,每个人都了解谁赢得了我们国家的选举,不是因为他们不诚实,而是因为大多数人都这样投票。因此,这是大数据唯一可以用来做的事情-我认为,这可以增加投票率,并以某种方式与意见领袖,细分,鼓动一起正常工作。现在,莫斯科市长竞选活动有很多要求。好吧,每个人都知道谁将成为市长-不是因为它被买了,就是腐败-每个人都会投票给Sergei Semenych,对此无可奈何。其余候选人的任务是至少获得一些或像杜马州一样获得一定比例。好吧,像那样。

在王牌胜利中从社交网络收集数据的重要性


但是,当然不可能像美国总统那样取得成功:首先,因为我们拥有这样的选举制度;其次,我真的不相信美国总统的成功。我认为30-40%的人确实为他带来了微瞄准技术,但没有取得太空胜利。

I。:-告诉我,在那里可以使用哪种算法?
A. Kh .:-那里的一切真的非常简单。每个人都因涉嫌在某处破坏某些东西而踢了剑桥分析公司,但实际上没有人因为非常简单的原因而入狱:因为没有违反法律。 Facebook上有很多测试,某种“派”测试……嗯,你知道,它们已经满了。人们通过了这些测试,从不阅读许可协议。一切都清楚了:他们的数据在广告平台上出售。人们通过抽象测试,某种派或某种面包,红色或蓝色-在此基础上得出有关该人将投票给谁的心理测验结论。但是重要的是,没有人要投票-重要的是要了解他的问题:一个害怕找不到工作的墨西哥人或一个美国人谁害怕因为墨西哥人而失去它-这些人被分成几小组,然后有条件的总统以针对这些人的有针对性的广告形式说道:我们将提高您的工资,并且您将取消奥巴马的医疗保健,您将被禁止(墨西哥人)工作,您将被允许(墨西哥人)工作。

也就是说,这种有条件的微观定位不会向每个人显示与总统的两小时直线,而是向他们显示一些具体要点,即总统要解决的实际问题。

是否可以通过社交网络预测犯罪并寻找犯罪分子


我。:-请告诉我,您如何寻找一些反社会因素-恋童癖,疯子,杀手? 甚至可以预测这种情况是否会发生,一个人是否会犯罪或如何有效地预防犯罪?

A. Kh .:--预防犯罪这一主题现在是世界上最活跃的主题之一。 我们非常积极地投资于这个故事,以试图改变它。 我们拥有的主要案例是教师安置系统。 这是一种算法,该算法会在早上根据任务“生成”将巡逻服务放在何处的信息。 我们是要利用粉丝,还是要减少犯罪活动(盗窃,暴力)的水平,还是要抓捕毒贩。 就是说,我们收集了一定的数据集,从中得出结论,查看我们的历史统计数据并说:在这里,这里,这里,在某个时候,在某个时候,他们应该这样走; 我们降低了目标。

我们在郊区的最大数量...我们做了多少? 好吧,大约7-8%-我们减少了某个地方的犯罪活动-这些是偷窃房屋,这些是街头抢劫案。 这是我们迄今为止设法实现的最大指标。

至于疯子和所有其他人,当我们进入收集其他证据的过程时,这里的标准案例是这样的:这是普通调查员,他被谋杀了。 他需要移动运营商提供的所有信息,在进行试验后一年半的时间里,他会收到的,我不知道...在特定地理位置附近有30万个手机号码。 他对他们无能为力。 他将这些数字上传给我们,因此,我们可以让其中5-7个人以某种方式联系在一起,在他们旁边,可以与他们交谈等等。 其他所有,也许他们只是开车经过。

还有一个与粉丝有关的故事,也是一个非常受欢迎的故事。 现在,在锦标赛之前,体育场正在从我们这里购买远程识别系统,以便:当被殴打的球迷参观该场地时-他们告诉他-没有门票,或者他后来来体育场时,他们认出了他-他们不让他进去,因为他在他的Instagram上写道,“明天我们要弄湿俄罗斯人”,在那里,在“机车”上……就是这样。

关于恋童癖者,不幸的是,我们在这个话题上已经有很长时间了,这是一个很大的问题。 大约四年前,我们开始这样做:制造出能够在互联网上冲浪,在某些论坛上与年长的人进行交流并尝试以某种方式与他们进行交流的机器人,并且某些因素突出了他们的行为,要求等等。 它运作得太好了:发现了太多的人-我们的执法系统无法让很多人通过它自己。 最重要的是,根据目前的立法,不能像社交网络中那样穿上一个人,我强调这很好-很好。 而且,无论您如何使某人背负要采取某种行动的意图。 也就是说,在这种情况下,我们只能生成推荐,然后由地区警官去抓人的手。 而且,这比算法的工作速度慢十万倍。

我可以从互联网上永久删除我的数据吗?


我。:-我可以从互联网上删除某物还是绝对?
答:-这几乎是不可能的,因为有必要与每个资源的每个所有者进行通信。 有一个所谓的遗忘法,似乎强迫每个人都这样做,但是从法律上讲,它仅适用于搜索引擎。 我们本人在网站上有一个表格,用于删除有关自己的数据,但是我们不能继续禁止以后再收集有关人员的这些数据,因为当前的法律并不十分有效。

社交网络如何帮助我的密码泄漏?


这样的统计数据仍然很有趣:今年年初,国际银行协会对信息安全进行了另一次审查-他们有这样一个有趣的指标:当破解了一个秘密密码时,从货币帐户盗窃的次数增加了六倍。 那就是:您现在在考虑您的秘密密码……这是什么意思-该动物母亲的娘家姓的昵称,并考虑我是否可以从开放源代码中找到这些数据? 我能从公开来源中识别出宠物的昵称,喜欢的菜还是妈妈的娘家姓。 因此,我可以去银行,找回密码并破解您的银行。 在这里,欧洲协会-他们的盗窃次数正好是本文的6倍,因为人们将答案输入“宠物名”,然后在Facebook上写下宠物的名字。 实际上,是这样的。 在我看来,五年之内的噩梦将完全发生,因为这一代人-他们不了解社交网络是永远的,它是开放的,如果现在有些女孩在桌子上跳舞时喝醉了,而20年后她将成为一名班主任,那么所有孩子都可以从档案中找到该视频,然后开始勒索。

我::-您感觉不到……有点天才,因为您不是为了自己的利益而处理人们的数据,而是为了有条件的“老大哥”?

A. Kh .:-有这样的事情,是的,但是我有一个借口让我放心:例如,一个案例-一个人因肿胀而被解雇(这绝对是真实的历史),那个人被解雇了(好吧,他在那儿把醉汉放进了故事里,并把他烧了又开除了)。 我的概念是:如果雇主想跟随他,他会跟随他,无论是公开来源还是封闭来源; 如果该州想监视某个人,则可以通过任何方式进行监视-可以对其进行窃听,也可以查看其公开照片。 在这种情况下,我是卡拉什尼科夫品牌-您可以用铅笔杀死一千人,也可以用机枪射击他们; 不好,很难过,但是作为工程师,我坚持这样的观念:不是武器杀死人,而是人。 问题是谁将接收此数据以及他将如何处理它。

但是,当然,每个人都不同意我的概念。 他们相信(我引用了Facebook上的评论):“希特勒以同样的方式为自己辩护!” 或“同样,Essesses也在找借口!”我们操作的数据-人们自己将它们发送给了公众; 我们刚刚学习了如何从中提取事实。

约会应用程序将如何变得更加有效


我。:-在我看来,如果您只寻找一对比Tinder或其他任何人都更加完美的人,您可以赚更多的钱。
A. Kh .:-是的,请等到今年年底-我们正在处理约会应用程序。
我。:-也就是说,人们会更快乐吗?
答:-我理想的约会应用程序不是Tinder,也不是肉店,我的理想应用程序是当您登录,使用社交网络登录(我们收到的信息最少)并立即被推荐为理想人选。 在这种情况下,我们的主要问题是确定一个人当前的情感,心理阶段,以了解他应该特别选择谁。 他现在需要的是:一次性爱,一生的热爱,等等。 我们已经在这个问题上研究了一段时间。

妓女研究的意外结果


我::-听着,你怎么能在一个社交网络上,一个照片上一次识别一个需要性的人?
A. Kh .:-照片...好吧,这很难说。 这样的平均水平,也许有人会想到:酒精的照片是一个孤独的单身汉,看着色情片...我们已经进行了很长时间的研究:我们从各种网站上拍摄了2万到3万名妓女,从他们在社交网络中“交配”的照片中进行研究,他们毕业于什么大学。 好吧,因此,我们观察了他们如何与人交流。
我。:-那么您在寻找教育与他们的处境之间的关系吗?
A. Kh。-是的 真的没有上瘾。 一般而言。 就像在MGIMO中一样,有这样的男孩和女孩,因此在一些Uryupinsky大学中也是如此。 没有上瘾。
我::-它是民族职业吗?
A. Kh .:-是的。 最古老的民间专业。


主题电视剧


看完采访后,我不由自主地回忆起“ 感兴趣的人 ”系列。 我们建议所有人查看。



也许未来已经到来,我们都在眼前,怀疑者。

一点广告:)


感谢您与我们在一起。 你喜欢我们的文章吗? 想看更多有趣的资料吗? 通过下订单或向您的朋友推荐来支持我们,开发人员的云VPS从4.99美元起为Habr用户提供30%的折扣,这是我们为您发明的入门级服务器的独特模拟: 关于VPS(KVM)E5-2650 v4的全部真相(6核心)10GB DDR4 240GB SSD 1Gbps from $ 20或如何共享服务器? (RAID1和RAID10提供选件,最多24个内核和最大40GB DDR4)。

戴尔R730xd便宜2倍? 只有我们有2台Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100电视在荷兰起价199美元 戴尔R420-2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB-$ 99起! 阅读有关如何构建基础架构大厦的信息。 使用价格为9000欧元的Dell R730xd E5-2650 v4服务器的上等课程?

Source: https://habr.com/ru/post/zh-CN475130/


All Articles