2017年3月14日,社交数据中心首席执行官Arthur Khachuyan在BBDO演讲厅讲话。 Arthur谈到了智能监控,构建行为模型,照片和视频内容的识别以及Social Data Hub的其他工具和研究,这些使您可以使用社交网络和大数据技术来定位受众。
Arthur Khachuyan(以下简称AH): -您好! 大家好! 我的名字叫Arthur Khachuyan,我领导着Social Data Hub公司,我们从事有关开放数据源,信息领域的各种有趣的智力分析,并进行各种有趣的研究等。
今天,BBDO集团的同事要求讨论有关分析大数据,大数据而不是用于广告的大数据的现代技术:如何使用它,展示了一些有趣的示例。 我希望您能在此过程中提出一些问题,因为我会开始烦恼而又无法揭示本质,等等,所以不要害羞。
实际上,主要方向是曾经使用过某种“近数位数”解决方案的地方,它们都很清楚-这是针对受众,分析,某种分析和市场研究。 但是,总是有趣的是,可以找到哪些其他数据,在应用分析之后可以找到哪些其他含义。
为什么我们需要广告技术?
我们从哪里开始? 最容易理解的是在社交网络上投放广告。 今天我是早上拍摄的:出于某种原因,Vkontakte认为我应该看到这个特殊的广告……无论好坏,这是第二个问题。 我们可以肯定地说,我属于以下人员:

可以视为技术解决方案的第一件事和有趣的事情……在开始之前,我想解决的第一件事是定义以下术语:什么是开放数据,什么是大数据? 因为所有人对此主题都有自己的理解,并且我不想对任何人强加我的条款,但是……以便没有任何差异。
就个人而言,我认为开放数据是无需任何登录名或密码即可访问的所有数据。 这是社交网络上的开放个人资料,这是搜索结果,这些是开放的注册表等。按照我自己的理解,大数据我看到:如果这是一个数据铭牌-十亿行,如果是某种文件存储-它是PB级数据。 在我看来,其余的不是大数据,而是周围的东西。
高度准确的分析和评分资料
让我们去吧。 您可以从对开放数据源的分析中想到的第一件也是最有趣的事情是高精度的概要分析和概要文件评分。 这是什么 这是一个故事,您不仅可以预测自己的身份,而且可以预测自己在社交网络帐户中的兴趣。
但是现在,结合各种来源,您可以了解平均工资水平,公寓多少钱,位置多少。 所有这些数据都可以从即兴手段中使用。 例如,如果您在社交网络上注册帐户,则可以看到例如您的住所,工作地点; 了解您工作的公司所在的业务部门; 如果您是分析师,经理等,请从HH和SuperJob卸载类似的职位。 查看您的住所(基地,说CIAN),了解在这个地方租房要多少钱,在这个地方买房要多少钱,以预测您的收入。 在您的社交网络上,您可以进一步了解自己旅行的次数,身在何处,对雇主的忠诚度。
因此,从如此众多的指标中我们可以做任何事情。 我们可以向您展示您感兴趣的产品。 想象一下在线商店? 您去那里-这家在线商店在社交网络上捕获了您的帐户,并告诉您:“玛莎,您刚刚与一个人分手,这里有某些特定的产品。” 这不是不久的将来...
如何确定一个人的地理位置?
观众提问的答案:- 通常,所有签到的80%被认为是确切的居住地。 但是对于不在任何地方签到的人来说,有几种选择:签到或地理位置,或者在某人撰写任何内容的整个时间段内对帖子和出版物的分析...在某个地方,让一些事情出现例如“我想在学院附近购买婴儿车”或“我最近在这里看到墙上的丑陋涂鸦”。 也就是说,将近80%的人可以根据可以从社交网络收集的数据或元数据来确定其地理位置,工作地点和居住地点。
再次,这是对职位的分析。 从最简单的意义上讲,这是对不删除jpeg元数据(您可以在其中解析某些内容)的社交网络中的签入和地理位置的分析。 但是对于其余的人来说,这些通常是文本广播:一个人在写东西时“闪耀”他的位置,或者他“闪耀”他的电话,您可以在其上在Avito上找到他的一些广告或在他的帐户上找到“ Auto.ru”。 根据这些数据,您可以进行合并(例如,“我在Mayakovskaya附近卖车”)并大致假设。 - 通常人们将其发布在社交网络上。 我们仅与开源合作,在这里我们专门谈论开源。 通常,广告会发布,也就是说,最频繁的故事发生的时间是人们“发光”其当前手机号码的时间的60%,这些都是用于出售商品的广告。 一个人在某些小组中写道(“我在那卖那个或那儿”),或者他去某个地方。
是的 他们通常会发表评论,例如:“回答我或发送短信,给我打电话。 这种情况经常发生在出售东西,在社交网络上购买,与某人进行交流的人……因此,如果他曾经发表过一些东西,则可以通过此号码将他的个人资料绑定到Cyan研究所。 ,再次在Avito上。 这些只是最流行,最受欢迎的资源,而且将继续存在-这是Avito,CIAN等。 - 这是指在线商店。 接下来将是面部识别和个人资料匹配技术(我们将讨论它)。 从理论上讲,这也可以应用于离线商店。 总的来说,我的梦想是当路边横幅出现时,当您经过相机时,它会“张开”您的脸。 但是此案将被法律禁止,因为它侵犯了隐私权。 我希望迟早会这样。
- 我有个人经验。 很多时候,当一个人给你写东西时,你会根据他一生中不应该知道的事实进行操作……大多数情况下,人们会感到害怕。 但是! 根据最新统计,社交网络上已关闭帐户的数量减少了14%。 假货的数量在增加,开设账户的数量也在增加-人们越来越趋向于开放。 我认为,在3-4年后,他们将不再对某人知道他们可能不应该知道的信息这一事实做出如此剧烈的反应。 但实际上,通过查看其墙非常容易。
可以从开源中获取什么?
可以通过开源以很高的可靠性理解的事物的大概列表。 实际上,还有更多不同的度量标准。 它取决于这种研究的客户。 有一些HR机构对您是否在社交网络或公共场所发誓感兴趣。 有人会对您喜欢在Navalny的出版物上喜欢,还是在俄罗斯联合出版物上喜欢,还是喜欢一些色情内容感兴趣-这种情况经常发生。
主要参数是家庭价值,公寓,房屋,购车等的大概费用。 因此,人们可以分为社会群体。 他们是莫斯科“ Tinder”的用户(根据在Facebook帐户上找到的图片); 根据他们的兴趣,他们分为不同的社会群体:

如果我们更趋近于广告,那么当您在有条件的Vkontakte中选择对18岁的男性感兴趣的有条件订阅者时,就会逐渐离开广告的标准定位。 我还有这样一张照片,现在我将向您展示:

最重要的是,原则上分析社交网络的人员当前的大多数服务都对分析兴趣感兴趣……人们首先想到的是分析其订户的顶级群体。 也许这适用于某人,但我个人认为这从根本上是错误的。 怎么了
您喜欢收集和分析
现在,拿起手机,看看您的顶级人群-当然,您已经忘记了50%以上的人群,这实际上与您无关。 您根本不会消耗它,但是系统仍会根据它们进行拉伸:您已订阅食谱以及一些受欢迎的团体。 也就是说,您违反了分析您的个人资料的系统,因此您的利益将不成立。
继续...那里是什么? 我们假设其他人正在做。 我们认为,评估用户利益的最适当方法是赞。 例如,在Vkontakte,没有喜欢的饲料,人们认为没人知道自己喜欢什么。 是的,部分喜欢的事物是在Instagram上介绍的,我们在Facebook上看到了某些事物,但是某些组中的大多数内容并未以相同的流形式广播,人们生活并且认为没有人会知道自己喜欢什么。
并且通过收集我们感兴趣的某些内容的某些内容,收集这些帖子,收集这些喜欢的对象,然后从该数据库中检查此人,我们可以高精度地确定他是谁,他的命运是什么,他对什么感兴趣。 精确识别特定的社会群体并与之互动。
买车改变了行为
我有一个这样的例子。 我将立即保留一些关于近距离广告和近距离营销的示例,因为正如您所知,大多数情况下都受到NDA的保护。 但是仍然会有很多有趣的事情。 因此,这些人的故事:这些人是在2010年至2015年之间购买汽车的人。 他们在网络上的社交行为发生了怎样的变化是用颜色标记的。 订阅者中的女孩比例发生了变化,订阅了“ patsansky”公众,找到了永久性伴侣...

整个事情由汽车品牌和人数分解。 在这里,您可以得出有关人的行为及其全部运作方式的许多有趣的结论。 我可以说,“保时捷卡宴”和种植的“普瑞欧拉”在吸引观众方面几乎是相同的。 这个观众的素质,他们的行为是不同的,但是数量是相同的。 可以从这里得出更接近您市场的结论。 您出售奥迪,并打出“买奥迪”的口号,开车离开父母!”等等。
是的,这是一个荒谬的例子,说明人们基于喜欢分析的行为,基于他们去的小组,所分析的内容的行为,几乎使您成为100%的可能性。 因为如果您无法访问网络流量,则不要阅读私人消息,喜欢的人会始终告诉您此人是谁-孕妇,母亲,军人,警察。 对于您来说,对于一个可以做广告的人来说,这对目标是很大的打击。
观众问题的答案:- 每列是指定汽车中的人数; 他们的行为方式如何改变。 外观:购买保时捷卡宴的人-大约550人(黄色),订户中的女孩比例有所增加。
- 该示例包括从2010年到2015年的VKontakte,Facebook和Instagram社交网络的用户。 唯一需要说明的是:这里是使用某些工具可以确定照片中80%以上精度的机器。
- 在一段时间内,他的车(好吧,不是他,我们将其留给社交网络使用)...在一段时间内,一个人不断地用汽车拍照,与他在一起,出版物不同,照片来自不同角度等等。 。 将会有进一步的图片,哪些人是用哪些机器拍摄的,以及……。是的,这是第二个问题-对社交网络数据的信任。
- 自从我们提出问题以来-不幸的是,社交网络上的数据并不总是正确的。 人们并不总是倾向于发布自己的信息。 我个人进行了这样的研究:我将莫斯科大学的毕业生人数与在社交网络上注册的人数进行了比较。 平均而言,在社交网络中注册的人数比特定的专业实际多60%。 所以是的-当然,这里有一定百分比的错误,没有人隐藏它。 在这里,那些可以以80%以上的概率确定的汽车只是作为基础。
模型训练资源清单
这是可以使用的来源示例清单,可用于确定性地确定一个人的社会档案。

我们从社交网络获取个人资料,来自CIAN-公寓的费用大约是“猎头”,“超级工作”-这是该人的平均工资。 我希望这里没有猎头公司的代表,因为他们认为从他们那里获取这些数据不是很好。 但是,这是某些地区从事某些类型的工作活动的平均工资。
Avto,Avto.ru:很多人,当他们打开电话时,他们总是(在很多情况下)至少在Avito,Avto.ru上甚至有东西您可以从几个站点了解他们是谁。 如果您通过此电话出售了婴儿车或汽车... Rosstat和USRLE仍然是更多的注册表,您可以根据任何人可以询问的模型,根据某些公式对用人单位进行排名(您可以大致确定此人的收入等)。
“火种”有助于收集有关人员状况的数据
另外,还有一件很有趣的事情(作为一种选择,在研究中很有趣)-这又是使用该Tinder机器人从Moscow Tinder收集数据。 确定到人的距离,然后确定他们的大概位置。

这项研究的目的是确定在杜马,检察官办公室等国家机构领土上的Tinder帐户的数量。 但是您作为广告商,可以想象任何事情:例如星巴克或其他人。也就是说,同一个Tinder的人从您那里喝咖啡,点菜的人数正在增加。商店。 关于此地理位置:可以使用任何服务来完成。
听众对一个问题的回答:- 火种? 你不知道吗 “ Tinder”是这样一种约会应用程序,您可以在其中查看照片(左右),并且该应用程序向您显示与人的距离。 如果您从三个不同的点到此人的距离,您可以大约(+ 5-7米)确定位置。 在这种情况下,确定检察官办公室或国家杜马的领土并不困难。 但是,它又可能是您的商店,可能是任何东西。
例如,很长时间以来,我们一直处于这种情况(不是研究),当我们从一个蜂窝运营商那里接收到有关流密度的数据,有关蜂窝点的移动密度的数据时,所有这些信息都被叠加在位于高速公路上的广告牌的坐标上。 移动运营商的任务是确定大约有多少人正在开车经过并且可以看到此广告牌广告。
如果有广告牌广告专家,您可以说:无法超级可靠地理解-有人在旅行,有人没有看过,有人已经看过...不过,这是莫斯科200亿个这样的多边形的一个例子在某些路线上每小时都有这些人的密度。您可以随时查看这些人经过的地方,并大致估算出客流。
听众对一个问题的回答:- 没有人提供这样的数据。 我们为其中一个运营商进行了此类研究,这是一个独家内部故事,因此,不幸的是,它没有以图片的形式呈现。 但是,大型广告代理商通常在与运营商联系时没有问题。 至少在莫斯科,有很多先例,例如,保险公司求助于诸如GetTaxi之类的公司,该公司为此提供匿名数据,说明驾驶员的年龄,驾驶方式(好-坏,鲁ck-不)。预测政策等等。 每个人都在为此而苦苦挣扎,但是在某些内部级别上提供匿名数据-我认为没有人会遇到这样的问题。
识别图像和图像
让我们继续前进。 我最喜欢的是图像识别。 关于脸孔寻找人的一小部分内容,但是我们大多不参与。
我们采用模式识别和定义,即在此图像中是汽车的品牌,其颜色等。
我有一个可笑的例子:
关于各种社交网络中纹身的搜索研究。因此,可以将其应用于任何品牌,任何视觉图像,几乎任何视觉图像。有些无法可靠确定(我们不接受)。
这是我的最爱。汽车品牌通常会选择这种任务,因为例如,他们的任务是找到所有BMW X6的所有人,以了解他们是谁,他们之间的联系方式以及对他们感兴趣的事物等等。这是人们在社交网络上拍摄什么样的汽车的问题。
根本没有过滤条件:他们的主题,汽车不是他们的主题;只是汽车的故障-年龄等等。但是视觉模式识别被经常使用:它是对孕妇的搜索,也是对某些大众媒体(谁发表了什么内容)中的品牌徽标的搜索。
我最喜欢的情况(各餐厅使用的情况):哪些面包卷发布在社交网络上。这是一件很有趣的事情,但实际上,它使您能够了解很多有趣的事情,首先,关于您自己的客户:谁来找您以及他们为什么这么做。因为在寿司店里大多数人(我不会说“女孩”)拍照留影,拍照等等,这并不是什么秘密。品牌可以使用它。该品牌对他需要精美的照片和上载的产品,什么样的人来到那里感兴趣。从食物开始,这样的东西几乎可以用任何东西解决。识别视频图像
听众对一个问题的回答:- 在视频上-不。我们在测试模式下使用它。我们尝试了这项技术,但事实证明……它可以很好地识别视频中的全部内容,但没有找到任何应用程序。再见 除了分析多少之外,哪个视频博客作者在某处说过……有这样一项研究。多少张脸见面,多久见一次。但是对于品牌来说,他们还没有找到解决方案。也许有一天它将来。
同样,这是食物,可以是孕妇,男人(不是孕妇),汽车-任何东西。作为一种选择,可以对一个媒体进行这样的新年研究。距离广告也很远,但是。人们在除夕发布以下食物:
它仍然是按年龄划分的。您会看到这样的相关性:年轻人主要订购食物,成年人主要制作传统餐桌。这是一件可笑的事情,但是将其想象为品牌的所有者,您会发现很多事情:对待您的产品的人和方式,以及他们对产品的评价。通常,人们并不总是在案文中提及品牌本身,而传统的分析监控系统也不能总是理解是否仅由于在案文中未提及该商标而找到该商标。或者在文本中写有错误,没有哈希标签或其他任何东西。照片可见。通过摄影,您可以了解这是否是框架的中心对象,而不是框架的中心对象。然后,您可以看到此人写的内容。但最常见的是,它用于搜索驾驶某些汽车等的潜在受众。然后,我们将用这些车做很多有趣的事情。机器人被教导模仿人类。
这里是人数统计的一种应用:
当您需要从某些照片中找到人物,了解他们的社交资料,他们是谁时,可以使用匹配人的变体。再一次,我们回到一个问题:如果我们在线下商店中有相机,那么这是一种很好的方式来了解谁来找您,这些人是谁,他们感兴趣的东西,是什么促使他们来找您的。然后最有趣的事情是:如果我们在社交网络上收集他们的帐户,了解这些人是谁,他们感兴趣的是什么,我们可以(作为选择)制造类似于这些人的机器人;该机器人将开始像这些人一样生活,并分析它在各种社交网络上看到的广告类型。这将使您准确地了解哪些品牌关注此人。这也是一个相当普遍的故事,不仅需要分析此人是谁,他的兴趣是什么,还需要分析竞争对手或其他感兴趣的人可以针对他进行什么样的广告宣传。
社交网络中的联系分析
接下来的事情很有趣:这是对人与人之间关系的分析。实际上,分析网络本身中的连接,这些网络图-根本不是滴,没有新内容,每个人都知道。
但是将其应用于广告任务是最有趣的。这是对设置趋势的人员的搜索,这是对根据此网络中的某些条件传播信息的人员的搜索。假设我们对特定BMW车型的相同所有者感兴趣。通过将他们聚集在一起,我们可以找到掌握民意的人。这些不一定是汽车博客作者,等等。通常,这些普通同志坐在不同的公共场所,对某种内容感兴趣,并且可以在很短的时间内将您的品牌或您感兴趣的人引诱到这个责任区或感兴趣的区域。有一个例子。我们有一些潜在的人,人与人之间的联系。在这里,橘子是人,小圆点是共同的群体,共同的朋友。
如果收集它们之间的所有这些联系,您会很清楚地看到有些人有很多共同的团体,共同的朋友,他们彼此之间也存在...如果您根据兴趣,内容,它们传播的程度,彼此之间有多少相互作用...在这里,您可以看到上一张图片的样子:
它清楚地区分了组的颜色。在这种情况下,这些是我们经济学院的研究生。在这里,您可以看到紫色/蓝色代表着透明国际,俄罗斯开放和霍多尔科夫斯基的公众。左下是绿色,那些爱联合俄罗斯的人。您可以看到上一张照片是这样的(它只是人与人之间的交流),但是已经清楚地描绘了它。也就是说,所有人始终保持联系,他们有着共同的利益,他们是彼此的朋友。在一个之上,另一个之下,还有一些同志。并且,如果将每个小子图分别与其他参数一起可视化并查看内容分发的速度(粗略地说,是谁在重新发布内容),则您可以在每个部分中找到一个或两个始终掌握民意,与之互动,询问的人发送某种或其他形式的帖子-您可以从所有这些有趣的听众那里得到答复。我还有一个这样的例子。也是一个图表:这些是在社交网络上找到的BBDO Group员工。它们之间似乎没有趣味,巨大,绿色的连接……
但是我有一个选择,可以在它们之间建立组。然后,如果有人感兴趣,那么会有一个交互式版本-您可以单击查看。右上方是那些爱普京的人。在这里,紫罗兰是设计师。喜欢设计的人,那么有趣的东西等等。在这里,白手起家是管理团队(据我了解,显然)。这些人通常没有任何联系,但在大约相同的位置工作。其余的是他们的共同群体,关系等等。品牌不需要博主,而是意见领袖
我们带他们去找-广告公司,然后由广告公司自己决定:她可以给这个人钱,以便他以某种方式与该内容进行交互,或者将其特定的广告活动定向给他们。它也经常被使用,尤其是在现在,因为所有品牌都希望与博客作者合作,他们想推广自己的内容,而广告代理机构实际上并不想联系(这确实发生了)。解决这种情况的真正方法是找到不是博客作者,不是美容博客作者的人,但是,例如,一些与该品牌互动的真实生物,他们可以在一些悲惨的公共场所写作Mail.ru答案,获得一定数量的意见。这些人对这个人的内容一直很感兴趣,他们会传播整个事情,品牌也会参与其中。第二种选择,即如何现在使用类似技术非常相关-这是我最喜欢的机器人搜索。这对您的竞争对手来说是一种声誉风险,并且有能力从广告活动中剔除无关紧要的人和其他任何人(删除评论并搜索人与人之间的联系)。我有一个这样的例子,它也有一个很大的交互式的例子-它可以移动。这些是在Lentach社区中发表评论的人的联系。这样的例子-让您了解如何轻松地看到机器人;为此,您不需要任何技术知识。因此,Lentach发布了一篇有关FBK关于Dmitry Medvedev的调查的帖子,某些人开始发表评论。我们聚集了所有发表评论的人-这些人是绿色的。现在移动:
人们是绿色的(写评论的人)。他们在这里,他们在这里。它们之间的蓝点是它们的普通组,黄色是普通的订户,朋友等。这是连接的大多数人。因为,无论是三握手,四握手,五握手的理论,所有人都在社交网络中相互联系。没有人彼此分开。甚至我专门使用Vkontakte观看视频的社交恐惧朋友也都订阅了我们的一些公开帖子。批量也使用机器人。每个人都有机器人
大多数人(这里就是这里)是相互联系的。但是,只有一小部分同志是彼此唯一的朋友。他们是美元,这里是他们共同的朋友和团体。他们甚至在这里分别掉下来:
偶然的是,这些人在这篇文章下写道:“ Navalny没有证据”,依此类推,发表了同样的评论。当然,我不希望得出结论。但是,尽管如此,我还是在Facebook上发表了一篇文章,当列别捷夫和纳瓦尔尼之间发生辩论时,我以同样的方式分析了这些评论:事实证明,所有写“列别捷夫-狗屎”的人最后都没有去社交网络四个月来,都没有订阅任何公众,突然去了这个帖子,写了这篇非常评论就离开了。从这里再次得出结论是不可能的,但是Navalny团队的某人给我写了一条评论,他们不使用机器人。好吧,好吧!更贴近广告,更贴近品牌。现在每个人都有机器人!我们有他们,有竞争对手,还有其他人。必须扔掉它们或让它们过得好好的生活;根据这些数据(指示上一张幻灯片)完善它们,使它们看起来像真实的人,然后才使用它们。虽然使用机器人很糟糕!然而,一个相当普通的故事...在自动模式下,这样的事情使您可以从分析中滤除与分析无关的人员,不应参与样本的人员也不应参与本研究。经常使用。同样,并非所有的车主确实都是车主。有时,这仅对那些有潜力的人,坐在某些人群中并与某人进行交流并在其中拥有一定受众的人有趣。事实和观点分析
我接下来的事情也是我的最爱。这是对事实和观点的分析。
现在,您可以通过各种渠道提及您的品牌,从而无所不能。这没有秘密。似乎每个人都知道如何计算音调...尽管我个人认为音调指标本身并不十分有趣,因为当您来告诉客户时,“伙计,您有37%的中立,而他这样说,”哇!太酷了!“因此,更进一步一点是更有趣的:从评估音调到评估对您的产品所说的观点。这也是一件非常有趣的事情,因为...我个人认为原则上不会有任何中立的信息,因为如果一个人在公共场所写东西,则该信息会以某种方式着色。因此,我个人从未见过提及品牌的中立信息。通常这是某种污垢。如果我们接受大量此类消息(可能有数百万个,1000万个),从每个消息中选择主要思想,然后将它们结合起来,我们就可以非常可靠地理解人们在谈论这个品牌,他们在考虑什么。“我不喜欢包装”,“我不喜欢质地”等等。他们如何看待Transaero,Chupa Chups和美国总统
我有一个荒谬的例子:这是有关社交网络用户在Transaero破产后将如何处理的信息图表。
有很多有趣的例子:焚烧,杀死,送往欧洲,甚至有2%的人写道-“将它们送到叙利亚进行军事行动。”从一个荒谬的事物开始,它实际上可以是任何品牌-从我最喜欢的狗粮开始,以一些汽车结尾。谁不喜欢包装,谁不喜欢真实物品,您可以随时使用它,也可以始终使用它。人们几乎改变了生产方式时,有很多例子,因为他们在社交网络中写道,棒棒糖不够圆润或不够甜美。仍然有这样一个荒谬的例子。猜猜有什么评论和关于谁的?
由于某种原因,现在它是对观点的分析,是对从消息中突出显示的事实的分析,该分析不是很常用,也不是很普遍。尽管这项技术不是绝密的,但实际上并没有专门知识,因为从人们的评论中选择主题,谓词并将它们分组-您不必是计算机语言学的天才。这不是那么困难。但我希望在未来几年内人们会开始使用它,因为...这将很酷-它是一种自动反馈!您总是知道他们对您的评价。好吧,您了解这与美国总统有关。听众对一个问题的回答:- 是的,这是Facebook英语。他们在这里翻译成俄语。它写在某个地方。
Big Data
实际上,我有许多关于特朗普和其他所有人的有趣的政治例子,但我决定不带它们到这里来。 但是有一个政治例子。
这是对国家杜马的选举。 你什么时候 去年? 差不多一年半以前。

为了了解他们所处的选择性PEC,这里的人设法确定自己的确切位置,直到某个地理位置。 然后只有那些发表了明确意见的人才被从这些人中选出来,他们将投票给他们。
从政治技术的角度来看,这不是很正确,因为整个事情需要归一化为人口密度等等。 不过,蓝军将在这里投票,你知道谁为谁,红军是为反对战友准备的,顺便说一下,他们并不多。
我个人认为,大数据不会很快进入政治技术领域,但是作为一种选择,候选人也是一个品牌。 在某种程度上,这也是对品牌事实和观点的分析,这很有趣,因为您可以实时了解谁在做什么。 我现在从BBC得知一些案例,他们以某种广播形式实时监视社交网络:响应如此之多,人们写下来,问这样一个问题-太酷了! 我认为它将很快应用,因为它对每个人都很有趣。
塑造品牌地位

接下来,我将对品牌的位置进行建模。 关于如何使用各种指标(不喜欢社交网络中的订户,而是使用复杂的指标,对内容的兴趣,花费在获取指标上的时间)可以对品牌进行排名的小而短的事情。

我有一个特定农场的例子。 在这里,小圆形圆圈是内部明亮的-这是品牌创建的文字内容的数量,大圆形圆圈-是品牌创建的照片和视频内容的数量。
与中心的距离表明该内容对观众而言有多么有趣。 有一个大模型,有很多各种各样的参数:喜欢,转发,响应时间,平均在其中共享的人……在这里您可以看到:有一个很棒的“ Kagocel”,可以花很多钱来创建自己的内容,因此它们足够接近到中心。 还有一些同志也在创作自己的内容,但听众对此并不感兴趣。 这不是一个非常充分的例子,因为所有这些帐户几乎都已失效。
Yegor Creed的爱比Basta还要多

不幸的是,其余的……从展示的东西……这里,仍然有来自真实公司的俄罗斯说唱歌手作为选择。
有什么好处? 公司几乎可以将任何东西纳入这样的模型,这一点从您品牌用户的平均工资开始; 他们喜欢的任何模型。 由于每个广告代理商对自己的指标的看法都不一样,因此品牌对自己的指标的看法也不同。
这里还有一个-Basta,它生成大量内容,但位于外围,因为这种内容对于听众而言显然不是很有趣。 再次,我不认为要判断。 尽管如此,根据社交网络,仍然有叶戈尔·克里德(Yegor Creed),他几乎是我们这个时代表现最好的人,同时仅发布他的个人照片。 但是,他有大量订户:大约有100万。 我不记得确切的数目; 我记得这些人的参与比例远高于85%,也就是说,对于一百万个订户,他从这些真实的人那里收到了85万个回复-这真是疯狂。 就是这样
观众问题的答案:编译说唱歌手分析模型花了多少时间?
- 每个人都有自己的目标受众,兴趣和人数。所有这些都被标准化为大约距离中心的距离,其径向位置并不重要(这里涂的只是为了美,所以他们不会碰到对方)。 仅近似于中心很重要。 这就是我们正在使用的模型。 例如,我更喜欢圆形,有人将其记为半圆形。
- 该模型在三个小时内(两个人)很快就被编译了两个小时。 在这里,仅插入了指标:我们相乘,相加然后进行归一化的内容。 取决于模型。 有些人对他们的订户的平均工资感兴趣(这不是在开玩笑)。 为此,您需要找到他们的联系人“ Avito”,所有这些都需要计算,相乘。 它确实需要花费很长时间,但是具体来说(指向上一张幻灯片)-这是非常简单的参数:订阅者,转发,等等。 花了大约两到三个小时。 因此,该事物随后被实时更新,可以使用。
现在有趣的部分。 我拥有所有带有示例的内容,因为长时间单独聊天并不有趣。 我希望您现在可以提出问题,并且我们将逐个话题进行进一步的讨论,因为我有示例说明了如何使用技术等等。
观众问题的答案:- 我有一个,只有一个私人案例,可以说是okolokazino,当照相机放在那儿时,人脸被识别,依此类推。 公认的人的比例肯定很大-我们拥有的,竞争对手拥有的。 但是实际上这很有趣。 我认为这是一件有趣的事情:您可以了解这些人是谁,并可以很好地预测他们为什么来这里,他们生活中发生了什么变化,他们决定来赌场。 但是关于特定类型的业务...如果您将这种东西放在药房中,那么这是没有意义的-您无法预测一个人为什么去药房。
此处的全球任务是建立一个模型,以便了解一个人何时可能希望对您的品牌感兴趣,而不是在他买了东西之后(现在正在发生)给他一个广告,而是在“预测中”给他一个广告。什么时候发生的。 这样的“ okolokazino”很有趣。 在那里,这些人中有一个相当有趣的百分比-原因:某人突然加薪,其他人得到一些东西-这样有趣的见解。 但是,对于一些商店,零售商店和一些药丸商店来说,在我看来这不是很正确。
大数据是否离线使用?
- 它离线。 您只需要大致准确地了解-该模型将收敛,而不会收敛。 再说一次,用苏打水……我实际上对所有事物都感兴趣,但是我个人不了解这些人的身影在多大程度上取决于他们何时购买瓶装水的行为。 尽管这可能是正确的,但我不知道。
社交网络上有多少个开放帐户?
- 我们特别有11个社交网络-这是Vkontakte,Facebook,Twitter,Odnoklassniki,Instagram和那里的一些小东西(我可以看到列表,例如Mail.ru等)。 “ Vkontakte”我们肯定有所有这些同志的副本。 我们有Vkontakte人-这是有史以来共有的4.3亿人(其中约有2亿人一直在活动); 有一群人,这些人之间有联系,并且有我们感兴趣的内容(文本)和一些媒体,但是很小。...粗略地说,我们看这张图:如果有面孔,我们会保存它们,如果是模因主义者,我们会使用它我们不会保存,因为即使有了我们,也没有足够的东西来保存媒体内容。
有一个俄语的Facebook。 现在大约有60-80%的地区是Odnoklassniki,在接下来的几个月中,我们很可能会将它们全部淘汰。 俄语“ Instagram”。 对于所有这些社交网络,都有群体,人,他们与文本之间的联系。 - 约4亿人。 有一个微妙之处:有些人没有城市(他们可能是俄罗斯人/非俄罗斯人); 他们平均在社交网络上-在Vkontakte-已关闭帐户的14%,我不知道Facebook上的确切数字。
- 在Instagram上,我们也不会保存媒体-仅在存在面孔的情况下。 我们不会保存此类(其他)媒体内容。 通常很有趣:只是文字,人与人之间的交流; 仅此而已。 Instagram上最频繁的研究是观众经常进行的研究:这些人是谁,就像这里最重要的事情是这些人与其他社交网络的连接。 在Vkontakte和Facebook中找到此人的个人资料,以计算其年龄等。
- 到目前为止,无需带走其他所有人-仅仅是因为没有客户。 关于语言:我们有俄文,英文,西班牙文,但到目前为止,仍仅用于俄罗斯品牌; 好吧,或者是带领他们离开俄罗斯的公司。
- 每天,我们都会以多种方式采访人们:我们通过收集网络来收集数据,并使用Api更新这些指标。 在2-3天内,您可以浏览整个Vkontakte,对其进行扫描。 在一周的某个地方,您可以浏览整个Facebook,了解谁在此进行了更新,哪些没有。 然后,这些人应该分别重新组合:究竟发生了什么变化,以写下整个故事。 在我的记忆中,对于某些真正的业务任务来说,很少使用社交网络上某人的旧个人资料。 这是当时一位政治人物接近的时候,他的任务是了解什么样的人来到总部,这些人是6到8个月前的(他们不是删除个人资料,但实际上,对于另一位候选人,选票是来了破坏)。
还有几次-公开发布某人的照片时的个人故事。 必须找到联系,等等。不幸的是,这非常可悲,但是我们不能在法庭上作证,因为我们的基地在法律上缺乏流动性。 - MongoDB存储库是我的最爱。
社交网络正在努力收集数据
- 通常,我们的广告客户仅卸载这些帐户的列表,然后使用标准帐户。也就是说,在社交网络上的Vkontakte中,您可以指定这些人员的列表。
但是对于Facebook,则使用购买的cookie。 我们自己不使用Cookie,但是有几个故事,当广告客户本人给一些人时,我们与他们进行了互动-他们拥有这些网络,并带有预告片,非预告广告和这些Cookie。 您可以绑定-没问题! 但是我不太喜欢这些东西,因为我认为这不是很可靠。 在我看来,这就像TNS一样,可以“流式传输”电视-尚不清楚您是否在看电视,不看电视,在电视工作时洗碗碟……在这里,同样的事情:我经常在Google上搜索一些内容互联网,但这并不意味着我要购买它。 - 如果您使用某种类型的上下文广告的标准网络:当我们将这些人卸载给他们时,我有几个故事,他们尝试使用他们的界面将他们与站点上的“ cookie”绑定。 但是我真的不喜欢这样的事情。
互联网用户薪资公式
- 平均薪资的一般公式:这是该人居住的地区,这是他工作的业务类别(即,作为其雇主的公司),然后采用他在该公司的职位,该职位的平均薪水被假装...平均薪水摘自Head Hunter和Super Job(还有更多来源),用于特定地区和特定业务环境中的特定空缺。
使用Avito和Auto.ru,如果有人点亮电话,通常会采用其他参数。 使用Avito,您可以看到一个人出售的东西-昂贵,便宜,二手或不二手。 使用“ Auto.ru”,您可以查看他是否有汽车-他拥有,不拥有。 在这个地方,不到20%的人不小心将手机丢到了某个地方,他们的帐户可能会被这些数据所束缚。
数据收集公司有多大?
- 存储的照片量以PB为单位为6.4。 我现在不能确定增长率,因为2016年我们开始录制潜望镜并开始录制一些视频。
我不能确切地说是什么时候为零。 我们从一家公司到另一家公司-所有这些都是悠久的故事。 但是我可以说,VK,Facebook,Instagram和Twitter(所有这些业务(人员,团体和他们之间的链接)以及文本和内容)实际上不是很多数据,甚至甚至都不是PB拿起。 我认为这是700的千兆字节,可能是800。
帮助客户确定当前的利基市场,在哪里“挖”?
- 客户到达时,我们会告诉他这样的事情,但我们和Google趋势一样,不会做这些事情。
- 我们有几个近社会学的故事,有选举前的选举历史-我们分析了所有这一切。 有了品牌并评估关于品牌的意见,几乎所有事情都是一致的。 以下是选举的故事-否(评估哪个候选人应该获胜)。 好吧,在这里谁错了?我们还是那些相信VTsIOM的人们不知道。
- 通常,我们从品牌本身获取这些控制结果,而从订购研究的同志那里获取这些控制结果-电话,市场营销等等。 另外,这整个过程可以用基本的方法进行检查:有人在那儿回答了新闻通讯,有人在投票了……如果这是一个大品牌(例如可口可乐),他们必须拥有一百万或两次内部客户评论-这些不仅是对社交网络的评论和任何意见; 一些内部系统,评论等。
法律不会“知道”什么是个人数据!
- 我们只分析开放数据源;我们永远不会陷入任何肮脏的问题。 我们的模型基于以下事实:我们将所有开放数据存储在一些公共数据中心中,将其出租到其他地方,然后在家中,办公室范围内,在我们的服务器中进行分析,并且不会超出该范围。
但是我们的开放数据立法非常模糊。
我们对开放数据是什么,个人数据没有清晰的了解-有第152条联邦法,但是无论如何...他们认为如何? 现在,如果在一个数据库中有您的姓名和电话,则在另一个数据库中有您的电话和电子邮件,而在第三个数据库中,有您的电子邮件和汽车。 所有这些都像非个人数据一样。 如果将所有内容放在一起,按照法律,它似乎将成为个人数据。
我们有两种解决方法。 首先,我们将带有软件的服务器提供给客户端,然后此数据不会超出其范围,然后客户端负责分发此个人数据,而不是个人数据,依此类推。 或第二种选择:如果这是某种故事,您必须起诉社交网络或其他事情...
当我们收集这些战友的LifeNews报道(当时是联合俄罗斯的初选)并观察他们喜欢哪种色情时,我们进行了这样的研究。 有趣的是,尽管如此。 我们将其作为自己的个人意见出售,而没有在我们分析的文件中合法披露-登记册,薪水,社交网络; 我们出售专家意见,并且已经在场外向人们解释了我们所分析的内容和方式。
有几个故事,但它们与一些公共商业项目有关。 例如,我们为骑长板运动的人提供了一个免费的非营利项目(此类板子很长):任务是收集人们的出版物-当有人张贴“我去高尔基公园骑车”时。 然后他应该进入地图,周围的人可以看到有人在他旁边。 VK在这个问题上与我们进行了很长时间的斗争,因为他们不喜欢未经人们允许我们发布此信息。 但是此事没有上法庭,因为我们在几个大型社区中增加了规则,规定第三方机构,公司,分析等可以使用该数据。当然,这不是特别符合道德,但是尽管如此。 - 我们只是突然流行起来,并开始向所有人出售我们的专家意见。
您是否与教育机构合作?
- 是的,我们与教育部门合作。 我们有一个完整的系列:我们在高中有硕士学位,我们与其他大学合作。 我们真正喜欢的大学!
- 有我的联系人-您可以写。 如果您有兴趣的话,可以参考一下演示文稿-有所有这些示例,您可以移动。
- 如果知道电话,几乎可以选择邮寄邮件,没有人会删除它。 如果没有电话,这通常是一张照片,没有照片-这是年份,居住地,工作地点。 也就是说,按年份,居住地和工作地点,几乎所有东西都可以被很好地识别出来。 但这又是关于任务的问题。
举例来说,我们有一个销售互联网电视的客户。 有人从他们那里购买了这些《权力的游戏》的订阅,任务是从社交网络上的CRM中找到这些人,然后从他们的影响范围中寻找潜在的人。 我只是说他们有一个名字,姓氏和电子邮件……因此做某事非常困难。 在大多数情况下,您可以通过电子邮件找到人。 - 就朋友而言,我们通常将人们与社交网络“匹配”,但这并不总是正确的。 并不是说它并不总是正确的-它并不总是有效。 首先,这需要大量的劳动,因为必须首先为每个朋友执行此操作(用于匹配人员)-了解他们是否从社交网络切换。 然后-没人知道“ Vkontakte”只有一个朋友,在“ Facebook”上我们还有其他朋友。 例如,不适合所有人,但不适合我。 .
?
- . , , . NDA. , , , , – , , . , – , – .
?
- , , , – , , – . , , , – Social Data Hub, . . , , , , . , …
- ( ?) , , .
( ): , , . - «» – 14%, «» ( ). , – .
, !
- , – . , «». , , … , ! - – , . – , . , , …
- : «, - ! !» , . - , – , , … , , 5 , - . , HR-, , : « – »!
. ?
- -10 . : … – , HR- , . , , - …
- ( ) 25 , .
- , , , 50 %. , - . , 40 , 50-60 % . . , - , , - , , … , – , . .
一点广告:)
感谢您与我们在一起。 你喜欢我们的文章吗? 想看更多有趣的资料吗? 通过下订单或向您的朋友推荐给
开发人员的基于云的VPS, 最低 价格为4.99美元 ,
这是我们为您发明的入门级服务器的
独特类似物: 关于VPS(KVM)E5-2697 v3(6核)的全部真相10GB DDR4 480GB SSD 1Gbps从$ 19还是如何划分服务器? (RAID1和RAID10提供选件,最多24个内核和最大40GB DDR4)。
阿姆斯特丹的Equinix Tier IV数据中心的戴尔R730xd便宜2倍吗? 只有我们有
2台Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100电视在荷兰起价199美元 ! 戴尔R420-2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB-$ 99起! 阅读有关
如何构建基础架构大厦的信息。 使用价格为9000欧元的Dell R730xd E5-2650 v4服务器的上等课程?