物种多样性数据



长期以来,“大数据”一词已经很熟悉了,甚至许多人都了解它的真正含义和使用方法。 同时,数据分析专家根据所收集的信息的大小,相关性,相关性等,对收集的信息提出了许多其他等级。 令人惊讶的是,数据可以是“快速”,“热”,“长”和“慢”,甚至是“脏”。 尽管整个分析动物园无法帮助众多分析师正确预测英国退出欧盟的决定以及特朗普的胜利。

大数据不仅是非常大量的信息,而且是处理巨大体积的各种数据的方法,方法和工具的组合。
大数据不仅是信息,它是一种社会经济现象,它的出现是由于需要在全球范围内分析大量信息。

大数据依赖于三个V:体积(体积),品种(品种)和速度(速度)。 有了音量,一切都变得清晰了。 多样性取决于提供给数据库的资源范围的广度。 速度通常是现代世界的主要指标,即使一秒钟也不会停止。

但是,即使可以覆盖数千人,也可以将其视为“大数据”民意测验吗? 可以从各种民意测验中获得的信息量很大,但仍然不是很多,因此可以将其归因于“ 平均数据 ”。 也许,如果选举前分析涵盖了数百万的受访者,那么这将已经是“大数据”。 大数据也可以由小数据块组成。

当今的趋势之一是“ 快速数据 ”。 在现代世界中,一切都以闪电般的速度发生。 在应用程序和社交网络中,仅保留1-2小时的信息已不再相关,每一秒都将危在旦夕。 快速数据对于银行业务应用程序,社交网络应用程序,尤其是即时通讯程序而言,非常重要。 用户每秒都会收到新的通知,并根据这些通知做出重要的决定。

为了积累“ 慢速数据 ”,将需要很多时间。 与可以使用即时轮询获得的快速数据不同,慢速实际上是逐点累加。 例如,您正在采访开发会议的参与者。 在活动开始之前,期间和之后都要对每个参与者进行采访。 然后,将非常仔细地处理和汇总所有信息。

并且当累积持续时间开始测量了几个世纪时,缓慢的数据将变为“ ”。 自大数据时代起步较晚以来,今天就不需要在互联网上搜索长数据了,而需要在书籍,手稿,建筑纪念碑的墙壁上以及考古发掘中进行搜索。 历史方面对于特定研究可能非常重要!

尽管数据不是蛋糕,但它们可以是“热”和“冷”的 。 “新鲜”的原理在这里起作用:更多“新鲜”-热-数据具有更大的价值。 对于一个简单的用户来说,在Messenger中等待已久的评论(“新鲜”为10秒)比2小时前创建的“冷”评论更重要。 当然,例如,从通信中澄清一些事实仍然有用:记住朋友推荐的书或电影的名称,指定会议时间等等。 对热点数据的访问应该是永久的。 我们不需要如此频繁的冷数据,因此绝对不是必须的。

除了表征大小,速度或温度外,还可以通过数据的纯度对数据进行分类。 “ ”是指错误的数据或包含不完整或不一致的信息的数据,通常实际上是无用的。 脏数据构成了许多公司中积累的大多数信息。 同时,真正的信息宝藏-有价值的长期想法可以在这里出现。 但是,脏数据给您带来了足够的麻烦。 根据GovTechWorks的研究,此类无结构和无关的信息每年给美国公司造成60亿美元的损失!



术语“ 负责任的数据 ”描述了一种情况,其中仅收集可靠信息,这些信息取自经过验证的来源,并按照严格的安全措施进行存储和传输。

“大数据 ”是我们处理大数据之后的下一步:除了定量特征之外,还考虑了定性数据。 也就是说,仅凭数量庞大的干燥数字已不足以深入了解趋势和正在进行的过程,为了完整分析,有必要考虑诸如人类情感之类的事情。

大数据统治世界


有了这么多种定义,问题就来了:实际上,这些数据是什么? 首先,大,巨人! 大数据聚集在我们附近,我们周围甚至我们每个人。 小颗粒的沙子会缓慢而可靠地形成。

流行的短语“大哥在看着你”立即浮现在脑海。 某些数据库是从各地收集的信息中形成的,用于各种研究和操纵舆论。 随后,将分析所有收到的信息,并发生有关重要事件结果的所谓“算命”事件。 这种算命产生了各种关于选举胜利,该国政治局势的变化或年轻人中音乐团体的知名度波动的预测。



谷歌,Facebook和亚马逊等三大巨头赢得了大数据头衔。 这些公司捕获了其门户网站的每个用户的最小的鼠标单击。 所有这一切都是为了全球信息收集。 大数据寄予厚望。 研究人员预测,它们将对人类生活和活动的各个领域产生巨大影响。 这种命运并没有绕过医学和科学。

大数据如何在医学中有用? 这里的重点甚至不是信息积累的数量,而是其处理和分析的方法。 长期以来,许多地区的医疗数据量达到了一个规模,不仅处理,甚至存储都存在问题。 最突出的例子是对人类基因组的解码,其中包含超过30亿个字符。 在美国国家卫生组织的主持下,这项工作历时13年(从1990年到2003年)。 在2017年,由于计算机功能的增长以及理论和软件工具的发展,类似的任务将需要数周甚至数天的时间。

医学中的大数据的主要任务是创建最完整,最方便的医学信息记录,并可以相互交换,这将使各地都可以引入完整的电子病历,其中包含从出生起的全部病史。 这将大大优化医疗机构的工作。

但是,让我们回到最新的轰动一时的事件上,从字面上的字面意义上讲,这颠覆了互联网世界-唐纳德·特朗普在选举中的胜利。 尽管他的胜利令包括分析师和政治策略师在内的许多人感到惊讶,但在很大程度上,这可能是合理使用大数据的必然结果。

瑞士杂志Das Magazin声称,这项胜利是由一对科学家,大数据和现代技术提供的。 有人米哈尔·科辛斯基(Michal Kosinski)开发了一个独特的系统,该系统使您可以仅通过社交网络中的某个人的喜好找到一个人的最大信息,即所谓的“微目标”。 后来,科辛斯基的发展违背了他的意愿,开始被用于主要的政治游戏中。 后来,同一系统在美国商人的竞选活动中起作用。 没有人知道政治家与分析公司的联系,因为在唐纳德的桌子上甚至没有电脑。 但是现任美国总统已经出卖了自己。 他在推特上发了一条推文,说他们很快就会称呼他为先生。 英国脱欧。

在竞选活动中,希拉里·克林顿(Hillary Clinton)采取了传统行动-针对全国不同人群,分别针对黑人和妇女提出上诉。 Cambridge Analytica的行为有所不同。 购买了美国成年居民的数据库后,他们使用OCEAN方法对每个人进行了研究,同时考虑了个人喜好和兴趣。 根据他们的性格和心态,从数据库向每个人发送消息,敦促他们投票赞成Cambridge Analytica客户,然后根据较早建立的单个收件人个人资料选择基本原理。 其中一些信息甚至建立在争议性原则的基础上,并建议投票支持希拉里。

科辛斯基(Kosinski)是一位科学家,他提出了一种微靶标系统,到目前为止,他只是从外部观察到了这种利用。 迈克尔认为,发明是用不当之手炸弹并不是他的错。 应该强调的是,瑞士杂志的出版受到许多欧洲媒体的批评,这些媒体声称这是未经证实的信息。

在争论大数据是否真的影响了美国大选的同时,这些数据仍在继续研究和系统化。 提防社交网络-谁知道在经历大数据的影响后您还会投票给谁或竞选其他人?

Source: https://habr.com/ru/post/zh-CN402345/


All Articles