Données sur la diversité des espèces



Le terme «big data» est connu depuis longtemps et beaucoup comprennent même ce qu'il est réellement et comment l'utiliser. Dans le même temps, les spécialistes de l'analyse des données ont proposé de nombreuses autres dégradations des informations collectées, selon la taille, la pertinence, la pertinence, etc. Étonnamment, les données peuvent être «rapides», «chaudes», «longues» et «lentes», voire «sales». Bien que tout ce zoo analytique n'ait pas aidé de nombreux analystes à prédire correctement la décision des Britanniques de quitter l'UE et la victoire de Trump.

Les mégadonnées ne sont pas seulement de très grandes quantités d'informations, mais une combinaison d'approches, de méthodes et d'outils pour traiter diverses données de volumes colossaux.
Les mégadonnées ne sont pas seulement de l'information, c'est un phénomène socio-économique qui doit son apparition à la nécessité d'analyser d'énormes quantités d'informations à l'échelle mondiale.

Le Big Data repose sur trois V: volume (volume), variété (variété) et vitesse (vitesse). Avec le volume, tout est clair. La diversité dépend de l'étendue du spectre des sources qui alimentent la base de données. Et la vitesse est généralement le principal indicateur du monde moderne, qui ne s'arrête pas même une seconde.

Mais peut-on, par exemple, être considéré comme un sondage «big data», même s'il couvre des milliers de personnes? La quantité d'informations qui peuvent être obtenues à partir de divers sondages est assez importante, mais pas tellement, donc elle peut être attribuée plutôt aux " données moyennes ". Probablement, si l'analyse pré-électorale couvrait des millions de répondants, ce serait déjà du «big data». Le Big Data peut également être constitué de petites briques de données .

Aujourd'hui, l'une des tendances concerne les « données rapides ». Dans le monde moderne, tout se passe à une vitesse fulgurante. Dans les applications et les réseaux sociaux, les informations vieilles de 1 à 2 heures ne sont plus pertinentes, chaque seconde est en jeu. Les données rapides sont importantes pour les applications bancaires et pour les applications des réseaux sociaux, et en particulier pour les messageries instantanées. Chaque seconde, les utilisateurs reçoivent de nouvelles notifications, sur la base desquelles ils prennent des décisions importantes.

Pour accumuler des « données lentes », cela prendra beaucoup de temps. Contrairement aux données rapides, qui peuvent être obtenues par interrogation instantanée, les accumulations lentes se font littéralement bit par bit. Par exemple, vous interviewez des participants à une conférence de développement. Chaque participant est interviewé avant, pendant et après l'événement. Ensuite, toutes les informations sont très soigneusement traitées et résumées.

Et lorsque la durée d'accumulation commence à être mesurée pendant des siècles, les données lentes se transforment en " longues ". Depuis que l'ère du Big Data a commencé relativement récemment, les longues données doivent aujourd'hui être recherchées non pas sur Internet, mais dans des livres, des manuscrits, sur les murs de monuments architecturaux et lors de fouilles archéologiques. L'aspect historique peut être très important pour une étude spécifique!

Bien que les données ne soient pas des gâteaux, elles peuvent être «chaudes» et «froides» . Le principe de «fraîcheur» fonctionne ici: plus de données «fraîches» - chaudes - ont plus de valeur. Pour un utilisateur simple, le commentaire tant attendu dans le messager avec «fraîcheur» de 10 secondes est plus important que le commentaire déjà «froid» créé il y a 2 heures. Bien sûr, il peut encore être utile, par exemple, de clarifier certains faits de la correspondance: rappelez-vous le nom du livre ou du film proposé par un ami, spécifiez l'heure de la réunion, etc. L'accès aux données chaudes doit être permanent. Nous n'avons pas besoin de données froides si souvent, donc un accès constant à celles-ci n'est en aucun cas une première nécessité.

En plus de caractériser la taille, la vitesse ou la température, les données peuvent également être classées selon leur pureté. « Sale » fait référence à des données qui sont soit erronées, soit contenant des informations incomplètes ou incohérentes, et sont généralement pratiquement inutiles. Des données sales constituent la plupart des informations accumulées dans de nombreuses entreprises. Dans le même temps, de véritables trésors d'information - de précieuses idées à long terme peuvent surgir ici. Mais il y a suffisamment de problèmes avec des données sales. Selon GovTechWorks, ces informations non structurées et non pertinentes coûtent aux entreprises américaines 6 milliards de dollars par an!



Le terme « données responsables » décrit une situation où seules des informations fiables sont collectées, qui sont extraites de sources vérifiées, stockées et transmises dans le respect de mesures de sécurité strictes.

Les « données épaisses » sont la prochaine étape après avoir joué avec les mégadonnées: en plus des caractéristiques quantitatives, les données qualitatives sont également prises en compte. Autrement dit, les chiffres secs seuls dans des volumes gigantesques ne suffisent plus pour une compréhension approfondie des tendances et des processus en cours, pour que l'analyse soit complète, il est nécessaire de prendre en compte des choses telles que, par exemple, les émotions humaines.

Les mégadonnées dominent le monde


Avec une telle variété de définitions, la question se pose: quelles sont en fait ces données? Tout d'abord, grand, géant! Le Big Data se rassemble près de nous, autour de nous, et même pour chacun de nous. De petits grains de sable les forment lentement et sûrement.

La phrase populaire «Big Brother vous regarde» vient immédiatement à l'esprit. Certaines bases de données sont constituées à partir des informations collectées partout et utilisées pour diverses études et manipulations de l'opinion publique. Par la suite, toutes les informations reçues sont analysées et ce que l'on appelle la bonne aventure sur l'issue des événements importants se produit. Cette voyance génère toutes sortes de prédictions sur les victoires électorales, les changements de la situation politique dans le pays ou les fluctuations de la popularité d'un groupe musical auprès des jeunes.



Trois grandes baleines telles que Google, Facebook et Amazon ont remporté le titre Big Data. Ces sociétés capturent le plus petit clic de souris de chaque utilisateur de leurs portails. Et tout cela au nom de la collecte mondiale d'informations. Il y a un grand espoir pour les mégadonnées. Les chercheurs prédisent leur énorme impact sur tous les secteurs de la vie et de l'activité humaine. Ce sort n'a pas contourné à la fois la médecine et la science.

Comment le Big Data peut-il être utile en médecine? Le point ici n'est même pas la quantité d'accumulation d'informations, mais les méthodes de son traitement et de son analyse. Le volume de données médicales dans un certain nombre de domaines a depuis longtemps atteint une taille qui est problématique non seulement pour le traitement, mais même pour le stockage. L'exemple le plus frappant est le décodage du génome humain, composé de plus de 3 milliards de caractères. Ce travail, sous les auspices de la National Health Organization des États-Unis, a duré 13 ans (de 1990 à 2003). En 2017, grâce à la croissance de la puissance informatique et au développement d'outils théoriques et logiciels, une tâche similaire prendra des semaines, voire des jours.

La tâche principale des mégadonnées en médecine est de créer les registres d'informations médicales les plus complets et les plus pratiques avec la possibilité d'un échange mutuel, ce qui permettra partout d'introduire des dossiers électroniques complets contenant les antécédents médicaux complets depuis la naissance. Cela permettra d'optimiser considérablement le travail des établissements de santé.

Mais revenons aux derniers événements sensationnels qui, au sens littéral du terme, ont bouleversé le monde d'Internet - la victoire de Donald Trump aux élections. Bien que sa victoire ait été une surprise pour de nombreuses personnes, y compris des analystes et des stratèges politiques, elle est probablement en grande partie le résultat logique de l'utilisation compétente des mégadonnées.

Le magazine suisse Das Magazin affirme que cette victoire a été fournie par une paire de scientifiques, Big Data et technologie moderne. Quelqu'un Michal Kosinski a développé un système unique qui vous permet de trouver le maximum d'informations sur une personne uniquement par ses goûts dans les réseaux sociaux - le soi-disant "microtargeting". Plus tard, le développement de Kosinski, contre sa volonté, a commencé à être utilisé dans les grands jeux politiques. Plus tard, le même système a fonctionné dans la campagne électorale d'un homme d'affaires américain. Personne ne connaissait le lien du politicien avec la société d’analyse, car sur le bureau de Donald il n’y avait même pas d’ordinateur. Mais l'actuel président américain s'est trahi. Il a tweeté dans son compte qu'ils l'appelleraient bientôt M. Brexit.

Dans sa campagne électorale, Hillary Clinton a agi de façon traditionnelle - elle s'est adressée à différents groupes de la population du pays, établissant des appels distincts à la population noire et aux femmes. Cambridge Analytica a agi différemment. Après avoir acheté des bases de données de résidents américains adultes, ils ont étudié chacun d'eux en utilisant la méthode OCEAN, en tenant compte des préférences et des intérêts personnels. Selon leur caractère et leur mentalité, des messages ont été envoyés à chaque personne à partir des bases de données les invitant à voter pour un client Cambridge Analytica, et la justification a été sélectionnée en fonction du profil de destinataire individuel créé précédemment. Certains des messages ont même été construits sur le principe de la controverse et ont suggéré de voter pour Hillary.

Kosinski, un scientifique qui a mis au point un système de micro-ciblage, n'observe jusqu'à présent que cette utilisation de son développement de l'extérieur. Selon Michael, ce n'était pas de sa faute si l'invention était une bombe entre de mauvaises mains. Il convient de souligner que la publication du magazine suisse a été critiquée par de nombreux médias européens, qui prétendent être des informations non prouvées.

Tout en se demandant si les mégadonnées ont vraiment influencé les élections américaines, ces données continuent d'être étudiées et systématisées. Méfiez-vous des réseaux sociaux - qui sait pour qui d'autre vous voterez ou courrez acheter après avoir subi l'impact des mégadonnées?

Source: https://habr.com/ru/post/fr402345/


All Articles