Dados sobre diversidade de espécies



O termo "big data" é conhecido há muito tempo e muitos até entendem o que realmente é e como usá-lo. Ao mesmo tempo, os especialistas em análise de dados apresentaram muitas outras gradações das informações coletadas, dependendo do tamanho, relevância, relevância e assim por diante. Surpreendentemente, os dados podem ser "rápidos", "quentes", "longos" e "lentos", até "sujos". Embora todo esse zoológico analítico não tenha ajudado inúmeros analistas a prever corretamente a decisão dos britânicos de deixar a vitória da UE e de Trump.

O big data não é apenas uma quantidade muito grande de informações, mas uma combinação de abordagens, métodos e ferramentas para processar vários dados de volumes colossais.
O big data não é apenas informação, é um fenômeno socioeconômico, que deve sua aparência à necessidade de analisar grandes quantidades de informações em escala global.

O Big Data depende de três Vs: volume (volume), variedade (variedade) e velocidade (velocidade). Com o volume, tudo está claro. A diversidade depende da amplitude do espectro de fontes que alimentam o banco de dados. E a velocidade é geralmente o principal indicador do mundo moderno, que não para nem por um segundo.

Mas, por exemplo, as pesquisas de “big data” podem ser consideradas, mesmo que abranjam milhares de pessoas? A quantidade de informações que podem ser obtidas em várias pesquisas é bastante grande, mas ainda não muito, de modo que pode ser atribuída aos " dados médios ". Provavelmente, se a análise pré-eleitoral abrangesse milhões de entrevistados, isso já seria "big data". O Big Data também pode ser composto de pequenos blocos de dados .

Uma das tendências hoje é " dados rápidos ". No mundo moderno, tudo acontece na velocidade da luz. Em aplicativos e redes sociais, informações com 1-2 horas de duração não são mais relevantes, a cada segundo está em jogo. Dados rápidos são importantes para aplicativos bancários, aplicativos de redes sociais e especialmente para mensageiros instantâneos. A cada segundo, os usuários recebem novas notificações, com base nas quais tomam decisões importantes.

Para acumular " dados lentos ", levará muito tempo. Ao contrário dos dados rápidos, que podem ser obtidos usando a pesquisa instantânea, o acúmulo lento literalmente pouco a pouco. Por exemplo, você está entrevistando participantes de uma conferência de desenvolvimento. Cada participante é entrevistado antes, durante e após o evento. Então todas as informações são processadas e resumidas com muito cuidado.

E quando a duração da acumulação começar a ser medida por séculos, os dados lentos se tornarão " longos ". Desde que a era do Big Data começou há relativamente pouco tempo, hoje em dia os dados longos precisam ser pesquisados ​​não na Internet, mas em livros, manuscritos, nas paredes de monumentos arquitetônicos e durante escavações arqueológicas. O aspecto histórico pode ser muito importante para um estudo específico!

Embora os dados não sejam bolos, eles podem ser "quentes" e "frios" . O princípio de “frescura” funciona aqui: mais dados “frescos” - quentes - são de maior valor. Para um usuário simples, o comentário tão esperado no messenger com "frescura" de 10 segundos é mais importante que o comentário já "frio" criado 2 horas atrás. Obviamente, ainda pode ser útil, por exemplo, esclarecer alguns fatos da correspondência: lembre-se do nome do livro ou filme proposto por um amigo, especifique o horário da reunião e assim por diante. O acesso a dados quentes deve ser permanente. Como não precisamos de dados frios com tanta frequência, o acesso constante a eles não é de modo algum uma primeira necessidade.

Além de caracterizar tamanho, velocidade ou temperatura, os dados também podem ser classificados por sua pureza. " Sujo " refere-se a dados que são errôneos ou contêm informações incompletas ou inconsistentes e geralmente são praticamente inúteis. Dados sujos compõem a maioria das informações acumuladas em muitas empresas. Ao mesmo tempo, tesouros reais da informação - idéias valiosas de longo prazo podem ser encontradas aqui. Mas há problemas suficientes com dados sujos. De acordo com o GovTechWorks, essas informações não estruturadas e irrelevantes custam às empresas dos EUA US $ 6 bilhões por ano!



O termo “ dados responsáveis ” descreve uma situação em que apenas informações confiáveis ​​são coletadas, extraídas de fontes verificadas, armazenadas e transmitidas em conformidade com rigorosas medidas de segurança.

Dados espessos ” é o próximo passo depois de brincarmos com big data: além das características quantitativas, os dados qualitativos também são levados em consideração. Ou seja, apenas números secos em volumes gigantescos não são mais suficientes para uma compreensão profunda das tendências e processos em andamento; para uma análise completa, é necessário levar em conta coisas como, por exemplo, emoções humanas.

O big data domina o mundo


Com uma variedade de definições, surge a pergunta: o que, de fato, são esses dados? Primeiro de tudo, grande, gigante! O Big Data se reúne perto de nós, ao nosso redor e até sobre cada um de nós. Pequenos grãos de areia lenta e seguramente os formam.

A frase popular "O irmão mais velho está de olho em você" imediatamente vem à mente. Certas bases de dados são formadas a partir de informações coletadas em todos os lugares e usadas para vários estudos e manipulação da opinião pública. Posteriormente, todas as informações recebidas são analisadas e ocorre a chamada previsão do futuro sobre o resultado de eventos importantes. Esse adivinhação gera todos os tipos de previsões sobre vitórias nas eleições, mudanças na situação política do país ou flutuações na popularidade de um grupo musical entre jovens.



Três grandes baleias, como Google, Facebook e Amazon, ganharam o título de Big Data. Essas empresas capturam o menor clique do mouse de cada usuário de seus portais. E tudo isso em prol da coleta global de informações. Há uma grande esperança para o big data. Os pesquisadores prevêem seu enorme impacto em todos os setores da vida e atividade humana. Esse destino não ultrapassou a medicina e a ciência.

Como o Big Data pode ser útil na medicina? O ponto aqui não é nem a quantidade de acumulação de informações, mas os métodos de processamento e análise. O volume de dados médicos em várias áreas atingiu um tamanho problemático não apenas para processar, mas também para armazenar. O exemplo mais impressionante é a decodificação do genoma humano, que consiste em mais de 3 bilhões de caracteres. Este trabalho, sob os auspícios da Organização Nacional de Saúde dos EUA, levou 13 anos (de 1990 a 2003). Em 2017, graças ao crescimento da energia do computador e ao desenvolvimento de ferramentas teóricas e de software, uma tarefa semelhante levará semanas ou até dias.

A principal tarefa do big data na medicina é criar os registros mais completos e convenientes de informações médicas, com a possibilidade de troca mútua, que permitirá a todos os lugares a introdução de registros eletrônicos completos do paciente contendo todo o histórico médico desde o nascimento. Isso otimizará significativamente o trabalho das unidades de saúde.

Mas voltemos aos últimos eventos sensacionais que, no sentido literal da palavra, viraram o mundo da Internet de cabeça para baixo - a vitória de Donald Trump nas eleições. Embora sua vitória tenha sido uma surpresa para muitas pessoas, incluindo analistas e estrategistas políticos, é provavelmente o resultado lógico do uso competente de big data.

A revista suíça Das Magazin afirma que essa vitória foi fornecida por um par de cientistas, Big Data e tecnologia moderna. Alguém Michal Kosinski desenvolveu um sistema único que permite descobrir o máximo de informações sobre uma pessoa apenas pelos seus gostos nas redes sociais - o chamado "microtargeting". Mais tarde, o desenvolvimento de Kosinski, contra sua vontade, começou a ser usado nos principais jogos políticos. Mais tarde, o mesmo sistema funcionou na campanha eleitoral de um empresário americano. Ninguém sabia da conexão do político com a empresa de análise, porque na mesa de Donald não há nem mesmo um computador. Mas o atual presidente dos EUA se traiu. Ele twittou em sua conta que logo o chamariam de Sr. Brexit.

Em sua campanha eleitoral, Hillary Clinton agiu tradicionalmente - ela se dirigiu a diferentes grupos da população do país, fazendo apelos separados à população negra e às mulheres. O Cambridge Analytica agiu de maneira diferente. Tendo adquirido bancos de dados de residentes adultos nos EUA, eles estudaram cada um deles usando o método OCEAN, levando em consideração preferências e interesses pessoais. Dependendo de seu caráter e mentalidade, as mensagens foram enviadas a cada pessoa a partir dos bancos de dados solicitando que votassem em um cliente do Cambridge Analytica, e a lógica foi selecionada dependendo do perfil de destinatário individual criado anteriormente. Algumas das mensagens foram baseadas no princípio da controvérsia e sugeriram votar em Hillary.

Kosinski, um cientista que criou um sistema de microtarget, até agora apenas observa esse uso de seu desenvolvimento de fora. Segundo Michael, não foi culpa dele que a invenção fosse uma bomba nas mãos erradas. Deve-se enfatizar que a publicação da revista suíça foi criticada por vários meios de comunicação europeus, que afirmam ser informações não comprovadas.

Ao debater se o big data realmente influenciou as eleições nos EUA, esses dados continuam a ser estudados e sistematizados. Cuidado com as redes sociais - quem sabe em quem mais você votará ou tentará comprar depois de experimentar o impacto do big data?

Source: https://habr.com/ru/post/pt402345/


All Articles