
El término "big data" ha sido familiar durante mucho tiempo, y muchos incluso entienden lo que realmente es y cómo usarlo. Al mismo tiempo, los especialistas en análisis de datos idearon muchas otras gradaciones de la información recopilada, según el tamaño, relevancia, relevancia, etc. Sorprendentemente, los datos pueden ser "rápidos", "calientes", "largos" y "lentos", incluso "sucios". Aunque todo este zoológico analítico no ayudó a numerosos analistas a predecir correctamente la decisión de los británicos de abandonar la UE y la victoria de Trump.
Big data no es solo una gran cantidad de información, sino una combinación de enfoques, métodos y herramientas para procesar diversos datos de volúmenes colosales.
Big data no es solo información, es un fenómeno socioeconómico, que debe su apariencia a la necesidad de analizar grandes cantidades de información a escala global.
Big Data se basa en tres V: volumen (volumen), variedad (variedad) y velocidad (velocidad). Con el volumen, todo está claro. La diversidad depende de la amplitud del espectro de fuentes que alimentan la base de datos. Y la velocidad es generalmente el principal indicador del mundo moderno, que no se detiene ni por un segundo.
Pero, por ejemplo, ¿pueden considerarse encuestas de "big data", incluso si cubren a miles de personas? La cantidad de información que se puede obtener de varias encuestas es bastante grande, pero aún no tanto, por lo que puede atribuirse más bien a los "
datos promedio ". Probablemente, si los análisis preelectorales cubrieran a millones de encuestados, entonces esto ya sería "big data". Big Data también puede estar compuesto por
pequeños bloques de
datos .
Una de las tendencias actuales es la "
información rápida ". En el mundo moderno, todo sucede a la velocidad del rayo. En aplicaciones y redes sociales, la información que tiene 1-2 horas de antigüedad ya no es relevante, cada segundo está en juego. Los datos rápidos son importantes para las aplicaciones bancarias, y para las aplicaciones de las redes sociales, y especialmente para los mensajeros instantáneos. Cada segundo, los usuarios reciben notificaciones nuevas, en función de las cuales toman decisiones importantes.
Para acumular "
datos lentos ", tomará mucho tiempo. A diferencia de los datos rápidos, que pueden obtenerse mediante un sondeo instantáneo, la acumulación lenta literalmente, poco a poco. Por ejemplo, está entrevistando a participantes en una conferencia de desarrollo. Cada participante es entrevistado antes, durante y después del evento. Luego, toda la información se procesa y resume con mucho cuidado.
Y cuando la duración de la acumulación comienza a medirse durante siglos, los datos lentos se convertirán en "
largos ". Dado que la era de Big Data comenzó hace relativamente poco, hoy es necesario buscar datos largos no en Internet, sino en libros, manuscritos, en las paredes de monumentos arquitectónicos y durante excavaciones arqueológicas. ¡El aspecto histórico puede ser muy importante para un estudio específico!
Aunque los datos no son pasteles, pueden ser
"calientes" y "fríos" . El principio de "frescura" funciona aquí: más datos "frescos" - calientes - son de mayor valor. Para un usuario simple, el comentario largamente esperado en el mensajero con una "frescura" de 10 segundos es más importante que el comentario ya "frío" creado hace 2 horas. Por supuesto, aún puede ser útil, por ejemplo, aclarar algún hecho de la correspondencia: recuerde el nombre del libro o película propuesta por un amigo, especifique la hora de la reunión, etc. El acceso a los datos activos debe ser permanente. No necesitamos datos fríos con tanta frecuencia, por lo tanto, el acceso constante a ellos no es en absoluto una primera necesidad.
Además de caracterizar el tamaño, la velocidad o la temperatura, los datos también se pueden clasificar por su pureza. "
Sucio " se refiere a datos que son erróneos o contienen información incompleta o inconsistente, y generalmente son prácticamente inútiles. Los datos sucios constituyen la mayor parte de la información acumulada en muchas empresas. Al mismo tiempo, la información real atesora: aquí se pueden encontrar ideas valiosas a largo plazo. Pero hay suficientes problemas de datos sucios. Según GovTechWorks, ¡esa información no estructurada e irrelevante le cuesta a las empresas estadounidenses $ 6 mil millones anuales!

El término "
datos responsables " describe una situación en la que solo se recopila información confiable, que se toma de fuentes verificadas, se almacena y transmite de conformidad con estrictas medidas de seguridad.
Los “
datos gruesos ” son el siguiente paso después de jugar con los grandes datos: además de las características cuantitativas, también se tienen en cuenta los datos cualitativos. Es decir, los números secos solos en volúmenes gigantescos ya no son suficientes para una comprensión profunda de las tendencias y los procesos en curso, para completar el análisis es necesario tener en cuenta cosas como, por ejemplo, las emociones humanas.
Big data gobierna el mundo
Con tal variedad de definiciones, surge la pregunta: ¿qué son, de hecho, estos datos? En primer lugar, grande, gigante! Big Data se reúne cerca de nosotros, a nuestro alrededor e incluso sobre cada uno de nosotros. Pequeños granos de arena los forman lenta y seguramente.
La frase popular "Gran hermano te está mirando" viene inmediatamente a mi mente. Ciertas bases de datos se forman a partir de la información recopilada en todas partes y utilizada para diversos estudios y manipulación de la opinión pública. Posteriormente, se analiza toda la información recibida y se produce la llamada adivinación sobre el resultado de eventos importantes. Esta adivinación genera todo tipo de predicciones sobre victorias electorales, cambios en la situación política en el país o fluctuaciones en la popularidad de un grupo musical entre los jóvenes.

Tres grandes ballenas como Google, Facebook y Amazon se han ganado el título de Big Data. Estas corporaciones capturan el clic más pequeño del mouse de cada usuario de sus portales. Y todo esto en aras de la recopilación de información global. Hay una gran esperanza para los grandes datos. Los investigadores predicen su enorme impacto en todos los sectores de la vida y la actividad humana. Este destino no ha pasado por alto la medicina y la ciencia.
¿Cómo puede ser útil Big Data en medicina? El punto aquí no es ni siquiera la cantidad de acumulación de información, sino los métodos de su procesamiento y análisis. El volumen de datos médicos en varias áreas ha alcanzado un tamaño que es problemático no solo para procesar, sino incluso para almacenar. El ejemplo más llamativo es la decodificación del genoma humano, que consta de más de 3 mil millones de caracteres. Este trabajo, bajo los auspicios de la Organización Nacional de Salud de EE. UU., Tomó 13 años (de 1990 a 2003). En 2017, gracias al crecimiento de la potencia de la computadora y el desarrollo de herramientas teóricas y de software, una tarea similar llevará semanas, o incluso días.
La tarea principal de los grandes datos en medicina es crear los registros más completos y convenientes de información médica con la posibilidad de intercambio mutuo, lo que permitirá introducir registros electrónicos completos de pacientes que contengan el historial médico completo desde el momento del nacimiento. Esto optimizará significativamente el trabajo de los establecimientos de salud.
Pero volvamos a los últimos eventos sensacionales que, en el sentido literal de la palabra, voltearon el mundo de Internet: la victoria de Donald Trump en las elecciones. Aunque su victoria fue una sorpresa para muchas personas, incluidos analistas y estrategas políticos, probablemente sea en gran medida el resultado lógico del uso competente de big data.
La revista suiza
Das Magazin afirma que esta victoria fue proporcionada por un par de científicos, Big Data y tecnología moderna. Alguien Michal Kosinski ha desarrollado un sistema único que le permite encontrar la información máxima sobre una persona solo por sus gustos en las redes sociales: el llamado "microtargeting". Más tarde, el desarrollo de Kosinski, contra su voluntad, comenzó a usarse en los principales juegos políticos. Más tarde, el mismo sistema funcionó en la campaña electoral de un empresario estadounidense. Nadie sabía sobre la conexión del político con la compañía analítica, porque en el escritorio de Donald ni siquiera hay una computadora. Pero el actual presidente de Estados Unidos se ha traicionado. Tuiteó en su cuenta que pronto lo llamarían Sr. Brexit
En su campaña electoral, Hillary Clinton actuó tradicionalmente: se dirigió a diferentes grupos de la población del país, elaborando llamamientos por separado para la población negra y las mujeres. Cambridge Analytica actuó de manera diferente. Habiendo comprado bases de datos de residentes adultos de EE. UU., Estudiaron cada uno de ellos utilizando el método OCEAN, teniendo en cuenta las preferencias e intereses personales. Dependiendo de su carácter y mentalidad, se enviaron mensajes a cada persona desde las bases de datos instándolos a votar por un cliente de Cambridge Analytica, y la razón se seleccionó en función del perfil de destinatario individual creado anteriormente. Algunos de los mensajes incluso se basaron en el principio de controversia y sugirieron votar por Hillary.
Kosinski, un científico que ideó un sistema de microtargeting, hasta ahora solo observa este uso de su desarrollo desde el exterior. Según Michael, no fue su culpa que la invención fuera una bomba en las manos equivocadas. Cabe destacar que la publicación de la revista suiza fue criticada por numerosos medios europeos, que afirman ser información no probada.
Mientras se debate si los grandes datos realmente influyeron en las elecciones estadounidenses, estos datos continúan siendo estudiados y sistematizados. Tenga cuidado con las redes sociales: ¿quién sabe por quién más votará o correrá para comprar después de experimentar el impacto de los grandes datos?