Big Data: hermano o no hermano

La conferencia Big Data, Meet Big Brother, organizada por la Fundación Sistema_VC, se celebró en Moscú. Todo estaba allí: llegó un desarrollador israelí que sabe cómo procesar datos cien veces más rápido que nadie. MTS dijo que MTS morirá si no se convierte en una empresa de TI. Los empresarios rusos estaban alarmando, tratando de disiparlo.



Parece que todo el mundo ya está acostumbrado al hecho de que en las conversaciones sobre big data, especialmente si son filosóficas, tarde o temprano aparecerá el supervillano orwelliano Gran Hermano, al igual que Hitler en todas las disputas en Internet . Los organizadores no tiraron y batieron el sello inmediatamente en el título. La ansiedad, justificada o no, es parte del bombo, qué hacer.

De hecho, han estado soñando con la gran cita de la antigüedad, de todo tipo de antiguos egipcios, cuando las personas fueron reescritas para comprender cómo usarlas de manera más efectiva. En la época de Pedro I, se recopilaron datos grandes (censo para la recaudación de impuestos) durante tres años, y luego se procesaron durante otros tres años. Ahora, a excepción de este proceso, agregamos cables, velocidades y tipos de datos. Todo en nombre de la eficiencia, la optimización y un sueño aún más antiguo de la humanidad, para que todo de alguna manera se haga a sí mismo.

Las empresas sueñan con que todo en sí debe estar claramente segmentado, se debe decidir quién, qué y cuándo vender. Los compradores quieren que todo lo que se necesita sea comprado, encendido, masticado y digerido. En la conferencia, personas inteligentes se reunieron para discutir cómo lograr esto. Los escuché inteligentemente, pregunté y escribí todo.

Yorgan Calllebout y Psicología en Big Data




La conferencia comenzó con un discurso del psicólogo Jorgan Calllebaut. Él trabaja para DataSine. Con la ayuda del aprendizaje automático y los modelos psicológicos, segmentan a la audiencia y estudian quién necesita mostrar qué anuncios.

Funciona así: recopilan todos los datos que encuentran, desde registros en Internet hasta el historial de pagos, y con la ayuda del aprendizaje automático los superponen en el modelo psicológico de los Cinco Grandes.
extraversión - introversión
apego - aislamiento
autocontrol - impulsividad
inestabilidad emocional - estabilidad emocional
expresividad - practicidad

Yorgan afirma que el cuarto punto que su empresa no usa, porque no es ético. Según él, supuestamente, podemos concluir sobre la salud mental de una persona y usarla en su contra.

Los métodos de distribución, por supuesto, los deduce la persona y, si no se profundiza, parecen bastante estereotipados. Por ejemplo, Yorgan dice que si compra muchos libros, es muy probable que sea introvertido. Si a menudo gasta dinero en bares, probablemente sea un extrovertido (porque los introvertidos están sentados en casa y en silencio).

A la pregunta "¿por qué más?" Yorgan tiene una respuesta médica. La cosa es la hormona acetilcolina, a la que todas las personas tienen diferentes grados de sensibilidad. Si una persona es sensible a la hormona, se convierte en una persona introvertida, y con fuertes emisiones de, por ejemplo, la interacción con las personas, se cierra en un bulto y se traga la lengua. Los extrovertidos tienen un umbral más alto para la estimulación hormonal. Por lo tanto, la multitud, el ruido y la comunicación durante bastante tiempo pueden no molestarlos.

La hormona salpica no solo a la vista de las personas, sino que reacciona a muchas cosas: colores, sonidos, palabras. Por lo tanto, para extrovertidos e introvertidos, el equipo de Yorgan hace varias cartas publicitarias.
Por ejemplo, usamos las mismas cifras y hechos, pero organizamos las letras en la lista de correo de diferentes maneras. Para los extrovertidos ponemos imágenes naranjas, brillantes. Para introvertidos, azules y fríos. El aprendizaje automático nos ayuda a elegir estas imágenes. Por el hecho de que cambia una imagen en el correo electrónico, la cantidad de clics en el enlace aumenta en un 40%. Si también configura el texto, los coeficientes aumentan al 80%.

Cuando se le preguntó ansiosamente a Yorgan si la introducción de Big Data nos convertiría a todos en introvertidos, respondió que no, que no lo haría. Cómo naciste, así serás.

Pero esa fue la más inusual de las preguntas inquietantes. El resto fue en los clásicos, pero ¿no comenzarán las compañías a manipularnos con estos artilugios psicológicos?

Muchas empresas ni siquiera han alcanzado el nivel en el que podrían usar big data, y mucho menos manipular a alguien con su ayuda. Y en general, no vamos a manipularte. No queremos obligarlo a hacer algo en contra de su voluntad. Solo personalizamos las ofertas para que todos estén contentos.

Base de datos de velocidad de Ami Gal y GPU




Ami Gal, el fundador de SQream, vino de Tel Aviv a la conferencia. Su compañía está desarrollando su base de datos, que, según el comunicado, es 100 veces más rápida de lo habitual debido a las solicitudes de procesamiento de la GPU. Esto lo hace adecuado para trabajar con big data.

De los ejemplos, Ami habló sobre el caso del Centro de Investigación del Cáncer israelí. Hay una base de datos sobre el tratamiento de miles de pacientes durante décadas, hay muestras de los genes de cada paciente, información sobre todas las anomalías, reacciones y, por supuesto, el éxito de un tratamiento en particular.

Al reunir grandes conjuntos de datos, los científicos aprendieron a seleccionar los métodos de tratamiento estadísticamente más apropiados para cada nuevo paciente. El problema era que podía haber hasta 6 mil millones de registros en una sola columna de dicha tabla. Anteriormente, el análisis tomó 2 meses, ahora lleva 2 horas.

Es decir, tan pronto como los científicos reciben una muestra del ADN del paciente, inmediatamente saben qué método es más probable que conduzca al éxito.

Estaba interesado en aprender más sobre Ami, su compañía y tecnología, así que le pregunté sobre todo personalmente.



Ami estudió ciencias de la computación y física en la Universidad de Tel Aviv, luego trabajó como programador y en 1996 fundó su primera compañía. Según él, entonces no era como la vida cotidiana moderna de las nuevas empresas de tecnología: "Teníamos que hacer algo e inmediatamente venderlo a los clientes para poder sobrevivir".

En 2000, fundó Magic Software con socios. Allí, Ami asumió el cargo de director técnico y vicepresidente de I + D, pero gradualmente pasó de la tecnología a los negocios: "se trasladó al lado oscuro".

Después de dejar Magic después de tres años, Ami comenzó a invertir en nuevas empresas. "Si las startups dependen de parientes, amigos y tontos, entonces yo fui uno de los últimos", se ríe.

Y finalmente, en 2010, junto con un migrante ruso, Kostya Varakin, a Ami se le ocurrió la idea de acelerar las bases de datos utilizando una GPU y fundó SQream.

- Cuando surgió la idea, no había sensación como "¡Sí, es obvio! ¿Por qué nadie sigue procesando consultas SQL en la GPU?

Hoy es obvio. Pero cuando comenzamos, nadie quería escucharnos. A todos les parecía que esto era imposible.

La idea vino a mi cofundador Kostya Varakin de San Petersburgo. Pero ella parecía tan imposible que él no decidió inmediatamente expresarlo. Y pensé: usar una GPU no es para juegos, sino para el procesamiento de datos, es genial. Comenzamos a trabajar, colocamos este enfoque en el corazón de la empresa.

Por supuesto, creíamos que las GPU eran excelentes para los datos, y todos comenzarían a usarlas allí mismo. Pero no comenzaron. Recuerdo cuando quería aumentar las inversiones, las personas en los negocios reaccionaron así: “¿Estás bromeando? Procesamiento de datos de GPU? Esto no sucede, vete ".

Solo seis años después (hace unos dos o tres años) la GPU se convirtió en la corriente principal gracias a su trabajo con IA, aprendizaje automático profundo. Y, por supuesto, ahora procesar datos en la GPU ha dejado de parecer una idea extraña.

"¿Las personas a las que propusiste la idea no vieron velocidad?

Visto, todos vieron. Pero el hecho es que las GPU están diseñadas para funcionar con gráficos vectoriales. Y la forma en que procesamos los datos es exactamente lo contrario de trabajar con un vector. El chip no está diseñado para este tipo de cálculo. Por lo tanto, con el software, debemos hacer que el procesador crea que procesa, por ejemplo, video, aunque esto no es así. Es decir, debe convertir todo antes y después de la GPU, ya que solo acepta el vector.

Tuvimos que tomar problemas complejos y dividirlos en listas de instrucciones simples para el procesador. Pero parecía casi imposible.

- ¿Y qué fue lo más difícil de desarrollar?

Trabajar con rusos (risas). De hecho, lo más difícil en la historia de la empresa no fue una solución técnica. Al principio, planeamos desarrollar solo un acelerador para las bases de datos de otras personas. Algo que acelerará Oracle, MS SQL. Digamos que enviamos una solicitud a Oracle y se ejecuta más rápido gracias a la GPU.

Entramos al mercado con la pregunta: "¿Necesita algo que haga que su base de datos funcione 20 veces más rápido"? Y el mercado respondió: "No, no es necesario".

El problema fue que interceptamos la solicitud entre el motor y el cliente. Esto fue una interferencia con Oracle. Nos dijeron: "Esto es imposible: envíe una solicitud a su motor y trátela usted mismo". Y decimos: "No tenemos una base de datos".
"Entonces hazlo".

Observamos cómo actúan otras compañías y cómo se organizan los almacenes de datos con arquitectura MPP. Todos ellos se crean sobre la base de otra base de datos, principalmente PostgreSQL o MySQL. Vertica, Greenplum y otros repositorios heredados están construidos alrededor de PostgreS.

Decidimos probarlo también. Tomaron PostgreSQL y lo implementaron en la GPU. Resultó muy lentamente: la velocidad aumentó solo dos veces. Nadie traduciría bases de datos en la GPU en aras de la aceleración en dos ocasiones. No sabíamos qué hacer, no dormimos durante una semana. Con el debido respeto hacia mí y mis colegas, no podríamos permitirnos construir una base de datos desde cero, este es un proyecto demasiado grande.

Pero lo intentamos, y después de construir el primer bloque, la productividad aumentó 18 veces. Luego decidimos continuar, aunque sabíamos que el camino sería largo y difícil. Esta decisión resultó ser la más difícil de todo el tiempo SQream. Después de todo, esto significaba que necesitaríamos mucho más dinero, personas y tiempo para construir una empresa.

Hablando desde el punto de vista de la tecnología, lo más difícil fue iniciar un JOIN utilizando una GPU entre dos tablas grandes en el disco.

- ¿Cuál es tu pila?

Usamos CUDA para trabajar con la GPU. Escribimos todo en C ++, Haskell y un poco en Erlang.

Cuando trabajas con miles de millones de transacciones durante un cierto período de tiempo, por ejemplo, en una fracción de segundo, necesitas algo muy cercano al hardware.
Pasamos del ensamblador a Cuda y a C ++. Si agrega algo más en el camino, la velocidad ya disminuirá, por lo que debemos ser lo más bajos posible. Intentamos trabajar con otras plataformas: por ejemplo, utilizamos OpenCL en lugar de Cuda, pero todo esto no funcionó tan bien, el proceso fue demasiado lento.

Necesitamos ir lo más profundo posible para que la productividad sea alta.
Para esto utilizamos lenguajes de programación como C ++, Haskell, Cuda. En algunos puntos, implementamos Erlang, pero esto sucede con mucha menos frecuencia: usamos el mismo C ++ cada vez más.

- Si trabajé solo con bases de datos normales, en caso de cambiarme a la suya, ¿tendré que volver a entrenar?

Desde el punto de vista del lenguaje, no se necesita aprender nada nuevo. Si escribió en SQL, entonces todo será igual aquí. Hay cosas que funcionan de manera diferente. Pero las especificaciones describen bien cómo configurar todo.

- ¿La aceleración declarada de 100 veces es el máximo que puede extraer de la GPU?

No creo que nuestra empresa haya alcanzado el 10% de lo posible. Ya en septiembre estamos lanzando la tercera versión del producto, en la cual duplicaremos la productividad. En el futuro planeamos aumentarlo más y más. El rendimiento de la CPU desde 2006 casi no está creciendo, y la cantidad de datos está creciendo exponencialmente. El rendimiento de la GPU está creciendo de la misma manera.

Resulta que estamos al comienzo del ciclo de vida. Una de las cosas que planeamos hacer pronto es aumentar el rendimiento no solo en una GPU, sino también en varias. ¡Imagínense qué velocidad será! Aquí hay una solicitud que dura 100 segundos. Lo dividimos en varios pequeños entre diez GPU, y la solicitud pasa en un instante.

En general, creo que estamos al borde de una nueva era en la que la informática de GPU se convertirá en dominante en el procesamiento de datos.

"¿Por qué no lo han hecho todavía?" Que se detiene

Mucho de eso. Puedo nombrar tres obstáculos.

El primero no es tan fuerte como antes, pero aún existe. Cuando llegamos a compañías que trabajan con Oracle o IBM, se enfrentan a una elección: ir a una pequeña empresa emergente de Tel Aviv o quedarse con un gran jugador. Incluso si se resuelven, este proceso se retrasa considerablemente.

La segunda barrera es la falta de personas. Tel Aviv es un pequeño Silicon Valley. Israel tiene una competencia muy alta por el personal: me lleva tres meses encontrar al empleado adecuado, aunque lo necesito en tres segundos.

Y finalmente, el tercero: como propietario de una empresa de tecnología, puedo decir que siempre hay alguien más inteligente que tú y mucho más. Constantemente tenemos que asegurarnos de que la tecnología esté en la cima de las oportunidades y mucho para invertir en ella.

- ¿No le parece que la GPU sigue siendo una "muleta", y para los datos sería mejor encontrar o inventar su propia unidad de procesamiento?

Por supuesto, estamos buscando nuevos tipos de procesadores, no solo gráficos. Ahora hay tecnologías y mejores: aparecerán en el mercado en los próximos años. Uno debe estar preparado para esto. Es por eso que estamos en contacto con nuevas empresas, fabricantes de chips informáticos, incluidas las computadoras cuánticas.

Tan pronto como se desarrollen estas tecnologías, el mundo podrá resolver problemas mucho más rápido, y esto, por supuesto, no puede esperar para verlo. Para ser muy optimistas, en cinco años aparecerán las primeras máquinas de este tipo, sus versiones más tempranas que son adecuadas para la investigación académica. E incluso pasarán menos de diez años antes de los primeros intentos de introducir dicha tecnología en los campos públicos: medicina y seguridad. Antes de eso, la GPU funcionará bien. Es interesante ver lo que eventualmente se vuelve más rápido.

Empresas rusas y big data




Entre actuaciones, jóvenes y bellas deambulaban por el elegante espacio, caminaban por el techo, charlaban y bebían limonada a base de hierbas. No lo obtuve debido a la estúpida acetilcolina (Gracias a Yorgan por explicarme), pero no me ofende.

Luego, Leonid Tkachenko, jefe del departamento de Big Data en MTS, Alisa Chumachenko, fundadora de GOSU Data Lab, fundador de Segmento, Roma Nester y Yevgeny Isupov del Tinkoff Bank, entraron al escenario para discutir los grandes datos.

Tanto yo como el público fuimos abordados perfectamente por las declaraciones de Leonid. Es inusual escuchar tal nivel de franqueza desde la cima de una de las compañías más grandes de Rusia. El hecho de que lo cite aquí más no significa que haya hablado mucho más que nadie (no se trata de un anuncio de MTS. Tengo un operador diferente, y Leonid, a juzgar por sus palabras, ya lo ha soportado. Aunque incluso en este caso está hablando de mí). sabe más de lo que pensaba).



Comenzó de inmediato con el hecho de que Big Data realmente no funciona en este momento, y el mito está hinchado. Según él, si el problema no puede resolverse por métodos convencionales, entonces nada cambiará con la llegada de los grandes datos.

Por ejemplo, MTS tenía un modelo de predicción de abandono de clientes exitoso. Cuando se le aplicó big data, el crecimiento fue completamente insignificante. Y todo lo contrario. MTS no logró predecir cuándo los suscriptores decidirían cambiar a una tarifa más barata (para llamar con anticipación y disuadir un par de bonos). Cuando intentamos resolver el problema utilizando big data, todavía no funcionó.
No es necesario buscar un milagro en las tecnologías de Big Data

Evgeny Isupov se opuso a él:

- Cuando agregamos nuevos datos o matemáticas más especializadas, lo que nos permite hacer ingeniería de características avanzadas, para generar características que fueron difíciles de encontrar para una persona, vimos un aumento significativo allí.

Y con esto Leonid estuvo de acuerdo:
- Aquí también hay un ejemplo donde la adición de nuevos datos juega un papel importante. Si observamos cómo llaman nuestros suscriptores, solo sabemos que están llamando. Vale la pena agregar un geoanálisis mínimo, una estación base donde el teléfono pasa la mayoría de las noches y una estación base donde se encuentra cinco días a la semana. Todo: sabemos dónde vives y trabajas.

Si agregamos modelos basados ​​en el perfil de la llamada, y lo hemos hecho, podemos restaurar todo su hogar. Vemos que hay tres suscriptores de MTS, otro en línea recta y otro megáfono. No tenemos geoanalistas en ellos, solo sabemos cómo llaman a nuestra red.

En este modelo hay más de mil cosas significativas muy sutiles que usted mismo no generará. Por ejemplo, tal característica: cómo la densidad de comunicación entre las personas cambia de 3 a 4 el viernes, y de 4 a 5. Y así sucesivamente. Tomamos todas las parejas de amigos o extraños que se llaman mucho, imponen miles de características y pueden dividirlas en dos partes: parejas que viven juntas y parejas que no viven juntas.

Alisa Chumachenko dirigió la idea en una dirección pragmática: en primer lugar, según ella, las tareas van, no las tecnologías. Si tiene sentido hacer algo con la ayuda de Big Data, y es más rentable y más efectivo que los métodos antiguos, entonces se utilizarán. No es necesario trabajar con Big Data por el bien de Big Data, pero por alguna razón muchos lo están intentando.
Big data es exactamente una exageración, y aparecerá donde no pertenece en absoluto.

Cuando ella preguntó si alguien había oído hablar de DeepMind, extendí mi mano con el pensamiento: "Señor, por supuesto que todos escucharon, son, malditamente, más conocidos que el Papa". Pero alrededor de cinco personas levantaron los brazos.

Entonces Alice comenzó a hablar sobre la victoria de AI en Go y agregó un hecho que personalmente me sorprendió. Resulta que para una red neuronal entrenada se encontró una aplicación práctica. Se utiliza para enfriar los servidores de Google. AI revisa qué tipo de bobinas de enfriamiento dónde y cuándo girar, aprende, se anima y castiga, y este proceso ya ha reducido los costos del servidor en un 40%.

La propia Alice, ya que trabaja con juegos, sueña con un sistema que sepa todo sobre sus preferencias de juego. Recordó la primera vez que ingresó a League of Legends, y el juego le dio 30 segundos para elegir uno de los cientos de héroes.

- Si el juego supiera que siempre juego apoyo, destacaría a los héroes que más me convengan, y me aconsejaría que no tocara el resto. Si el juego supiera que me encanta, me convertiría en un usuario y llevaría el dinero.



Hablando sobre el futuro del big data, un monólogo fuerte volvió a emitir Leonid:

- MTS es un hombre de unos 50 años. Todo está detrás. Por delante hay una vida miserable o, en general, en Vagankovo. Telecom clásico es el final. Somos conscientes de esto, y como empresa estamos buscando un nuevo organismo, donde transferir nuestra alma a una nueva empresa. Y en este cuerpo hemos terminado.

Big Data puede convertirse en uno. Tenemos tres estrategias:
- La acumulación completa de todos los datos sobre el cliente en general, incluso si no entendemos cómo usarlos. Las tecnologías de almacenamiento son lo suficientemente baratas como para almacenar todo.
- Datos abiertos Los científicos acceden a los datos e intentan cegar algo.
- Construir un nuevo negocio basado en el conocimiento de las personas, basado en la penetración en sus cabezas, almas, deseos. Haz la mayor personalización posible. Para saber todo sobre ti, como si estuviéramos observándote y espiándote sin hacerlo.

Y la última milla de este negocio ya se ha construido: atrapar a una persona en Internet y mostrarle un anuncio. Queda por construir el primero, penetrar profunda y profundamente y descubrir lo que esta persona quiere ver. Para que cada segunda persona compre.

Leonid cree que el futuro de los datos puede ser de dos maneras. O los datos se convertirán en propiedad de las personas y podrán vender información sobre ellos mismos, decidir qué empresa y qué abrir. O los datos se convertirán en propiedad completa de los estados.
Sabrá absolutamente todo sobre nosotros. Pero al menos la vida será más segura.

Todos están de acuerdo en que los datos estarán muy regulados de una forma u otra.
- Todos los que se han enfrentado al GDPR durante los últimos seis meses entienden que el acceso a los datos privados estará muy regulado. Por otro lado, está China, en la que entiendes que no es así. Es probable que Rusia siga la versión china. En cualquier caso, las grandes empresas que almacenan estos datos (mira astutamente a Leonid) tendrán dificultades.

La novela cree que la ansiedad nace de la ignorancia y la incomprensión:

- Estamos en un estado de pánico tecnológico. Todos temen que alguien sepa algo sobre ellos, y a todos no les gusta. Por ejemplo, hay 15 razones tecnológicas y comerciales por las que Facebook no es rentable para espiar a las personas. Pero la gente creía en él, y ahora perciben el servicio de manera diferente.
El proceso de recopilación de datos debe ser transparente para que las personas no tengan miedo.

Como en todos los asuntos globales, las contradicciones nacen en cosas pequeñas. Dónde trazar la línea entre privacidad y comodidad, dónde y en qué casos hacer pública la información personal.

Como dijo Eugene, cuando información como "qué hiciste anoche" se usa en tu contra para reír o incluso lastimarte, entonces, por supuesto, no quieres abrirla. Pero si esta información puede, por ejemplo, mejorar la salud o el sueño, entonces se puede regalar.

Roman cree que vale la pena tener miedo de las pequeñas empresas:

"Las grandes empresas se filtrarán más caro que vender mis datos". Están forzando a las pequeñas empresas que se esfuerzan por monetizar los datos con todas sus fuerzas. Compramos datos de 40 fuentes, y algunas de compañías que no nos ofrecieron datos sobre personas. Cuando puede cerrar mañana, no tiene una gran responsabilidad con la sociedad y las personas.

Alice, por el contrario, cree en un futuro brillante:

- Solo quiero pensar que no tienes una cuenta bancaria, te enviaron una tarjeta una vez. Hoy, todo lo que hacemos se está volviendo público. Pero no creo en escenarios extremos, por lo que quiero que la IA aparezca antes que muestre y nos ofrezca todo lo que sea relevante.

Y Leonid resumió:
- Si quieres hacer todo lo posible, es mejor apagar el teléfono.

En lugar de conclusiones


Al hablar de Gran Hermano, siempre recuerdo una historia. Cuando Orwell escribió 1984, envió una copia a su maestro de escuela, Aldous Huxley. Él respondió en una carta : elogió el libro, pero no estuvo de acuerdo con la idea. Él creía que "la promoción de la hipnosis infantil y de drogas es mucho más adecuada para ganar poder que las cárceles y los bastones".

Por supuesto, asustarse por el hecho de que "Gran Hermano te está mirando" es mucho más espectacular, y temerle es mucho más divertido. Pero, querido Sistema_VC, creo que el nombre Big Data, Meet Brave New World sería mejor.

Source: https://habr.com/ru/post/es418925/


All Articles