A la centésima más cercana: los 10 mejores informes SmartData 2017



Los asistentes a la conferencia SmartData son personas a las que les encanta trabajar con datos. Debe suponerse que presentaron sus evaluaciones de informes después de la conferencia del año pasado con mucha consideración.

Y ahora, de acuerdo con estas estimaciones, hemos compilado los 10 mejores videos. Y al mismo tiempo, para complacer a los entusiastas de los datos, indicaron todos los números relacionados para cada uno de los diez informes: lugar en la parte superior, calificación precisa del espectador, número de espectadores.

En términos generales, las calificaciones en las primeras posiciones a menudo no son significativamente diferentes. Entonces, tal vez, no debería darle mucha importancia a "quién sigue a quién"; es más importante que todos estos informes reciban altas calificaciones. Pero, por otro lado, ¿cómo puede no prestar mucha atención a los números cuando es tan emocionante?



Neurona: ¿por qué enseñamos a la red neuronal a escribir poemas en el espíritu de Kurt Cobain?


Ponente: Ivan Yamshchikov
Ubicación: 1
Calificación: 4.51 ± 0.08
El número de espectadores: ~ 200
Presentación del informe

El claro líder de la conferencia fue el discurso de clausura del creador de los proyectos Neural Defense y Neurona. Esta es una actuación accesible que no requiere una preparación tremenda por parte del espectador, pero al mismo tiempo no es solo una explicación número cien mil de "cómo funcionan las redes neuronales". Este parece ser un formato "entretenido" (es poco probable que lo que escuche inmediatamente afecte su proyecto de trabajo), pero a la larga, todo esto puede ser no solo muy interesante, sino también útil. En general, no es de extrañar que hayamos invitado a Ivan a participar en el próximo SmartData 2018.




De clic para pronosticar y viceversa: tuberías de Data Science en Odnoklassniki


Ponente: Dmitry Bugaychenko
Lugar: 2
Valoración: 4.36 ± 0.08
El número de espectadores: ~ 140
Presentación del informe

Y aquí es todo lo contrario. En primer lugar, este no es un "lo que el aprendizaje automático puede darnos" en general, sino los detalles de "exactamente cómo implementamos todo". Y el informe no se trata de ML en sí mismo (la personalización de una fuente de noticias se da simplemente como un ejemplo), sino de todo lo relacionado: "lo que hay que hacer para que todo este trabajo de belleza ML". En general, si un discurso de Yamshchikov puede incluso interesar a una audiencia amplia, entonces será interesante solo personalmente relacionado con el aprendizaje automático, pero pueden soportar mucho por sí mismos.




CatBoost: la próxima generación de aumento de gradiente


Ponente: Anna Veronika Dorogush
Ubicación: 3
Valoración: 4.32 ± 0.12
El número de espectadores: ~ 100
Presentación del informe

Si el aumento de gradiente no es su especialidad, y el tema del informe despertó la sensación de que "probablemente haya matices para aquellos que ya están haciendo esto con poder y fuerza", disipan los temores. El informe es amigable para los principiantes y no se sumerge inmediatamente en la piscina con la cabeza, sino que primero explica las cosas básicas. Y teniendo en cuenta que durante el año pasado, la biblioteca Yandex CatBoost se ha vuelto más hermosa y más popular que la anterior, es útil tener una idea al respecto, incluso si no tiene que lidiar con ella en este momento, y el informe puede ser una buena introducción.




Regreso al futuro del sistema bancario moderno


Ponente: Vladimir Krasilshchik
Ubicación: 4
Valoración: 4.31 ± 0.17
El número de espectadores: ~ 80
Presentación del informe

¿Qué debe hacerse si, debido a la coherencia eventual, los datos de su informe trimestral difieren de los mensuales, y los auditores y reguladores tienen preguntas? Vladimir Krasilshchik explica que la bitemporalidad se convierte en el concepto clave: "cuando sucedió el evento" y "cuando el sistema se enteró", debe trabajar con ambas escalas y demostrarle al probador externo. El informe no se limita a esto, hay mucho más, por ejemplo, ¿creía que en la conferencia de TI escucharía la frase "no hay justicia y no debería intentar crearla"?




El nombre es una característica.


Ponente: Vitaly Khudobakhshov
Ubicación: 5
Valoración: 4.28 ± 0.08
El número de espectadores: ~ 280
Presentación del informe

La presentación más paradójica de la conferencia, que te obliga a rascarte la cabeza con desconcierto. Por un lado, es completamente obvio para cualquier persona racional: no hay razones notables para la correlación del nombre de una persona (si estamos hablando de nombres rusos populares) y si esta persona tendrá una relación. Por otro lado, Vitaly presenta datos que muestran lo contrario. Él mismo no tenía una explicación exacta, pero nadie realmente encontró objeciones convincentes. Puedes intentar buscar por ti mismo.




Sin datos? No hay problema! Aprendizaje profundo en CGI


Ponente: Ivan Drokin
Ubicación: 6
Valoración: 4.26 ± 0.18
El número de espectadores: ~ 40
Presentación del informe

Como sabe, los algoritmos no son suficientes para el aprendizaje profundo: necesitamos datos iniciales para el aprendizaje. Como resultado, un buen conjunto de datos se ha convertido en un recurso valioso. Pero, ¿qué sucede si no lo tiene ahora y no es Google y no puede invertir recursos gigantescos? Resulta que no siempre es necesario tomar datos "reales" del mundo real, y bajo ciertas condiciones se pueden generar literalmente. El informe trata un caso específico de este tipo.




Redes convolucionales profundas para la detección de objetos y la segmentación de imágenes.


Ponente: Sergey Nikolenko
Ubicación: 7
Valoración: 4.24 ± 0.17
El número de espectadores: ~ 80
Presentación del informe

Si todavía está lejos de la máquina / aprendizaje profundo en general, entonces los primeros 20 minutos de este informe pueden ser adecuados: hay una introducción completa al tema con una excursión histórica que comienza en la década de 1950. Y si comprende todo al respecto en su conjunto, pero no comprende el subtema de las redes de convolución profunda, puede omitir la introducción de inmediato y prestar atención a la segunda mitad del informe, donde se dirige a las redes neuronales enrevesadas.




Alta disponibilidad de Hadoop: experiencia Badoo


Ponente: Alexander Krashennikov
Ubicación: 8
Valoración: 4.22 ± 0.14
El número de espectadores: ~ 100
Presentación del informe

Parece que, además del concepto de "big data", los "datos crecientes" también serían útiles, porque el crecimiento dicta sus propios detalles. Una vez que Badoo tenía órdenes de magnitud de datos más pequeñas y un enfoque para ellos, entonces los volúmenes crecieron y se requirieron cambios, y debe tenerse en cuenta que mañana todo puede volverse aún más fuerte, haciendo todo "con un margen".

Las compañías se interesaron en la combinación de "Hadoop" y "en tiempo real", incluso cuando generalmente escribían "incompatible" entre estas dos palabras, y ahora hablaron de su experiencia con Hadoop y de proporcionar alta disponibilidad en su caso. Bono: un poco de creatividad de Vasily Lozhkin en las diapositivas.


Segmentamos 600 millones de usuarios en tiempo real todos los días.


Ponente: Artyom Marinov
Ubicación: 9
Valoración: 4.21 ± 0.09
El número de espectadores: ~ 120
Presentación del informe

Aquí el proyecto es muy diferente de Badoo: no data, sino DMP (plataforma de gestión de datos), donde desea destacar segmentos como "amas de casa con un automóvil de más de cinco años" entre la audiencia. Pero, en primer lugar, también hay una gran escala (alrededor de cien mil eventos por segundo). Y en segundo lugar, aquí debe estar aún más preparado para el crecimiento: "entre las fuentes de datos, la instalación de píxeles, si mañana el sitio súper popular pone su píxel en sí mismo, habrá un flujo enorme que tendrá que ser tratado". ¿Con qué tecnologías se enfrentan y cómo se usan exactamente? Respuestas en el informe.




ML distribuido en big data: experiencia en la construcción de un sistema de recomendación en ivi


Ponente: Boris Schminke
Ubicación: 10
Valoración: 4.21 ± 0.09
El número de espectadores: ~ 100
Presentación del informe

Finalmente, el último informe también es "sobre infraestructura, no algoritmos", y también se basa en la experiencia de un producto grande. Érase una vez, ivi comenzó a implementar recomendaciones utilizando un servicio de terceros que proporcionaba "recomendaciones como servicio". Luego "crecieron" a partir de él y comenzaron a crear su propio sistema. En Habré, la compañía escribió sobre eso en 2014, y del informe puede averiguar sobre el estado actual de las cosas.


Si estos informes son de interés, tenga en cuenta: SmartData 2018 se llevará a cabo este otoño. Los oradores separados de estos 10 principales regresarán con nuevos informes, habrá nombres completamente nuevos. La información más actualizada sobre el programa siempre se puede ver en el sitio web , también puede comprar boletos allí, y su precio aumenta gradualmente, por lo que debe pensar ahora.

Source: https://habr.com/ru/post/es416985/


All Articles