😟 🛰️ 👀 ¿Qué pasará en la conferencia UseData Conf 2019? 👨‍🚀 📐 🧑🏿‍🤝‍🧑🏾

¡Hurra! ¡Hemos completado la formación del programa de conferencias UseData Conf 2019 ! Esta conferencia es para aquellos que resuelven problemas prácticos utilizando métodos de aprendizaje automático. A menudo hay una brecha entre el algoritmo ideal en el vacío y su aplicación en datos reales. Queremos que quienes puedan salvar este abismo se reúnan e intercambien experiencias.

La magia del aprendizaje automático para gerentes, la historia del uso de ML para analizar la efectividad de la publicidad en la televisión, los autos de juguete no tripulados, el aceite y los números de autos son solo algunos de los informes en UseData 2019. Más información sobre estos y otros temas están bajo el gato.

En el programa, hemos formado 5 secciones. Los informes de sección se agrupan según las instrucciones de las tareas que resuelven.

Aprendizaje automático y análisis de datos en el comercio.
Visión por computadora.
Procesamiento de textos en lenguajes naturales.
Sistemas de toma de decisiones.
Marcos y herramientas de aprendizaje automático.

En cada uno de estos temas, se encontró algo interesante.

Aprendizaje automático y análisis de datos en el comercio

El efecto de la publicidad televisiva: evaluación y optimización
Alexandra Lomakin, JOOM

La mitad de mi presupuesto publicitario se desperdicia. El problema es que no sé cuál.

Esta es una cita de John Wanamaker, un empresario estadounidense que abrió la primera tienda por departamentos y aplicó primero las etiquetas de precio. Entendió algo en el comercio.

Joom también pensó en cuánto se desperdició el presupuesto para anuncios de televisión y se dispuso a medir su efectividad ante los datos de los científicos. ¿Cómo entender que el usuario vino de la publicidad en la televisión, qué herramientas rastrear y qué datos se necesitan para esto?

Alexandra ha ido por este camino hasta el final y está lista para compartir las respuestas . Spoiler: El espacio para la optimización es enorme.

Aprendizaje automático para predecir las ventas de la tienda en línea OZON.RU. Optimización de precios con modelos de predicción de demanda.
Alexander Alekseytsev, OZON.RU

OZON.ru es una tienda muy grande con una gran cantidad de productos, logística compleja y precios. El modelo funciona en la reposición de almacenes y el pronóstico de la demanda. Una tienda grande es una gran cantidad de datos sobre los cuales un modelo puede aprender. Por un lado, es bueno, es conveniente hacer pronósticos. Por otro lado, en tal escala, un error se manifiesta rápidamente, si lo hay.

Por ejemplo, un producto no estuvo en stock durante mucho tiempo, y luego apareció y el modelo se equivoca con el pronóstico. Está bien para un producto, pero en OZON.ru hay cientos de tales productos todos los días. Debido a un error, el almacén puede quedarse sin bienes o estará lleno.

Alexander le dirá cómo lidiar con los errores de pronóstico y suministro, y cómo asegurarse contra errores. Su informe no es solo un exitoso estudio de caso de aprendizaje automático, sino también una interesante excursión al área temática. Si crea modelos para pronósticos de ventas, encontrará mucho para usted.

Visión por computadora

En esta sección, hablaremos sobre el reconocimiento del estado. números, problemas de recursos y escuchar un informe científico.

¡512 KB de memoria son suficientes para todos! Identificación de una persona por la cara en un microcontrolador con una cámara.
Alexander Smorkalov, Xperience.ai

Sucede que necesita reconocer rostros en dispositivos computacionalmente débiles que funcionan con batería. Tienen poca memoria, pero no han escuchado nada sobre la GPU. Alexander compartirá la historia de la transferencia exitosa del modelo a dichos dispositivos. La experiencia de transferir modelos a dispositivos no estándar amplía enormemente los horizontes. Las ideas pueden ser útiles en situaciones donde el dispositivo es estándar, pero los recursos consumidos son inaceptables.

Regularización de Wasserstein para el aprendizaje generativo y discriminatorio
Guido Montufar, Instituto Max Planck

Estamos muy contentos de que Vanya Yamshchikov persuadió a su colega Guido para que viniera a nuestra conferencia. Este es el único informe científico en la conferencia, pero la aplicabilidad práctica aún es segura. La lucha consiste en reconocer o generar clases con una gran difusión en el interior, por ejemplo, imágenes. ¿Recuerdas la clásica tarea de los perros-gatos en la que los perros de diferentes razas no son iguales? Entonces, estas diferencias son balbuceos en comparación con lo que sucede.

No soy un experto en este tema, pero me parece que tales tareas obligan a la creación de redes neuronales con una gran cantidad de capas. Esto exacerba el problema de la atenuación de gradiente, y la lucha interminable de armadura y caparazón consume cientos de recursos de recursos informáticos sin rumbo fijo. Los métodos que Guido explora permiten resolver problemas con una gran extensión dentro de cada clase más barato y más rápido.

Cómo encontrar y cerrar el estado. número en la foto del automóvil y evite copiar contenido mediante un ataque de adversarios
Ilya Sergeev, Avito

Érase una vez, trabajé en Yandex, y Y. Maps creó panoramas callejeros, junto con un equipo de visión por computadora. En los panoramas, era necesario cubrir las caras y las placas de los automóviles que accidentalmente cayeron en el marco. No había soluciones listas para esto, tuve que verlo nosotros mismos.

En Avito, para una tarea similar, también tomaron su decisión. En 2019, esta tarea ya no se ve emocionante. Parece que ahora cualquiera puede aprender a cerrar el estado. número por hora en la rodilla. Pero solo parece ser así. Resultó que para algunas compañías es más fácil copiar imágenes de Avito, reemplazando la marca en la imagen por la suya, porque es más fácil detectarlo que el número. Avito tuvo que hacer esfuerzos especiales para sacar a los ladrones de contenido a la luz.

Partes de esta historia ya se han publicado en Habré, pero en nuestra conferencia Ilya lo presentará completamente en forma de una historia, no un artículo.

Cómo las redes neuronales pueden ayudar a construir una imagen de lo que está sucediendo bajo tierra y determinar dónde buscar petróleo
Darima Mylzenova, Gazprom Neft

¿Quién en la infancia resolvió un problema modelo de la visión por computadora sobre el reconocimiento de números escritos a mano? ¿Quién escribió los números en un pedazo de papel, lo escaneó y verificó que vio el modelo (nada)? Las personas experimentan aproximadamente el mismo sentimiento cuando se enfrentan a tareas del mundo real.

Realmente amamos las tareas del sector real, porque la diferencia entre los datos sobre los que las personas están acostumbradas a aprender y los datos de la vida es claramente visible en ellos: inexactos, con errores y limitaciones, con diferentes resoluciones, con espacios. Darima contará no solo sobre lo que los modelos de redes neuronales son capaces de hacer en el campo de análisis del interior de la Tierra, sino también sobre cuánto aún no saben cómo, pero les gustaría saber.

Procesamiento de lenguaje natural

¿Puede una máquina entender chistes y chistes? ¿Cómo enseñar a un modelo a entender nombres extraños? ¿Y reconocer el código?

Busque anomalías en los datos personales con el ejemplo de un nombre completo
George Shushuev, CFT

Algunos usuarios apenas escriben su nombre en ruso, y sus nombres son inusuales. Butnaru de Iuria, Sashka Sedlay Konya Neatly, Eyide Lucky, Pulotov Aslam Akhmat Zhon Ugli, Bebalau IonNo, ya cansé a Ilyasovich, ¿qué nombre es? Hay nombres en este conjunto de letras, pero pensaste, ¿verdad? Aquí surge la dificultad: enseñar al modelo a reconocer nombres, incluso si una persona no siempre tiene éxito.

Nos encantan las historias sobre el aprendizaje exitoso sin un maestro, y esta es solo una de ellas. George hablará sobre la evolución del detector de anomalías en los datos personales desde el modelo de Markov a la red neuronal y compartirá trucos de la vida de desarrollar tales detectores para conjuntos de texto cortos.

Aprendizaje automático para código
Egor Bulychev, fuente {d}

Este es un resumen de los últimos desarrollos en el campo del trabajo con código. ¿Cómo encontrar repositorios similares en las tareas? ¿Cómo encontrar un desarrollador con experiencia similar en GitHub? ¿Cómo formalizar esta similitud? ¿Y cómo optimizar todo para trabajar con todos los GitHub a la vez? Egor se dedica exactamente a estas tareas y compartirá su experiencia.

¿Es posible enseñarle a un automóvil sentido del humor?
Vladislav Blinov, Valeria Baranova, Tinkoff

Vladislav y Valeria le enseñan al auto a entender chistes en ruso. ¿No es eso perfecto? No hay nada de qué hablar, solo hay que venir y escuchar .

Desde un punto de vista práctico, todo es lo que amamos: casi no hay conjuntos de datos marcados, no hay agua, no hay vegetación, está habitada por robots. Trabajo serio sobre un tema divertido.

Cómo implementar una búsqueda semántica rápida y efectiva en su proyecto basada en clickstream, transformadores y búsqueda aproximada (ANNS)
Vladimir Bugay, Knoema

¿Cómo hacer una búsqueda normal en una situación donde hay muchos números y un pequeño texto? Knoema es un agregador de datos analíticos, que casi todos tienen la forma de series de tiempo. Si por alguna razón desea conocer las últimas estimaciones de las reservas petroleras venezolanas o el volumen de producción de diamantes en el Congo, este es el lugar con los últimos datos. La única pregunta es cómo encontrarlos.

Algunos datos están contenidos en la base de datos directamente, algunos son computables. Para buscar bien, debe construir un modelo de la relación entre los datos. Ahora ya es un modelo de red neuronal basado en USE. Vladimir hablará sobre varios pasos importantes en el desarrollo de una búsqueda utilizando datos no estándar: cómo reunir de forma relativamente rápida dicha búsqueda a partir de componentes prefabricados, cómo reentrenarla utilizando su información adicional, por ejemplo, clics, cómo reducir el tamaño del índice y optimizar otros cuellos de botella.

Sistemas de toma de decisiones.

Arquitecturas modernas de redes neuronales / versión año 2019
Grigory Sapunov, Intento

Gregory, al parecer, no necesita presentación. Es cofundador de Intento, orador habitual y líder de sección en conferencias de aprendizaje automático, una persona que observa y mueve la industria. Una de las últimas vestimentas de las que aún no todos han oído hablar es la inclusión de Google Developer Expert en la categoría de Machine Learning en la lista. Al momento de escribir este artículo, solo hay 109 personas en la lista, y solo una de ellas es de Rusia. Grisha, felicidades!

Este es exactamente el nivel de experiencia en el que puede hacer una revisión interesante de nuevos productos en el mundo de las redes neuronales en los últimos años. ¿Qué nuevas tareas aprendió a resolver la red? ¿Qué tuviste que hacer para esto? ¿En qué direcciones estamos esperando los próximos avances?

Qué es bueno y qué es malo: métricas para sistemas de recomendación
Irina Pchelintseva, Yandex

¿Cómo medir la efectividad de un sistema de recomendación para películas? Predecir qué calificación dará un espectador en particular a una película en particular, y ofrezca verla solo si la calificación es alta. Pero hay matices.

La mayoría seguramente dirá que The Godfather o Schindler's List son buenas películas, incluso si él mismo no las ha visto. Pero imagina cómo vuelves del trabajo. El día fue duro: el proyecto no se pega, el jefe se comió todo el cerebro y mañana será lo mismo. En este estado, es poco probable que quiera ver una película inteligente y profunda, y una estúpida película de acción, para quien el precio rojo es seis de diez, bajará. Por lo tanto, el sistema de recomendaciones debería ofrecer lo que usted mira , y no lo que es habitual elogiar .

Este es solo uno de los lados inesperados de la tarea, y hay muchos de esos lados. Para conocerlos, ve al discurso de Irina.

Desarrollo e implementación de agentes inteligentes.
Andrey Ivanov, Tinkoff

Un agente inteligente es parte de un sistema que resuelve una tarea intelectual para una persona. El agente es desarrollado por un especialista en aprendizaje automático, algunas tareas de las cuales el agente se hará cargo. Por ejemplo, para un banco, este es un sistema de recomendación que puede ofrecer un préstamo, depósito, tarjeta u otro producto, dependiendo de lo que se sepa sobre el usuario.

Andrei tiene una presentación muy práctica: cómo se utilizan los agentes intelectuales en Tinkoff (por ejemplo, "historias"), qué dificultades surgen en su desarrollo y qué herramientas ayudan en esto.

Predicción de incidentes de perforación
Ivan Isaev, Altarix

Una vez más sobre el sector real y el petróleo. Ivan contará una buena historia práctica sobre cómo obtener un poco de información del cliente, hacer un modelo útil basado en él, obtener más información después de eso y obtener un resultado decente.

Aprendizaje automático basado en algoritmos de conducción de automóviles autónomos
Saloni garg

Esta historia no es lo que parece. Saloni pasó a resolver problemas, cuya existencia desconocemos la mayoría de nosotros.

En una región pobre, el combustible para un autobús es un recurso valioso. Los conductores lo guardan con la ayuda de muchas técnicas increíbles: no encienden los faros, conducen en neutrales y no siguen la línea. ¿Cómo, bajo tales condiciones, obligarlo a conducir con seguridad?

No hay mucho dinero, por lo que el hardware para resolver el problema es el más primitivo, la mayoría de las estimaciones deben construirse localmente, el video de la cámara al servidor no se puede transferir. Cómo trabajar en tales condiciones, y le dice a Saloni Garg.

Marcos y herramientas de aprendizaje automático

Agregar control de datos a la tubería de ML
Artyom Seleznev, megáfono

Usted espera de MegaFon sistemas de recomendación con nuevos servicios y tarifas, o historias sobre Elena. Pero no, esta vez Artyom contará sobre la experiencia de implementar la herramienta DVC y las campanas y silbatos adicionales que se hicieron sobre ella. Las campanas y silbatos son interesantes y no triviales. Si estás a favor de la reproducibilidad de los experimentos de aprendizaje automático, ven a la charla.

AWS DeepRacer: aprendiendo los desafíos a través del juego
Alexander Patrushev, AWS

Es cierto que sería interesante entrenar a un modelo para competir en un automóvil no tripulado. Y sin embargo, para romper con un mínimo de autos. Idealmente, quiero tener un entorno virtual cercano a la realidad, en el que atrapar la mayoría de los errores. Una opción para dicho entorno es el uso de modelos. Los autos de juguete, en una escala de 1 a 18, se utilizan para entrenar algoritmos. Alexander compartirá la historia de la creación de AWS DeepRacer y las dificultades que surgen al desarrollar un entorno de aprendizaje virtual y al transferir un modelo a un equipo real.

Informe de gestión fuera de sección

Project Management 2.0: Transformación AI
Eduard Tyantov, Grupo Mail.ru

El mundo está cambiando y los modelos de ML están penetrando cada vez más en nuestros productos, y a veces se convierten en su parte central. ¿Alguna vez has tenido el enojado "¿Por qué?" de las autoridades, culpables de responder "Bueno, el modelo está tan ajustado ..."? Los jefes, que crecieron en las prácticas de desarrollo de software a fines del siglo pasado, a menudo no entienden qué esperar del aprendizaje automático y cuál es el precio de esta magia.

Edward en su informe analizará el problema desde el liderazgo del equipo y el producto. ¿Qué cambios en el ciclo de desarrollo, en el establecimiento de tareas, en el control de calidad? Es solo esa persona que puede decir mucho sobre esto, ya que durante muchos años ha llevado a cabo con éxito proyectos basados en aprendizaje automático en Mail.ru. El proyecto más famoso, en mi opinión, es Artisto, una aplicación de diseño de video.

Bonus track

Y también tendremos un taller práctico de tres horas de Yandex sobre la recopilación de datos usando Yandex.Tolki! Será dirigido por personas que desarrollan el Toloka y aquellos que lo usan de manera continua: Alexei Druta y Olga Megorskaya.

Obtendrá una idea general de cómo funcionan los mecanismos de crowdsourcing como Toloka o Mechanical Turk. Luego, puede elegir una de las varias tareas propuestas para marcar datos, crear una tarea para los ladrones, preparar tareas de prueba y "trampas" para los tramposos. Al final, intentará determinar las estimaciones verdaderas a partir del marcado resultante y los tokers sospechosos utilizando los algoritmos que ofrece el sistema.

El taller será útil para aquellos que pensaron en recopilar datos a través de Toloka, pero no se atrevieron por el peligro de gastar todo el presupuesto sin preparación.

Para cruzar la brecha entre los algoritmos en el vacío y los reales, estamos esperando el 16 de septiembre. Todo un día de informes, reuniones, comunicación, aprendizaje automático y estudios de casos: ¡belleza! El próximo y último aumento de precios para UseData Conf 2019 ya es el 9 de septiembre, así que reserve sus boletos ahora para fijar el precio. ¡Nos vemos en el Infraespacio!

¿Qué pasará en la conferencia UseData Conf 2019?

Aprendizaje automático y análisis de datos en el comercio

El efecto de la publicidad televisiva: evaluación y optimizaciónAlexandra Lomakin, JOOM

Aprendizaje automático para predecir las ventas de la tienda en línea OZON.RU. Optimización de precios con modelos de predicción de demanda.Alexander Alekseytsev, OZON.RU

Visión por computadora

¡512 KB de memoria son suficientes para todos! Identificación de una persona por la cara en un microcontrolador con una cámara.Alexander Smorkalov, Xperience.ai

Regularización de Wasserstein para el aprendizaje generativo y discriminatorioGuido Montufar, Instituto Max Planck

Cómo encontrar y cerrar el estado. número en la foto del automóvil y evite copiar contenido mediante un ataque de adversariosIlya Sergeev, Avito

Cómo las redes neuronales pueden ayudar a construir una imagen de lo que está sucediendo bajo tierra y determinar dónde buscar petróleoDarima Mylzenova, Gazprom Neft

Procesamiento de lenguaje natural

Busque anomalías en los datos personales con el ejemplo de un nombre completoGeorge Shushuev, CFT

Aprendizaje automático para códigoEgor Bulychev, fuente {d}

¿Es posible enseñarle a un automóvil sentido del humor?Vladislav Blinov, Valeria Baranova, Tinkoff

Cómo implementar una búsqueda semántica rápida y efectiva en su proyecto basada en clickstream, transformadores y búsqueda aproximada (ANNS)Vladimir Bugay, Knoema