A menudo hay una brecha entre el algoritmo de aprendizaje automático ideal en el vacío y su aplicación en datos reales. Parece estar tomando un artículo: hay un algoritmo, hay convergencia para datos de este o de ese tipo, tómalo y aplícalo. Pero por alguna razón resulta que sus datos no son suficientes para el entrenamiento, y difieren del modelo del artículo, porque los reales no son sintéticos.
Lo habitual al justificar el algoritmo es hacer suposiciones sobre la pureza de los datos y su distribución, que no encontrará en la vida real. Por ejemplo, el autor de un artículo está experimentando con fotografías de celebridades adultas, y todo es notablemente reconocido y clasificado con él, y en nuestro ejemplo real también hay niños y personajes de dibujos animados, y de repente todo se rompe en ellos. Pero hay personas que pueden hacer frente a esto, tanto es así que la brecha entre la teoría y la práctica deja de parecer inexpugnable, y vale la pena mostrar cómo se encuentran de inmediato a otros que quieren superarlo.

Ya hemos visto estos casos en HighLoad ++, pero allí estaban informes separados, además, cercanos a las tareas de garantizar el trabajo con cargas elevadas. Por lo tanto, ahora queremos armar una conferencia separada para aquellos que resuelven problemas prácticos utilizando métodos de aprendizaje automático. Y abordar su planificación es muy simple: queremos hacer una conferencia sobre aprendizaje automático y análisis de datos
que a nosotros mismos nos gustaría .
Estoy de acuerdo, parece ingenuo, pero ¿no es "como para ti" no es la mejor motivación? Además, tenemos una gran experiencia en la organización de conferencias y parece que tenemos una buena idea de lo bien que debería ser.
Por supuesto, puede tener su propia opinión, así que le diré exactamente qué y cómo planeamos discutir en
UseData Conf el 16 de septiembre .
Ontiko y
yo celebramos conferencias de ingeniería donde los practicantes tocan el primer violín. Para todas las conferencias:
HighLoad ++ (las tres instancias), Moscow Python Conf ++, PHP Rusia y muchas otras, encontramos personas que están haciendo algo útil utilizando tecnologías relacionadas con el tema de la conferencia y están listas para compartirlo.
En los últimos años, he estado ayudando a los oradores a prepararse para los discursos, por lo que tengo la habilidad de hacer las preguntas correctas. Como sacar a la superficie lo que solo se puede aprender del hablante. Para que el informe no contenga solo una receta (tomamos videos de las cámaras durante la semana pasada, los capacitamos en una red de extremo a extremo y todo funciona), sino todos los puntos clave que condujeron al resultado final. Si sabe lo que intentó, lo que entró, lo que no salió y, por lo tanto, resultó resolver el problema, entonces puede sacar sus propias conclusiones y considerar tal solución o no.
No hay conferencias de aprendizaje automático que se construyan sobre este principio en este momento. Hay conferencias académicas grandes y demasiado en las que los profesionales representan una fracción relativamente pequeña de todos los informes y son adyacentes a resultados puramente científicos y materiales de capacitación para principiantes. Además, hay un grupo completo de conferencias sobre inteligencia artificial. Por lo general, tienen demasiada publicidad y muy poco, realmente algo funciona, tratamos de evitarlos.
Es fácil distinguir uno del otro: si se hace en Python, entonces esto es aprendizaje automático, y si en PowerPoint es inteligencia artificial. Estamos interesados en lo que existe no solo en PowerPoint.
UseData Conf en secciones
Basado en la idea de que cada presentación en nuestra conferencia debe contener la experiencia de la producción real, seleccionamos varios bloques de temas que queremos divulgar. Esto no significa que no seremos felices y no aceptaremos aplicaciones que no encajen en estos bloques, solo que esto es exactamente lo que se transmite de profesionales a profesionales.
Aprendizaje automático y análisis de datos en tareas comerciales . Todo lo relacionado con el pronóstico de la demanda, el pronóstico de adquisiciones, las recomendaciones y el cálculo de los descuentos individuales. Aquí, las historias serán relevantes, ya que los métodos de ML ayudan a desarrollar mejor un negocio y aumentar las ganancias en el comercio electrónico.
Visión por computadora . Si le ha enseñado al robot a tomar ciertas partes del transportador, taladre agujeros y vuelva a colocarlo; esto es de lo que debe hablar en esta sección. Después de todo, los detalles pueden ser diferentes, pueden estar dispersos en una cinta transportadora, puede que no haya una sola pieza terminada para la capacitación, sino solo un modelo CAD y muchos otros factores que distinguen una tarea académica ideal con un transportador estéril de lo que realmente está sucediendo. .
Procesamiento de textos en lenguajes naturales . Cuéntenos sobre el uso de PNL en tareas no estándar o muestre por qué los métodos existentes no se ajustaban y tuvo que desarrollar su propio enfoque. La traducción automática y los asistentes de voz son los primeros candidatos para esta sección.
Sistemas de toma de decisiones . Esta no es solo la tarea de diagnosticar enfermedades, sino también cualquier sistema en el que una persona confíe en sus decisiones sobre las opciones propuestas por el algoritmo, hasta e incluyendo la defensa antimisiles. Si no se necesita una persona, por ejemplo, el sistema mismo designa a un conductor para que lo ordene en un taxi (a menos que, por supuesto, la generación de la solución no se limite al algoritmo codicioso), entonces esto es aún mejor.
Marcos y herramientas de aprendizaje automático . Para ampliar este tema, nos gustaría invitar a los desarrolladores de los marcos directamente. Tomamos este enfoque en HighLoad ++, para aprender sobre las complejidades de las herramientas de los desarrolladores de herramientas, y tratamos de implementarlo en UseData Conf. Por lo tanto, si solo está desarrollando CatBoost, XGBoost, TensorFlow, PyTorch, LightGBM, Keras,
escríbanos . Si está seguro de conocer el marco popular que muchos científicos de datos no conocen, y esto les facilitaría la vida, también estamos esperando una solicitud para un informe.
Los concursos de aprendizaje automático se dividen en dos bloques: la técnica de realización de concursos de aprendizaje automático, así como la estrategia sobre cómo ganarlos. Aunque los concursos como Kaggle son más una herramienta de reclutamiento que una herramienta para resolver problemas reales, algunos aspectos serán útiles para los profesionales. Al final, con la ayuda de concursos, puedes cambiar de trabajo con éxito, también es bueno.
Pruebas, monitoreo, interpretación, preparación de datos . Entendemos que los modelos entrenados en máquina tienden a fallar. Muchas personas están familiarizadas con la situación cuando se entrenaron, se lanzaron a la producción y, literalmente, un mes después, el algoritmo produce resultados indeseables. Debe poder notar a tiempo que el modelo no está funcionando y volver a entrenarlo a tiempo. Si algo salió mal, es importante poder interpretar los resultados, y debe poder preparar los datos. La totalidad de la solución a estos problemas particulares permite el uso de ML en la batalla.
Llamada para papeles
Si reconoció sus tareas laborales en cualquiera de estos temas y cree que su experiencia puede ayudar a alguien,
solicite un informe. Si el aprendizaje automático es parte de sus tareas diarias, pero lo duda, entonces hay una manera confiable de entender si el tema es adecuado: escriba al Comité del Programa y aclararemos los detalles y lo ayudaremos a hacer que el informe sea útil.
Sin embargo, hay una recomendación general. Si tiene una tarea tan específica que solo los gigantes de la industria resuelven, o viceversa, una startup pequeña pero muy especializada, y a primera vista parece que esta experiencia no será útil para otras personas, esto no es del todo cierto. Debido a que rara vez es posible tomar y repetir la decisión de alguien de todos modos, si hablamos de casos complejos, pero tener la idea de probar un enfoque diferente, ir desde el otro lado, es posible con una experiencia muy diferente.
Además,
siempre se puede pasar de un problema particular a un enfoque general . Por ejemplo, si estamos hablando de filtrar tráfico de red anormal (gracias al espectador de Moscú, Pavel, que hizo una pregunta en la reunión de Zoom con el comité del programa), surge un problema similar con una muestra de capacitación heterogénea y un pequeño porcentaje de anomalías en diferentes áreas, y se pueden sugerir generalizaciones.
Lo más valioso en el informe aplicado, en nuestra opinión, es el
camino hacia la solución, y no la solución en sí . Cuando tomaron los métodos de la biblioteca y todo está listo, es, por supuesto, muy bueno, pero es de poca utilidad. Es más interesante cuando intentaron esto, el otro, encontró limitaciones, se topó con un rastrillo, inventó algo y hablan de ello.
Por otro lado, si resuelve los problemas que la industria asocia con el aprendizaje automático sin el aprendizaje automático, puede mostrar cómo es rentable, y aún mejor, dar una receta cuando pueda seguir su ejemplo; esto es excelente, necesitamos ese informe.
Call For Papers está abierto hasta el 16 de julio, el 16 de agosto intentaremos formular el programa completo y el 16 de septiembre, la conferencia UseData Conf se llevará a cabo en Infospace.
Presentar un informe es simple: necesita un tema aproximado y tesis para 2-3 párrafos, la solicitud puede complementarse con una apelación al comité del programa, en el que los detalles no se divulgan para su publicación. Es mejor presentar varios informes que ninguno, entonces tendremos más comida para preguntas.
Ya en el programa
No esperamos la aceptación de los informes para comenzar a seleccionar informes en el programa. Por lo tanto, en primer lugar, no arrastre las aplicaciones si no desea aumentar la competencia entre los oradores después de la fecha límite. En segundo lugar, puede planear asistir a la conferencia como oyente.

La primera sección sobre el uso comercial de ML ya ha adoptado dos informes.
Alexander Alekseytsev hablará sobre el uso del aprendizaje automático para predecir las ventas de la tienda en línea OZON.RU. Presentará un enfoque para la optimización de precios utilizando modelos de predicción de demanda, mostrará cómo aplicar la teoría de probabilidad en el proceso de reabastecimiento de un almacén y describirá el ciclo de desarrollo de soluciones ML para la producción.
La primera versión se presentó en HighLoad ++ y causó un gran interés.
Joom
Alexandra Lomakina le dirá cómo resolver con éxito el problema de optimizar la publicidad televisiva. La tarea es muy interesante, ya que es un placer costoso que casi no proporciona comentarios: no contará el CTR. Pero aún puede medir algo, pero descubriremos cómo y cómo usarlo más adelante en septiembre.

En el tema de la visión por computadora, hasta ahora solo hemos adoptado un pequeño
informe académico
de Guido Montufar . Guido planea hablar sobre un enfoque para regularizar modelos que sea robusto con respecto a los datos de entrada, y esperamos obtener más práctica de ellos.
Además, aceptamos a
Grigory Sapunov en el programa con un
informe sobre los últimos desarrollos en la arquitectura de redes neuronales. Y este es el caso raro cuando un informe de revisión es apropiado, porque Gregory definitivamente lo completará con consejos prácticos basados en su colosal experiencia.

También acordamos con
Eduard Tyantov un
informe sobre la gestión de proyectos de aprendizaje automático. Especialmente para él, comenzamos la sección "Otro", porque este tema nos parece muy necesario. Si alguien puede decirle cuáles son los detalles de los proyectos con mucho aprendizaje automático, cómo desarrollar un producto y liderarlo en la producción, cómo venderlo a personas y desarrolladores, entonces probablemente este sea Edward con el backend del lanzamiento de Artisto y la administración de los grupos antispam y de aprendizaje automático en Mail .ru.
Llamada para ideas
Si lees hasta aquí, en primer lugar, gracias, te estamos esperando en la conferencia. En segundo lugar, si algo no fuera suficiente, escriba los comentarios. Díganos qué temas son más relevantes para usted personalmente, dígame qué tipo de informe necesita, qué enfoque simplemente no puede perderse (en ningún sentido y qué omitir en el programa). ¿Cuáles son los nombres que le gustaría escuchar en una conferencia de este tipo? Es muy probable que ya hayamos contactado a este especialista, pero si no, definitivamente lo haremos. Hay las mismas personas en el Comité del Programa: tenemos mucha experiencia, pero aún podríamos olvidar algo.
UseData Conf es una conferencia para quienes resuelven problemas prácticos utilizando métodos de aprendizaje automático. Envíe informes, regístrese y nos vemos el 16 de septiembre.