Encuentro FunTech ML



FunCorp recientemente se involucró en la hermosa experiencia de aprendizaje automático. Nuestro ingeniero de backend enseñó a los motores de búsqueda a leer memes. En esta ocasión, decidimos recolectar ML-mitap para compartir nuestras mejores prácticas y, al mismo tiempo, aprender de especialistas más experimentados de otras compañías, donde el aprendizaje automático ya es una parte importante del negocio. Decidimos coleccionar - coleccionar. Pasaremos el 9 de febrero. El programa está bajo el corte.

El programa


"Descubra la experiencia de lanzamiento para 90 millones de usuarios: cinco recomendaciones para desarrolladores de ML", Andrey Zakonov, vk.com


Sobre el informe


  • No solo el modelo es importante: formulamos los problemas correctamente y elegimos las métricas.
  • Diferentes formas de optimizar sus soluciones para la carga.
  • Evaluamos correctamente los experimentos: estudiamos gráficos y trabajamos con comentarios.


"Producción en ML", Mark Andreev, Conundrum.ai


Sobre el informe


El informe incluirá:
  • acerca de los tipos de predicciones: en tiempo real, sin conexión, en tiempo real + sin conexión
  • Cómo pasar de un prototipo en un Jupyter Notebook a un contenedor
  • sobre decisiones de escala y sobre control de calidad.


"Cómo enseñar a los motores de búsqueda a leer memes", Grigory Kuzovnikov, FunCorp


Sobre el informe


iFunny es una aplicación con fotos y videos divertidos. El único contenido textual que son los comentarios de los usuarios, pero para atraer tráfico de los motores de búsqueda, no es suficiente, por lo que se decidió extraer el texto de las imágenes y colocarlo en las páginas. Especialmente para esto, se creó un servicio que:

  • encuentra el área que contiene el "chiste principal" en la imagen
  • extrae texto de esta área
  • comprueba la calidad del texto reconocido.

El servicio está escrito en Python usando tensorflow. Nadie en el equipo tenía experiencia en el desarrollo de servicios de ML, por lo que pasamos por todas las etapas:

  1. Declaración de la tarea.
  2. Los primeros experimentos cuando intentamos hacer algo que al menos de alguna manera funciona, experimentar con la arquitectura de las redes neuronales.
  3. Elaboración de una muestra de entrenamiento.
  4. Formación y selección de coeficientes modelo.
  5. Crear un servicio utilizando nuestro modelo entrenado. Envolviéndolo en un contenedor acoplable.
  6. Implementación y servicio vinculante a nuestro monolito php. Inicio único
  7. Los primeros resultados de trabajo y comentarios de alquileres.
  8. Usando resultados de reconocimiento en la batalla.
  9. Análisis de los resultados.
  10. Estamos aqui ahora. Todavía tenemos que rehacer y volver a entrenar los modelos para aumentar el número de memes reconocidos correctamente.


Aprendizaje automático en Yandex.Taxi, Roman Khalkachev, Yandex.Taxi


Sobre el informe


El informe discutirá el dispositivo Yandex.Taxi.

Habrá una historia detallada:
  • sobre las tareas que resolvemos utilizando análisis de datos y tecnologías de aprendizaje automático
  • sobre nuestra línea de ensamblaje para el desarrollo, prueba y lanzamiento de modelos de aprendizaje automático en producción
  • repasemos todas las etapas: desde los experimentos en el Jupyter Notebook hasta la producción completa de ML.


"Deshacerse de la maldición Sklearn: escribir XGBoost desde cero", Artyom Hapkin, Mail.ru Group


Sobre el informe


Una historia sobre el impulso. Lo que necesitas saber para escribirlo tú mismo. Cuáles son las trampas, cómo mejorar su trabajo.

En la actualidad, es difícil imaginar un lugar donde no se usen algoritmos de conjunto para impulsar los árboles de decisión. Estos son motores de búsqueda, algoritmos de clasificación de recomendaciones, concursos de Kaggle y muchos más.

Hay muchas implementaciones listas para usar del algoritmo: Catboost, Lightgbm, Xgboost y más. Sin embargo, hay momentos en que el uso de soluciones listas para usar no es muy bueno: se pierde la comprensión del algoritmo y, para ciertas tareas, tales implementaciones no son muy adecuadas, etc.

En este informe, analizaremos los principios del algoritmo y, al pasar de lo simple a lo complejo, implementaremos nuestro propio algoritmo Xgboosting, que luego se puede ajustar para cualquier tarea de aprendizaje automático: clasificación, regresión, clasificación, etc.

Más información en Telegram
Puede registrarse en Timepad . El número de plazas es limitado.

Para aquellos que no pueden venir o no tienen tiempo para registrarse, se transmitirá una transmisión en nuestro canal .

Source: https://habr.com/ru/post/es436900/


All Articles