oktech Data Sense # 3: mini entrevista para oradores



El proyecto aproximadamente Tech Data Tolk nació como una plataforma de discusión para especialistas involucrados en el procesamiento y análisis de big data. Cada vez enfatizamos que la tarea principal de nuestras reuniones no son los informes, aunque también son muy importantes, sino una discusión abierta de la audiencia con los oradores, durante la cual los participantes tienen tiempo para discutir cualquier tema dentro del alcance del evento. Creemos que en esta situación, cuando el número de problemas y problemas no resueltos en el campo de la ciencia de datos está creciendo rápidamente, un diálogo abierto es muy importante.

Llevamos a cabo 2 reuniones, en la primera discutimos las ventajas y desventajas de los diferentes enfoques para el almacenamiento de datos y cómo estos enfoques afectan el trabajo de diferentes equipos, y también tocamos la evolución de los almacenes de datos. La segunda reunión se dedicó a la educación en Data Science, representantes de diferentes opiniones se reunieron en el sitio, los oradores hablaron sobre la importancia de la educación universitaria, la variedad de cursos en línea y sus características, así como las habilidades que necesita tener para convertirse en un centro de datos genial y solicitado.

En previsión de la tercera reunión , que se celebrará el 6 de noviembre en Moscú y se dedicará a los sistemas de recomendación, hablamos con los oradores sobre su camino hacia el desarrollo de sistemas de recomendación, sobre cómo ven su futuro en esta dirección y les pedimos que recomienden qué se debe hacer ahora para que el conocimiento y las habilidades siguieron siendo relevantes incluso después de algunos años. También les preguntamos de qué hablarán en la reunión y por qué vale la pena asistir a este evento.

Regístrese para explorar los datos # 3

¿Cuéntame un poco sobre ti?


Andrey Kuznetsov, compañeros de clase
Hola, soy ingeniero de telecomunicaciones por capacitación. Después de la graduación, fue a escribir una disertación y al mismo tiempo enseñó. En algún momento, me pareció que en el viejo lugar hice todo lo que quería y fui a trabajar en Data Science. He estado tratando con recomendaciones en la empresa no hace mucho tiempo, pero adquirí la experiencia principal en esta área de cursos en línea y DS competitivo.

Vladislav Grozin, Joom
Ingresó al mundo de los sistemas de recomendación en la punta de Alexei Natekin, de quien estudió en DataMining Lab. Tenía poco conocimiento de lo que iba a hacer, pero al final fui mucho mejor que escribir controladores de red para Linux en un laboratorio universitario (lo que hice antes).

Evgeny Frolov, SkolTech
Mi viaje a los sistemas de recomendación comenzó de manera bastante simple. En 2014, era estudiante de Skoltech, buscando oportunidades para hacer investigación aplicada en áreas de aprendizaje automático que me interesan. Quería exactamente algo relacionado con asistentes intelectuales. Justo en ese momento, mi futuro supervisor, Ivan Oseledets, anunció un nuevo proyecto con una oficina alemana interesada en investigar la aplicabilidad de métodos matemáticos avanzados para sistemas de recomendación. Las estrellas se unieron, así que comencé a hacer mi Ph.D.

¿Cuéntame sobre tu primer lanzamiento en producción?


Andrey Kuznetsov, compañeros de clase
El primer lanzamiento en producción estuvo relacionado con las recomendaciones de los grupos en OK y, por supuesto, fue una experiencia emocionante. Pero la presencia de colegas experimentados y herramientas y procesos depurados en el equipo simplifica enormemente la vida. La hipótesis, por cierto, funcionó y la tubería se puso a prueba, pero después de 3 meses lo reemplazamos con una solución más efectiva.

Vladislav Grozin, Joom
El primer modelo, que lancé en el producto, no se trataba realmente de las recomendaciones, sino de la búsqueda. Recuerdo perfectamente el momento en que el tráfico en vivo se derramó sobre él. El tráfico era pequeño, cada segundo o dos llegaba la solicitud de un usuario, creando otra línea en la pantalla (miré los registros). Fue emocionante: era responsable tanto del modelo como de la infraestructura que lo rodeaba, y esperaba que algo se rompiera y requiriera una intervención urgente. Pero todo salió bien, y después de unos quince minutos me tranquilicé y fui a tomar un café.

Evgeny Frolov, SkolTech
En producción, personalmente no lancé modelos. "Soy un investigador". Mis tareas hasta ahora están relacionadas principalmente con el desarrollo de nuevos enfoques y métodos y no van más allá de la implementación de prototipos.

¿Qué crees que es más importante: algoritmos geniales o comprensión del dominio?


Andrey Kuznetsov, compañeros de clase
En el ámbito de las recomendaciones, al parecer, estas son dos ballenas iguales en las que se llevan a cabo todos los grandes proyectos. Conocer los detalles de los datos en sí mismos, cómo se recopilan y cómo funciona el sistema (especialmente bajo cargas comparables a las nuestras) ayuda mucho a evaluar de antemano si este o aquel algoritmo funcionará y si vale la pena el tiempo para gastarlo. Bueno, debe conocer los algoritmos y las herramientas que los implementan para poder probarlos rápidamente en su tarea y desplegar alguna prueba de concepto para las pruebas A / B.

Vladislav Grozin, Joom
Es importante tomar el algoritmo más genial que se adapte a la tarea y los límites de tiempo para el desarrollo y los recursos, y no tenga miedo de lanzarlo en el producto.

Evgeny Frolov, SkolTech
Si estamos hablando específicamente sobre el campo de los sistemas de recomendación, entonces, como lo demuestra la práctica (y no sin interrupción de la investigación), la comprensión del área temática es más importante. Existe una opinión tan establecida con la que estoy más de acuerdo en que los algoritmos representan el 5% del éxito de un sistema de recomendación. Ahora, el área ya ha alcanzado la etapa de desarrollo de que es bastante fácil encontrar una biblioteca conveniente o un paquete de software, ponerlo en producción y comenzar a obtener ganancias. Sí, puede ser que la elección no sea óptima, pero para empezar esto será suficiente y le permitirá concentrarse en tareas comerciales importantes.

¿En qué nuevas áreas se aplicarán los sistemas de recomendación?


Andrey Kuznetsov, compañeros de clase
El futuro más ambicioso, en mi opinión, espera sistemas de recomendación en educación, cuando el sistema educativo en sí (especialmente el ruso) está listo para esto :). De hecho, de hecho, ya estamos bastante mimados por las recomendaciones comerciales, pero tener algo de "orientación profesional sobre los esteroides" vale mucho.

Vladislav Grozin, Joom
Parece que pronto se incorporarán sistemas de recomendación en la policía robótica para darles recomendaciones sobre la relevancia de la aplicación de métodos de impacto físico a los sujetos del estado de derecho con miras a una moralización constructiva.

Evgeny Frolov, SkolTech
Los métodos de los sistemas de recomendación se pueden usar para resolver muchos problemas donde hay un problema de datos faltantes. Por ejemplo, los químicos han descubierto que de esta manera se pueden predecir nuevos compuestos inorgánicos, previamente desconocidos, en base a combinaciones de diferentes iones / cationes. Otra tarea es la identificación de medicamentos efectivos contra virus basados ​​en proteínas con propiedades inhibitorias especiales. Es extremadamente difícil saber qué proteínas serán efectivas para contrarrestar una cepa específica de virus si no se han realizado pruebas previas. Hay muchas opciones posibles para ambos, los virus también evolucionan rápidamente, no se puede medir todo. Pero sobre la base de algunos patrones comunes en las reacciones de los virus, puede intentar predecir el resultado donde aún no se han realizado pruebas. Casi como en el comercio minorista en línea, pero con el efecto contrario: al virus no debería gustarle mucho el "producto".

Ahora, estos son pasos tímidos, pero creo que veremos una penetración cada vez mayor de los métodos de los sistemas de recomendación más allá de las áreas habituales de comercio, entretenimiento y publicidad. Me gustaría esperar al menos eso. Parece que gradualmente habrá un cambio de simplemente proporcionar comodidad hacia un cambio cualitativo en el nivel de vida al ayudar a tomar decisiones complejas, como elaborar un camino de aprendizaje individual para una buena educación, elegir una profesión interesante y solicitada u obtener servicios de medicina personalizados.

¿Qué libro o artículo debería leer alguien que trabaja con sistemas de recomendación?


Andrey Kuznetsov, compañeros de clase
Es difícil recomendar un libro específico, ya que el campo está bastante aplicado. Recomendaría cursos en línea, por ejemplo, la especialización en análisis de datos de MIPT en Coursera es muy buena.

Vladislav Grozin, Joom
Me parece que todos los científicos deberían leer GroupLens: una arquitectura abierta para el filtrado colaborativo de Netnews. Este artículo describe uno de los primeros sistemas de recomendación implementados, tal como los conocemos ahora. Este artículo es muy diferente de lo que leemos con tanta frecuencia ahora, ya que afecta no solo al algoritmo en sí, sino también al entorno en el que funcionará.

Evgeny Frolov, SkolTech
No hay tantos libros en esta área, y si lo desea, puede leer al menos todo, al menos a un nivel fluido. Mirando cuántos principiantes siguen el mismo camino que conduce al mismo "rastrillo", mencionaría un artículo de 2010 sobre el enfoque PureSVD de Paolo Cremonesi, Yehuda Koren y Roberto Turrin. No es casualidad que ella sea la tercera cita en las colecciones de documentos de la Conferencia ACM sobre Sistemas de Recomendaciones en toda la historia de esta conferencia. En un momento, ella me ayudó a ver de manera diferente la pila de artículos que se arrastra en la parte superior de los resultados de búsqueda, si la solicitud se formula demasiado.

¿La mejor biblioteca de código abierto para recomienda?


Andrey Kuznetsov, compañeros de clase
Depende del problema que se resuelva, la cantidad de datos y la plataforma en la que se construirá el sistema de recomendación. Parece que se puede recomendar algo de LightFM como línea base para casi cualquier recomendación de tarea.

Vladislav Grozin, Joom
PyTorch?

Evgeny Frolov ^ SkolTech
En mi caso, la respuesta es obvia: la biblioteca de Polara que estoy desarrollando.

¿Cuál será su informe sobre oktech Data Explained # 3 y por qué debería escucharlo?


Andrey Kuznetsov, compañeros de clase
El informe será la historia del desarrollo de un sistema de recomendación para equipos de proyectos en OK. Hablaré sobre por qué este es un caso interesante en sí mismo y cómo difiere de las recomendaciones clásicas, por ejemplo, los productos en el comercio electrónico. Mencionaré por separado qué golpes tuvimos durante el desarrollo, qué conclusiones se hicieron y por qué nunca hay suficientes datos y algoritmos universales.

Vladislav Grozin, Joom
Te diré lo que puedes esperar en las conferencias. Muchas personas quieren ir, porque se ve genial y genial, pero dudan en invertir tiempo y dinero, porque los detalles y los beneficios prácticos del viaje no están claros. Espero aclarar estos problemas con mi historia.

Evgeny Frolov, SkolTech
Hablaré sobre nuestro desarrollo, un nuevo modelo llamado HybridSVD, que presenté recientemente en la conferencia ACM RecSys. Esta es una generalización directa del modelo PureSVD para sistemas de recomendación híbridos que tienen en cuenta información adicional sobre usuarios y productos. El modelo es interesante porque no va más allá del cálculo de una descomposición singular, lo que significa que hereda todas las ventajas computacionales y la facilidad de uso. Hablaré sobre esto, también haciendo hincapié en más detalles sobre los aspectos técnicos.

Chicos, muchas gracias por tomarse el tiempo para responder las preguntas.

Estamos esperando a todos los que quieran hablar con expertos en el campo de los sistemas de recomendación en la reunión del 6 de noviembre en su oficina de Moscú.

Ven, será interesante!

Registrarse para el evento .

Source: https://habr.com/ru/post/472032/


All Articles