🌵 ✴️ 😱 Tecnosfera cinco años 🎣 🐫 🈺

Hoy, el proyecto Technosphere celebra su quinto aniversario. Estos son nuestros logros a lo largo de los años:

La capacitación fue completada por 330 graduados.
El curso tiene 120 estudiantes.
Las clases son impartidas por 30 profesores.
El plan de estudios tiene 250 lecciones en 16 disciplinas.
Los alumnos realizan 71 DZ.
8000 usuarios.
Más de 100 estudiantes comenzaron sus carreras en el Grupo Mail.ru.

Al final de la capacitación, los estudiantes crean sus propios proyectos de graduación para los cuales tienen tres meses. Y en honor al quinto aniversario de la tecnosfera, hemos recopilado los trabajos de graduación más brillantes de los últimos años. Los propios graduados contarán sobre sus proyectos.

"Memoria brillante"

Vsevolod Vikulin, Boris Kopin, Denis Kuzmin

Inicialmente, planeamos crear un servicio de retoque de imágenes que también nos permitiera colorear fotografías en blanco y negro. Al discutir proyectos con mentores, surgió una idea para contarle al equipo de OK sobre esta idea, y como resultado, decidieron crear una aplicación especial con la función de colorear fotografías en blanco y negro de la guerra.

Para hacer esto, tuvimos que diseñar la arquitectura de la red neuronal, crear un conjunto adecuado de fotos para entrenar el modelo y ejecutar la aplicación en la plataforma OK.

Probamos muchas redes neuronales listas para usar, pero ninguna de ellas dio la calidad deseada. Luego decidimos crear el nuestro. En la primera etapa, la red neuronal intentó predecir la imagen RGB en el canal BW, pero el resultado fue regular, porque la red intentó colorear todo en tonos grises.

Un ejemplo del funcionamiento de la red neuronal original.

Luego decidimos usar una segunda red neuronal pre-entrenada.

Con su ayuda, pudimos extraer signos tanto de la fotografía original en color como de la que fue pintada por la primera red neuronal. Así que enseñamos a la segunda red neuronal a comprender qué colores son inherentes a ciertos objetos en la vida real: el cielo es azul, la hierba es verde, etc. Para implementar redes neuronales, utilizamos el popular marco Pytorch.

Nueva arquitectura de red neuronal.

Pero lo principal era enseñarle al modelo cómo pintar los rostros de las personas de la manera más realista posible. Nos enfrentamos al hecho de que entre los conjuntos de datos existentes no había nadie adecuado para nuestra tarea: necesitábamos grandes fotos de caras con un fondo natural. Para formar nuestro propio conjunto de imágenes, primero creamos una lista de 5000 nombres de celebridades. Luego, estos nombres fueron buscados por imágenes en varios motores de búsqueda. Utilizando métodos de reconocimiento de rostros, se eliminaron las imágenes que no contenían rostros en absoluto, y los fragmentos más adecuados se resaltaron en las fotografías restantes. Entonces recolectamos el conjunto necesario de 600 mil fotos.

Luego vino la tarea de la pintura realista de un uniforme militar.

Para resolverlo, tuve que generar artificialmente uniformes militares con varias medallas y órdenes. Además, tuve que ver algunas películas en color sobre la guerra.

Ejemplos de fotos del conjunto de entrenamiento.

Combinando todo esto con un conjunto popular de fotografías de uso general, recibimos 2.5 millones de fotografías para entrenar la red neuronal.

Preparamos un prototipo funcional de la red neuronal y comenzamos a desarrollar una aplicación en la plataforma OK. Esta es una aplicación web estándar con un backend y frontend. Fuimos responsables del backend, y el equipo de OK se hizo cargo de la interfaz. Realizando una evaluación realista de los recursos disponibles, decidimos que sería más racional utilizar la arquitectura actual del proyecto Artisto.

Para hacer esto, portamos el código de red neuronal al marco de trabajo de Lua Torch y lo implementamos en el entorno.

La interfaz de la aplicación está bien.

El 9 de mayo, nuestra aplicación estuvo disponible para los compañeros de clase multimillonarios de Odnoklassniki, varios grandes medios de comunicación escribieron sobre esto, y actualmente 230 mil personas usan el servicio. Fue muy difícil implementar el proyecto en tan poco tiempo, pero lo logramos todo. Muchas gracias a nuestros mentores Olga Schubert y Alexei Voropaev, quienes nos ayudaron con la integración en OK. También agradecemos al Grupo de Desarrollo de Infraestructura de Mail.ru Search por su ayuda con la integración en el proyecto Artisto, y por separado a Dmitry Solovyov por su invaluable asesoramiento sobre arquitectura de redes neuronales.

"Mapa musical"

Vladimir Bugaevsky, Dana Zlochevskaya, Ralina Shavalieva

La idea del proyecto nos fue sugerida por los mentores Aleksey Voropaev y Dmitry Solovyov. Había una vez un reproductor Sony que podía clasificar las canciones según cuatro estados de ánimo. Hoy, la tecnología ha dado un gran paso adelante, la inteligencia artificial y las redes neuronales se están desarrollando activamente, y nos dimos cuenta de que podíamos hacer algo más genial que nuestros usuarios quisieran: una tarjeta de música que visualizara el estado de ánimo de las grabaciones de audio del usuario de VK. Y decidieron implementarlo en forma de una extensión para Chrome: es fácil de instalar y cómodo de usar.

Naturalmente, comenzamos explorando los enfoques que ya se usaban para determinar el estado de ánimo de la música. Después de ver una docena de artículos científicos, nos dimos cuenta de que casi nadie había tratado de usar redes neuronales para analizar las emociones de las grabaciones de audio.

Otra dificultad para nosotros fue la tarea de visualizar las emociones. Resultó que en psicología hay muchos modelos para representar los estados de ánimo humanos, cada uno de los cuales tiene sus propias ventajas y desventajas. Nos decidimos por el llamado modelo espacial circumplex: su idea es que cualquier emoción se pueda representar como un punto en un espacio bidimensional. Gracias a esta escala, pudimos visualizar el estado de ánimo de sus grabaciones de audio de una manera comprensible para el usuario.

Identificamos tres frentes de trabajo en la aplicación:

La parte del servidor aceptará solicitudes de expansión, creará espectrogramas, hará pronósticos y los devolverá al usuario.
La parte del usuario con la que la persona interactuará.
Entrenamiento de redes neuronales: preparar el conjunto de entrenamiento, elegir la arquitectura de red y el proceso de aprendizaje en sí.

El alcance del trabajo era extremadamente grande, por lo que todos podían probarse en todo. Nuestro equipo actuó de manera muy coherente: constantemente encontramos diferentes formas de resolver ciertos problemas y nos ayudamos mutuamente a descubrir las características de la implementación de partes individuales. La principal dificultad que encontramos fue un plazo extremadamente ajustado de tres meses. Durante este tiempo, tuvimos que entender desde cero el desarrollo de la interfaz (aprender a escribir en JavaScript), las complejidades del marco para entrenar la red neuronal (PyTorch) y dominar la tecnología del desarrollo modular (Docker). Ahora nuestra aplicación funciona en modo de prueba para varios usuarios.

"Colorización de video para profesionales"

Yuri Admiralsky, Denis Bibik, Anton Bogovsky, George Kasparyants

La idea del proyecto surgió como resultado del análisis de las tendencias modernas en el desarrollo de redes neuronales para resolver los problemas de gráficos por computadora y procesamiento de contenido multimedia. Ya se han propuesto varios enfoques diferentes para colorear imágenes individuales en esta área; este problema surge, por ejemplo, al procesar fotografías de archivo antiguas. Por otro lado, el éxito de las versiones coloreadas de películas soviéticas en blanco y negro ha demostrado la relevancia de las tareas de coloración de video. Colorear el video manualmente, cuadro por cuadro, es una tarea extremadamente lenta, cuya solución requiere la participación de estudios profesionales. Y de los usuarios que desean obtener versiones en color de sus videos antiguos, pocos poseen las habilidades necesarias y tienen suficiente tiempo para colorear manualmente, sin mencionar el dinero para completar dicha tarea con la ayuda de equipos profesionales de estudios de video. Por lo tanto, decidimos intentar aplicar los enfoques conocidos para colorear y crear un programa editor para reducir significativamente la complejidad de colorear videos usando redes neuronales.

La tarea principal que tenía que resolverse al desarrollar un programa de este tipo era obtener los colores correctos al pintar objetos en el marco. Nos enfrentamos al hecho de que los conjuntos de datos clásicos (por ejemplo, ImageNet) utilizados en el entrenamiento de redes neuronales para resolver problemas de procesamiento de imágenes no nos permiten lograr una buena coloración automática (sin ninguna información adicional). Por ejemplo, algunos objetos en el marco no fueron reconocidos y permanecieron en blanco y negro en la imagen coloreada. Otro problema de los modelos de vanguardia fue la elección incorrecta de colores para pintar objetos, tanto por la tarea que no se determinó (colorear la ropa) como por la definición incorrecta de objetos raros, así como los objetos afectados por artefactos de compresión. Al cambiar los marcos, se observó un cambio de color en la coloración de los objetos presentes en el marco debido a la inestabilidad de los modelos a pequeños cambios en el marco.

Para resolver este problema, aplicamos el método de señales de color locales , lo que nos permitió lograr la asignación de color correcta para todo el objeto y las transiciones de color correctas al establecer los colores de los puntos individuales de los objetos. Al mismo tiempo, la red neuronal durante la coloración controla la observancia de los límites de los objetos y las transiciones de brillo. Este enfoque nos permitió reducir la laboriosidad de colorear cuadros individuales (era necesario establecer explícitamente los colores de solo puntos individuales en el cuadro, sin usar pinceles), y ayudó a resolver el problema de subdeterminaciones y cambios de color al cambiar de cuadro. Además, hemos implementado modelos que le permiten rastrear el movimiento de objetos en el marco y mover pistas de color. Usando nuestro programa editor, coloreamos un fragmento de la vieja película en blanco y negro The Kid .

Un ejemplo de un cuadro pintado de la película Chaplin The Kid (1921).

Implementamos el editor en forma de una aplicación independiente del cliente, en la que se carga el video, y luego los marcos se marcan con consejos de color. Puede calcular los modelos de coloración en la máquina local o en la potencia de cómputo de terceros (por ejemplo, desplegando la parte del servidor en la nube) para procesar el video más rápido.

Para crear el editor, hicimos mucho trabajo, incluyendo probar y finalizar modelos para colorear y rastrear objetos de marco, desarrollar una arquitectura cliente-servidor para la aplicación y determinar la usabilidad de la aplicación cliente. Aprendimos las complejidades de trabajar con el marco PyTorch que implementa el trabajo de redes neuronales, dominamos el marco Qt 5 para desarrollar una aplicación cliente y aprendimos cómo usar Django-REST y Docker para desarrollar e implementar un backend informático.

Un ejemplo de una aplicación cliente.

Gracias a los maestros de Technosphere por su dedicado trabajo, por el conocimiento relevante que les brindan a los estudiantes. ¡Deseamos que el proyecto crezca y se desarrolle!

* * *

Puede solicitar capacitación hasta las 10:00 del 16 de febrero en sphere.mail.ru . Tenga en cuenta que solo los estudiantes y estudiantes de posgrado de la Universidad Estatal de Moscú pueden estudiar en la tecnosfera. M.V. Lomonosov

Tecnosfera cinco años

"Memoria brillante"

"Mapa musical"

"Colorización de video para profesionales"

More articles: