Samsung Moscow Center for Artificial Intelligence en historias de empleados

Nuestra publicación es una oportunidad para aprender sobre la investigación en la nueva división de Samsung Research: el Centro de Inteligencia Artificial (AI) en Moscú. Se inauguró en mayo de 2018 y en un año y medio reunió a los mejores profesionales en el campo del aprendizaje automático.

A continuación se presentan mini entrevistas del personal del centro, oradores del Foro anual sobre Inteligencia Artificial, que se celebró en el Centro en diciembre del año pasado. Entrevistamos a colegas de dos laboratorios: un laboratorio de visión por computadora y modelado visual y un laboratorio de análisis de datos multimodal.



Sobre Samsung AI Center


Samsung invierte en investigación y desarrollo ~ 8% de los ingresos anuales por ventas, este es uno de los principales indicadores del mundo. La compañía tiene la cartera más grande de patentes activas en los Estados Unidos y ha presentado solicitudes para la mayoría de las tecnologías más populares de Europa. En los próximos tres años, Samsung invertirá $ 22 mil millones en el desarrollo de 5G y tecnología en el campo de la inteligencia artificial.

Samsung Research, una división de investigación de Samsung Electronics, une 21 centros de investigación en todo el mundo:


Unidades de Samsung Research en el mapa mundial (de https://research.samsung.com/ )

Entre ellos, 7 son centros especializados solo en IA. El Centro de IA de Moscú se inauguró el 29 de mayo de 2018, los seis restantes se encuentran en Seúl, Montreal, Toronto, Nueva York, Cambridge y Mountain View.

El área principal de investigación en el Centro de AI AI de Samsung en Moscú es el aprendizaje automático, un enfoque que se ha aplicado con éxito en reconocimiento de voz, visión por computadora y análisis de datos. El director del Centro es Viktor Lempitsky, Ph.D., profesor asociado del Instituto de Ciencia y Tecnología Skolkovo, el científico ruso más citado en su categoría temática en 2018, ganador del Premio Scopus Rusia en 2018 por su contribución al desarrollo de la industria.

Los arquitectos y diseñadores que diseñaron la oficina del Centro AI de Moscú se inspiraron en la idea del infinito digital. El concepto de oficina está diseñado para crear un espacio que maximice la creatividad en un entorno confortable: muebles móviles y particiones multifuncionales móviles, con las que puede combinar varias salas de reuniones y crear la configuración necesaria del espacio de trabajo.


Conferencia de Mikhail Romanov (Ingeniero sénior, Laboratorio de comprensión visual) para estudiantes de Samsung AI Bootcamp 2018 en la sala de reuniones Matrix

Las salas de reuniones llevan los nombres de películas sobre inteligencia artificial (The Matrix, The Terminator, The Bicentennial Man, From The Car, etc.), cada una tiene pantallas en ambos lados y puede escribir en las paredes con marcadores. Las tabletas fijas en la puerta de las salas de reuniones con tecnología de reconocimiento facial le permiten conocer el tiempo libre y reservar una sala.


Espacio abierto con muebles ergonómicos: mesas móviles, sillas especialmente diseñadas.

El Centro AI tiene áreas deportivas y recreativas donde puedes jugar al ping-pong en una sala especial con absorción de sonido, hacer yoga y fitness, ducharte y cambiarte de ropa. ¡E incluso hay algunas cápsulas para dormir un poco!



Cada año, el Samsung AI Forum tiene lugar en el Centro de AI de Moscú. El objetivo del Foro de Inteligencia Artificial es la comunicación e interacción de destacados científicos de Rusia y el extranjero. En el lugar del evento, pueden compartir su conocimiento y experiencia, ofrecer ideas para resolver los problemas más acuciantes en el campo de la IA. En diciembre del año pasado, en el marco del segundo Foro anual, se presentaron los resultados de la investigación realizada por colegas de Moscú, que se pueden utilizar para crear servicios completos basados ​​en tecnologías de IA, así como para desarrollar aplicaciones y componentes para productos de la compañía.



Laboratorio de Visión por Computadora y Modelado Visual


El jefe del laboratorio es Anton Konushin, Ph.D., profesor asociado de HSE y VMK Moscow State University, donde también es el jefe del laboratorio conjunto de Samsung y la Universidad Estatal de Moscú.

Mikhail Romanov e Igor Slinko, autores del curso "Redes neuronales y visión por computadora" también trabajan en el laboratorio de visión por computadora y modelado visual. Este es el primer curso gratuito en línea masivo que Samsung Research lanzó en Rusia en 2019, y los chicos son nuestros pioneros. El curso habla sobre el uso de redes neuronales en el análisis de imágenes desde lo básico, no requiere conocimiento especializado, solo conocimiento básico en el campo de las matemáticas y estadísticas superiores, y se necesita preparación para programar en Python. El curso ya cuenta con 24,000 estudiantes matriculados. Y la característica asesina: la perspectiva de empleo: varias personas ya se han convertido en empleados del Centro después de las entrevistas.

Danila Rukhovich


Con 25 años, se graduó de la Universidad Estatal de Mechmath de Moscú, está estudiando en la escuela de posgrado con un título en "Fundamentos teóricos de la informática". Trabajó en IBM Research, Angry Developers, SMTDP Tech. En el Foro Samsung AI, Danila Rukhovich y Danil Galeev presentaron el informe "Adaptación de dominio MixMatch: solución ganadora de premios para ambas pistas del desafío VisDA 2019 " ( código fuente ).

Tenemos dos grandes grupos en nuestro laboratorio: el primero se dedica a la Estimación de Profundidad (midiendo la profundidad de la imagen), el segundo es SLAM (por el método de localización simultánea y construcción de mapas). Y hay pequeños equipos con diferentes tareas, por ejemplo, mi colega Danil Galeev y yo solíamos estar involucrados en GAN (redes generativas competitivas) y ahora en la adaptación de dominios.

La adaptación del dominio es cuando entrenamos un modelo de red neuronal en un dominio (dominio) y luego lo probamos en otro dominio. Los dos dominios más comunes son datos sintéticos y datos reales. Es esta declaración del problema la más relevante, ya que los datos sintéticos se pueden generar tanto como desee, son baratos. Por ejemplo, puede generar muchas imágenes de ciudades y entrenar un automóvil no tripulado en ellas, lo cual es mucho más fácil que conducir un automóvil real en las calles de ciudades reales y recopilar datos reales.

Está claro que si entrenamos la red neuronal en datos sintéticos y simplemente la transferimos a datos reales, entonces no funcionará muy bien. ¿Cómo reducir esta diferencia? Puede generar y luego usar una gran cantidad de datos sintéticos etiquetados, para entrenar una red neuronal en ellos. Y luego use una gran cantidad de datos reales no asignados (es decir, se gastaron recursos, pero solo para la recopilación de datos, y no para su marcado). Y así, combinando datos etiquetados y no asignados, estamos logrando un aumento significativo en la precisión de los modelos de redes neuronales.


Ejemplos de diferentes dominios en el conjunto de datos de DomainNet: clipart, infografía, pintura, boceto, foto, gráficos. El objeto es el mismo, pero los dominios son diferentes.

Konstantin Sofiyuk


25 años, graduado de la Universidad Estatal VMK de Moscú. Es aficionado a trotar, hacer snowboard y la visión por computadora.
Konstantin habló en el Foro Samsung AI con el informe "AdaptIS: Adaptive Instance Selection Network" .

Estoy interesado en tratar con algoritmos que ayudarán a resolver problemas reales. Por ejemplo, automatice las tareas cotidianas de rutina. El trabajo humano es el más caro. Por lo tanto, estoy interesado en hacer cosas que puedan convertirse para beneficiar a las personas.

En mi opinión, la inteligencia artificial tiene dos caminos de desarrollo: será "fuerte" y resultará algo así como el "Santo Grial". La aparición de una IA "fuerte" cambiará todo en nuestras vidas; Me resulta difícil predecir lo que sucederá. O bien, será posible hablar de una IA "débil", entonces la robótica es probablemente la dirección más interesante. Un vehículo no tripulado pertenece a la misma dirección, porque es esencialmente un robot de carretera. Reemplazar a los conductores con robots plantea la pregunta: ¿qué consecuencias sociales traerá? Todos vivimos en una sociedad, y la tecnología puede provocar un cambio social global. Reflexiono sobre este tema.

Uno de mis últimos artículos está dedicado al tema de la segmentación de instancias: buscar y resaltar en la imagen todos los objetos que necesitamos. Los seleccionamos usando una máscara píxel por píxel, es decir, en cada punto se indica si este píxel pertenece al objeto o no. Esto encaja bien con el concepto de comprensión de la escena visual, porque el primer paso para comprender una imagen es comprender qué objetos están presentes en ella. Hay algoritmos de detección de objetos que resuelven este problema, pero allí cada objeto se resalta con un rectángulo, y los objetos se superponen fuertemente: esto da una aproximación demasiado simple y demasiado aproximada de dónde está el objeto. Si miras cómo son las escenas interiores comunes (no estoy hablando de habitaciones de diseño ideales, donde están limpias y ordenadas), los apartamentos reales se verán así: un sofá, almohadas recostadas, algunas otras cosas.

Cuando comencé esta tarea, me enfrenté al hecho de que los algoritmos existentes no se adaptan bien a tales casos. Llegamos a un nuevo algoritmo que presentamos en nuestro trabajo. Le permite seleccionar objetos con cualquier complejidad de intersecciones: lo principal es que al menos un píxel del objeto es visible. El algoritmo se basa en la hipótesis según la cual siempre puedes encontrar un píxel en una imagen que pertenece a un objeto específico. Si no hay un solo píxel del objeto en la imagen, entonces no hay ningún objeto. Y si hay un objeto, si una persona ve el objeto, entonces hay un píxel que le pertenece. En consecuencia, el algoritmo le permite encontrar dichos píxeles y seleccionar la máscara completa del objeto a través de estos píxeles.

Ahora nos ocupamos del tema de la segmentación interactiva, y esta también es una tarea muy importante. Volviendo a la tarea anterior: para entrenar la segmentación de instancias, necesita marcado de píxel por píxel de alta calidad de todos los objetos en las imágenes, y esto es algo costoso, porque es banal sentarse y seleccionar el contorno de cada objeto manualmente en Photoshop durante mucho tiempo. Y la segmentación interactiva le permite automatizar este marcado. Marcamos cada objeto no seleccionando el polígono de este objeto, sino que simplemente una persona hace clic en el objeto y hace el llamado clic positivo. El objeto se selecciona desde el primer clic, o si no funcionó (por ejemplo, se saltaron algunas partes del objeto o, por el contrario, se cayó algo innecesario), aplicamos un clic negativo.

Como resultado, en lugar de seleccionar todo el objeto con un contorno píxel por píxel, reducimos el problema al hecho de que esta área debería o no seleccionarse con un simple clic. La práctica muestra que en la mayoría de las imágenes con diez clics puede seleccionar objetos con alta precisión. Esta es una gran diferencia, el marcado de datos se acelerará a veces.


La máscara que muestra el algoritmo si selecciona un punto de objeto

Laboratorio de análisis de datos multimodales


El jefe del laboratorio es Sergey Nikolenko, Ph.D., investigador principal en la sucursal de San Petersburgo del Instituto de Matemáticas V. A. Steklov (POMI RAS), profesor asociado de la Escuela Superior de Economía de San Petersburgo, coautor del libro "Aprendizaje profundo". Inmersión en el mundo de las redes neuronales " .

Gleb Sterkin


Gleb tiene 25 años; se graduó del Departamento de Física de la Universidad Estatal de Moscú. Ingeniero y jefe de proyecto en un laboratorio de análisis de datos multimodal. "Sin pasatiempos, sin pasatiempos, poblados por robots".
En el Foro Samsung AI, Gleb hizo una presentación sobre traducción diurna de alta resolución sin etiquetas de dominio

Mi laboratorio se dedica a modelos generativos, fotografía computacional. Hay una serie de tareas para la restauración de estructuras tridimensionales, es decir cuando varias fotografías necesitan recrear la forma tridimensional de un objeto complejo. Además, estas son las tareas asociadas con la obtención de representaciones universales para imágenes u objetos en imágenes. Todo esto, en general, gira en torno a las redes neuronales. Desde un punto de vista aplicado, las aplicaciones son impresionantes cuando una persona interactúa con modelos generativos, desde efectos implícitos hasta casos en los que el modelo actúa como una herramienta para una persona, por ejemplo, en la síntesis de música.

Principalmente trato con modelos generativos combinados con la interacción hombre-máquina. Esto es interesante! Algo complicado, como una red neuronal, se convierte en una herramienta como una cámara, aplicable para obtener placer momentáneo o alguna experiencia sensorial: presioné tres botones, obtuve algo genial, sin pensar mucho en cómo funciona, pero entendiendo más o menos lo que sucederá como resultado, aunque a veces resulta y algo inesperado

Nuestro estudio resuelve una tarea bastante simple, a primera vista. El algoritmo, después de recibir una fotografía de paisaje en la entrada, alimenta un conjunto de fotografías del mismo paisaje en diferentes momentos del día. Por ejemplo, si en la entrada hay una foto de una ciudad durante el día, ¿cómo se vería en la noche, en la noche, en la mañana y en los períodos entre estos momentos del día para hacer un video hermoso y suave? Esta tecnología funciona en alta resolución hasta 4K.



Trabajamos con paisajes, porque en paisajes el cambio de día o estación será el más obvio. El interior de los edificios no cambia mucho durante el día, excepto quizás algunos reflejos, reflejos, que dependen de varios factores: cómo se ubican las rejas y persianas en las ventanas. Todo está claro en los paisajes: tienes el sol, el cielo, un gran espacio que necesita ser iluminado de manera diferente, para dibujar algo sobre él. Si el algoritmo hace la transición de noche a día, debe estirar las áreas oscuras, y si de día a noche, debe oscurecer todo correctamente.

Al ver el paisaje, no es muy difícil para una persona imaginar exactamente cómo cambiará según la hora del día o el año. Fue muy interesante simular la percepción esencialmente humana, sin pasar una cantidad increíble de tiempo recolectando imágenes y videos reales para cada paisaje.

Dmitry Nikulin


25 años En 2017 se graduó del Departamento de Álgebra de la Universidad Estatal de San Petersburgo. Realizó una pasantía en Google London, donde mejoró el sistema de verificación de usuarios en Google My Business, luego realizó una pasantía en Yandex Research y trabajó para Serokell, una empresa especializada en consultoría y tercerización en el campo de la programación en Haskell. Al mismo tiempo, se graduó de ShAD, y ahora está ayudando a hacer un curso de RL allí. Samsung tiene poco más de un año. Aprende idiomas: además del inglés, está un poco familiarizado con el francés, el español y el esperanto.

Dmitry presentó dos informes en el Foro de AI de Samsung: "Lo mejor del almuerzo gratuito a través de la atención en los agentes de Atari" y "Redes de gradientes perceptuales".

El área principal de investigación en el laboratorio de análisis de datos multimodales son las tareas asociadas con la generación y el procesamiento de imágenes, y durante el año pasado he logrado trabajar en dos proyectos en este campo. En la primera mitad del año, participé en el aprendizaje por refuerzo (RL): esta es una de las tecnologías de aprendizaje automático en la que el sistema de prueba (agente) aprende al interactuar con un determinado entorno. En pocas palabras, el proceso de aprendizaje puede considerarse como un juego: fomente acciones que conduzcan a recompensas y evite que conduzcan al fracaso.

Mi proyecto consistía en comprender qué partes de la imagen está mirando una red neuronal que implementa agentes en RL. Es decir necesitábamos entender cómo funciona y qué logramos enseñarlo al final, para esto construimos una red de "algo" en él, que muestra qué partes de la imagen original está mirando. Mi primer informe en el foro fue sobre cómo pasamos por un montón de formas diferentes de integrar esta pieza en una red neuronal. El problema era incrustar de tal manera que ya no se rompiera nada. Parece que hemos tenido éxito, pero con algunos defectos: la visualización del mapa de la importancia de partes de la imagen no está muy clara. Experimentamos para aumentar la claridad, pero, desafortunadamente, los agentes comenzaron a trabajar peor a partir de esto.


Izquierda: imagen clara, agente débil. Derecha: imagen aproximada, agente fuerte.

El segundo informe se llamó "Redes de gradiente perceptual", se trataba de optimizar la pérdida perceptiva: esta es una función de pérdida que se usa en casi todas partes donde hay generación de imágenes por redes neuronales. Para usar la pérdida de percepción, los desarrolladores primero atraviesan la red neuronal hacia adelante y luego hacia atrás. Retroceder es computacionalmente complejo. Queríamos deshacernos de ese doble pase y reemplazarlo con otra red neuronal, a través de la cual todo se puede hacer en un solo paso hacia adelante, esto aumenta la velocidad y disminuye los requisitos de memoria. Ahora estamos trabajando para mejorar la arquitectura de esta segunda red, nos esforzamos por reducir radicalmente los costos de memoria sin romper la calidad.

Estoy interesado en todo lo relacionado con el aprendizaje por refuerzo, porque esta es el área más cercana a la inteligencia artificial general (IA general). Las áreas restantes, como la visión por computadora, la reconstrucción de la postura humana, el análisis de sonido, son más altamente especializadas. Ciertamente, son más útiles en el futuro cercano, ya se pueden tomar y construir en drones o buscar. Sobre RL, con algunas excepciones, esto no se puede decir, pero con él, las tareas que ya no se resuelven se pueden resolver. Por ejemplo, las personas gracias a estas tecnologías han aprendido a jugar juegos de computadora muy complejos como DotA y StarCraft muy bien. En general, RL es un método para optimizar cualquier cosa para cualquier objetivo que establezca.

Conclusión


Si llega al final del artículo y todavía está interesado, aunque la mayoría de los términos no están claros, entonces la buena noticia es que Samsung tiene cursos gratuitos en línea de Stepik a los que lo invitamos. Escribimos sobre ellos anteriormente en el blog ( 1 , 2 ).

Y para aquellos que están lejos de ser nuevos en lo que hablaron nuestros colegas, los trabajos abiertos de Samsung Research pueden ser interesantes. En este momento hay vacantes para Data Scientist (2 personas), Machine Learning Engineer (2 personas), Deep Learning Engineer.

Source: https://habr.com/ru/post/484376/


All Articles