Recientemente,
hablamos sobre cómo somos analizados en los cines utilizando la tecnología de visión por computadora: emociones, gestos, y eso es todo. Hoy publicamos una conversación con nuestro colega de Microsoft Research. Está comprometido en la creación de esa misma visión. Debajo del corte, detalles sobre el desarrollo de la tecnología, un poco sobre GDPR, así como sobre las áreas de aplicación. Únete ahora!

Desde un punto de vista técnico, los expertos en visión por computadora "crean algoritmos y sistemas para analizar automáticamente imágenes y extraer información del mundo visible". Desde el punto de vista de un laico, crean máquinas que pueden ver. Esto es lo que hacen el investigador jefe y el jefe del departamento de investigación, el Dr. Gang Hua, y un equipo de expertos en visión por computadora. Para dispositivos como robots personales, vehículos no tripulados y drones, que encontramos cada vez más en la vida cotidiana, la visión es muy importante.
Hoy, el Dr. Hua nos contará cómo los recientes avances en inteligencia artificial y aprendizaje automático han ayudado a mejorar el reconocimiento de imágenes y las tecnologías de "comprensión" de video, y han contribuido al desarrollo del arte. También explicará la esencia del enfoque de conjunto distribuido para el aprendizaje activo, en el que las personas y las máquinas trabajan juntas en el laboratorio para crear sistemas de visión por computadora que puedan ver y reconocer el mundo abierto.
Gang Hua, investigador principal y jefe de investigación. Foto cortesía de Maryatt Photography.La entrevista
Si miramos hacia atrás de diez a quince años, veremos que había más diversidad en la comunidad de especialistas en visión por computadora. Para considerar el problema desde diferentes ángulos y encontrar su solución, se aplicaron varios métodos de aprendizaje automático y conocimientos de diversos campos, como la física y la óptica. Hacemos hincapié en la importancia de la diversidad en todas las áreas de actividad, por lo que creo que la comunidad científica se beneficiará si tenemos puntos de vista más diferentes.
Le presentamos la investigación tecnológica avanzada y los científicos que la respaldan.
Desde un punto de vista técnico, los expertos en visión por computadora "crean algoritmos y sistemas para analizar automáticamente imágenes y extraer información del mundo visible". Desde el punto de vista de un laico, crean máquinas que pueden ver. Esto es lo que hacen el investigador jefe y el jefe del departamento de investigación, el Dr. Gang Hua, y un equipo de expertos en visión por computadora. Para dispositivos como robots personales, vehículos no tripulados y drones, que encontramos cada vez más en la vida cotidiana, la visión es muy importante.
Hoy, el Dr. Hua nos contará cómo los recientes avances en inteligencia artificial y aprendizaje automático han ayudado a mejorar el reconocimiento de imágenes y las tecnologías de "comprensión" de video, y también han contribuido al desarrollo del arte. También explicará la esencia del enfoque de conjunto distribuido para el aprendizaje activo, en el que las personas y las máquinas trabajan juntas en el laboratorio para crear sistemas de visión por computadora que puedan ver y reconocer el mundo abierto. Acerca de esto y mucho más: en la nueva versión del podcast de Microsoft Research.
Usted es el investigador jefe y jefe del departamento de investigación de MSR (Microsoft Research), y su especialidad es la visión por computadora.Si
En términos generales, ¿por qué un especialista en visión artificial se levanta por la mañana? ¿Cuál es su objetivo principal?La visión por computadora es un área relativamente joven de investigación. En resumen, estamos tratando de crear máquinas que puedan ver el mundo y percibirlo de la misma manera que una persona. En un lenguaje más técnico, la información que ingresa a la computadora en forma de imágenes y videos simples puede representarse como una secuencia de números. Queremos extraer de estos números algunas estructuras que describen el mundo, alguna información semántica. Por ejemplo, puedo decir que una parte de la imagen corresponde a un gato. Y la otra parte corresponde a la máquina, me refiero a una interpretación de este tipo. Aquí está, el objetivo de la visión por computadora. Esto parece una tarea simple para las personas, sin embargo, para enseñarle a las computadoras al respecto, tuvimos que trabajar mucho en los últimos 10 años. Sin embargo, la visión por computadora como campo de investigación ya tiene 50 años. Sin embargo, todavía tenemos que resolver muchos problemas.
Si Hace 5 años dijiste lo siguiente, reformulo: "¿Por qué, después de 30 años de investigación, todavía estamos trabajando en el problema del reconocimiento facial?" Cuéntanos cómo respondiste esta pregunta y qué ha cambiado durante este tiempo.Si respondemos desde la perspectiva de hace cinco años, diría que en los 30 años que han pasado desde el comienzo de la investigación en el campo de la visión por computadora y el reconocimiento facial, hemos logrado mucho. Pero en su mayor parte, estamos hablando de un entorno controlado donde, al capturar rostros, puede ajustar la iluminación, la cámara, las decoraciones y similares. Hace cinco años, cuando comenzamos a trabajar más in vivo, en un entorno no controlado, resultó que había una gran brecha en la precisión del reconocimiento. Sin embargo, en los últimos cinco años, nuestra comunidad ha hecho un gran progreso mediante el uso de métodos de aprendizaje profundo más avanzados. Incluso en el campo del reconocimiento facial in vivo, hemos progresado y realmente llegamos al punto en que fue posible utilizar estas tecnologías para diversos fines comerciales.
Resulta que el aprendizaje profundo realmente ha hecho posible lograr un gran éxito en los campos de la visión por computadora y el reconocimiento de imágenes en los últimos años.Derecho
Cuando hablamos de la diferencia de condiciones en un entorno completamente controlado e impredecible, recordé a varios científicos, invitados del podcast, que notaron que las computadoras fallan cuando los datos no son lo suficientemente completos ... por ejemplo, la secuencia "perro, perro, perro, perro con tres patas" "- la computadora comienza a dudar si este último también es un perro?Si
¿Es verdad? Entonces, ¿qué métodos de aprendizaje profundo previamente inaccesibles le permiten hacer hoy en el campo del reconocimiento?Esta es una gran pregunta. Desde una perspectiva de investigación, el aprendizaje profundo abre varias posibilidades. En primer lugar, puede realizar una capacitación integral para determinar la representación correcta de la imagen semántica. Por ejemplo, de vuelta al perro. Supongamos que miramos varias fotografías de perros, por ejemplo, imágenes de 64 × 64 píxeles, donde cada píxel puede tomar alrededor de doscientos cincuenta valores diferentes. Si lo piensas bien, esta es una gran cantidad de combinaciones. Pero si hablamos del perro como plantilla, donde los píxeles se correlacionan entre sí, entonces el número de combinaciones correspondientes al "perro" será mucho menor.
Usando métodos integrales de aprendizaje profundo, puede enseñarle al sistema a determinar la representación numérica correcta de un "perro". Gracias a la profundidad de las estructuras, podemos crear modelos verdaderamente complejos que pueden dominar una gran cantidad de datos para el entrenamiento. Por lo tanto, si mis datos de entrenamiento cubren todas las opciones y representaciones posibles de la plantilla, al final podré reconocerla en un contexto más amplio, porque consideré casi todas las combinaciones posibles. Este es el primero.
Otra oportunidad de aprendizaje profundo es un tipo de comportamiento compositivo. Hay una capa de estructura y una capa de presentación, por lo tanto, cuando la información o una imagen cae en redes profundas y comienza la extracción de imágenes primitivas de bajo nivel, gradualmente el modelo puede recopilar estructuras semánticas de mayor y mayor complejidad a partir de estas imágenes primitivas. Los algoritmos de aprendizaje profundo identifican patrones más pequeños que coinciden con patrones más grandes y los unen para formar el patrón final. Por lo tanto, es una herramienta muy poderosa, especialmente para tareas de reconocimiento visual.
Entonces, el tema principal de la conferencia CVPR es el reconocimiento de patrones con visión por computadora.Si, eso es correcto.
Y el reconocimiento de patrones es lo que la tecnología realmente busca.
Si por supuesto. De hecho, el propósito de la visión por computadora es capturar el significado en píxeles. Hablando desde un punto de vista técnico, la computadora necesita entender qué es la imagen, y obtenemos un cierto resultado numérico o simbólico de ella. Por ejemplo, un resultado numérico puede ser una nube de puntos tridimensional que describe la estructura del espacio o la forma de un objeto. También se puede asociar con algunas etiquetas semánticas, como "perro" o "gato", como dije anteriormente.
Ya veo Así que hablemos un poco sobre las etiquetas. Una característica interesante e importante del proceso de aprendizaje automático es el hecho de que la computadora necesita proporcionar píxeles y etiquetas.Si por supuesto.
Usted habló sobre tres cosas que son más interesantes para usted en el contexto de la visión por computadora. Video, caras y arte y multimedia. Hablemos de cada uno de ellos individualmente y comencemos con su investigación actual, lo que usted llama la "comprensión" del video.Si La expresión "entender el video" habla por sí misma. Como entrada, usamos video en lugar de imágenes. Aquí es importante no solo reconocer los píxeles, sino también tener en cuenta cómo se mueven. Para la visión por computadora, el reconocimiento de imágenes es un problema espacial. En el caso del video, se vuelve espacio-temporal porque aparece una tercera dimensión temporal. Y si observa las muchas tareas reales asociadas con la transmisión de video, ya sean cámaras de vigilancia en interiores o cámaras de carretera en la carretera, la conclusión es que el objeto se mueve en un flujo constante de cuadros. Y necesitamos extraer información de esta secuencia.
Dichas cámaras crean una gran cantidad de material de video. Cámaras de seguridad que disparan las 24 horas en supermercados y similares. ¿Qué beneficios puede obtener la gente de estos registros?Mi equipo está trabajando en un proyecto de incubación, en el que creamos una tecnología fundamental. Como parte de este proyecto, estamos tratando de analizar el tráfico en las carreteras. Se ha instalado una gran cantidad de cámaras de carretera en las ciudades, pero la mayor parte del video que grabaron se desperdicia. Sin embargo, estas cámaras pueden ser útiles. Veamos un ejemplo: desea controlar los semáforos de manera más eficiente. Por lo general, el cambio de las señales rojas y verdes está determinado por el horario establecido. Sin embargo, si veía que mucho menos autos se movían en una dirección que en otras, entonces para optimizar el movimiento, podría mantener el color verde por más tiempo en direcciones sobrecargadas. Esta es solo una aplicación.
¡Por favor traduzca esta idea!Lo intentaremos!
¿Cuál de nosotros no se paró en el semáforo rojo, aunque casi nadie condujo en el green en la otra dirección?Aqui esta!
Casi, te preguntas: ¿por qué tengo que esperar?
Estoy de acuerdo Esta tecnología también se puede aplicar en otros casos, por ejemplo, cuando hemos acumulado grandes archivos de grabaciones de video. Supongamos que los ciudadanos piden carriles adicionales para bicicletas. Podríamos usar los videos, analizar los datos de tráfico y luego decidir si hacer un carril bici en este lugar. Al introducir esta tecnología, podríamos afectar significativamente los flujos de tráfico y ayudar a las ciudades a tomar tales decisiones.
Creo que esta es una gran idea, porque en la mayoría de los casos tomamos decisiones basadas en nuestras propias ideas, y no en datos, mirando a lo que podríamos decir: "Oye, ya sabes, aquí la ruta en bicicleta habría sido muy por cierto Y aquí solo complicará el movimiento ".Eso es correcto A veces se utilizan otros sensores para esto. Contratan a una empresa que instala equipos especiales en las carreteras. Pero es económicamente ineficiente. Pero las cámaras de carretera ya están instaladas y simplemente se quedan. Las transmisiones de video ya están disponibles. Derecho? Entonces, ¿por qué no aprovechar esto?
Estoy de acuerdo Este es un gran ejemplo de cómo se puede aplicar el aprendizaje automático y la comprensión de video.Exactamente
Entonces, otra área importante de aplicación es el reconocimiento facial. Volvemos nuevamente a la pregunta "¿Por qué seguimos trabajando en el problema del reconocimiento facial?".Eso es correcto
Por cierto, tales tecnologías en algunos casos se pueden aplicar de una manera muy interesante. Cuéntanos qué está sucediendo en el campo del reconocimiento facial. ¿Quién hace esto y qué hay de nuevo?Mirando hacia atrás, la tecnología de reconocimiento facial fue estudiada por Microsoft cuando todavía estaba trabajando en Live Labs Research. Luego creamos la primera biblioteca de reconocimiento facial que podrían usar varios grupos de desarrollo de productos. Esta tecnología se introdujo por primera vez en Xbox. Luego, los desarrolladores intentaron usar el reconocimiento facial para iniciar sesión automáticamente en el sistema. Creo que este fue el primer caso. Con el tiempo, el centro para el estudio del reconocimiento facial se ha trasladado a Microsoft Research Asia, donde todavía tenemos un grupo de investigadores con los que colaboro.
Intentamos constantemente ampliar los límites de lo posible. Ahora estamos trabajando con servicios técnicos para ayudarnos a recopilar más datos. En base a estos datos, entrenamos modelos más avanzados. Recientemente, nos hemos centrado en la dirección de la investigación, que llamamos "la síntesis de rostros con la preservación del reconocimiento". La comunidad de expertos en aprendizaje profundo también ha tenido mucho éxito. Utilizan redes profundas para entrenar modelos generativos que pueden simular la distribución de imágenes para que los datos se puedan extraer de ella, es decir, sintetizar la imagen. Para que pueda crear redes profundas que crean imágenes.
Pero queremos ir un paso más allá. Queremos sintetizar caras. Al mismo tiempo, queremos mantener el reconocimiento de estos individuos. Nuestros algoritmos no solo deberían crear un conjunto arbitrario de caras sin ningún significado semántico. Supongamos que queremos recrear la cara de Brad Pitt. Necesitas crear una cara que realmente se parezca a él. Si necesita recrear la cara de la persona que conozco, entonces el resultado debe ser preciso.
Es decir, ¿desea mantener el reconocimiento de la persona que está tratando de recrear?Derecho
Por cierto, me pregunto si esta tecnología funcionará durante mucho tiempo, a medida que una persona envejezca, o si será necesario actualizar constantemente la base de datos con las personas.Esta es una muy buena pregunta. Actualmente estamos realizando investigaciones para resolver este problema. En el nivel actual de tecnología, todavía es necesario actualizar la base de datos de vez en cuando. Especialmente si la cara ha cambiado mucho. Por ejemplo, si se realizó una cirugía plástica, el sistema moderno no podrá producir el resultado correcto.
Espera, no eres tú.Sí, es completamente diferente. Este tema puede abordarse desde varios lados. Los rostros humanos realmente no cambian mucho entre 17-18 años y alrededor de 50. Pero, ¿qué sucede inmediatamente después del nacimiento? Las caras de los niños cambian mucho, porque los huesos crecen y la forma de la cara y la piel también cambian. Pero tan pronto como una persona crece y pasa a la etapa de madurez, los cambios comienzan a ocurrir muy lentamente. Ahora estamos llevando a cabo investigaciones, en cuyo marco estamos desarrollando modelos del proceso de envejecimiento. Ayudarán a crear un sistema mejorado de reconocimiento facial basado en la edad. De hecho, esta es una tecnología muy útil que se puede aplicar en la aplicación de la ley, por ejemplo, para reconocer a los niños secuestrados hace muchos años que ...
Se ven muy diferentes.Sí, se ven diferentes. Si los algoritmos inteligentes de reconocimiento facial pudieran considerar la foto original ...
Y para decir, ¿cómo se verían a los 14 años si fueran secuestrados mucho antes, o algo así?Si, si, exactamente.
Esta es una gran aplicación. Hablemos de otra área que esté explorando activamente: multimedia y arte. Cuéntanos cómo la ciencia se cruza con el arte, y especialmente sobre tu trabajo en el campo de la transferencia profunda de estilo artístico.Bueno Echa un vistazo a las necesidades de las personas. En primer lugar, necesitamos comida, agua y sueño, ¿verdad? Una vez que se satisfacen las necesidades básicas, una persona tiene un fuerte deseo de arte ...
Y el deseo de crear.Y crea objetos de arte. Como parte de esta área de investigación, queremos conectar la visión por computadora con los objetos de arte de multimedia y arte. Podemos usar la visión por computadora para dar a las personas placer artístico. Como parte de un proyecto de investigación separado en el que hemos estado trabajando durante los últimos dos años, hemos creado una secuencia de algoritmos con los que puede crear una imagen en cualquier estilo artístico si se proporcionan muestras de este estilo. Por ejemplo, podemos crear una imagen al estilo de Van Gogh.
Van Gogh?Sí, o cualquier otro artista ...
Renoir o Monet ... o Picasso.Si, cualquiera de ellos. Cualquiera que puedas recordar ...
Interesante ¿Usando píxeles?Sí, usando píxeles. Esto también está siendo creado por redes profundas utilizando algunas de las tecnologías de aprendizaje profundo que hemos desarrollado.
Esta investigación parece requerir conocimiento de muchas áreas. ¿Dónde encuentras profesionales capaces de ...Diría que, en cierto sentido, nuestro objetivo es ... Ya sabes, las obras de arte no siempre están disponibles para todos. Algunas de las obras de arte son realmente muy caras. Con la ayuda de tales tecnologías digitales, estamos tratando de hacer que ese trabajo sea accesible para la gente común.
Democratizarlos.Sí, democratizar el arte, como tú dices.
Esto es impresionanteNuestro algoritmo le permite crear un modelo numérico claro de cada estilo. E incluso podemos mezclarlos si queremos crear nuevos estilos. Esto recuerda a la creación de un espacio artístico donde podemos estudiar opciones intermedias y observar cómo cambian las técnicas al pasar de un artista a otro. E incluso podemos mirar más profundamente e intentar comprender qué determina exactamente el estilo de un artista en particular.
De particular interés para mí es el hecho de que, por un lado, estamos hablando de trabajar con números: informática, algoritmos y matemáticas. Y, por otro lado, hablar de arte es una categoría mucho más metafísica. Y aun así los combinaste, y esto demuestra que el cerebro de un científico puede tener un lado artístico.Exactamente Creo que la herramienta más importante que utilizamos para ayudar a armar todo es la estadística.
Interesante.
, … – - MSR, – . , ?. , , -. … . , - . - , , . . .
, , Amazon Mechanical Turk. . , . . , . -, , . -, , .
. . . , . , , . .
, . . , , ?, . , , . ( ), , , -, .
, .. , , , , , . . , NIH, - (co-robots).
- ?-. . , . , . , . , . , . , - , , .
, , . , , ? , , ? . . , , , .
Microsoft Research ?Microsoft . , 2006-2009 Live Labs. . . , . Nokia Research, IBM Research …
-, ?, -, . Microsoft Research 2015 . , 2017 .
. ?. Microsoft Research — . . — . . . . , , , Intelligent Group , .
.Si
, , . - , ? -, ?, , . . : . , , , , , - . . , , , , . , .
… , : , , ? , , , ?Microsoft (GDPR). , , , , . , . - -, . . , - . , ? , , . . , , , …
, . : « . ».Si, eso es correcto.
, , . ? 10 ?. , . . , . . , .
, , «» . , - , . - , ? . — . , . , , . , . , . . . , …
.
. . . 10-15 , , . , , . , , , .
. , , , .Si exactamente!Para obtener más información sobre el Dr. Gang Hua, así como los sorprendentes avances en visión por computadora, visite nuestro sitio web: Microsoft.com/research