La red neuronal predice 1 segundo del futuro en fotografía
La red neuronal de confrontación generativa optimizada para el procesamiento de video puede mostrar lo que sucederá en el próximo segundo. Lacapacidad de predecir el futuro cercano es una habilidad importante para cualquier persona. La velocidad de la reacción humana no es suficiente para reaccionar a los eventos circundantes en tiempo real, por lo que los predecimos en un modo constante con una probabilidad cercana al 100%. Los atletas saben dónde volará la pelota. Los empresarios saben cuándo el interlocutor se acerca a un apretón de manos. Predecimos la trayectoria de los automóviles en la carretera y las próximas acciones de las personas sobre las expresiones faciales y los objetos en sus manos.La inteligencia artificial también necesita saber el futuro. Debe comprender qué eventos conducirán a qué resultado, para evitar descuidos obvios y planificar sus acciones. Un grupo de investigadores deEl Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del Instituto de Tecnología de Massachusetts enseña a la red neuronal a predecir el futuro mediante la capacitación en millones de videos.Una red neuronal entrenada en un solo marco estático (fotografías) está tratando de predecir eventos futuros. El programa está limitado por un tamaño de cuadro de 64 × 64 píxeles y una duración de predicción de 32 cuadros, es decir, aproximadamente un segundo del futuro.Conocer el futuro permite comprender mejor el presente. Esta es la habilidad básica que debe poseer cualquier robot que funcione en el mundo real. Observando a una persona frente a un plato de comida con un tenedor y un cuchillo en sus manos, uno debe predecir claramente que esta persona pronto comenzará a comer. Sin tal comprensión, el robot no puede funcionar de manera eficiente: ¿no desea que el robot levante y mueva la silla hacia un lado cuando se siente en una silla? No, debe entender lo que sucederá en un segundo y no tocar nada. O viceversa, mueva rápidamente la silla exactamente al lugar donde se sienta la persona.Por el momento, incluso los sistemas de inteligencia artificial más avanzados carecen de la capacidad básica para predecir el futuro cercano. Por lo tanto, este estudio es tan importante. Grupos de investigación de la Universidad de Nueva York y Facebook llevan a cabo un trabajo similar, pero sus redes neuronales producen solo unos pocos cuadros del futuro o lo muestran demasiado borroso.El programa desarrollado en CSAIL predice con bastante precisión los eventos más banales y obvios. Por ejemplo, a partir de una fotografía de un tren en una plataforma, ella predice su movimiento.Ejemplos de predicción de eventos a partir de fotografías. Muestras del movimiento de personas, animales, fenómenos naturales, transporte.En un estudio científico, los desarrolladores resuelven el problema fundamental de estudiar el escenario de cómo se desarrollan los eventos en el marco en el tiempo. Obviamente, tal tarea es muy difícil para la anotación formal. Por lo tanto, la red neuronal se entrenó directamente en el material terminado, en millones de videos sin anotaciones semánticas. Este enfoque tiene ciertas ventajas, ya que la IA puede aprender sin conexión, simplemente observando lo que sucede y procesando una gran cantidad de material de video en Internet.La red neuronal entrenada se encargó de generar pequeños videos en un solo marco estático. Para lograr un resultado realista, los autores del estudio utilizaron una red de confrontación generativa (GAN). Una red neuronal genera video, y la segunda red discriminadora aprende a distinguir el video falso del real y bloquea las falsas. A medida que el discriminador aprende, el generador de red tiene que generar videos cada vez más realistas para pasar la prueba.
El modelo generativo utiliza dos corrientes que simulan por separado el primer plano y el fondo para separarlos entre sí y distinguir claramente el movimiento del objeto.
Con el tiempo, dicho programa podrá ayudar de manera más efectiva a una persona en diferentes situaciones. Por ejemplo, un robot puede predecir cuándo caerá una persona y evitar que se caiga. El asistente digital en el automóvil aprenderá a predecir las acciones del conductor mediante el movimiento de las manos y los ojos para evitar un accidente.Todos los videos en los que se formó la red neuronal, así como el código fuente del programa, se publican en el dominio público . El código de red neuronal adversario generativo está en GitHub . Usando los datos para el entrenamiento (aproximadamente 10.5 terabytes de materiales de video), puede repetir el experimento usted mismo. Alternativamente, los modelos ya entrenados están disponibles para descargar (1 GB en el archivo).Los videos de capacitación fueron tomados del alojamiento de fotos y videos de Flickr, donde están bajo una licencia gratuita. Estas son escenas temáticas: eventos de playa, partidos de golf, estaciones de tren y bebés en hospitales.
Dos millones de videos son solo dos años de video. "Esto es muy pequeño en comparación con la cantidad de información de video que pasó por el cerebro de un niño de 10 años o con la cantidad de información que se procesó durante el proceso evolutivo del desarrollo de la vida en la Tierra", admite Carl Vondrick, uno de los autores de la investigación científica. trabajoPero esto es solo el comienzo, la IA da los primeros pasos, pero debes comenzar en alguna parte. En el futuro, la red neuronal se entrenará en fragmentos más largos del video. Los autores esperan que la IA comience a limitar gradualmente la elección de posibles opciones para el futuro, dadas las limitaciones de las leyes de la física y las propiedades de los objetos. Los experimentos muestran que la red neuronal puede absorberlos. Poco a poco, el programa aprenderá a predecir un futuro más lejano, y no solo 1 segundo. Es probable que se le conecten módulos adicionales, como reconocimiento de personalidad, lectura de labios, predicción de delitos en la cara de una persona , etc.Artículo científico publicadoen el sitio del Instituto de Tecnología de Massachusetts. El estudio continúa gracias a la financiación de la Fundación Nacional de Ciencias de EE. UU. Y a las subvenciones de Google para dos de cada tres miembros del equipo de investigación. El informe fue preparado para la 29ª conferencia sobre sistemas de procesamiento de neuroinformación (NIPS 2016), que se llevará a cabo del 5 al 10 de diciembre en Barcelona.Source: https://habr.com/ru/post/es399667/
All Articles