
Hay cada vez más tipos de redes neuronales, y realmente ayudan a las personas a vivir y trabajar. Algunos sistemas predicen el clima, otros, aprenden a hacer diagnósticos, y parte de los sistemas se convirtió en un gran negocio. AI, su forma débil, ya sabe cómo analizar grandes cantidades de datos, encontrando dependencias entre, a primera vista, factores no relacionados. Pero, por supuesto, todavía hay muchos problemas: la inteligencia artificial no puede hacer frente al análisis del comportamiento de un personaje de dibujos animados "misterioso" como Homer Simpson.
No, el sistema puede identificar algunas de sus acciones, pero no todas. Al mismo tiempo, la red neuronal se entrenó en una gran cantidad de videos de YouTube de Los Simpson. Vale la pena señalar que DeepMind está lejos de ser nuevo para el desarrollo de varios sistemas de inteligencia artificial. Por ejemplo, uno de los desarrollos de esta compañía, anteriormente parte de Google, y ahora transferido a la jurisdicción de Softbank,
fue capaz de derrotar a los campeones
mundiales en el juego.
Los sistemas DeepMind, así como los desarrollos de este tipo de otras compañías, pueden analizar grandes volúmenes de información. Con el tiempo, el trabajo de las redes neuronales se vuelve más y más perfecto a medida que aprenden por sí mismas. Ya sea reconocimiento facial o traducción del inglés al chino y viceversa, los resultados mejoran día a día. Para enseñar su sistema, llamado Kinetics, para comprender el comportamiento de las personas, los empleados de DeepMind "alimentaron" más de 300,000 videos de YouTube, aprendiendo a distinguir alrededor de 400 tipos de acciones humanas.
"Los sistemas de inteligencia artificial ahora son muy buenos para reconocer varios objetos en las imágenes, pero su lado débil es trabajar con video", dicen los representantes de DeepMind. "Una de las razones principales es la falta de grandes muestras de videos de alta calidad".
Para resolver este problema, los empleados de DeepMind decidieron crear su propia
muestra . Para cada uno de los 400 tipos de acciones, una persona de YouTube "cortó" al menos 400 videos, con una duración de aproximadamente 10 segundos. El resultado es uno de los primeros conjuntos de datos especializados y de alta calidad diseñados para enseñar IA. Por supuesto, la compañía DeepMind, que formó esta muestra mientras aún era una división de Google, tuvo suerte porque Google (ahora con Alphabet) es el dueño de YouTube. En consecuencia, los empleados de Deepmind probablemente tenían acceso a herramientas especializadas para trabajar con materiales de servicio de video. Otras empresas tendrán más dificultades a este respecto, ya que encontrar videos de alta calidad disponibles públicamente para compilar un conjunto de datos especializados no es tan fácil como parece.
La precisión de la identificación de las diversas cinéticas vistas en los videos de las acciones de las personas fue de aproximadamente el 80%, lo que no es tan poco. Es cierto que esto se aplica a los videos comunes, donde juegan tenis, calman a un niño que llora, hacen un pronóstico del tiempo, etc. En el caso de Homer Simpson, todo es más complicado, aquí la precisión cae inmediatamente cuatro veces, hasta un 20%. Fue difícil para las redes neuronales identificar las acciones de Homero, como lanzar una moneda, peinarse el cabello inexistente (no se contaron los pares de pelos que quedaron) y otros.
Además de Homer, Kinetics es difícil de identificar un plato o producto si solo se muestra parte de él. Una hamburguesa a medio comer ya se define con mucha menos precisión que un todo. También surgen problemas si se muestra que el objeto es muy pequeño. Según el representante de DeepMind, para enseñar a la red neuronal a determinar correctamente alguna acción con un alto grado de precisión, a veces solo unos pocos videos son suficientes. Pero a veces incluso cien no ayuda a aumentar la precisión de determinar acciones específicas.

Todos estos son problemas bien conocidos. Por ejemplo,
anteriormente la misma red neuronal tenía dificultades para identificar los rostros de las personas que pertenecían a ciertos grupos étnicos. Según algunos expertos, los algoritmos subyacentes de Kinetics pueden determinar el género de una persona de acuerdo con algunas características del
habla y los textos .
La red neuronal de DeepMind puede determinar el género de una persona en el video (aunque de ninguna manera en todos los casos), así como evaluar el "equilibrio de género" de varios videos. Por ejemplo, el video con bigotes y barbas afeitados es principalmente masculino (a quien sorprendería), pero trabajar con cejas o porristas es femenino. Es cierto que el problema con el reconocimiento de género aún persiste, los desarrolladores tienen algo en qué trabajar aquí.
En el futuro, es probable que el trabajo en tales sistemas determine no solo lo que las personas hacen en video, sino también la razón de sus acciones. Por ejemplo, una red neuronal puede determinar por qué una persona exclamó "oh", explicando qué causó esta acción. Esto requiere un trabajo adicional sólido y muchos, muchos conjuntos de datos para la capacitación.
Probablemente, si entrenas mejor la cinética, entonces este sistema aprenderá a determinar las acciones de Homer Simpson. Aunque quién sabe, este es un personaje muy impredecible. ¿Funcionará?