El nuevo algoritmo creado por científicos le permite crear "cabezas parlantes" casi perfectas con personas reales



Los investigadores aprendieron a editar videos poniendo palabras y oraciones en la boca de una persona en un video . La tecnología procesa el video de tal manera que se ve muy natural y orgánico, puede notar la falsificación solo si sospecha que está editado.

El nuevo algoritmo fue creado por un equipo conjunto de investigadores de Stanford, el Instituto Max Planck, Princeton y Adobe. La edición consiste solo en crear el texto que la persona del video debe pronunciar. El resto del trabajo lo realiza la red neuronal. Es difícil notar una falsificación porque las expresiones faciales y los patrones de movimientos del "hablante" se conservan, la tecnología permite enmascarar rastros de interferencia.

Para lograr esto, los creadores del algoritmo le enseñaron cómo analizar videos. La red neuronal selecciona los gestos necesarios, elementos de expresiones faciales y palabras con articulación, y luego combina los cuadros individuales para que el video modificado se vea intacto. El resultado es, de hecho, un modelo de computadora que realiza las acciones necesarias para el propietario de la tecnología.

Los movimientos de los labios, la lengua, todos los elementos articulatorios son originales, la red neuronal los "corta" del video original. Después de eso, el video no se ve demasiado natural, porque contiene una gran cantidad de cortes y pausas. Por lo tanto, la tecnología "suaviza" la opción resultante para que se vea lo más natural posible.

Antes de su uso, la red neuronal necesita capacitación: debe "alimentar" al menos 40 minutos de video con la persona o personas cuyo discurso será reemplazado. Es cierto que esto es relevante solo para videos en inglés, ya que solo hay 44 fonemas en inglés, por lo que la red neuronal es mucho más fácil de aprender usando el idioma inglés como ejemplo que el ruso o el japonés. Sin embargo, con el tiempo, esta tecnología se puede utilizar para editar videos con personas que hablan otros idiomas. A continuación se muestra un video que sirve como una demostración de las capacidades de la tecnología descrita.


Por supuesto, este trabajo plantea una serie de preguntas. Uno de ellos es la seguridad de la información y los medios. Si alguna persona puede poner palabras en la boca y el resultado se verá muy natural, ¿es peligrosa la tecnología? Los autores del desarrollo afirman que sí, puede ser utilizado por los atacantes. Pero, por ejemplo, los editores gráficos han existido durante mucho tiempo, con su ayuda también puedes fingir cualquier cosa, pero el mundo y nosotros seguimos existiendo con él.

Además, los autores dicen que entienden que la misma tecnología puede ser utilizada por políticos sin escrúpulos. Este último podrá evitar la necesidad de hacer discursos frente a la cámara si son reemplazados por "cabezas parlantes" formadas por discursos anteriores capturados en video.

Para detectar una falsificación, los autores de la idea sugieren utilizar una marca de agua especializada y algunas otras técnicas que permitirán reconocer la falsificación.

Por supuesto, el hecho de la modificación de video es fácil de probar si hay un video original. Además de esto, los autores planean desarrollar métodos para proteger el contenido de los medios agregando "huellas digitales" a la versión original, que son fáciles de detectar y comprender si el video es original o falso.

El texto completo del estudio se puede encontrar aquí .

Source: https://habr.com/ru/post/455439/


All Articles