👱 🉐 🤵🏼 Cómo no ganamos el hackathon 💅🏽 🦋 👉🏿

Del 30 de noviembre al 2 de diciembre, el hackathon PicsArt AI se llevó a cabo en Moscú con un fondo de premios de $ 100,000. La tarea principal era crear una solución de inteligencia artificial para procesar fotos o videos, que se pueda usar en la aplicación PicsArt. Un colega de trabajo (en ese momento) Arthur Kuzin se ofreció a participar, habiéndome interesado en la idea de anonimizar fotos personales de usuarios con detalles conservantes (expresiones faciales, etc.). Arthur también llamó a Ilya Kibardin, un estudiante del Instituto de Física y Tecnología de Moscú (alguien más tenía que escribir el código). El nombre nació muy rápido: DeepAnon.

Esta será una historia sobre nuestra decisión, su ~~degradación~~ desarrollo, hackathon y cómo no tienes que adaptarte al jurado.

Hackathon

Había tres formas de llegar al hackathon. El primero es entrar en la clasificación de los 50 mejores en la tarea de segmentación de rostros: "Datascience genius". El segundo es unirse de inmediato en un grupo de hasta 4 personas y mostrar un MVP que funcione: "equipo alegre". En la última versión, era necesario simplemente enviar una descripción de su brillante idea. Decidimos no perder el tiempo e inmediatamente, una semana antes del hackathon, hacemos MVP. Bueno, en general, decidimos que eran geniales, por lo que todo Tima entró en el top 10 en la clasificación y, en consecuencia, Inzeman.

La idea principal de nuestro producto es la siguiente: las personas comparten fotos sin pensar con ellas mismas (a veces no del todo legales) en las redes sociales, de las que luego pueden arrepentirse, o por las que incluso pueden ser castigadas en el futuro. Para protegerse, puede censurar su rostro con "cuadrados" y aplicar brillo al fondo. Pero entonces no solo la cara estará oculta, sino también las emociones, y el fondo se corromperá. Para mantener las emociones en la cara y los objetos en el fondo, nuestra aplicación cambia todas las caras en la foto y hace que la caricatura del fondo. Y para que una persona no pueda ser reconocida por la ropa, se reemplaza por otra.

En una semana logramos hacer casi todo lo que habíamos planeado. Para cada etapa, se utilizó una red neuronal separada (y algunas veces incluso varias). Al principio, todas las caras estaban en la imagen y se reemplazaban con la misma cara de celebridad; para esto, se utilizó una solución similar a DeepFake. Luego, con la ayuda de la segmentación humana, se separó el fondo y se realizó la transferencia de estilo a dibujos animados (Rick y Morty). En la última etapa, hubo una segmentación de diferentes partes de la ropa y su cambio, un cambio aleatorio de colores en el espacio HSV, ya que el jurado no tuvo tiempo de transferir el estilo antes de que se mostrara el MVP.

En cada etapa, surgieron dificultades técnicas. Por ejemplo, todas las implementaciones de DeepFake en un github pudieron convertir solo una cierta cara X en una cara específica Y. En esta formulación del problema, se necesitan muchas fotografías de dos personas. La forma más fácil de recopilar un conjunto de datos de este tipo es encontrar un video de las actuaciones de una persona donde solo se muestra la mayor parte del tiempo y, mediante la detección de rostros, cortar una foto. El énfasis principal en nuestra idea fue precisamente que es posible hacer la misma cara Y de cualquier persona. Intentamos usar muchos tipos de caras del conjunto de datos CelebA en lugar de una persona X, y, afortunadamente, comenzó. A continuación se muestra el esquema DeepFake tomado de la implementación que utilizamos .

El resultado se incluyó en una matraz de demostración web y se ejecutó para su visualización. Aquí está la descripción de nuestro centro de ganancias para el jurado.

Presentamos un servicio que le permite anonimizar contenido multimedia (fotos y videos). En la versión básica, el servicio oculta caras. En avanzado, cambia las caras de los usuarios a las caras de otras personas (DeepFake), cambia la ropa y el fondo (segmentación + transferencia de estilo). Como uso alternativo, el servicio puede servir para crear videos o fotos divertidas y virales con las celebridades reemplazadas.

Quedaban unos días antes de que comenzara el hackathon, y logramos mejorar el cambio de ropa. Si antes esto era un cambio de color en HSV, ahora ahora para cada tipo de ropa se aplicaba un estilo diferente (por varios artistas). Otra idea surgió de que sería mejor hacer un cambio de rostro no en una celebridad, sino primero clasificar por género, y luego transferir los rostros de hombres y mujeres de manera diferente (por ejemplo, en Navalny y Sobchak). Y en el último momento lograron agregar varios niveles de anonimato a la demostración web: se hizo posible elegir qué elementos de anonimato usar.

Fuimos a la parte fuera de línea con la actitud de que este es un caso de usuario útil e inusual, y no solo máscaras faciales virales. Uno de los mensajes en el chat de nuestro equipo:

Sí, si lo piensas, todos lo necesitan. Simplemente no se dieron cuenta, muchas personas hurgan en su contenido mientras golpean, beben, violan la ley y piensan que el estado no se preocupa por ellos.
Y después de 5 años, vendrá la IA, mirará las publicaciones antiguas y, después del hecho, el término se soldará.

En el hackathon

La parte fuera de línea comenzó el viernes. A cada equipo se le asignó una mesa separada, y el buffet era interminable. ~~carbohidratos rápidos~~ galletas Después de la apertura oficial, decidimos no perder el tiempo e inmediatamente descubrimos del jurado lo que quieren de los participantes. Después de hablar informalmente con varios organizadores, sentimos que su anonimato no los atrapó. Pero me gustó la idea con la segmentación de partes individuales de la foto y su cambio. También quedó claro que quieren algo de nosotros que se pueda implementar en PicsArt. Sin embargo, por la noche, nuestro equipo envió una descripción del proyecto, que hablaba sobre el anonimato, pero con énfasis en la segmentación y edición de partes individuales de la foto.

Descripción del proyecto para el jurado el viernes por la noche:

Ofrecemos un servicio que le permite procesar fotos de forma simple y automática para anonimizarlas. Al segmentar la ropa, los accesorios, el cabello en la cabeza y los elementos de fondo, el servicio le permite procesar cada objeto de forma independiente, sin la necesidad de una selección manual. El servicio también le permite cambiar caras mientras mantiene expresiones faciales y expresiones.

Según el formato de hackathon, los equipos que se hayan mostrado bien en comisiones técnicas podrán defenderse. Las comisiones tuvieron comunicación en vivo con el jurado y el equipo técnico de PicsArt, así como una demostración que demostraba su trabajo.

En la primera comisión del sábado, no pudimos vender el anonimato al jurado, pero vimos que les gustaba la idea de editar objetos individuales en la foto. Además, el jurado aceptó con entusiasmo la idea de un peinado removible haciendo clic en el cabello (resultó que ahora están tratando de hacer algo similar).

Nuestro equipo no pudo resistir esta presión (desafortunadamente) y acordó cambiar la visión del producto. Se decidió centrarse en un cambio de calidad de la ropa.

En la demostración en la pantalla principal, se planeó mostrar varias opciones para la foto original (idealmente, la ropa cambia al tocar la pantalla):

Ropa de abrigo:

dejar como está
jeans
leopardo

Pantalones:

dejar como está
jeans
leopardo

Zapatos:

dejar como está
zapatos graciosos

En la versión básica con cabello, se decidió hacer la transformación "calvo - no calvo". Para esto, calvos y todos los demás fueron seleccionados del conjunto de datos de celebridades CelebA. En estos dos grupos, CycleGAN se estableció para estudiar, que puede transformar imágenes del dominio A en el dominio B, y viceversa (otro ejemplo sería convertir un caballo en una cebra).

Logramos conocer a uno de los desarrolladores de PicsArt y aprender un poco sobre su cocina interior. Realmente no creía en el éxito de nuestro experimento con el cabello, pero lanzó enlaces en qué dirección mirar. Para nuestra decepción, la neurona realmente no aprendió cómo agregar o reducir el cabello. Pero ella aprendió a cambiar el tono de la piel (adivina por qué).

La visión del producto cambió después de cada comunicación con esas comisiones. Los planes incluían mejorar el cielo y cambiar los estilos de los objetos individuales (inicialmente solo ropa): edificios, automóviles y accesorios en público. El foco pasó del anonimato cada vez más. Para la presentación final, decidimos adherirnos a la siguiente estructura de 4 diapositivas:

Segmentación de ropa. Foto: foto original, ropa segmentada, 4 opciones para procesar ropa.
Segmentación de la escena. Una foto oscura con un cielo sobreexpuesto. El cielo se hace artístico, los edificios son dibujos animados.
Cambio de cara y cambio de cabello. Entonces qué comenzará.
Todos juntos Una diapositiva que muestra que esto se hace en tres clics.

Pero resultó que la presentación no era necesaria. El sábado por la noche, a todos se les dijo que la defensa debería ser una actuación de 3 minutos sin una presentación. Desde la escena, deberás mostrar tu demo en tiempo real. Los organizadores quieren ver tecnologías de trabajo, no hermosas presentaciones, y eso es genial. En comparación con otros hackathons, donde ganaron equipos con demos rotas, nos gustó este concepto. El único problema era que en ese momento nuestro grupo de modelos se lanzó individualmente y durante mucho tiempo. Para mostrar el escenario, se necesitaba optimización.

Durante el desarrollo, los mentores de la comisión técnica caminaron por el pasillo y observaron el progreso. Después de otra conversación con uno de los mentores, recibimos un comentario de que sería mejor para nosotros centrarnos en una cosa, en su opinión, en cambiarse de ropa. PicsArt quiere que el resultado sea realista y visible para los usuarios. De hecho, diferentes mentores y miembros del jurado tenían diferentes puntos de vista sobre lo que debería ser un proyecto ideal para ellos.

Varios mensajes del chat del equipo en ese momento

O tienen un efecto viral en el sitio de hackathon, entonces son un editor serio

Ble, no un hackathon, sino un sólido: "aquí hay un nuevo infa, rehace todo lo que tenemos"

Después de que CycleGAN no terminó el cambio de cabello, decidimos probar un enfoque diferente. Primero segmente el cabello y luego aplique pintura sobre él. La tarea de pintar es restaurar la parte oculta de la imagen del contexto circundante. Según nuestro plan, ocultamos el cabello y la red neuronal intentará restaurarlo. Pero como la red no vio qué tipo de cabello tiene esta persona, restaurará otro peinado. El problema es que incluso los modelos entrenados en los rostros de las personas no pudieron restaurar el cabello normalmente (si pinta solo una parte del cabello, funciona).

La principal dificultad es una gran variedad de peinados. Hubo una idea de entrenar la pintura solo en personas calvas, y luego la modelo probablemente aprendería a cambiar cualquier peinado por falta de cabello. Tomamos la implementación de la red neuronal de este repositorio .

Como la demostración deberá mostrarse desde la escena en tiempo real, tuve que optimizar la velocidad de la tubería. El mayor incremento en la velocidad se dio por la transferencia de todas las redes neuronales a la memoria durante toda la duración de la aplicación. Hubo algunas dificultades: comenzar a hacer todo en la ventana acoplable, pero anotar en el camino, varias veces cayó en problemas con las versiones de tensorflow. De hecho, es difícil no entrar en una situación así cuando intentas lanzar una docena de repositorios desde un github al día, cada uno de los cuales usa una versión diferente de tensorflow, actualizándose a la versión deseada en un lugar, lo rompes en otro. Docker puede ser un buen amigo en tal situación, pero en un hackathon quieres pasar cada minuto probando nuevas hipótesis y no creando una nueva imagen. Sin embargo, sucumbiendo a tal tentación, corre el riesgo de pasar aún más tiempo depurando el código e intentando averiguar qué versión de la biblioteca en qué lugar necesita.

Dia final

El domingo por la mañana, decidimos la visión final del producto (ya es hora): cambiarse de ropa con la posibilidad de mejorar el cielo. Quería limitar la tarea lo más posible, pero cambiarme de ropa parecía demasiado pequeño. Así es como se veía el "diseño" de nuestra aplicación web.

Inicialmente, querían agregar un diseño adaptativo para que sea conveniente mirar desde el teléfono. Pero el tiempo se acababa y nuestro diseño se redujo a np.vstack (imgs_list).

Antes de la presentación final, quería llevar la característica con ropa a un estado final. Se agregó una mezcla alfa de ropa y fondo: desaparecieron las transiciones bruscas. Dejó solo las texturas más realistas: jeans y piel de cocodrilo. Unas horas antes del espectáculo, logré comenzar la segmentación del cielo y transferirle el estilo desde este repositorio . Había opciones para convertir el cielo en un apocalíptico, venenoso, caricaturesco. Pero el cielo de invierno se convirtió en el tema más adecuado del concurso: su aplicación dio el efecto de un "mejorador" del cielo.

Quedaba muy poco tiempo cuando todos los componentes se conectaban en un solo conjunto y se ganaban. Descargamos muchas fotos de las redes sociales y planeamos lanzar una aplicación en ellas para seleccionar los casos más exitosos (garabatos). Pero resultó que nuestro equipo fue el primero, por lo que todo fue lo más honesto posible: mostraron demostraciones en fotos aleatorias.

Arthur, hablando en el escenario, pudo revelar nuestra idea e Ilya demostró nuestro MVP en el proyector: la ropa cambió en todas las fotos y el cielo mejoró.

Otra foto

No todos los participantes pudieron hacer frente a la tarea: mostrar solo su demostración. La tentación de agregar algunas diapositivas hermosas fue genial. De las soluciones que más nos gustaron de la defensa: convertir videos en cómics, así como combinar dos fotos en una.

Resultados

Como resultado, de acuerdo con la información privilegiada, nuestro equipo ocupó el sexto lugar a un paso del mani.

Después del hecho, llegamos a una opinión común (bueno, además del hecho de que 3 de los 5 mejores equipos recibieron el premio inmerecidamente) de que era necesario ser persistente y terminar decisivamente la idea inicial de anonimato. Incluso ahora, estamos convencidos de que es adecuado y aportará valor a varios usuarios. Comprometidos en el desarrollo de ideas con el anonimato durante todo el fin de semana, al menos nos divertiríamos más.

Si nunca ha participado en hackatones, asegúrese de intentarlo: una excelente prueba de usted y su equipo, una oportunidad para darse cuenta de algo para lo que nunca tuvo tiempo. Y, por supuesto, asegúrate de hacer lo que quieras, porque el máximo beneficio del proceso solo se puede obtener quemando en el hardcore.

Estado actual del proyecto.

Nuestro equipo publicó el código para la demostración final en GitHub . Y también hay un repositorio separado que hace el anonimato . En el futuro, hay planes para desarrollar la versión inicial con anonimato: reescribir todo en PyTorch, entrenar en fotos con mayor resolución y menos ruido (foto con una sola cara), así como subir el bot en telegrama.

Para aquellos que ya quieren probar la versión nacida al comienzo del hackathon, se lanza un bot en Telegram en modo de demostración ( @DbrainDeepAnon -> /start -> /unlock dbraindeepanon ). Funciona en el servidor Dbrain (nuestro agradecimiento), en el que se realizó todo el entrenamiento de transferencia de cara, así que pruébelo hasta que se apague. El servicio utiliza el contenedor interno Dbrain - wrappa, que le permite envolver fácilmente el contenedor acoplable e iniciar el bot de telegramas. Pronto wrappa estará disponible en código abierto.

Me gustaría señalar que nuestro trabajo no fue en vano. Gracias a DeepAnon, una "persona anónima", que estaba muy preocupada por la privacidad de sus datos, finalmente pudo dirigir un instagram sobre su vida. Ya no teme que las cámaras en la ciudad puedan reconocer su rostro a partir de fotografías de las redes sociales, sin embargo, los amigos podrán reconocerlo. Las caras de todas las personas en su Instagram también están anónimas.

Enlaces a los repositorios que utilizamos:

https://github.com/shaoanlu/faceswap-GAN
https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix
https://github.com/sacmehta/ESPNet
https://github.com/JiahuiYu/generative_inpainting
https://github.com/NVIDIA/FastPhotoStyle

PD: También, para el fanático, intenté volver a capacitar a la red para reemplazar a las personas con uno de los miembros de ODS . Intenta adivinar a quién. Las redes dieron el nombre de TestesteroNet.