Une voiture apprend la beauté ou un test de Turing pour les photographes professionnels.

Les programmeurs de Google ont décidé d'insuffler un goût artistique à la voiture et ont commencé avec un traitement photo esthétiquement correct. La particularité du concept de beauté est qu'il n'a pas de critères clairs. La machine a dû créer ces critères. La formation a eu lieu sur la base d'un site photo populaire, d'une base de données contextuelle avec des métadonnées pour les images, et le sujet du traitement était des images sphériques panoramiques de Google Street View. L'ensemble d'algorithmes résultant est appelé Creatism - un système d'apprentissage en profondeur pour créer du contenu artistique.

Les auteurs du créativité Hui Fang et Meng Zhang pensent avoir développé une échelle de notes de beauté que les photographes peuvent utiliser pour des comparaisons objectives à l'avenir. Sur la base des résultats, ils ont fait ce qu'ils ont appelé le test de Turing pour les photographes. Les chercheurs ont invité des experts à évaluer un mélange des meilleures photos prises par des personnes et créées par Creatism, sans oublier que l'ensemble contient créé par des machines. 40% des œuvres d'intelligence artificielle ont été qualifiées de "bonnes images au goût artistique". Les développeurs visent à aider tout photographe amateur à transformer sa photo en une belle image sans filtres ni paramètres. Sur simple pression d'un bouton, lancez Creatism.


En rapprochant la transmission de la lumière de la plus naturelle et de la plus «profonde», l'algorithme a parfois commis des erreurs de collage de panorama mineures, que l'on peut voir sur cette photo.

Problèmes de transmission de photos


La matrice d'un appareil photo numérique n'est pas en mesure de capturer simultanément des informations dans les zones sombres de l'image, pour lesquelles vous avez besoin de plus d'exposition (vitesse d'obturation), et dans la lumière, où il y a moins d'exposition. La plage dynamique est la différence de niveaux d'exposition entre les parties les plus sombres et les plus lumineuses de l'image qui peuvent être reproduites sans perte d'informations. Dans les zones complètement noires de l'image (en surexposition), ainsi que dans les informations surexposées (sous-exposées), il est impossible de récupérer. Les zones sombres de l'image peuvent être clarifiées, mais avec des distorsions. Avec la méthode HDR, une image de plusieurs photos prises avec différentes expositions est combinée dans un fichier 32 bits.

La vision d'une personne est capable de capturer une image visuelle avec une différence de 10-14 degrés d'éclairage sous un soleil brillant (au soleil, la pupille n'a pas la capacité de s'adapter à un éclairage différent) et jusqu'à 24 étapes dans la lumière tamisée des étoiles (l'élève peut s'adapter à la différence de lumière). Nous pouvons voir, mais capturer même une partie de cette plage sur la photo peut être difficile. La plage dynamique d'un film négatif ordinaire est d'environ 9 à 11 niveaux d'exposition, film diapositive - 5 à 6 étapes, la matrice d'un appareil photo numérique - de 8 à 11 pour la plupart des appareils photo numériques. Les caméras spéciales offrent 17 étapes de prise de vue ou plus. Jouer une vraie plage dynamique n'est pas non plus facile. Le papier photo, par exemple, ne peut reproduire que 7 à 8 niveaux d'exposition.

Caractéristiques du créativité


Pour l'expérience, 15 000 photographies professionnelles ont été prises sur 500px.com avec une résolution d'au moins 299 x 299 pixels. Avec leur aide, les développeurs ont appris à Creatism à mettre en évidence les plus intéressants du paysage. Puis, basé sur 40 000 paysages sphériques panoramiques aux États-Unis, au Canada et en Europe, l'algorithme a appris à travailler avec la couleur et la lumière.

Ensuite, la plage dynamique a été renforcée pour chaque image, et leur propre «filtre d'expression» de fonctionnement a été appliqué, ce qui améliore les ombres, l'éclairage et la couleur. Pour ce faire, traditionnellement pour le traitement d'images, nous avons utilisé le modèle de réseau neuronal compétitif génératif - un modèle lorsqu'une partie du programme dégrade la qualité de l'original et que l'autre essaie de le restaurer et apprend «comment le faire».



Pour créer l'échelle de notation finale, nous avons pris la base de données AVA, dans laquelle 250000 images, et surtout, une variété de métadonnées, y compris un grand nombre de notes esthétiques pour chaque image, des étiquettes sémantiques dans 60 catégories, ainsi que des étiquettes associées au style photographique pour le tri professionnel.

Suite aux résultats de toutes les opérations de traitement, 400 photos d'expérience ont été mélangées à 800 photos AVA et remises à des experts.

Le jury


Des experts en photographie ayant une formation professionnelle et au moins 2 ans d'expérience ont été invités à évaluer la catégorie à laquelle appartient l'image et à donner une évaluation appropriée:

  1. Fabriqué par une «boîte à savon» - il s'est avéré que c'est arrivé. Pas de paramètres, pas de mise au point.
  2. Une bonne photo d'un débutant inexpérimenté, mais la valeur artistique est minime.
  3. Prise de vue semi-professionnelle. Le goût artistique est clairement visible.
  4. Fabriqué par un professionnel.

Parmi le Creatism traité, 40% des images entraient dans la catégorie de 3 à 4, c'est-à-dire qu'elles étaient reconnues comme au moins semi-professionnelles. Le score moyen était inférieur à 3.

Les chercheurs ont publié les meilleurs clichés traités par Creatism. Sous chacun, à titre de comparaison, un panorama complet est montré à partir duquel il a été coupé.

Source: https://habr.com/ru/post/fr405419/


All Articles