Probabilistische Fotoverbesserung mit mehreren Pixeln: Google Brain


Ein Beispiel für ein neuronales Netzwerk nach dem Training anhand von Prominentengesichtern. Links befindet sich der erste Satz von Bildern mit 8 × 8 Pixeln am Eingang des neuronalen Netzwerks. In der Mitte befindet sich das Ergebnis einer Interpolation von bis zu 32 × 32 Pixel gemäß der Vorhersage des Modells. Auf der rechten Seite sind echte Fotos von Prominentengesichtern zu sehen, die auf 32 × 32 reduziert wurden und von denen Proben für die linke Spalte erhalten wurden

Ist es möglich, die Auflösung von Fotos auf unendlich zu erhöhen? Ist es möglich, glaubwürdige Bilder mit 64 Pixeln zu erstellen? Die Logik legt nahe, dass dies unmöglich ist. Das neue neuronale Netzwerk von Google Brain denkt anders. Es erhöht die Auflösung von Fotos wirklich auf ein unglaubliches Niveau.

Eine solche „Überauflösung“ ist keine Wiederherstellung des Originalbilds von einer Kopie mit niedriger Auflösung. Dies ist eine Synthese eines glaubwürdigen Fotos, das wahrscheinlich das Originalbild sein könnte. Dies ist ein probabilistischer Prozess.

Wenn die Aufgabe darin besteht, die Auflösung eines Fotos zu "erhöhen", es jedoch keine Details zur Verbesserung gibt, besteht die Aufgabe des Modells darin, aus menschlicher Sicht das plausibelste Bild zu erzeugen. Es ist wiederum unmöglich, ein realistisches Bild zu erzeugen, bis das Modell Konturen erstellt und eine „willensstarke“ Entscheidung darüber getroffen hat, welche Texturen, Formen und Muster in verschiedenen Teilen des Bildes vorhanden sein werden.

Schauen Sie sich zum Beispiel einfach das KDPV an, in dem in der linken Spalte echte Testbilder für das neuronale Netzwerk angezeigt werden. Ihnen fehlen Details von Haut und Haaren. Sie können in keiner Weise durch herkömmliche Interpolationsmethoden wie linear oder bikubisch wiederhergestellt werden. Wenn Sie jedoch zuerst gründliche Kenntnisse über die gesamte Vielfalt der Gesichter und ihre typischen Umrisse haben (und wissen, dass die Auflösung des Gesichts hier erhöht werden muss), kann das neuronale Netzwerk eine fantastische Leistung erbringen - und die fehlenden Details „zeichnen“, die am wahrscheinlichsten vorhanden sind.

Die Spezialisten von Google Brain haben das wissenschaftliche Papier " Recursive Pixel Super Resolution" veröffentlicht, in dem ein vollständig probabilistisches Modell beschrieben wird, das auf einer Reihe hochauflösender Fotos und deren reduzierten Kopien von 8 × 8 trainiert wurde, um 32 × 32 Bilder aus kleinen 8 × 8-Proben zu erzeugen.

Das Modell besteht aus zwei Komponenten, die gleichzeitig trainiert werden: einem konditionierenden neuronalen Netzwerk und einem vorherigen Netzwerk. Der erste von ihnen überlagert effektiv die Verteilung der entsprechenden hochauflösenden Bilder mit einem Bild mit niedriger Auflösung, und der zweite modelliert hochauflösende Details, um die endgültige Version realistischer zu gestalten. Ein klimatisiertes neuronales Netzwerk besteht aus ResNet- Einheiten, und der Prior ist eine PixelCNN- Architektur.

Das Modell ist schematisch in der Abbildung dargestellt.



Ein konditioniertes Faltungs-Neuronales Netzwerk empfängt Bilder mit niedriger Auflösung am Eingang und erzeugt Protokolle - Werte, die die bedingte Protokollierungswahrscheinlichkeit für jedes Pixel in einem hochauflösenden Bild vorhersagen. Das vorherige Faltungsnetzwerk macht Vorhersagen basierend auf vorherigen zufälligen Vorhersagen (angezeigt durch eine gestrichelte Linie im Diagramm). Die Wahrscheinlichkeitsverteilung für das gesamte Modell wird als Softmax-Operator auf der Summe von zwei Protokollsätzen aus einem konditionierten neuronalen Netzwerk und früher berechnet.

Aber wie bewertet man die Qualität eines solchen Netzwerks? Die Autoren der wissenschaftlichen Arbeit kamen zu dem Schluss, dass Standardmetriken wie das Spitzensignal-Rausch-Verhältnis (pSNR) und die strukturelle Ähnlichkeit (SSIM) die Qualität der Vorhersage für solche Probleme einer extrem starken Auflösungssteigerung nicht richtig einschätzen können. Nach diesen Metriken stellt sich heraus, dass das beste Ergebnis verschwommene Bilder sind, keine fotorealistischen Bilder, bei denen klare und glaubwürdige Details nicht an der Stelle der Platzierung mit den klaren Details des realen Bildes übereinstimmen. Das heißt, diese pSNR- und SSIM-Metriken sind äußerst konservativ. Studien haben gezeigt, dass Menschen echte Fotos leicht von verschwommenen Optionen unterscheiden können, die durch Regressionsmethoden erstellt wurden, aber es ist für sie nicht so einfach, zwischen den vom neuronalen Netzwerk erzeugten Proben und echten Fotos zu unterscheiden.

Mal sehen, welche Ergebnisse das von Google Brain entwickelte und auf 200.000 Promi-Gesichtern (CelebA-Fotoset) und 2.000.000 Schlafzimmer (LSUN-Schlafzimmer-Fotoset) trainierte Modell zeigt. In allen Fällen wurden die Fotos vor dem Training des Systems auf eine Größe von 32 × 32 Pixel und dann erneut auf 8 × 8 unter Verwendung der bikubischen Interpolationsmethode reduziert. Auf 8 GPUs trainierte neuronale TensorFlow-Netze.

Die Ergebnisse wurden auf zwei Hauptgrundlagen verglichen: 1) unabhängige pixelweise Regression (Regression) mit einer Architektur ähnlich dem neuronalen SRResNet- Netzwerk, die hervorragende Ergebnisse bei Standardmetriken zur Bewertung der Qualität der Interpolation zeigt; 2) Suchen Sie nach dem nächstgelegenen benachbarten Element (NN), das die Datenbank mit niedrigauflösenden Bildungsmustern nach dem ähnlichsten Bild durch die Nähe von Pixeln im euklidischen Raum durchsucht und dann das entsprechende hochauflösende Bild zurückgibt, aus dem dieses Bildungsmuster erzeugt wurde.

Es ist zu beachten, dass das Wahrscheinlichkeitsmodell je nach Softmax-Temperatur Ergebnisse unterschiedlicher Qualität liefert. Es wurde manuell festgestellt, dass die optimalen Werte liegen zwischen 1.1 und 1.3. Aber auch wenn Sie installieren dann werden die Ergebnisse jedes Mal anders sein.


Unterschiedliche Ergebnisse beim Starten eines Modells mit Softmax-Temperatur

Sie können die Arbeitsqualität des Wahrscheinlichkeitsmodells anhand der Stichproben unter dem Spoiler bewerten.

Vergleich der Schlafzimmerergebnisse









Vergleich der Ergebnisse von Promi-Gesichtern









Um den Realismus der Ergebnisse zu überprüfen, führten Wissenschaftler eine Umfrage zum Crowdsourcing durch. Den Teilnehmern wurden zwei Fotos gezeigt: eines real und das zweite mit verschiedenen Methoden aus einer verkleinerten Kopie von 8 × 8 erstellt und gefragt, welches Foto von der Kamera aufgenommen wurde.



Oben auf der Tabelle stehen die Ergebnisse für die Promi-Basis und unten für die Schlafzimmer. Wie Sie sehen können, bei Temperatur Auf den Fotos der Schlafzimmer zeigte das Modell das maximale Ergebnis: In 27,9% der Fälle erwies sich die Lieferung als realistischer als das reale Bild! Dies ist ein klarer Erfolg.

Die folgende Abbildung zeigt die erfolgreichste Arbeit des neuronalen Netzwerks, bei der die Originale realistisch „geschlagen“ wurden. Für Objektivität - und einige der schlimmsten.



Auf dem Gebiet der Erzeugung fotorealistischer Bilder unter Verwendung neuronaler Netze wird nun eine sehr schnelle Entwicklung beobachtet. 2017 werden wir sicherlich viele Neuigkeiten zu diesem Thema hören.

Source: https://habr.com/ru/post/de401395/


All Articles