Ich habe bereits aufgehört zu schaudern und mich zu fragen, wann das Telefon klingelt und eine harte, selbstbewusste Stimme im Empfänger zu hören ist: "Sind Sie besorgt über den Kapitän so und so (Major so und so), können Sie ein paar Fragen beantworten?" Warum nicht mit deiner eigenen Polizei sprechen ...
Die Fragen sind immer gleich. "Wir haben ein Video mit dem Verdächtigen, bitte helfen Sie, das Gesicht wiederherzustellen" ... "Helfen Sie, die Anzahl vom DVR zu erhöhen" ... "Es gibt hier keine menschlichen Hände, bitte helfen Sie zu erhöhen" ... und so weiter in der gleichen Richtung.
Um zu verdeutlichen, worum es geht, hier ein reales Beispiel für ein stark komprimiertes Video, das gesendet wird, um ein unscharfes Gesicht wiederherzustellen (dessen Größe etwa 8 Pixel entspricht):
Und okay, nur die russischen Onkel von Stepa würden stören, schreiben Western Pinkertones.
Hier ist zum Beispiel ein Brief der englischen Polizei <***** @ *****. Fsnet.co.uk>:
Ich habe Ihre Filter einige Zeit privat verwendet, um meine schlechten Videos von Familienferien zu retten, aber ich möchte die kommerziellen Filter für meine Arbeit verwenden. Ich bin derzeit Polizist bei einer kleinen Polizei und wir bekommen eine Menge CCTV-Videos, die manchmal von sehr schlechter Qualität sind und ich kann sehen, wie Ihre Filter einen echten Unterschied machen würden. Kannst du mir die Kosten sagen und ob ich sie benutzen könnte?
Danke
ÜbersetzungIch habe Ihre Filter bereits für persönliche Zwecke verwendet, um meine schlechten Videos aus dem Familienurlaub zu speichern. Aber ich möchte in meiner Arbeit kommerzielle Filter verwenden. Ich bin derzeit ein Polizist in einer kleinen Einheit. Wir erhalten eine große Anzahl von Videos von CCTV-Kameras, manchmal von sehr schlechter Qualität, und Ihre Filter werden wirklich helfen. Können Sie mir ihre Kosten mitteilen und kann ich sie verwenden?
Vielen Dank
Oder ein australischer Polizist schreibt:
Hallo
Ich arbeite für die Victoria Police in Australien in der Abteilung Video- und Audio-Forensik. Gelegentlich erhalten wir Videos von Hand- oder Fahrzeugkameras. Oft erfassen diese Interlaced-Aufnahmen von sich schnell bewegenden Ereignissen. Insbesondere ist das Filmmaterial, das normalerweise das "Versprechen" hat, das Filmmaterial von Fahrzeugnummernschildern. Wir stellen häufig fest, dass sich das betreffende Fahrzeug zwischen dem ersten und dem letzten erfassten Feld erheblich bewegt hat. Infolgedessen versuchen wir, den gesamten Rahmen aus den beiden Feldern zu rekonstruieren, wobei der zweite übersetzt, manchmal gedreht wird und gelegentlich auch die Größe unterschiedlich ist (wenn das Fahrzeug weg oder in Richtung Kamera fährt). Diese beiden Felder heiraten , vorzugsweise bis zur Subpixel-Genauigkeit, und die Rekonstruktion des Rahmens, der das Nummernschild enthält, kann schwierig sein.
Nach dem, was ich von Ihnen beim Deinterlacing von Filmmaterial gesehen habe, kann es sein, dass Ihr Filter einige, wenn nicht alle Aufgaben ausführen kann, die wir benötigen. Um ehrlich zu sein, da unser Budget eher klein ist, ist es unwahrscheinlich, dass wir uns eine kommerzielle Lizenz leisten können. Wir verkaufen das Produkt natürlich nicht, wir verwenden es als Beweismittel in Polizeifällen. Auf jeden Fall dachte ich, ich würde eine E-Mail schreiben und trotzdem fragen. Wie viel würde eine Lizenz kosten? Ist es möglich, das Produkt anhand von Filmmaterial zu testen, um festzustellen, ob es angemessen ist? Tut es etwas von dem, was wir brauchen? Wurde der Algorithmus zuletzt veröffentlicht? Die Arbeit mit unbekannten Algorithmen ist für ein Gericht eine gefährliche Praxis. Wenn die Beweise dazu führen, dass ein Mann 20 Jahre lang ins Gefängnis geht, ist es eine gute Praxis zu wissen, warum!
Alle Informationen, die Sie anbieten können, wären willkommen.
Grüße,
Fallbearbeiter
Audiovisuelle Einheit
Victoria Police Forensic Services Abteilung
ÜbersetzungHallo,
Ich arbeite für die Victoria Police in Australien in der forensischen Video- und Audioabteilung. Von Zeit zu Zeit erhalten wir Videos von Handkameras und DVRs. Oft handelt es sich bei diesen Videos um Interlaced-Aufnahmen von sich schnell bewegenden Objekten. Das wichtigste Material sind insbesondere Kfz-Kennzeichen. Wir stellen häufig fest, dass sich das betreffende Fahrzeug stark zwischen dem ersten und dem letzten erfassten Feld bewegt. Infolgedessen versuchen wir, ein ganzes Bild aus zwei Feldern wiederherzustellen, wobei das zweite verschoben, manchmal gedreht und manchmal unterschiedlich groß ist (wenn das Auto zur oder von der Kamera fährt). Das Kombinieren dieser beiden Felder, vorzugsweise mit einer Genauigkeit von einem halben Pixel, und das Wiederherstellen eines gesamten Rahmens, der ein Nummernschild enthält, kann schwierig sein.
Ich sehe, wie Sie Deinterlacing auf Frames anwenden, und vielleicht können Ihre Filter etwas bewirken, wenn nicht alles, was wir brauchen. Ehrlich gesagt können wir uns möglicherweise keine kommerzielle Lizenz leisten, da unser Budget recht klein ist. Wir verkaufen das Produkt natürlich nicht, wir verwenden es als Beweismittel in Polizeifällen. Auf jeden Fall dachte ich, ich würde einen Brief schreiben und trotzdem fragen. Wie viel kostet die Lizenz? Ist es möglich, das Produkt am Material zu testen, um festzustellen, ob es geeignet ist? Macht er einen Teil dessen, was wir brauchen? Wurde der Algorithmus schließlich veröffentlicht? Die Arbeit mit unbekannten Algorithmen ist eine gefährliche Praxis vor Gericht. Wenn die Beweise dazu führen, dass eine Person 20 Jahre lang ins Gefängnis muss, ist es hilfreich zu wissen, warum.
Wir sind dankbar für alle Informationen, die Sie uns zur Verfügung stellen können.
Mit freundlichen Grüßen,
Ermittler
Audio- und Videoabteilung
Forensische Abteilung der Polizei von Victoria
Beachten Sie, dass der Brief sehr nachdenklich ist, eine Person besorgt über den veröffentlichten Algorithmus und über die Verantwortung für eine fehlerhafte Wiederherstellung ist.
Manchmal geben sie nur im Korrespondenzprozess zu, dass sie von der Polizei sind. Zum Beispiel möchten Italiens Carabinieri helfen:
Dr. Vatolin
Danke für die Antwort.
Die Antwort ist auch für die Polizei wert (Carabinieri-Untersuchung
wissenschaftlich für PARMA ITALIEN)?
Mit welcher Software sie Ihre Algorithmen verknüpft haben.
Wir wären viel.
ÜbersetzungDr. Batolin
Danke für die Antwort.
Ist dies für die Polizei geeignet (Carabinieri Investigation Unit für PARMA ITALIEN)?
Interessieren sie sich für die Software, die Ihre Algorithmen verwenden?
Wir werden dankbar sein.
Und natürlich viele Appelle gewöhnlicher Menschen ...
Erhöhen Sie es! Was, tut Ihnen leid, wenn Sie den richtigen Knopf drücken?
Es ist klar, dass dieser gesamte Anrufstrom nicht von Grund auf neu angezeigt wird.
"Schuld" vor allem Filme und TV-Shows.
Zum Beispiel wird hier in 3 Sekunden der Frame des komprimierten Videos um das 50-fache vergrößert und durch die Reflexion in der Brille sehen sie Beweise:
Und es gibt viele solcher Momente in modernen Filmen und Serien. In diesem Video haben wir beispielsweise solche Episoden aus einer Reihe von Fernsehsendungen absolut episch gesammelt. Nehmen Sie sich keine zwei Minuten Zeit, um sie anzusehen:
Und wenn Sie dies in jedem Film sehen, wird dem letzten Igel klar, dass alles, was Sie brauchen, ein kompetentes Computergenie ist, eine Kombination aus modernen Algorithmen, und es bleibt nur, um sofort
„STOP!“ und "Verbessere es!" . Und voila! Ein Wunder wird geschehen!
Die Drehbuchautoren hören jedoch nicht bei dieser bereits abgedroschenen Rezeption auf, und ihre ungezügelte Vorstellungskraft geht noch weiter. Hier ist ein sehr monströses Beispiel. Galante Detektive, die sich in der Pupille des Opfers widerspiegeln sollten, erhielten ein Foto des Täters. In der Tat war das Spiegelbild in der Brille bereits da. Das ist alltäglich. Lass uns weitermachen! Es ist nur so, dass sich die Auflösung der CCTV-Kamera im Treppenhaus als ziemlich zufällig herausstellte, wie beim Hubble-Teleskop:
Im "Propheten" (00:38:07):
In „Avatar“ (1: 41: 04–1: 41: 05) ist der Schärfungsalgorithmus im Vergleich zu anderen Filmen übrigens etwas ungewöhnlich: Er schärft zuerst an bestimmten Stellen und zieht nach Sekundenbruchteilen den Rest des Bildes auf, t .e. zuerst die linke Mundhälfte und dann die rechte:
In sehr beliebten Filmen, die von Hunderten von Millionen angesehen werden, erfolgt das Schärfen des Bildes im Allgemeinen mit einem Klick.
Alle Leute (in den Filmen) machen es! Warum können Sie, so clevere Experten, das nicht?
"Ich weiß, das ist einfach!" Und mir wurde definitiv gesagt, dass Sie dies tun! Sind Sie zu faul, um diesen Knopf zu drücken?
// Oh je ... Verdammte Drehbuchautoren mit ihrer wilden Fantasie ...- Ich verstehe, dass Sie beschäftigt sind, aber es geht um Ihre Hilfe für den Staat bei der Aufklärung eines wichtigen Verbrechens!
// Wir verstehen.- Vielleicht geht es ums Geld? Wie viel müssen Sie bezahlen?
// Nun, wie man kurz erklärt, dass wir kein Geld brauchen ... Und dann wieder und dann wieder ...
Das Zusammentreffen der obigen Zitate mit echten Dialogen ist völlig zufällig. Insbesondere wird dieser Text jedoch so geschrieben, dass eine Person ihn zuerst sorgfältig liest und erst dann zurückruft.
Fazit: Aufgrund der Tatsache, dass die Szene mit der Vergrößerung von Bildern von CCTV-Kameras mit einem Klick zu einem Stempel des modernen Kinos geworden ist, sind viele Menschen aufrichtig davon überzeugt, dass es sehr einfach ist, ein Fragment eines Rahmens einer billigen Kamera oder eines billigen Videorecorders zu vergrößern. Die Hauptsache ist, wie man fragt (nun, oder befiehlt, das ist wie viel Glück).
Woher wachsen die Beine?
Es ist klar, dass dieser gesamte Anrufstrom nicht von Grund auf neu erstellt wird. Wir beschäftigen uns seit ungefähr 20 Jahren wirklich mit der Verbesserung von Videos, einschließlich verschiedener Arten der Videowiederherstellung (und es gibt übrigens verschiedene Arten davon), und unsere Beispiele werden in diesem Abschnitt niedriger sein.
Eine „intelligente“ Erhöhung der Auflösung in wissenschaftlichen Artikeln wird normalerweise als Super Resolution (kurz SR) bezeichnet. Google Scholar auf Anfrage
Super Resolution findet 2,9 Millionen Artikel, d. H. Das Thema war sozusagen ziemlich gut ausgegraben, und eine große Anzahl von Menschen beschäftigte sich damit. Wenn Sie
dem Link folgen, gibt es ein Meer von Ergebnissen, eines schöner als das andere. Es lohnt sich jedoch, tiefer zu graben, das Bild wird wie üblich nicht so pastoral. Das SR-Thema hat zwei Richtungen:
- Video Super Resolution (0,4 Millionen Artikel) - die tatsächliche Wiederherstellung unter Verwendung vorheriger (und manchmal nachfolgender) Frames,
- Bild-Superauflösung (2,2 Millionen Artikel) - „intelligente“ Erhöhung der Auflösung mit nur einem Frame. Da im Fall eines Bildes Informationen darüber aufgenommen werden sollen, was sich an dieser Stelle eigentlich nirgends befand, vervollständigen die Algorithmen das Bild auf die eine oder andere Weise (oder relativ gesehen „vervollständigen“) - was könnte dort sein. Das Hauptkriterium dafür ist, dass das Ergebnis so natürlich wie möglich oder so nah wie möglich am Original aussehen sollte. Und es ist klar, dass solche Methoden nicht geeignet sind, um das wiederherzustellen, was „wirklich“ war, obwohl das Bild vergrößert wird, damit es beispielsweise beim Drucken besser aussieht (wenn Sie ein eindeutiges Foto haben, aber keine Version in höherer Auflösung vorhanden ist) ) Solche Methoden sind sehr gut möglich.
Wie Sie sehen können, sind 0,4 Millionen gegenüber 2,2 Millionen - das heißt, fünfmal weniger Menschen sind an der tatsächlichen Genesung beteiligt. Glücklicherweise ist das Thema „Mach es größer, nur schön“ sehr gefragt, auch in der Branche (der berüchtigte digitale Zoom von Smartphones und digitalen Seifenschalen). Wenn Sie noch tiefer eintauchen, wird schnell klar, dass eine erhebliche Anzahl von Artikeln zur
Video-Superauflösung auch eine Erhöhung der Videoauflösung ohne Wiederherstellung darstellt, da die Wiederherstellung schwierig ist. Infolgedessen können wir sagen, dass diejenigen, die „schön“ sind, etwa zehnmal mehr sind als diejenigen, die wirklich versuchen, sie wiederherzustellen. Übrigens eine ganz normale Lebenssituation.
Wir gehen noch tiefer. Sehr oft sind die Ergebnisse des Algorithmus sehr gut, aber er benötigt beispielsweise 20 Frames vorwärts und 20 Frames zurück, und die Verarbeitungsgeschwindigkeit eines Frames beträgt bei Verwendung der fortschrittlichsten GPU etwa
15 Minuten . Das heißt, Für 1 Minute benötigt das Video 450 Stunden (fast 19 Tage). Ups-ss ... Stimmen Sie zu, dies ist überhaupt nicht wie der Moment "Zoom it!" aus den Filmen. Regelmäßig gibt es Algorithmen, die mehrere Tage pro Frame arbeiten. Bei Artikeln ist ein besseres Ergebnis in der Regel wichtiger als die Arbeitszeit, da die Beschleunigung eine separate schwierige Aufgabe ist und es einfacher ist, einen großen Elefanten in Teilen zu essen. Das ist der Unterschied zwischen Leben und Kino ...
Die Anfrage nach Algorithmen, die auf Video mit einer angemessenen Geschwindigkeit ausgeführt werden, führte zu einer separaten Richtung der
schnellen Video-Superauflösung - 0,18 Millionen Artikel, einschließlich "langsamer" Artikel, die mit "schnellen" verglichen werden, d. H. Die tatsächliche Anzahl der Artikel zu solchen Methoden ist überbewertet. Es ist zu beachten, dass unter den "schnellen" Ansätzen der Prozentsatz der Spekulation, d.h. ohne echte Erholung höher. Dementsprechend ist der Prozentsatz der ehrlichen Genesung geringer.
Sie sehen, das Bild wird klar. Aber das ist natürlich weit von allem entfernt.
Welche anderen Punkte beeinflussen das Erreichen eines guten Ergebnisses erheblich?
Erstens ist Lärm sehr einflussreich. Unten sehen Sie ein Beispiel für eine zweifache Wiederherstellung der Auflösung in einem sehr verrauschten Video:
Quelle: Materialien des AutorsDas Hauptproblem in diesem Fragment ist nicht einmal die üblichen Geräusche, sondern das farbige
Moiré auf dem Hemd, das schwer zu verarbeiten ist. Einige könnten sagen, dass große Geräusche heute kein Problem sind. Es ist nicht so. Sehen Sie sich die Daten von Auto-DVRs und CCTV-Kameras im Dunkeln an (genau dann, wenn sie stärker nachgefragt werden).
Moiré kann jedoch auch bei relativ „sauberen“ Rauschvideos auftreten, z. B. in der folgenden Stadt (die folgenden Beispiele
basieren auf unserer Arbeit ):
Quelle: Materialien des AutorsZweitens ist für eine optimale Wiederherstellung eine nahezu ideale Vorhersage der Bewegung zwischen Bildern erforderlich. Warum dies schwierig ist, ist ein separates großes Thema, aber dies erklärt, warum Szenen mit einer Panoramakamerabewegung oft sehr gut wiederhergestellt werden und Szenen mit einer relativ chaotischen Bewegung äußerst schwer wiederherzustellen sind, aber mit ihnen können Sie in einigen Situationen ein recht gutes Ergebnis erzielen:
Quelle: Materialien des AutorsUnd zum Schluss noch ein Beispiel für die Wiederherstellung von Text:
Quelle: Materialien des AutorsHier bewegt sich der Hintergrund ziemlich reibungslos und der Algorithmus kann "durchstreifen":
Insbesondere wenn wir eine sehr kleine Inschrift mit der rechten Hand vergleichen, einschließlich der Vergrößerung mit klassischer
bikubischer Interpolation , ist der Unterschied sehr deutlich sichtbar:
Es ist zu sehen, dass es für die bikubische Interpolation fast unmöglich ist, das Jahr zu lesen. Für
Lanczos4 , das von jenen geliebt wird, die die Videoauflösung semiprofessionell auf Schärfe ändern, sind die Kanten natürlich klarer, aber es ist immer noch unmöglich, das Jahr zu lesen. Wir kommentieren den kommerziellen Topas nicht, aber wir lesen die Inschrift deutlich und Sie können sehen, dass dies höchstwahrscheinlich 1809 ist.
Schlussfolgerungen:
- Tausende von Forschern auf der Welt sind daran beteiligt, die Auflösung zu erhöhen, und Millionen von Artikeln wurden zu diesem Thema veröffentlicht. Aus diesem Grund verfügt jedes Smartphone über einen „Digitalzoom“, der in der Regel objektiv besser ist als die Algorithmen zur Erhöhung herkömmlicher Programme, und jeder FullHD-Fernseher kann SD-Videos anzeigen, häufig auch ohne charakteristische Artefakte der Auflösungsänderung.
- Das Wiederherstellen eines realen Bildes aus einem Video macht weniger als 10% der an Super Resolution Beteiligten aus. Darüber hinaus sind die meisten Wiederherstellungsalgorithmen extrem langsam (bis zu mehreren Tagen Berechnungen pro Frame).
- In den meisten Fällen soll die Wiederherstellung sicherstellen, dass hohe Frequenzen im Video mehr oder weniger erhalten bleiben und daher bei Videos mit erheblichen Komprimierungsartefakten nicht funktionieren. Und da in den Einstellungen von CCTV-Kameras das Komprimierungsverhältnis häufig aufgrund des Wunsches gewählt wird, mehr Stunden zu sparen (dh das Video wird stärker komprimiert und die hohen Frequenzen werden "getötet"), wird es fast unmöglich, ein solches Video wiederherzustellen.
Wie SR in der Branche aussieht
Fairerweise stellen wir fest, dass heute alle (oder zumindest gekauften) Auflösungsalgorithmen für alle TV-Hersteller (Sie müssen HD-Bilder aus SD-Bildern im laufenden Betrieb erstellen), für alle Smartphone-Hersteller (was in der Werbung als „digitaler Zoom“ bezeichnet wird) usw. verfügbar sind. .d. Wir werden über die Ergebnisse von Google sprechen (und nicht nur). Erstens, weil Google sehr nett und ohne viel Pathos ist und Marketing die Ergebnisse in seinem Blog beschreibt - und das ist sehr schön. Zweitens, weil Smartphone-Hersteller (zum Beispiel ein sehr bekanntes koreanisches Unternehmen) nicht davor zurückschrecken, beispielsweise Photoshop für die Werbung für ihre Technologien zu verwenden (was ist der Unterschied - die Leute schlucken immer noch) - und dies ist unangenehm. Lassen Sie uns im Allgemeinen über diejenigen sprechen, die ihre Technologie ziemlich ehrlich beschreiben.
Bereits
im Jahr 2016 veröffentlichte Google interessante Ergebnisse des
RAISR- Algorithmus
(Rapid and Accurate Image Super Resolution), der im Pixel 2-Smartphone verwendet wird. Bei den erfolgreichsten Bildern sah das Ergebnis einfach großartig aus:
Quelle: Google AI BlogDer Algorithmus war eine Reihe von Filtern, die nach der ML-Klassifizierung verwendet wurden, und verglichen mit der bikubischen Interpolation (traditioneller Prügelknabe) war das Ergebnis erfreulich:
In der Reihenfolge: ursprüngliche, bikubische Interpolation, RAISRAber es war Single Frame Interpolation, und bei den „erfolglosen“ Beispielen wie dem folgenden Laub wurde das Bild sehr unangenehm verzerrt - nach der Vergrößerung wurde das Bild merklich „synthetisch“. Es zeigte genau den Effekt, für den der Digitalzoom moderner Smartphones nicht beliebt ist:
Das Wunder geschah tatsächlich nicht, und Google veröffentlichte ehrlich und sofort ein Gegenbeispiel, d. H. umriss sofort die Grenzen der Anwendbarkeit ihres Ansatzes und rettete die Menschen vor übermäßigen Erwartungen (typisch für konventionelles Marketing).
Weniger als zwei Jahre später wurde jedoch die
Fortsetzung der in Google Pixel 3 verwendeten
Arbeit veröffentlicht, die die Qualität der Aufnahme erheblich verbessert. Dies ist bereits eine ehrliche Superauflösung mit mehreren Bildern, d. H. Wiederherstellungsalgorithmus für die Auflösung mehrerer Frames:
Quelle: Google AI BlogDas obige Bild zeigt einen Vergleich der Ergebnisse von Pixel 2 und Pixel 3, und die Ergebnisse sehen sehr gut aus - das Bild ist wirklich viel klarer geworden und es ist deutlich zu sehen, dass dies nicht „ausdenken“, sondern wirklich Details wiederherstellen. Darüber hinaus hat ein aufmerksamer professioneller Leser Fragen zu zwei vertikalen Doppelrohren auf der linken Seite. Die Auflösung hat deutlich zugenommen, während der
Aliasing- Schritt (ein Zeichen für echte Auflösung) seltsam nahe kommt. Was war das?
Kurz gesagt, wir werden den Algorithmus analysieren. Die Kollegen haben die Interpolation des
Bayer-Musters geändert :
Tatsache ist, dass 2/3 der Informationen in einem realen Bild tatsächlich informationsinterpoliert sind. Das heißt, Ihr Bild ist BEREITS unscharf und „unscharf“, aber bei einem echten Rauschpegel ist dies nicht so wichtig. Übrigens hat die Fähigkeit, komplexere Interpolationsalgorithmen zu verwenden, beliebte Programme mit RAW-Konvertierung von höchster Qualität für Fotos gemacht (der Unterschied zwischen dem in jede Kamera eingebauten einfachen Algorithmus und dem komplexen Algorithmus eines speziellen Programms ist normalerweise beim Vergrößern des Bildes mit dem Auge erkennbar).
Kollegen von Google nutzen die Tatsache, dass die überwiegende Mehrheit der Smartphone-Fotos mit den Händen aufgenommen wird, d. H. Die Kamera zittert leicht:
Quelle: Google AI Blog (Mehrfachbild auf Pixelebene ausgerichtet, um die Verschiebung von Subpixeln anzuzeigen)Wenn Sie ein paar Frames nehmen und die Verschiebung auswerten (und das Eisen, das eine Bewegungsschätzungskarte mit Viertelpixelgenauigkeit erstellen kann, befindet sich in jedem Smartphone mit H.264-Unterstützung), erhalten wir eine Verschiebungskarte. Getreu der obigen Animation ist deutlich zu erkennen, dass das Erstellen einer Verschiebungskarte mit Subpixel-Genauigkeit bei einem realen Rauschpegel eine nicht triviale Aufgabe ist, aber in den letzten 20 Jahren sind in diesem Bereich sehr gute Algorithmen aufgetaucht. Natürlich manchmal, und sie haben es schwer. Im obigen Beispiel blinkt beispielsweise etwas an einem Rahmen oben am Treppengeländer. Und dies ist immer noch eine statische Szene. Es gibt keine sich bewegenden Objekte, die sich manchmal nicht nur bewegen, sondern drehen, ihre Form ändern, sich schnell bewegen und große Öffnungsbereiche hinterlassen (deren Schleife nach der Verarbeitung nicht sichtbar sein sollte). Das folgende Beispiel zeigt deutlichWas passiert mit sich schnell bewegenden Objekten, wenn Sie die spezielle Verarbeitung solcher Fälle deaktivieren (links deaktiviert, rechts aktiviert, wenn Sie klicken, sind Verarbeitungsblöcke deutlich sichtbar):
Quelle: Google AI Blog (empfohlen zum Klicken und Anzeigen in hoher Auflösung)Harte Beispiele sind Flammen, Wellen, Sonnenlicht auf dem Wasser usw. Im Allgemeinen gibt es selbst bei dem „einfachen“ Problem der Bestimmung der Verschiebung viele nicht triviale Momente, die die Lebensdauer des Algorithmus erheblich verkomplizieren. Jetzt geht es jedoch nicht darum.Interessanterweise können Sie den Sensor auch dann, wenn die Kamera vollständig stationär ist (z. B. auf einem Stativ montiert), durch die Steuerung des optischen Stabilisierungsmoduls (OIS - Optical Image Stabilization) bewegen . Als Ergebnis erhalten wir die gewünschten Subpixelverschiebungen. In Pixel 3 ist die OIS-Unterstützung implementiert, und Sie können das Telefon gegen das Glas drücken und mit Interesse beobachten, wie OIS das Bild entlang einer Ellipse bewegt (ungefähr wie dieser Link).Das heißt, selbst in diesem schwierigen Fall der Befestigung auf einem Stativ kann Super Resolution die Qualität verbessern. Der Löwenanteil der Aufnahmen mit Smartphones entfällt jedoch auf Handaufnahmen.Als Ergebnis haben wir zusätzliche Informationen, um ein Foto mit größerer Auflösung zu erstellen:Wie oben erwähnt, ist die direkte Folge von SR eine signifikante Abnahme des Geräuschpegels, in einigen Fällen ist dies sehr auffällig:Quelle: Google AI BlogBeachten Sie, dass Wiederherstellung auch Wiederherstellung durch die Anzahl der Bits pro Komponente bedeutet. Das heißt,
Wenn das Problem der Erhöhung der Auflösung formal gelöst wird, kann dieselbe Engine unter bestimmten Bedingungen nicht nur Rauschen unterdrücken, sondern auch den Rahmen in HDR verwandeln. Es ist klar, dass HDR heutzutage selten verwendet wird, aber dies ist, wie Sie sehen, ein guter Bonus.Das folgende Beispiel zeigt einen Vergleich von Bildern, die beim Aufnehmen auf Pixel 2 und Pixel 3 nach SR mit vergleichbarer Sensorqualität erhalten wurden. Der Unterschied im Rauschen und der Unterschied in der Klarheit sind deutlich sichtbar:Für diejenigen, die sich die Details ansehen möchten, gibt es ein Album, in dem Googles Super Resolution (Marketingname Super Res Zoom) in seiner ganzen Pracht im Spektrum der Bildzoom- Skala auf einem Smartphone ( FoV- Änderung ) geschätzt werden kann : Wie sie bescheiden schreiben - sie sind der Aufnahmequalität von Smartphones einen Schritt näher gekommen auf die Qualität professioneller Kameras. Fairerweise stellen wir fest, dass professionelle Kameras auch nicht stillstehen. Eine andere Sache ist, dass bei kleineren Verkäufen dieselben Technologien für den Benutzer mehr kosten. SR erscheint jedoch bereits in professionellen Kameras. UPD: Als Beispiel (letzter Link ist ein Vergleich):
- Testing Sony's New Pixel Shift Feature in the a7R III , 2 ( , ),
- Olympus E-M5 Mark II 16 40 ,
- Super Resolution Pentax K-1 ,
- : Pixel-Shift Shootout: Olympus vs. Pentax vs. Sony vs. Panasonic — Pentax K-1, Sony a7R III, Olympus OM-D E-M1 Mark II Panasonic Lumix DC-G9. , , , Pentax K-1.
:
- Super Resolution , , .
- SR: Image Super Resolution — ( ), .
- Die Hauptprämien der Wiederherstellungsalgorithmen sind Rauschunterdrückung, Verfeinerung von Details, „ehrlicheres“ HDR und deutlich sichtbare höhere Bildqualität bei Großbildfernsehern.
- All diese Pracht wurde durch einen Kardinal (ungefähr 3 Größenordnungen in der Anzahl der Operationen) ermöglicht, der die Komplexität von Fotoverarbeitungsalgorithmen erhöhte, genauer gesagt - ein Videobild.
Yandex-Ergebnisse
Da sie in den Kommentaren noch nachfragen werden, möchte ich ein paar Worte zu Yandex sagen, das letztes Jahr seine Version von Super Resolution veröffentlicht hat:Quelle: https://yandex.ru/blog/company/oldfilmsUnd hier einige Beispiele für Cartoons:Quelle: https://yandex.ru/blog/company/soyuzmultfilmWas war das? Yandex wiederholte die
Technologie von Google im Jahr 2016 ?
Auf
der Technologiebeschreibungsseite von Yandex (Marketingname DeepHD) wird nur auf Image Super Resolution verwiesen. Dies bedeutet, dass es offensichtlich Gegenbeispiele gibt, bei denen der Algorithmus das Bild verdirbt, und sie sind häufiger als bei ehrlichen Wiederherstellungsalgorithmen. Aber ungefähr 80% der Artikel sind dem Thema gewidmet und der Algorithmus ist einfacher zu implementieren.
Diese Technologie wurde
auch in einem Hub beschrieben (es ist interessant, dass der Autor des Artikels ein Absolvent unseres Labors ist), aber wie Sie den Kommentaren entnehmen können, haben die Autoren keine meiner Fragen beantwortet, während sie die anderen beantworteten. Und dies sind eher nicht die Autoren der Bösewichte, sondern die Politik des Unternehmens (in anderen Beiträgen gibt es, wenn Sie genau hinschauen, oft auch keine Antworten auf Fragen von Experten). Für Technologieunternehmen zögern Blogs, tiefer in die Diskussion über Implementierungs- oder Technologiedetails einzusteigen. Vor allem, wenn dies einen besseren Eindruck von der Technologie / dem Produkt vermittelt. Oder Konkurrenten können das Gleiche schneller schneiden. Auch hier ist das Marketing für die Beiträge verantwortlich, und dies ist ihre direkte Arbeit - sie schafft einen positiven Eindruck von den Produkten des Unternehmens, unabhängig von der Qualität der Produkte selbst. Daher das häufige Misstrauen gegenüber den Informationen aus dem Marketing.
Generell lohnt es sich, aus folgenden Gründen sehr skeptisch gegenüber den Bildern von Unternehmen aus der Serie „Wie wir alles gut gemacht haben“ zu sein:
- Autoren von Verarbeitungsalgorithmen sind sich bewusst, dass es praktisch keine Algorithmen gibt, die in einigen Fällen keine Artefakte erzeugen würden. Tatsächlich besteht eine der Hauptaufgaben des Entwicklers darin, den Prozentsatz solcher Fälle (oder die Sichtbarkeit von Artefakten in solchen Fällen) zu verringern und gleichzeitig die Qualität in anderen Fällen aufrechtzuerhalten. Und sehr oft gelingt dies NICHT:
- Oder die Artefakte sind so stark und schwer zu reparieren, dass der gesamte Ansatz abgelehnt wird. Tatsächlich ist dies vielleicht der Fall (Überraschung-Überraschung!) Bei den meisten Artikeln. In einigen Fällen göttliche Bilder (auf denen gemahlen wurde) und im Rest „es funktioniert überhaupt nicht“.
- Oder (und dies ist eine häufige Situation für praktische Technologieunternehmen) Sie müssen im Durchschnitt auf Qualität verzichten, damit Artefakte im schlimmsten Fall toleriert werden können.
Wenn also schlechte Beispiele nicht veröffentlicht werden (Klassiker für Unternehmen) oder nur begrenzt und mit Standardeinstellungen (Klassiker für Artikel) veröffentlicht werden, ist dies der häufigste Fall, in dem Menschen über die Eigenschaften einer Technologie / eines Algorithmus irregeführt werden.
- Ein weiteres häufiges Missverständnis in Bezug auf Verarbeitungsalgorithmen ist die Verwendung von Parametern (einschließlich interner Parameter) des Algorithmus. Algorithmen haben Parameter, und Benutzer - und das ist auch die Norm - möchten höchstens eine Schaltfläche zum Aktivieren haben. Und selbst wenn es Einstellungen gibt, verwendet der Massenbenutzer diese nicht. Deshalb fragen sie beim Kauf von Technologie „hundertmal“ und fragen erneut: „Ist das sicher eine komplette Maschine?“ und fragen Sie nach vielen Beispielen.
- Dementsprechend ist eine gemeinsame Geschichte die Veröffentlichung eines Ergebnisses, das mit bestimmten Parametern erhalten wurde. Glücklicherweise kennt der Entwickler sie gut und selbst wenn es fünfzig sind (die reale Situation!), Nimmt er sie sehr schnell auf, so dass das Bild magisch ist. Genau diese Bilder gehen oft in die Werbung.
- Darüber hinaus kann der Entwickler sogar dagegen sein. Marketing sieht die neuen Beispiele gesendet und sagt: "Auf ihnen ist nichts sichtbar, in der letzten Präsentation hatten Sie normale Beispiele!" Und dann können sie versuchen, ihnen zu erklären, dass neue Beispiele das sind, was die Leute wirklich sehen, und in der letzten Präsentation wurden potenzielle Ergebnisse gezeigt, die durch vorläufige Studien zum Start des Projekts erzielt werden können. Das stört niemanden. Die Leute bekommen das Bild "wo man sehen kann". In einigen Fällen verwenden sogar große Unternehmen Photoshop. Messing wird serviert, meine Herren! )
- Wenn es um Videos geht, eröffnet es der
Maschine einfach riesige Freiflächen ... gutes Marketing! Denn in der Regel werden Frames angelegt, und die Qualität des komprimierten Videos schwingt immer und hängt von der Masse der Parameter ab. Wieder - mehrere Technologien können korrekt angewendet werden, die Verarbeitungszeit kann wiederum unterschiedlich sein. Und das ist noch nicht alles, der Umfang ist großartig.
- Laut Yandex-Werbung funktioniert die DeepHD- Technologie in Echtzeit, sodass Sie heute damit Fernsehkanäle ansehen können . Es wurde oben erklärt, dass die Betriebsgeschwindigkeit die Achillesferse von Super Resolution ist. Der Vorteil neuronaler Netze besteht natürlich darin, dass sie beim Lernen über einen längeren Zeitraum in einigen Fällen sehr schnell arbeiten können, aber ich würde trotzdem (mit großem beruflichen Interesse) prüfen, welche Auflösung und Qualität der Algorithmus in Echtzeit funktioniert. Normalerweise werden mehrere Modifikationen des Algorithmus erstellt und bei hohen Auflösungen in Echtzeit müssen viele (qualitätskritische "Chips" deaktiviert werden. Zu viele.
- In Schwarz-Weiß-Beispielen zeigt ein genauerer Blick, dass sich die lokale Helligkeit ändert. Da der richtige SR die Helligkeit nicht ändert, scheint es, dass ein anderer Algorithmus funktioniert hat, möglicherweise nicht einer (die Ergebnisse zeigen, dass dies keine Einzelbildverarbeitung ist oder vielmehr nicht nur so aussieht). Wenn Sie ein größeres Stück (mindestens 100 Bilder) betrachten, wird das Bild klar. Das Messen der Videoqualität ist jedoch ein separates, sehr großes Thema.
Schlussfolgerungen:
- Sie müssen verstehen, dass Vermarkter ihre Tricks oft genau deshalb anwenden, weil es funktioniert (und wie!). Die überwiegende Mehrheit der Menschen
liest nicht habr, will das Thema nicht tief verstehen und sucht nicht einmal nach Expertenmeinungen, sie haben nur genug Werbung (manchmal Golimoy-Werbung). Was regelmäßig zu allen Arten von Verzerrungen führt. Ich wünsche mir, dass weniger Werbung gemacht wird, besonders wenn das Geschichtenerzählen am besten ist und wirklich an ein Wunder glauben möchte!
- Und natürlich ist es sehr gut, dass Yandex auch an dem Thema arbeitet und eine eigene SR erstellt (genauer gesagt eine eigene SR-Familie).
Perspektiven
Kommen wir zurück zu unserem Ausgangspunkt. Was tun für diejenigen, die das komprimierte Video vergrößern möchten? Ist das alles schlecht?
Wie oben beschrieben, ist selbst eine geringfügige Änderung des Bildes in der Region, buchstäblich auf dem Rauschpegel, für die Algorithmen der "ehrlichen" Wiederherstellung entscheidend. Das heißt, hohe Frequenzen im Bild und deren Wechsel zwischen Bildern sind kritisch.
In diesem Fall ist die Hauptsache, aufgrund derer die Videokomprimierung durchgeführt wird, das Entfernen von Interframe-Rauschen. Im folgenden Beispiel ist der Unterschied zwischen den Bildern eines verrauschten Videos vor der Bewegungskompensation, nach der Kompensation (mit schwacher Komprimierung) und nach der wahrnehmbaren Komprimierung zu spüren - spüren Sie den Unterschied (der Kontrast wird etwa sechsmal erhöht, damit die Details sichtbar werden):
Quelle: Autorenvorträge zu KomprimierungsalgorithmenEs ist deutlich zu erkennen, dass aus Sicht des Codecs der ideale Bereich der Bereich ist, in dem die Bewegung vollständig kompensiert wurde und für den keine Bits mehr ausgegeben werden müssen. Nun, ein bisschen kann ausgegeben werden, etwas minimal korrigiertes. Und es kann einige solcher Bereiche geben. Daher verliert Super Resolution sein „Hauptbrot“ - Informationen darüber, was sich an dieser Stelle in anderen Frames befindet, unter Berücksichtigung der Subpixelverschiebung.
Wenn Sie sich die Artikel ansehen, dann enthält die JPEG-
Wiederherstellung selbst für ein relativ einfaches JPEG
26.000 Ergebnisse und für die JPEG-
Wiederherstellung 52.000 , und dies zusammen mit der Wiederherstellung fehlerhafter Dateien usw. Bei Videos ist die Situation schlimmer als bei der
MPEG-Wiederherstellung - 22.000, d. H. Die Arbeiten sind natürlich im Gange, aber der Umfang der Arbeiten zur Superauflösung ist nicht vergleichbar. Es gibt ungefähr eine Größenordnung weniger Arbeit als das Wiederherstellen der Videoauflösung und zwei Größenordnungen weniger als die Bild-Superauflösung. Zwei Bestellungen sind viel. Wir haben auch einen Ansatz für das Projektil gewählt (da wir schon lange Komprimierung und Verarbeitung betreiben). Es gibt etwas, mit dem wir arbeiten können, insbesondere wenn die Qualität oszilliert oder etwas wie M-JPEG verwendet wird (in jüngerer Zeit ein allgemeines Bild in der Videoüberwachung). Dies sind jedoch alles Sonderfälle.
Die Ergebnisse der Artikel aus den obigen Links zeigen auch, dass die Ergebnisse manchmal sehr schön sind, aber für ganz besondere Fälle erhalten werden. Das heißt, Morgen wird diese Funktion auf jedem Smartphone leider nicht angezeigt. Das sind schlechte Nachrichten. Gut - übermorgen und auf einem Computer mit einer guten GPU - wird sicher erscheinen.
Gründe:
- Speichergeräte (SD-Karten für Registrare, Festplatten für CCTV-Kameras usw.) werden allmählich billiger und die durchschnittliche Bitrate zum Speichern von Videos steigt.
- Während der Komprimierung wechseln sie schrittweise zu den Standards der nächsten Generationen (z. B. bei HEVC), was eine spürbare Qualitätsverbesserung bei gleicher Bitrate bedeutet. Die letzten 2 Punkte bedeuten, dass die Videoqualität allmählich höher wird und ab einem bestimmten Zeitpunkt gut entwickelte Video-Super-Resolution-Algorithmen funktionieren.
- Schließlich werden die Algorithmen verbessert. Die Erfolge maschinell lernender Algorithmen in den letzten 4 Jahren sind besonders gut. In dieser Hinsicht können wir mit hoher Wahrscheinlichkeit so etwas erwarten:

Das heißt, Der Algorithmus verwendet explizit Bewegungsinformationen, die vom Codec empfangen wurden, und diese Daten werden dann einem neuronalen Netzwerk zugeführt, das darauf trainiert ist, für bestimmte Codecs spezifische Artefakte wiederherzustellen. Ein solches Schema scheint derzeit durchaus erreichbar zu sein.
In jedem Fall müssen Sie jedoch klar verstehen, dass die aktuelle Wiederherstellung in der Regel eine zweifache Erhöhung der Auflösung darstellt. In einigen Fällen, in denen das Ausgangsmaterial nicht oder fast nicht komprimiert wurde, können wir seltener 3-4 Mal darüber sprechen. Wie Sie sehen können, ist dies nicht annähernd das 100-1000-fache der Vergrößerung von Filmen, wenn 1,5 Pixel einer nächtlichen rauschunterdrückten Aufnahme zu einer Fahrzeugnummer von ausgezeichneter Qualität werden. Dem Genre "Science Fiction" sollte eigentlich ein größerer Prozentsatz der Filme und Fernsehsendungen zugeordnet werden.
Und natürlich wird es Versuche geben, im Rahmen des Modetrends „Das Wichtigste ist, mehr Schichten zu schneiden“ etwas Universelles zu tun. Und hier lohnt es sich, vor "Cheers-Cheers" -Reaktionen auf Werbematerial zu diesem Thema zu warnen. Denn neuronale Netze sind der bequemste Rahmen, um Wunder und alle Arten von Spekulationen zu demonstrieren. Die Hauptsache ist, das Trainingsmuster und die endgültigen Beispiele richtig auszuwählen. Und voila! Sehen Sie das Wunder! Übrigens sehr praktisch in Bezug auf das Hilling von Investoren. Das heißt, es ist äußerst wichtig, dass die Effizienz von Technologien von jemandem bestätigt wird, der von einer großen Anzahl heterogener Beispiele unabhängig ist, was selten gezeigt wird. Für Unternehmen ist es heute eine zivile Leistung, ein oder zwei Beispiele zu nennen, wenn die Technologie nicht funktioniert.
Nun, damit das Leben nicht wie Honig aussieht, möchte ich Sie daran erinnern, dass die sogenannte Transcodierung heute beliebt ist, wenn Sie tatsächlich mit einem Video arbeiten müssen, das ursprünglich von einem Algorithmus verkleinert und dann von einem anderen verkleinert wurde, während andere Bewegungsvektoren verwendet werden, werden hohe wieder zerstört Frequenzen etc. Und die Tatsache, dass eine Person dort alles gut sieht, bedeutet nicht, dass der Algorithmus, der ein solches Video verarbeitet, tatsächlich Wunder vollbringt. Es wird nicht möglich sein, stark eingeklemmte Videos wiederherzustellen, obwohl sich Super Resolution in den nächsten 10 Jahren im Allgemeinen schnell entwickeln wird.
Schlussfolgerungen:
- Denken Sie daran, dass das, was Sie in Filmen sehen und wie es im wirklichen Leben ist, sehr unterschiedlich ist. Und das nicht nur in Bezug auf die Wiederherstellung hochkomprimierter Videos!
- Normalerweise erhöhen moderne Algorithmen die Auflösungen seltener um das Zweifache - etwas mehr, d. H. Nein, 50 mal, aus dem Film bekannt, muss bald warten.
- Der Bereich Super Resolution boomt und Sie können in den kommenden Jahren mit einer aktiven Entwicklung der Videowiederherstellung rechnen, einschließlich der Wiederherstellung nach der Komprimierung.
- Aber das erste, was wir sehen werden, sind alle möglichen Spekulationen zu diesem Thema, wenn die demonstrierten Ergebnisse die tatsächlichen Fähigkeiten der Algorithmen stark übertreiben werden. Sei vorsichtig!
Ende letzten Jahres hielten wir einen Vortrag „Neuronale Netze in der Videoverarbeitung - Mythen und Realität“. Vielleicht können wir sie hierher bringen.
Bleib dran!
Danksagung
Ich möchte mich herzlich bedanken bei:
- Labor für Computergrafik VMK Moscow State University MV Lomonosov für Rechenleistung und nicht nur
- von unseren Kollegen aus der Videogruppe, dank derer die oben genannten Algorithmen erstellt wurden, und insbesondere von Karen Simonyan, der Autorin des Artikels, dessen Ergebnisse oben gezeigt wurden und die jetzt in Google DeepMind funktioniert.
- persönlich Konstantin Kozhemyakov, der viel getan hat, um diesen Artikel besser und visueller zu machen,
- Google für ein exzellentes Blog und relativ korrekte Beschreibungen der erstellten Technologien und Yandex für einen sehr guten Wettbewerb auf breiter Front - Google ist praktisch das einzige erfolgreiche Beispiel in einem Land, in dem Google-Dienste nicht verboten sind.
- Habrovchan denisshabr , JamboJet und iMADik für den Tipp und Links zu professionellen Multi-Frame-SR-Kameras,
- und schließlich vielen Dank an Vyacheslav Napadovsky, Evgeny Kuptsov, Stanislav Grokholsky, Ivan Molodetsky, Alexei Soloviev, Evgeny Lyapustin, Jegor Sklyarov, Denis Kondranin, Alexandra Anzina, Roman Kazantsev und Gleb Ishelev für diese große Menge nützlicher Bemerkungen besser!