Neuronale Netze zur Bildverarbeitung. Sagt Alexander Savsunenko von Skylum Software

Alexander Savsunenko entwickelt seit sechs Jahren intelligente Systeme, von denen zwei leitende Forscher an der New York State University in Stony Brook sind. Er entwickelte intelligente Systeme für DNA-Analyse, Bildgebung und Marketing.

Jetzt leitet Alexander das AI Lab bei Skylum Software, wo er sich mit Grafikeditoren beschäftigt, die auf neuronalen Netzen basieren. Wir haben gefragt, auf welchen der erstellten Dienste er besonders stolz ist und warum er neuronale Netze für A / B-Tests verwendet.


Alexander, erzähl uns von deiner Forschungsarbeit an der Universität von New York in Stony Brook. Welche Projekte hatten Sie dort und waren sie mit künstlicher Intelligenz oder maschinellem Lernen verbunden?

Nein, sie standen nicht in direktem Zusammenhang mit KI und maschinellem Lernen. Ich habe nach neuen Materialien auf Graphenbasis gesucht. Wir haben neues Material für den 3D-Druck entwickelt, das Elektrizität leitet. Mit einem Drucker mit zwei Düsen wäre es dann möglich, sowohl das Gehäuse als auch die elektronische Verkabelung der Platine gleichzeitig zu drucken. Wir haben das Material schließlich erstellt und jetzt steht es zum Verkauf.

Nachdem Sie ein interessantes Projekt auf dem Gebiet des maschinellen Lernens hatten - Let's Enhance, ein Service zur Verbesserung der Qualität von Fotos. Sagen Sie uns, wie haben Sie es geschafft, der Maschine das Wiederherstellen komprimierter Bilder beizubringen?

Wir haben die Bilder in guter Qualität aufgenommen, sie komprimiert und verrauscht und dann das neuronale Netzwerk trainiert, damit es lernen kann, wie das Bild in guter Qualität wiederhergestellt wird. Nach dem Training an solchen Paaren konnte das neuronale Netzwerk die Bildqualität unabhängig verbessern: Pixelbildung, Komprimierungsartefakte und andere Defekte entfernen.


Fotoquelle

Was war das schwierigste in diesem Projekt?

Ich denke, dieses System bei der Produktion zu unterstützen. Als in TechCrunch, Mashable, Artikel über unseren Service erschienen, floss viel Verkehr zu uns, und an einem Tag verarbeiteten wir ungefähr 200.000 Bilder. Ich musste daran arbeiten, dass unsere Server all dem standhielten.

Letztes Jahr wurde Let's Enhance 2.0 veröffentlicht. Was war neu daran?

Wir haben die Trainingsmethode, die Verlustfunktion und die Netzwerkarchitektur geändert. Wenn Sie die Qualität des Produkts verbessern möchten, können diese Aspekte endlos geändert werden.

Was ist das Servicepublikum heute? Haben Sie es geschafft, es zu monetarisieren?

Ich habe Let's Enhance.io vor fast einem Jahr verlassen. Danach, im Juli 2018, ging das Startup in das Techstars London-Programm und erhielt Investitionen vom Accelerator. Das Projekt wurde fast sofort monetarisiert und ging in den Gewinn.

An welchen KI-Entwicklungen haben Sie teilgenommen? Auf welche von ihnen sind sie besonders stolz?

Meine Kollegen und ich hatten ein Titanovo Nutrigenetics-Projekt, das DNA analysierte. Mithilfe von maschinellem Lernen haben wir gelernt, physiologische Marker und Prädispositionen basierend auf genomweiter Analyse und Chip-Genotypisierung vorherzusagen. Sie sammelten Daten aus wissenschaftlichen Artikeln, Statistiken, bildeten Datensätze, lehrten Modelle, formulierten darauf basierend Empfehlungen für Menschen und Vorhersagen über ihre zukünftige Gesundheit - all dies beruhte auf Fuzzy-Logik, verschiedenen Klassifikatoren. Mittlerweile gibt es viele Projekte mit AI und ML zur Nutrigenetik und zur Sportgenetik. Aber wir waren unter den Ersten. Materialien zu diesen Entwicklungen finden Sie in meinem Blog auf Medium.

Ich experimentierte mit der dynamischen Optimierung von Zielseiten für Marketingteams und verlagerte die Theorie der mehrarmigen Banditen auf neuronale Netze. Er erstellte Skripte für maschinelles Lernen, um die Verkehrskäufe zu optimieren. Und die Bildarbeit, die ich gerade mache, bezieht sich auch auf künstliche Intelligenz. Und ich bin auch stolz auf sie.

Sie arbeiten derzeit an Bildbearbeitungsdiensten. Was sind hier die Funktionen des neuronalen Netzes?

Zunächst die Mustererkennung. Die größte Rolle, die KI im Photolemur-Programm von Skylum Software spielt: Dank Bildverarbeitung kann dieses Programm Fotos mit einem Klick verbessern.

Wie läuft das

Wir laden ein Foto hoch und der Service verbessert es automatisch - Sie müssen es nur speichern. Keine Popups, Schieberegler oder Modi.

Dazu muss das Programm zunächst die Art des Bildes erkennen: Porträt, Landschaft, Stadtbild. Und auch Personen auf dem Bild, Gebäude und andere Objekte, Tageszeit, Jahreszeit (wenn das Foto auf der Straße aufgenommen wurde). Dann müssen Sie das Bild segmentieren und die entsprechenden Zonen auswählen. Im Porträt fallen beispielsweise bestimmte Teile des Gesichts auf: Augen, Ohren, Nasenlöcher und andere.

Dann muss all dies verbessert werden, und hier wird künstliche Intelligenz nicht mehr verwendet. Das Bild wird durch drahtgebundene Algorithmen verbessert, die der Art und Weise folgen, wie Fotografen solche Bilder verarbeiten. Glätten Sie beispielsweise die Haut, erhöhen Sie den Kontrast für den Gaumen und machen Sie das Weiß der Augen heller. Aber das ist alles zweitrangig. Zunächst müssen Sie das Bild segmentieren.



Welche Datenbanken und Algorithmen wurden verwendet, um das System zu trainieren?

Apropos Framework für die Entwicklung neuronaler Netze: Ich bevorzuge MXNet - eine für heute eher exotische Wahl, die aber allmählich an Popularität gewinnt. Der Hauptvorteil ist die Geschwindigkeit der Berechnungen und der hybride Modus des Umschaltens zwischen imperativen und symbolischen Modi zum Programmieren neuronaler Netze. Dies ist praktisch. Aber die Namen von Datensätzen und Algorithmen, ich kann Ihnen nicht sagen, das ist ein Geschäftsgeheimnis des Projekts.

Auf welche Schwierigkeiten sind Sie beim Erstellen eines intelligenten Grafikeditors gestoßen?

Die Technologie ist noch nicht ausgereift, neuronale Netze machen oft Fehler: bei der Mustererkennung und insbesondere bei der Segmentierung, wenn es um ein komplexes Bild geht. Daher musste ich die Ergebnisse analysieren und mit traditionellen Methoden und Standardalgorithmen bearbeiten. Es ist noch nicht möglich, ein System aufzubauen, das von Anfang bis Ende alles ausschließlich über ein neuronales Netzwerk erledigt. Wenn Sie am Endgerät des Benutzers arbeiten, müssen Sie natürlich die Komplexität des Netzwerks berücksichtigen. Die CPU-Berechnungen sind ziemlich langsam, nicht jeder verfügt über eine CUDA-fähige GPU, und OpenCL wird nicht gut unterstützt.

Welches Bild ist für die perfekte Option geeignet?

Unser Qualitätssicherungsteam arbeitet daran und achtet besonders auf die endgültige Qualität der Bilder. Da sich sowohl unsere Bildbearbeitungsprogramme als auch unsere Kameras ständig ändern, ist es unmöglich, eine ideale Option zu finden, da sie sich ständig ändert.

Was ist das Publikum dieser Produkte? Können Sie Adobe-Benutzer "locken"?

Unser Flaggschiff Luminar ist eine neue Alternative zu Adobe Lightroom. Dank des kleinen und engmaschigen Teams ist es möglich, neue Technologien viel schneller in das Produkt einzuführen und ständig neue Benutzer anzulocken. Luminar eignet sich sowohl für Anfänger als auch für professionelle Fotografen, da es Ein-Klick-Bearbeitungswerkzeuge und alle Funktionen für eine detailliertere Arbeit mit Fotos kombiniert.


Luminar-Schnittstelle Der Artikel vergleicht die Arbeit in Luminar und Photoshop

Aber Photolemur ist ein einzigartiges und ziemlich junges Produkt, es ist etwas mehr als ein Jahr alt. Seine Zielgruppe sind Menschen, die nicht alle Schieberegler und Schaltflächen von Photoshop verstehen möchten, sondern nur möchten, dass ihre Urlaubsfotos schnell schön werden. Wir haben es geschafft, unser Publikum zu finden: Der Verkauf läuft und das Produkt wird aktiv genutzt.

Sie sind auch an Projekten beteiligt, die neuronale Netze entwickeln, um Zielseiten zu optimieren. Erzählen Sie uns mehr über diese Arbeit.

Dies ist eine klassische Aufgabe, wenn Sie A / B-Tests einer Zielseite durchführen müssen. Wenn Sie separate Seiten für alle möglichen Elementaroptionen erstellen, können Millionen von Versionen erstellt werden. Um mit dem klassischen Ansatz ein statistisch signifikantes Ergebnis zu erzielen, müssen Sie alle diese Optionen paarweise A / B-Tests durchführen. Dies erfordert unglaublich viel Verkehr. Solche umfangreichen Tests können sich nur Unternehmen mit sehr großen Ressourcen leisten, beispielsweise Amazon.

Und wenn ein kleines Unternehmen viele Optionen testen möchte, können Sie A / B-Tests mit neuronalen Netzen durchführen, die mit Verstärkungstraining arbeiten. Tatsächlich wird das Füllen der Seite mit Elementen in die Hände eines neuronalen Netzwerks gegeben und als Aufgabe zugewiesen, um die Seitenkonvertierung zu erhöhen. In dieser Arbeitsversion dreht sich das neuronale Netzwerk auf dem Server und lernt parallel zum Datenverkehr. Und am Ende findet es die optimale Landeoption viel schneller.

Wenn es etwas komplizierter ist, lernt die KI, Versionen von Zielseiten anzuzeigen, die für einen bestimmten Benutzer personalisiert sind. Weil wir auch zusätzliche Informationen bereitstellen: Browser, Tageszeit, Betriebssystem. Dementsprechend sieht der Benutzer die Seite, die das neuronale Netzwerk ihm zeigt, und der Verkehr mit dieser Methode muss erheblich weniger angezogen werden. Natürlich ist ein perfekter Treffer nicht garantiert, aber die Seite liefert viel schneller gute Ergebnisse.

Alexander wird am 14. November auf der AI Conference Kyiv über die Verwendung neuronaler Netze für visuelle Inhalte und die Optimierung von Zielseiten sprechen. Die Liste der anderen Redner und das Programm der Veranstaltung finden Sie auf der offiziellen Website .

Source: https://habr.com/ru/post/de426559/


All Articles