Neuronale Netze lernten, ein Buch nach Cover zu beurteilen

Der hartnäckige Ausdruck „Beurteile ein Buch nicht nach seinem Einband“ warnt davor, etwas oder jemanden allein nach seinem Aussehen zu bewerten. Aber wenn der Leser das Buch sieht, passiert es trotzdem: Bekanntschaft beginnt normalerweise mit einem Cover. Sie hinterlässt den ersten Eindruck des Inhalts und beginnt, die Geschichte einer Person in den Sinn zu bringen. Gute Cover sind nur gemacht, um beurteilt zu werden.

Die Leute definieren ein Genre hervorragend, indem sie kaum einen Blick auf das visuelle Design eines Buches werfen. Stimmen Sie zu, dass die Auswahl eines Kochbuchs, einer Biografie oder eines Reiseführers durch einfaches Betrachten des Covers ziemlich einfach ist. Dann stellt sich eine interessante Frage: Kann künstliche Intelligenz ein Buch genauso erfolgreich nach seinem Einband beurteilen wie eine Person?

Wissenschaftler der Kyushu-Universität in Japan versuchten , eine Antwort zu bekommen . Sie stellen sich vor ein Faltungsnetzwerk ( CNN)) die Aufgabe, Buchumschläge zu studieren und die Kategorie zu bestimmen, auf die sie sich beziehen. Die Trainingsmethode erwies sich als recht einfach: Die Forscher luden mehr als 13,5 Tausend Cover von Amazon.com zusammen mit dem Titel, dem Namen des Autors und dem Genre des Buches herunter. Zusätzlich zur Definition einer Kategorie kann dieser Datensatz in Zukunft nützlich sein, um neuronale Netze darin zu trainieren, Schriftarten zu erkennen und zu analysieren und andere Entwurfsprobleme zu lösen. In ihrem Experiment verwendeten die Wissenschaftler nur Genres und verwarfen alle anderen Daten aus dem Satz. Neuronales Netz in 20 möglichen Genres verstanden. Wenn das Buch in mehreren Kategorien gleichzeitig wiederholt wurde, gaben die Wissenschaftler einfach die allererste an.



Das Forschungsteam verwendete dann 80% des Datensatzes, um das neuronale Netzwerk zu trainieren, um das Genre anhand des Titelbilds zu erkennen. Das neuronale Netzwerk, das sie in ihrem Experiment verwendeten, bestand aus vier Schichten, in denen sich jeweils 512 Neuronen befanden. Gemeinsam lernten sie, die Korrelation zwischen Coverdesign und Genre zu bestimmen. Weitere 10% des Datensatzes gingen zur Überprüfung des Netzwerks. In der letzten Phase wurden die verbleibenden 10% verwendet, um zu bestimmen, wie gut das Netzwerk unbekannte Bilder klassifizieren kann.

Das Ergebnis war sehr interessant. Der Algorithmus bestimmte in 40% der Fälle die am häufigsten vorkommenden drei Genres korrekt. Bei allen anderen Genres lag die Genauigkeit bei etwa 20%. Das ist viel besser als nur ein Unfall. Der relativ korrekte Betrieb des neuronalen Netzes zeigt, dass die Klassifizierung von Büchern nach Umschlägen eine echte, wenn auch schwierige Aufgabe ist.

Einige Genres sind leichter zu erkennen als andere. Zum Beispiel sind Reisebücher oder Bücher über Computer und Technologie relativ einfach zu definieren, da Designer normalerweise Titelbilder verwenden, deren Bedeutung ähnlich ist. Darüber hinaus stellten Wissenschaftler fest, dass das neuronale Netzwerk Kochbücher leicht erkennt, wenn Fotos für ihr Design verwendet werden.



Das neuronale Netz begann jedoch zu bezweifeln, ob es sich lohnte, auf dem Cover eines Fotos eines Kochs oder anderer Gegenstände zu erscheinen, die indirekt mit dem Kochen zusammenhängen.

Biografien und Memoiren verursachten auch Schwierigkeiten im neuronalen Netz: Sehr oft wurden solche Bücher in die historische Kategorie geschickt. Interessanterweise erwies sich für viele dieser Bücher die Geschichte als das sekundäre Genre auf Amazon.com. Daher kann nicht gesagt werden, dass der Algorithmus zu 100% falsch war.



CNN verwechselte auch Kinderbücher mit Comics und Graphic Novels sowie medizinische Bücher mit Mathematiklehrbüchern. Dies ist angesichts der gewissen Ähnlichkeiten zwischen diesen Kategorien nicht überraschend. Das Netzwerk wurde auch mit Büchern in Recht und Religion verwechselt, die sich im Wesentlichen unterschieden, aber im Design ähnlich waren. Normalerweise werden ihre Umschläge entweder in einer Farbe ohne Zeichnungen oder mit abstrakten Bildern hergestellt.

Die von japanischen Wissenschaftlern vorgestellte Arbeit hat einen wesentlichen Nachteil. Sie verglichen die Leistung ihres neuronalen Netzwerks nicht mit der Fähigkeit einer Person, Genres anhand ihrer Deckung zu identifizieren. Es wäre ein interessantes Experiment, das durch Crowdsourcing-Online-Plattformen leicht zu organisieren wäre. Und bis dieses Experiment durchgeführt wird, werden wir nicht wissen, ob künstliche Intelligenz die Aufgabe besser bewältigt als eine Person. Aber trotz dieser ärgerlichen Auslassung, egal wie gut wir Genres durch Deckung definieren können, werden Autos es eines Tages schneller schaffen. Es ist nur eine Frage der Zeit.

Das Ergebnis dieser Studie ist jedoch bemerkenswert. Es kann Designern helfen, ihre Fähigkeiten in Bezug auf Buchumschläge zu verbessern. Sie können noch weiter gehen und die Technik des Entwerfens von Abdeckungen ohne menschliches Eingreifen lehren. In Zukunft kann dies bedeuten, dass das Erstellen eines Cover-Designs durch eine Person eine weitere Aufgabe ist, die in die Verlaufsarchive aufgenommen wird.

Grafikdesign ist seit relativ kurzer Zeit ein Gegenstand des maschinellen Lernens. Die bekannteste Erfahrung in der praktischen Anwendung neuronaler Netze ist vor allem mit der Anerkennung des künstlerischen Stils berühmter Autoren von Gemälden und seiner weiteren Übertragung verbundenzu anderen Bildern. Forscher der Kyushu-Universität verfolgten ein ähnliches Ziel, gingen jedoch noch einen Schritt weiter: Sie versuchten, die verborgene Bedeutung des Designstils aufzudecken. Wenn wir über Klassifizierung sprechen, gab es bereits Versuche, neuronale Netze zu lehren, Musik , Bilder und Texte nach Genres zu sortieren .

Die wissenschaftliche Arbeit wird auf arXiv.org veröffentlicht ( ArXiv: 1610.09204 [cs.CV])

Source: https://habr.com/ru/post/de398965/


All Articles