Aus dem Google AI-BlogSeit der
Veröffentlichung von Informationen über sie im Jahr 2017 wurden neuronale Netze der
Transformatorarchitektur auf Aufgaben verschiedener Art angewendet, von der
Erstellung von Texten im Fantasy-Stil bis zum
Schreiben musikalischer Harmonien . Was wichtig ist, die hohe Qualität der Arbeit von „Transformatoren“ hat gezeigt, dass
direkte verteilte neuronale Netze bei sequentiellen Aufgaben wie Sprachmodellierung und -übersetzung genauso effektiv sein können wie wiederkehrende. Obwohl die Popularität von Transformatoren und anderen Direktverteilungsmodellen, die für sequentielle Aufgaben verwendet werden, zunimmt, werden ihre Architekturen fast immer manuell erstellt, im Gegensatz zum Bereich der Bildverarbeitung, in dem Ansätze für
fortgeschrittenes maschinelles Lernen (
AOM ) bereits
fortgeschrittene Modelle entdeckt haben , die den exponierten voraus sind manuelle Einstellung. Wir waren natürlich daran interessiert, ob die Anwendung von AOM auf sequentielle Aufgaben den gleichen Erfolg erzielen kann.
Nachdem wir eine
evolutionäre Suche nach Neuroarchitektur (NAS) durchgeführt und die Übersetzung als Beispiel für sequentielle Aufgaben verwendet hatten, entdeckten wir einen sich
entwickelnden Transformator (ET) - eine neue Transformatorarchitektur, die Verbesserungen bei verschiedenen Aufgaben der
Verarbeitung natürlicher Sprache (OYA) demonstriert. ET erzielt nicht nur topaktuelle Übersetzungsergebnisse, sondern zeigt auch eine verbesserte Effizienz bei der Modellierung der Sprache im Vergleich zum ursprünglichen Transformator. Wir
veröffentlichen ein neues Modell in der
Tensor2Tensor- Bibliothek, in dem es für jede sequentielle Aufgabe verwendet werden kann.
Technikerentwicklung
Um die evolutionäre Suche nach Neuroarchitektur zu beginnen, mussten wir neue Techniken entwickeln, da die Aufgabe, die zur Bewertung der „Fitness“ jeder Architektur, der
Übersetzung vom Englischen ins Deutsche WMT'14 , verwendet wurde, hohe Rechenressourcen
erforderte . Infolgedessen erweisen sich diese Suchvorgänge als anspruchsvoller als ähnliche Suchvorgänge im Bereich Computer Vision, die mit kleineren Datenbanken, beispielsweise
CIFAR-10, betrieben werden können . Die erste dieser Techniken ist ein Warmstart, bei dem die ursprüngliche Evolutionspopulation mit transformatorartigen Architekturen anstelle von Zufallsmodellen gesät wird. Dies hilft, die Suche auf den offensichtlich starken Bereich des Suchraums zu konzentrieren, sodass wir schnell die besten Modelle finden können.
Die zweite Technik ist eine neue von uns entwickelte Methode namens Progressive Dynamic Hurdles (PDH). Dieser Algorithmus ergänzt die evolutionäre Suche und ermöglicht es Ihnen, den stärksten Kandidaten mehr Ressourcen zuzuweisen, im Gegensatz zu früheren Arbeiten, bei denen jedem Kandidatenmodell im NAS die gleiche Menge an Ressourcen zugewiesen wurde. Mit PDH können wir ein Modell früher evaluieren, wenn es furchtbar schlecht ist, und vielversprechende Architekturen mit zahlreichen Ressourcen belohnen.
Weiterentwickelter Transformator
Mit diesen Methoden führten wir eine umfangreiche NAS-Suche für unsere Übersetzungsaufgabe durch und entdeckten ETs. Wie die meisten neuronalen Netzwerkarchitekturen vom Typ "Sequenz zu Sequenz" (Sequenz zu Sequenz, seq2seq) verfügt es über einen Codierer, der die Eingabesequenz in die Einfügungen codiert, und einen Decodierer, der diese Einfügungen verwendet, um die Ausgabesequenz zu erstellen. Im Falle einer Übersetzung ist die Eingabesequenz ein Übersetzungsangebot und die Ausgabesequenz ist eine Übersetzung.
Das interessanteste Merkmal von ETs sind die Faltungsschichten am unteren Rand der Module sowohl des Codierers als auch des Decodierers, die auf ähnliche Weise zu diesen beiden Stellen verzweigt sind (dh die Eingänge durchlaufen vor dem Falten zwei verschiedene Faltungsschichten).
Vergleich der Architektur herkömmlicher Encoder und ET-Encoder. Achten Sie auf die verzweigte Faltungsstruktur am unteren Rand des Moduls, die sowohl im Codierer als auch im Decodierer unabhängig voneinander gebildet wird. Der Decoder wird in unserer Arbeit ausführlich beschrieben.Dies ist besonders interessant, da der Codierer und der Decodierer während des NAS keine Architekturen miteinander teilen und die Nützlichkeit dieser Architektur unabhängig voneinander im Codierer und Decodierer entdeckt wurde, was für ein solches Schema spricht. Wenn sich der ursprüngliche Transformator ausschließlich darauf stützte, die Aufmerksamkeit auf dieselben Daten zu lenken, die er selbst erzeugt hat [Selbstaufmerksamkeit], ist ET ein Hybrid, der sowohl Selbstaufmerksamkeit als auch breite Faltung ausnutzt.
ET Punktzahl
Um die Wirksamkeit dieser neuen Architektur zu testen, haben wir sie zunächst mit dem ursprünglichen Transformator verglichen, der die Aufgabe hatte, aus dem Englischen ins Deutsche zu übersetzen, die wir bei der Suche verwendet haben. Wir haben festgestellt, dass ET bei allen Parametergrößen die besten
BLEU- Indikatoren und
Konnektivität aufweist. Der größte
Größengewinn ist vergleichbar mit mobilen Geräten (~ 7 Millionen Parameter), was auf die effiziente Verwendung von Parametern hinweist. Bei größeren Größen erzielt ET mit WMT '14 En-De mit einer BLEU von 29,8 und einer SacreBLEU von 29,2 Spitzenergebnisse.
Vergleich von ET und Originaltransformator auf WMT'14 En-De mit unterschiedlichen Lautstärken. Der größte Vorteil wird bei kleinen Größen erzielt, während ET bei größeren Größen eine gute Leistung zeigt, vor dem größten Transformator mit 37,6% weniger Parametern (vergleichbare Modelle sind in Kreisen).Um die Generalisierbarkeit zu überprüfen, haben wir ET mit einem Transformator auf zusätzliche Probleme der Verarbeitung natürlicher Sprache verglichen. Zuerst haben wir die Übersetzungen für verschiedene Sprachpaare überprüft und festgestellt, dass die Wirksamkeit von ET höher ist und die Trennung ungefähr der in der englisch-deutschen Übersetzung gezeigten entspricht. und wieder wird dank der effizienten Verwendung von Parametern die größte Lücke bei mittelgroßen Modellen beobachtet. Wir haben auch die Decoder beider Modelle zur Sprachmodellierung in
LM1B verglichen und eine signifikante Verbesserung der Konnektivität
festgestellt .

Zukunftspläne
Diese Ergebnisse sind der erste Schritt bei der Untersuchung der Architektur-Suchanwendung für sequentielle Direktverteilungsmodelle. ET wird als
Open Source im Rahmen des
Tensor2Tensor- Projekts verteilt, wo es bei aufeinanderfolgenden Problemen verwendet werden kann. Um die Reproduzierbarkeit zu verbessern, öffnen wir auch
den Suchbereichscode , den wir bei unserer Suche verwendet haben, und
Colab mit der PDH-Implementierung. Wir freuen uns auf die Ergebnisse der mit neuen Modellen ausgestatteten Forschungsgemeinschaft und hoffen, dass andere diese neuen Suchtechniken als Grundlage nehmen können!