Übersicht ĂŒber NeurIPS-2018 (ex. NIPS)

Anfang Dezember fand in Montreal die 32. jĂ€hrliche Konferenz ĂŒber neuronale Informationsverarbeitungssysteme zum Thema maschinelles Lernen statt. Laut einer inoffiziellen Rangliste ist diese Konferenz die Top-1-Veranstaltung dieses Formats weltweit. Alle Konferenztickets in diesem Jahr waren in Rekordzeit von 13 Minuten ausverkauft. Wir haben ein großes Team von MTS-Datenwissenschaftlern, aber nur eine von ihnen - Marina Yaroslavtseva ( magoli ) - hatte das GlĂŒck, nach Montreal zu kommen. Zusammen mit Danila Savenkov ( danila_savenkov ), die kein Visum hatte und die Konferenz aus Moskau verfolgte, werden wir ĂŒber die Werke sprechen, die uns am interessantesten erschienen. Dieses Beispiel ist sehr subjektiv, aber es wird Sie hoffentlich interessieren.

Bild

Relationale wiederkehrende neuronale Netze

Zusammenfassung
Code

Bei der Arbeit mit Sequenzen ist es oft sehr wichtig, wie die Elemente der Sequenz miteinander in Beziehung stehen. Die Standardarchitektur von Wiederholungsnetzwerken (GRU, LSTM) kann die Beziehung zwischen zwei Elementen, die ziemlich weit voneinander entfernt sind, kaum modellieren. Bis zu einem gewissen Grad hilft Aufmerksamkeit, damit umzugehen ( https://youtu.be/SysgYptB198 , https://youtu.be/quoGRI-1l0A ), aber dies ist immer noch nicht ganz richtig. Mit Achtung können Sie das Gewicht bestimmen, mit dem der verborgene Zustand aus jedem der Schritte der Sequenz den endgĂŒltigen verborgenen Zustand und dementsprechend die Vorhersage beeinflusst. Wir interessieren uns fĂŒr die Beziehung der Elemente der Sequenz.

Letztes Jahr schlug Google erneut auf NIPS vor, die Wiederholung ganz aufzugeben und die Selbstaufmerksamkeit zu nutzen . Der Ansatz erwies sich als sehr gut, allerdings hauptsĂ€chlich fĂŒr seq2seq-Aufgaben (der Artikel liefert Ergebnisse zur maschinellen Übersetzung).

Der diesjĂ€hrige Artikel verwendet die Idee der Selbstaufmerksamkeit als Teil von LSTM. Es gibt nicht viele Änderungen:

  1. Wir Àndern den Zellzustandsvektor in die "Speicher" -Matrix M. Bis zu einem gewissen Grad besteht die Speichermatrix aus vielen Zellzustandsvektoren (vielen Speicherzellen). Wenn wir ein neues Element der Sequenz erhalten, legen wir fest, um wie viel dieses Element jede der Speicherzellen aktualisieren soll.
  2. FĂŒr jedes Element der Sequenz aktualisieren wir diese Matrix mithilfe der Aufmerksamkeit fĂŒr Produkte mit mehreren Kopfpunkten (MHDPA, ĂŒber diese Methode können Sie im genannten Artikel von Google lesen). Das MHPDA-Ergebnis fĂŒr das aktuelle Element der Sequenz und der Matrix M wird durch ein vollstĂ€ndig verbundenes Netz, das Sigmoid, gefĂŒhrt, und dann wird die Matrix M auf die gleiche Weise wie der Zellzustand in LSTM aktualisiert

Es wird argumentiert, dass das Netz durch MHDPA die Verbindung von Sequenzelementen berĂŒcksichtigen kann, selbst wenn sie voneinander entfernt sind.

Als Spielzeugproblem wird das Modell in der Folge von Vektoren gebeten, den N-ten Vektor anhand des Abstands vom M-ten als euklidischen Abstand zu ermitteln. Zum Beispiel gibt es eine Folge von 10 Vektoren, und wir bitten Sie, einen zu finden, der sich in der NĂ€he des fĂŒnften auf dem dritten Platz befindet. Es ist klar, dass es zur Beantwortung dieser Frage des Modells notwendig ist, die AbstĂ€nde von allen Vektoren zum fĂŒnften irgendwie zu bewerten und zu sortieren. Hier besiegt das von den Autoren vorgeschlagene Modell LSTM und DNC zuversichtlich. DarĂŒber hinaus vergleichen die Autoren ihr Modell mit anderen Architekturen zu Learning to Execute (wir erhalten ein paar Codezeilen, geben das Ergebnis ein), Mini-Pacman, Language Modeling und berichten ĂŒberall ĂŒber die besten Ergebnisse.

Multivariate Zeitreihen-Imputation mit generativen kontradiktorischen Netzwerken

Zusammenfassung
Code (obwohl sie hier im Artikel nicht verlinkt sind)

In mehrdimensionalen Zeitreihen gibt es in der Regel eine Vielzahl von Auslassungen, die die Verwendung fortschrittlicher statistischer Methoden verhindern. Standardlösungen - FĂŒllen mit Mittelwert / Null, Löschen unvollstĂ€ndiger FĂ€lle, Wiederherstellen von Daten basierend auf Matrixerweiterungen in dieser Situation funktionieren hĂ€ufig nicht, da sie ZeitabhĂ€ngigkeiten und die komplexe Verteilung mehrdimensionaler Zeitreihen nicht reproduzieren können.

Die FĂ€higkeit generativer gegnerischer Netzwerke (GANs), jede Verteilung von Daten nachzuahmen, ist allgemein bekannt, insbesondere bei der Aufgabe, Gesichter zu „vervollstĂ€ndigen“ und SĂ€tze zu generieren. In der Regel erfordern solche Modelle jedoch entweder eine erste Schulung fĂŒr einen vollstĂ€ndigen Datensatz ohne LĂŒcken oder berĂŒcksichtigen nicht die Konsistenz der Daten.

Die Autoren schlagen vor, das GAN durch ein neues Element zu ergĂ€nzen - die Gated Recurrent Unit for Imputation (GRUI). Der Hauptunterschied zur ĂŒblichen GRU besteht darin, dass die GRUI aus Daten in Intervallen unterschiedlicher LĂ€nge zwischen den Beobachtungen lernen und den Effekt der Beobachtungen in AbhĂ€ngigkeit von ihrer zeitlichen Entfernung vom aktuellen Punkt anpassen kann. Es wird ein spezieller DĂ€mpfungsparameter ÎČ berechnet, dessen Wert von 0 bis 1 variiert und je kleiner die Zeitverzögerung zwischen der aktuellen Beobachtung und der vorherigen nicht leeren ist.

Bild

Bild

Sowohl der Diskriminator als auch der GAN-Generator bestehen aus einer GRUI-Schicht und einer vollstĂ€ndig verbundenen Schicht. Wie in GANs ĂŒblich, lernt der Generator, die Quelldaten zu simulieren (in diesem Fall fĂŒllen Sie einfach die LĂŒcken in den Zeilen aus), und der Diskriminator lernt, die mit dem Generator gefĂŒllten Zeilen von den realen zu unterscheiden.

Wie sich herausstellte, stellt dieser Ansatz Daten auch in Zeitreihen mit einem sehr großen Anteil an Auslassungen sehr angemessen wieder her (in der folgenden Tabelle - MSE-Datenwiederherstellung im KDD-Datensatz in AbhĂ€ngigkeit vom Prozentsatz der Auslassungen und der Wiederherstellungsmethode. In den meisten FĂ€llen bietet die GAN-basierte Methode die grĂ¶ĂŸte Genauigkeit Erholung).

Bild

Zur DimensionalitÀt von Worteinbettungen

Zusammenfassung
Code

Die Worteinbettung / Vektordarstellung von Wörtern ist ein Ansatz, der hĂ€ufig fĂŒr verschiedene NLP-Anwendungen verwendet wird: von Empfehlungssystemen bis zur Analyse der emotionalen FĂ€rbung von Texten und maschineller Übersetzung.

DarĂŒber hinaus bleibt die Frage offen, wie ein so wichtiger Hyperparameter wie die Dimension von Vektoren optimal eingestellt werden kann. In der Praxis wird es meistens durch empirisch erschöpfende Suche ausgewĂ€hlt oder standardmĂ€ĂŸig festgelegt, beispielsweise auf der Ebene von 300. Gleichzeitig erlaubt eine zu kleine Dimension nicht, alle signifikanten Beziehungen zwischen Wörtern widerzuspiegeln, und eine zu große Dimension kann zu einer Umschulung fĂŒhren.

Die Autoren der Studie schlagen ihre Lösung fĂŒr dieses Problem vor, indem sie den PIP-Verlustparameter minimieren, ein neues Maß fĂŒr den Unterschied zwischen den beiden Einbettungsoptionen.
Die Berechnung basiert auf PIP-Matrizen, die die Skalarprodukte aller Paare von Vektordarstellungen von Wörtern im Korpus enthalten. Der PIP-Verlust wird als Frobenius-Norm zwischen den PIP-Matrizen zweier Einbettungen berechnet: trainiert auf Daten (trainierte Einbettung E_hat) und ideal, trainiert auf verrauschte Daten (Orakel-Einbettung E).

Bild


Es scheint einfach zu sein: Sie mĂŒssen eine Dimension auswĂ€hlen, die den PIP-Verlust minimiert. Der einzige unverstĂ€ndliche Moment ist, wo Sie die Orakel-Einbettung erhalten. In den Jahren 2015-2017 wurde eine Reihe von Arbeiten veröffentlicht, in denen gezeigt wurde, dass verschiedene Methoden zur Konstruktion von Einbettungen (word2vec, GloVe, LSA) die Signalmatrix des Falls implizit faktorisieren (die Dimension verringern). Im Fall von word2vec (Skip-Gramm) ist die Signalmatrix PMI , im Fall von GloVe ist es die Log-Count-Matrix. Es wird vorgeschlagen, ein nicht sehr großes Wörterbuch zu verwenden, eine Signalmatrix zu erstellen und SVD zu verwenden, um eine Orakeleinbettung zu erhalten. Somit ist die Orakel-Einbettungsdimension gleich dem Signalmatrixrang (in der Praxis liegt die Dimension fĂŒr ein Wörterbuch mit 10.000 Wörtern in der GrĂ¶ĂŸenordnung von 2.000). Unsere empirische Signalmatrix ist jedoch immer verrauscht und wir mĂŒssen auf knifflige Schemata zurĂŒckgreifen, um eine Orakeleinbettung zu erhalten und den PIP-Verlust durch eine verrauschte Matrix abzuschĂ€tzen.

Die Autoren argumentieren, dass es zur Auswahl der optimalen Einbettungsdimension ausreicht, ein Wörterbuch mit 10.000 Wörtern zu verwenden, was nicht sehr viel ist und es Ihnen ermöglicht, dieses Verfahren in angemessener Zeit auszufĂŒhren.

Bild

Wie sich herausstellte, stimmt die auf diese Weise berechnete Einbettungsdimension in den meisten FĂ€llen mit einem Fehler von bis zu 5% mit der optimalen Dimension ĂŒberein, die auf der Grundlage von ExpertenschĂ€tzungen ermittelt wurde. Es stellte sich heraus (erwartet), dass Word2Vec und GloVe praktisch nicht umgeschult wurden (der PIP-Verlust fĂ€llt bei sehr großen Dimensionen nicht ab), aber LSA wird ziemlich stark umgeschult.

Mit dem von den Autoren auf dem Github veröffentlichten Code kann nach der optimalen Dimension von Word2Vec (Sprunggramm), GloVe, LSA gesucht werden.

FRAGE: FrequenzunabhÀngige WortreprÀsentation

Zusammenfassung
Code

Die Autoren sprechen darĂŒber, wie Einbettungen fĂŒr seltene und beliebte Wörter unterschiedlich funktionieren. Mit populĂ€r meine ich nicht Stoppwörter (wir betrachten sie ĂŒberhaupt nicht), sondern informative Wörter, die nicht sehr selten sind.

Die Beobachtungen sind wie folgt:

Wenn wir ĂŒber populĂ€re Wörter sprechen, spiegelt sich ihre NĂ€he im Kosinusmaß sehr gut wider

  1. ihre semantische AffinitĂ€t. Bei seltenen Wörtern ist dies nicht der Fall (was erwartet wird), und (was weniger erwartet wird) Top-n der einem seltenen Wort am nĂ€chsten liegenden Kosinuswörter sind ebenfalls selten und gleichzeitig semantisch nicht miteinander verbunden. Das heißt, seltene und hĂ€ufige Wörter im Raum der Einbettungen leben an verschiedenen Orten (in verschiedenen Kegeln, wenn wir ĂŒber Kosinus sprechen).
  2. WĂ€hrend des Trainings werden die Vektoren beliebter Wörter viel hĂ€ufiger aktualisiert und sind im Durchschnitt doppelt so weit von der Initialisierung entfernt wie die Vektoren seltener Wörter. Dies fĂŒhrt dazu, dass die Einbettung seltener Wörter im Durchschnitt nĂ€her am Ursprung liegt. Um ehrlich zu sein, habe ich immer geglaubt, dass Einbettungen seltener Wörter im Durchschnitt lĂ€nger dauern und ich nicht weiß, wie ich mich auf die Aussage der Autoren beziehen soll =)

UnabhĂ€ngig von der Beziehung zwischen den L2-Normen fĂŒr Einbettungen ist die Trennbarkeit von populĂ€ren und seltenen Wörtern kein sehr gutes PhĂ€nomen. Wir möchten, dass Einbettungen die Semantik eines Wortes widerspiegeln, nicht seine HĂ€ufigkeit.

Bild

Das Bild zeigt Word2Vec beliebte (rot) und seltene (blau) Wörter nach SVD. Beliebt bezieht sich hier auf die Top 20% der Wörter in der HÀufigkeit.

Wenn das Problem nur in den L2-Normen fĂŒr Einbettungen liege, könnten wir sie normalisieren und glĂŒcklich leben, aber wie ich im ersten Absatz sagte, werden seltene Wörter auch durch KosinusnĂ€he (in Polarkoordinaten) von populĂ€ren Wörtern getrennt.

Die Autoren schlagen natĂŒrlich GAN vor. Lassen Sie uns das Gleiche wie zuvor tun, aber einen Diskriminator hinzufĂŒgen, der versucht, zwischen populĂ€ren und seltenen Wörtern zu unterscheiden (wiederum betrachten wir die Top-n% der Wörter in der HĂ€ufigkeit als populĂ€r).

Es sieht ungefĂ€hr so ​​aus:

Bild

Die Autoren testen den Ansatz in Bezug auf die Aufgaben WortĂ€hnlichkeit, maschinelle Übersetzung, Textklassifizierung und Sprachmodellierung und ĂŒberall dort, wo sie besser abschneiden als die Basislinie. In Bezug auf die WortĂ€hnlichkeit wird angegeben, dass die QualitĂ€t bei seltenen Wörtern besonders deutlich zunimmt.

Ein Beispiel: StaatsbĂŒrgerschaft. Skip-Gramm-Probleme: GlĂŒckseligkeit, Pakistans, Entlassung, VerstĂ€rkung. FRAGE-Themen: Bevölkerung, Rechte, WĂŒrde, BĂŒrger. Die Wörter BĂŒrger und BĂŒrger in FRAGE stehen an 79. bzw. 7. Stelle (in der NĂ€he der StaatsbĂŒrgerschaft), in Skip-Gramm sind sie nicht in den Top 10000.

Aus irgendeinem Grund haben die Autoren den Code nur fĂŒr maschinelle Übersetzung und Sprachmodellierung veröffentlicht. WortĂ€hnlichkeits- und Textklassifizierungsaufgaben im Repository sind leider nicht vertreten.

UnĂŒberwachte modalĂŒbergreifende Ausrichtung von Sprach- und TexteinbettungsrĂ€umen

Zusammenfassung
Code: kein Code, aber ich möchte

JĂŒngste Studien haben gezeigt, dass zwei VektorrĂ€ume, die mithilfe von Einbettungsalgorithmen (z. B. word2vec) auf Textkörpern in zwei verschiedenen Sprachen trainiert wurden, ohne Markup und Inhaltsabgleich zwischen den beiden GebĂ€uden miteinander abgeglichen werden können. Dieser Ansatz wird insbesondere fĂŒr die maschinelle Übersetzung bei Facebook verwendet. Eine der SchlĂŒsseleigenschaften beim Einbetten von RĂ€umen wird verwendet: In ihnen sollten Ă€hnliche Wörter geometrisch nahe beieinander liegen, und ungleiche Wörter sollten im Gegenteil weit voneinander entfernt sein. Es wird angenommen, dass im Allgemeinen die Struktur des Vektorraums unabhĂ€ngig von der Sprache, in der der Korpus unterrichtet wurde, erhalten bleibt.

Die Autoren des Artikels gingen noch weiter und wendeten einen Ă€hnlichen Ansatz auf das Gebiet der automatischen Spracherkennung und -ĂŒbersetzung an. Es wird vorgeschlagen, den Vektorraum separat fĂŒr den Textkorpus in der interessierenden Sprache (z. B. Wikipedia), separat fĂŒr den Korpus der aufgezeichneten Sprache (im Audioformat), möglicherweise in einer anderen Sprache, die zuvor in Wörter unterteilt war, zu trainieren und diese beiden RĂ€ume dann auf dieselbe Weise wie mit zwei zu vergleichen TextfĂ€lle.

Bild

FĂŒr den Textkorpus wird word2vec verwendet, und fĂŒr die Sprache basiert ein Ă€hnlicher Ansatz, der von Speech2vec genannt wird, auf LSTM und den fĂŒr word2vec verwendeten Methoden (CBOW / skip-gram), sodass angenommen wird, dass Wörter genau nach kontextuellen und semantischen Merkmalen kombiniert werden klingt nicht.

Nachdem beide VektorrĂ€ume trainiert wurden und es zwei SĂ€tze von Einbettungen gibt - S (auf dem Sprachkörper), bestehend aus n Einbettungen der Dimension d1 und T (auf dem Textkörper), bestehend aus m Einbettungen der Dimension d2, mĂŒssen Sie sie vergleichen. Idealerweise haben wir ein Wörterbuch, das bestimmt, welcher Vektor aus S welchem ​​Vektor aus T entspricht. Dann werden zum Vergleich zwei Matrizen gebildet: k Einbettungen werden aus S ausgewĂ€hlt, die eine Matrix X der GrĂ¶ĂŸe d1 xk bilden; aus T werden auch k Einbettungen ausgewĂ€hlt, die (gemĂ€ĂŸ dem Wörterbuch) entsprechen, die zuvor aus S ausgewĂ€hlt wurden, und eine Matrix Y der GrĂ¶ĂŸe d2 x k wird erhalten. Als nĂ€chstes mĂŒssen Sie eine lineare Abbildung W finden, so dass:

Bild


Da der Artikel jedoch den unbeaufsichtigten Ansatz berĂŒcksichtigt, gibt es zunĂ€chst kein Wörterbuch. Daher wird ein Verfahren zum Generieren eines synthetischen Wörterbuchs vorgeschlagen, das aus zwei Teilen besteht. ZunĂ€chst erhalten wir die erste AnnĂ€herung von W mithilfe eines domĂ€nen-kontradiktorischen Trainings (ein Wettbewerbsmodell wie GAN, jedoch anstelle des Generators - eine lineare Abbildung von W, mit der wir versuchen, S und T voneinander zu unterscheiden, und der Diskriminator versucht, den tatsĂ€chlichen Ursprung der Einbettung zu bestimmen). Basierend auf den Wörtern, deren Einbettungen am besten zueinander passten und am hĂ€ufigsten in beiden GebĂ€uden vorkommen, wird dann ein Wörterbuch gebildet. Danach erfolgt die Verfeinerung von W gemĂ€ĂŸ der obigen Formel.

Dieser Ansatz liefert Ergebnisse, die mit dem Lernen mit beschrifteten Daten vergleichbar sind. Dies kann sehr nĂŒtzlich sein, um Sprache aus seltenen Sprachen zu erkennen und zu ĂŒbersetzen, fĂŒr die es zu wenige parallele Sprach-Text-FĂ€lle gibt oder die fehlen.

Erkennung tiefer Anomalien mithilfe geometrischer Transformationen

Zusammenfassung
Code

Ein eher ungewöhnlicher Ansatz bei der Erkennung von Anomalien, der nach Ansicht der Autoren andere AnsÀtze stark zunichte macht.

Die Idee ist folgende: Lassen Sie uns K verschiedene geometrische Transformationen (eine Kombination aus Verschiebungen, 90-Grad-Drehung und Reflexion) entwickeln und auf jedes Bild des Originaldatensatzes anwenden. Das Bild, das als Ergebnis der i-ten Transformation erhalten wurde, gehört nun zur Klasse i, dh es gibt insgesamt K Klassen, von denen jede durch die Anzahl der Bilder dargestellt wird, die ursprĂŒnglich im Datensatz enthalten waren. Jetzt werden wir eine Mehrklassenklassifizierung fĂŒr ein solches Markup unterrichten (die Autoren haben sich fĂŒr ein breites Resnet entschieden).

Jetzt können wir K Vektoren y (Ti (x)) der Dimension K fĂŒr ein neues Bild erhalten, wobei Ti die i-te Transformation ist, x das Bild ist, y die Modellausgabe ist. Die grundlegende Definition von „NormalitĂ€t“ lautet wie folgt:

Hier haben wir fĂŒr Bild x die vorhergesagten Wahrscheinlichkeiten der richtigen Klassen fĂŒr alle Transformationen hinzugefĂŒgt. Je grĂ¶ĂŸer die „NormalitĂ€t“ ist, desto wahrscheinlicher ist es, dass das Bild aus derselben Verteilung wie das Trainingsmuster stammt. Die Autoren behaupten, dass dies bereits sehr cool funktioniert, bieten aber dennoch einen komplexeren Weg, der noch ein wenig besser funktioniert. Wir nehmen an, dass der Vektor y (Ti (x)) fĂŒr jede Ti-Transformation Dirichlet- verteilt ist, und nehmen den Wahrscheinlichkeitslogarithmus als Maß fĂŒr die „NormalitĂ€t“ des Bildes. Die Dirichlet-Verteilungsparameter werden anhand eines Trainingssatzes geschĂ€tzt.

Die Autoren berichten ĂŒber die unglaubliche Leistungssteigerung im Vergleich zu anderen AnsĂ€tzen.

Ein einfaches, einheitliches Framework zum Erkennen von Stichproben und Angriffen, die nicht in der Verteilung sind

Zusammenfassung
Code

Die Identifizierung in der Stichprobe fĂŒr die Anwendung des Fallmodells, das sich erheblich von der Verteilung der Trainingsstichprobe unterscheidet, ist eine der Hauptanforderungen fĂŒr die Erzielung zuverlĂ€ssiger Klassifizierungsergebnisse. Gleichzeitig sind neuronale Netze dafĂŒr bekannt, dass sie Objekte mit einem hohen Maß an Sicherheit (und fĂ€lschlicherweise) klassifizieren, die im Training nicht angetroffen oder absichtlich beschĂ€digt wurden (gegnerische Beispiele).

Bild

Die Autoren des Artikels bieten eine neue Methode zur Identifizierung dieser und anderer "schlechter" FĂ€lle. Der Ansatz wird wie folgt implementiert: Zuerst wird ein neuronales Netzwerk mit der ĂŒblichen Softmax-Ausgabe trainiert, dann wird die Ausgabe seiner vorletzten Schicht genommen und der generative Klassifikator darauf trainiert. Es sei x - das der Modelleingabe fĂŒr ein bestimmtes Klassifizierungsobjekt zugefĂŒhrt wird, y - die entsprechende Klassenbezeichnung, und es sei angenommen, dass wir einen vorab trainierten Softmax-Klassifizierer der Form haben:

Bild


Wobei wc und bc die Gewichte und Konstanten der Softmax-Schicht fĂŒr Klasse c sind und f (.) Die Ausgabe des vorletzten Sojabohnen-DNN ist.

Ferner wird ohne Änderungen an dem vorab trainierten Klassifikator ein Übergang zum generativen Klassifikator vorgenommen, nĂ€mlich eine Diskriminanzanalyse. Es wird angenommen, dass Merkmale, die der vorletzten Schicht des Softmax-Klassifikators entnommen wurden, eine mehrdimensionale Normalverteilung aufweisen, von der jede Komponente einer Klasse entspricht. Dann kann die bedingte Verteilung durch den Vektor der Mittelwerte der mehrdimensionalen Verteilung und ihrer Kovarianzmatrix spezifiziert werden:

Bild


Um die Parameter des generativen Klassifikators zu bewerten, werden empirische Mittelwerte fĂŒr jede Klasse sowie die Kovarianz fĂŒr FĂ€lle aus der Trainingsstichprobe {(x1, y1), ..., (xN, yN)} berechnet:

Bild


Dabei ist N die Anzahl der FĂ€lle der entsprechenden Klasse im Trainingssatz. Dann wird ein Maß fĂŒr die ZuverlĂ€ssigkeit an der Testprobe berechnet - der Mahalanobis-Abstand zwischen dem Testfall und der diesem Fall am nĂ€chsten liegenden normalen Klassenverteilung.

Bild


Wie sich herausstellte, funktioniert eine solche Metrik bei atypischen oder beschĂ€digten Objekten viel zuverlĂ€ssiger, ohne hohe SchĂ€tzungen wie die Softmax-Schicht abzugeben. Bei den meisten Vergleichen mit verschiedenen Daten zeigte die vorgeschlagene Methode Ergebnisse, die den aktuellen Stand der Technik ĂŒbertrafen, indem beide FĂ€lle gefunden wurden, die nicht im Training waren und absichtlich verwöhnt wurden.

DarĂŒber hinaus betrachten die Autoren eine weitere interessante Anwendung ihrer Methodik: Verwenden Sie den generativen Klassifikator, um neue Klassen hervorzuheben, die sich nicht im Training fĂŒr den Test befanden, und aktualisieren Sie dann die Parameter des Klassifikators selbst, damit er diese neue Klasse in Zukunft bestimmen kann.

WidersprĂŒchliche Beispiele, die sowohl Computer Vision als auch zeitlich begrenzte Menschen zum Narren halten
Zusammenfassung: https://arxiv.org/abs/1802.08195

adversarial examples . , . adversarial example . , , , , , , , adversarial attacks.

Bild

adversarial examples. adversarial examples , ( , ).

, adversarial example, . , , 63 . accuracy 10% , adversarial. , adversarial , . , perturbation perturbation , accuracy .

Bild

adv — adversarial example, image — , flip — + adversarial perturbation, .

Sanity Checks for Saliency Maps

Abstract

— . deep learning, saliency maps. Saliency maps . saliency map, , “”.

Bild

: “ saliency maps?” , :

  1. Saliency map
  2. Saliency map ,

, : cascading randomization ( , , saliency map) independent randomization ( ). : , saliency maps.
saliency map , , saliency maps. : “To our surprise, some widely deployed saliency methods are independent of both the data the model was trained on, and the model parameters”, — . , , saliency maps, , cascading randomization:

Bild

, . , saliency maps .

, — saliency maps , , confirmation bias. , .

An intriguing failing of convolutional neural networks and the CoordConv solution
Abstract: https://arxiv.org/abs/1807.03247
: , 10 .

Uber. , , , . , :

Bild

: ( CoodrConv ) i j, :

Bild

, :

  1. ImageNet'. , , , ,
  2. CoordConv object detection. MNIST, Faster R-CNN, IoU 21%
  3. CoordConv GAN .

    Bild

    GAN' : LSUN. , — c. , GAN' , , . CoordConv , . LSUN d , , CoordConv GAN,
  4. 4. CoordConv A2C ( ) .

, , . CoordConv U-net : https://arxiv.org/abs/1812.01429, https://www.kaggle.com/c/tgs-salt-identification-challenge/discussion/69274 , https://github.com/mjDelta/Kaggle-RSNA-Pneumonia-Detection-Challenge .

.

Regularizing by the Variance of the Activations' Sample-Variances

Abstract


batch normalization. - . : S1 S2 :

Bild


wobei σ2 Probenvarianzen in S1 bzw. S2 sind, ist ÎČ der trainierte positive Koeffizient. Die Autoren nennen dieses Ding Varianzkonstanzverlust (VCL) und addieren es zum Gesamtverlust.

Im Abschnitt ĂŒber Experimente beschweren sich die Autoren darĂŒber, dass die Ergebnisse der Artikel anderer Personen nicht reproduziert werden, und verpflichten sich, einen reproduzierbaren Code (angelegt) zu erstellen. ZunĂ€chst experimentierten sie mit einem kleinen 11-Lagen-Netz am Datensatz kleiner Bilder (CIFAR-10 und CIFAR-100). Wir haben festgestellt, dass VCL beweist, wenn Sie Leaky ReLU oder ELU als Aktivierungen verwenden, aber die Batch-Normalisierung mit ReLU besser funktioniert. Dann erhöhen sie die Anzahl der Ebenen um das Zweifache und wechseln zu Tiny Imagenet - einer vereinfachten Version von Imagenet mit 200 Klassen und einer Auflösung von 64 x 64. Bei der Validierung ĂŒbertrifft VCL die Batch-Normalisierung im Grid mit ELU sowie ResNet-110 und DenseNet-40, ĂŒbertrifft jedoch Wide-ResNet-32. Ein interessanter Punkt ist, dass die besten Ergebnisse erzielt werden, wenn die Teilmengen S1 und S2 aus zwei Stichproben bestehen.

DarĂŒber hinaus testen die Autoren VCL in Feed-Forward-Netzwerken, und VCL gewinnt etwas hĂ€ufiger als ein Netzwerk mit Batch-Normalisierung oder ohne Regularisierung.

DropMax: Adaptiver Variations-Softmax

Zusammenfassung
Code

In dem Mehrklassenklassifizierungsproblem wird vorgeschlagen, bei jeder Iteration des Gradientenabfalls fĂŒr jede Probe eine zufĂ€llige Anzahl falscher Klassen zufĂ€llig fallen zu lassen. DarĂŒber hinaus wird auch die Wahrscheinlichkeit trainiert, mit der wir die eine oder andere Klasse fĂŒr das eine oder andere Objekt fallen lassen. Infolgedessen stellt sich heraus, dass sich das Netzwerk auf die Unterscheidung zwischen den am schwierigsten zu trennenden Klassen konzentriert.

Bild

Experimente mit MNIST-, CIFAR- und Imagenet-Untergruppen zeigen, dass DropMax eine bessere Leistung als Standard-SoftMax und einige seiner Modifikationen aufweist.

Genaue verstÀndliche Modelle mit paarweisen Interaktionen
(Freunde lassen Freunde keine Black-Box-Modelle bereitstellen: Die Bedeutung der VerstÀndlichkeit beim maschinellen Lernen)

Zusammenfassung: http://www.cs.cornell.edu/~yinlou/papers/lou-kdd13.pdf
Code: Es ist nicht da. Ich bin sehr daran interessiert, wie die Autoren einen so leicht zwingenden Namen mit einem Mangel an Code versehen. Akademiker, Sir =)

Sie können sich dieses Paket beispielsweise ansehen: https://github.com/dswah/pyGAM . Vor nicht allzu langer Zeit wurden Feature-Interaktionen hinzugefĂŒgt (was GAM tatsĂ€chlich von GA2M unterscheidet).

Dieser Artikel wurde im Rahmen des Workshops „Interpretierbarkeit und Robustheit in Audio, Sprache und Sprache“ vorgestellt, obwohl er sich der Interpretierbarkeit von Modellen im Allgemeinen und nicht dem Bereich der Ton- und Sprachanalyse widmet. Wahrscheinlich war jeder in gewissem Maße mit dem Dilemma konfrontiert, zwischen Modellinterpretierbarkeit und zu wĂ€hlen seine Genauigkeit. Wenn wir die ĂŒbliche lineare Regression verwenden, können wir anhand der Koeffizienten verstehen, wie sich jede unabhĂ€ngige Variable auf die abhĂ€ngige auswirkt. Wenn wir Black-Box-Modelle verwenden, z. B. GradientenverstĂ€rkung ohne EinschrĂ€nkung der KomplexitĂ€t oder tiefe neuronale Netze, ist ein korrekt abgestimmtes Modell fĂŒr geeignete Daten sehr genau, aber die Verfolgung und ErklĂ€rung aller Muster, die das in den Daten gefundene Modell enthĂ€lt, ist problematisch. Dementsprechend wird es schwierig sein, dem Kunden das Modell zu erklĂ€ren und zu verfolgen, ob er etwas gelernt hat, das wir nicht möchten. Die folgende Tabelle enthĂ€lt SchĂ€tzungen der relativen Interpretierbarkeit und Genauigkeit verschiedener Modelltypen.

Bild

Ein Beispiel fĂŒr eine Situation, in der eine schlechte Interpretierbarkeit des Modells mit großen Risiken verbunden ist: In einem der medizinischen DatensĂ€tze wurde das Problem der Vorhersage der Wahrscheinlichkeit, dass der Patient an einer LungenentzĂŒndung stirbt, gelöst. Das folgende interessante Muster wurde in den Daten gefunden: Wenn eine Person Asthma bronchiale hat, ist die Wahrscheinlichkeit, an einer LungenentzĂŒndung zu sterben, geringer als bei Menschen ohne diese Krankheit. Als sich die Forscher an praktizierende Ärzte wandten, stellte sich heraus, dass ein solches Muster tatsĂ€chlich besteht, da Menschen mit Asthma im Falle einer LungenentzĂŒndung die schnellste Hilfe und die stĂ€rksten Medikamente erhalten. Wenn wir xgboost auf diesen Datensatz trainiert hĂ€tten, hĂ€tte er dieses Muster höchstwahrscheinlich erkannt, und unser Modell wĂŒrde Patienten mit Asthma als Gruppe mit geringem Risiko klassifizieren und dementsprechend eine niedrigere PrioritĂ€t und BehandlungsintensitĂ€t fĂŒr sie empfehlen.

Die Autoren des Artikels bieten eine Alternative, die gleichzeitig interpretierbar und genau ist - dies ist GA2M, eine Unterart verallgemeinerter additiver Modelle.

Klassisches GAM kann als weitere Verallgemeinerung von GLM betrachtet werden: Ein Modell ist eine Summe, deren Term den Einfluss nur einer unabhĂ€ngigen Variablen auf die abhĂ€ngige Variable widerspiegelt. Der Einfluss wird jedoch nicht durch einen Gewichtskoeffizienten wie in GLM ausgedrĂŒckt, sondern durch eine glatte nichtparametrische Funktion (in der Regel stĂŒckweise definiert) Funktionen - Splines oder BĂ€ume von geringer Tiefe, einschließlich "StĂŒmpfe"). Aufgrund dieser Funktion können GAMs komplexere Beziehungen modellieren als ein einfaches lineares Modell. Andererseits können gelernte AbhĂ€ngigkeiten (Funktionen) visualisiert und interpretiert werden.

Bild

Standard-GAMs erreichen jedoch hĂ€ufig immer noch nicht die Genauigkeit von Black-Box-Algorithmen. Um dies zu beheben, bieten die Autoren des Artikels einen Kompromiss an - um der Modellgleichung zusĂ€tzlich zu den Funktionen einer Variablen eine kleine Anzahl von Funktionen zweier Variablen hinzuzufĂŒgen - sorgfĂ€ltig ausgewĂ€hlte Paare, deren Interaktion fĂŒr die Vorhersage der abhĂ€ngigen Variablen von Bedeutung ist. Somit wird GA2M erhalten.

Zuerst wird ein Standard-GAM erstellt (ohne die Interaktion von Variablen zu berĂŒcksichtigen), und dann werden schrittweise Variablenpaare hinzugefĂŒgt (das verbleibende GAM wird als Zielvariable verwendet). FĂŒr den Fall, dass viele Variablen vorhanden sind und die Aktualisierung des Modells nach jedem Schritt rechenintensiv ist, wird ein FAST-Ranking-Algorithmus vorgeschlagen, mit dem Sie potenziell nĂŒtzliche Paare vorab auswĂ€hlen und eine vollstĂ€ndige AufzĂ€hlung vermeiden können.

Dieser Ansatz ermöglicht es uns, QualitĂ€t in der NĂ€he von Modellen mit unbegrenzter KomplexitĂ€t zu erzielen. Die Tabelle zeigt die Fehlerrate verallgemeinerter additiver Modelle im Vergleich zu einer zufĂ€lligen Gesamtstruktur zur Lösung des Klassifizierungsproblems in verschiedenen DatensĂ€tzen. In den meisten FĂ€llen unterscheidet sich die QualitĂ€t der Vorhersage fĂŒr GA2M mit FAST und fĂŒr zufĂ€llige Gesamtstrukturen nicht signifikant.

Bild

Ich möchte auf die Merkmale der Arbeit von Akademikern aufmerksam machen, die anbieten, diese VerstĂ€rkungen und Tiefschneidungen an den Ofen zu senden. Bitte beachten Sie, dass die DatensĂ€tze, auf denen die Ergebnisse dargestellt werden, nicht mehr als 20.000 Objekte enthalten (alle DatensĂ€tze aus dem UCI-Repository). Es stellt sich natĂŒrlich die Frage: Gibt es fĂŒr solche Experimente im Jahr 2018 wirklich keinen offenen Datensatz normaler GrĂ¶ĂŸe? Sie können noch weiter gehen und einen Datensatz mit 50 Objekten vergleichen. Es besteht die Möglichkeit, dass sich das konstante Modell nicht wesentlich von einer zufĂ€lligen Gesamtstruktur unterscheidet.

Der nÀchste Punkt ist die Regularisierung. Bei einer Vielzahl von Zeichen ist es sehr einfach, auch ohne Wechselwirkungen umzuschulen. Die Autoren glauben möglicherweise, dass dieses Problem nicht besteht, und das einzige Problem ist das Black-Box-Modell. Zumindest in dem Artikel wird von Regularisierung nirgendwo gesprochen, obwohl dies offensichtlich notwendig ist.

Und das letzte, was die Interpretierbarkeit betrifft. Selbst lineare Modelle sind nicht interpretierbar, wenn wir viele Funktionen haben. Wenn Sie 10 Tausend normalverteilte Gewichte haben (bei Verwendung der L2-Regularisierung ist dies ungefĂ€hr so), ist es unmöglich, genau zu sagen, welche Vorzeichen fĂŒr die Tatsache verantwortlich sind, dass Predict_Proba 0,86 ergibt. Zur Interpretierbarkeit wollen wir nicht nur ein lineares Modell, sondern ein lineares Modell mit geringen Gewichten. Es scheint, dass dies durch L1-Regularisierung erreicht werden kann, aber auch hier ist es nicht so einfach. Aus einer Reihe stark korrelierter Merkmale wird die L1-Regularisierung fast zufĂ€llig eines auswĂ€hlen. Der Rest erhĂ€lt eine Gewichtung von 0, obwohl, wenn eines dieser Merkmale VorhersagefĂ€higkeit besitzt, die anderen eindeutig nicht nur Rauschen sind. In Bezug auf die Modellinterpretation kann dies in Ordnung sein. In Bezug auf das VerstĂ€ndnis der Beziehung zwischen Merkmalen und der Zielvariablen ist dies sehr schlecht. Das heißt, selbst bei linearen Modellen ist nicht alles so einfach. Weitere Details zu interpretierbaren und glaubwĂŒrdigen Modellen finden Sie hier .

Visualisierung fĂŒr maschinelles Lernen: UMAP

Absorbieren
Code

Am Tag der Tutorials war einer der ersten, der durchgefĂŒhrt wurde, "Visualisierung fĂŒr maschinelles Lernen" von Google Brain. Im Rahmen des Tutorials wurden wir ĂŒber die Geschichte der Visualisierungen informiert, beginnend mit dem Ersteller der ersten Grafiken, sowie ĂŒber verschiedene Merkmale des menschlichen Gehirns und die Wahrnehmung und Techniken, mit denen die Aufmerksamkeit auf das Wichtigste im Bild gelenkt werden kann, selbst wenn es viele kleine Details enthĂ€lt - zum Beispiel das Hervorheben Form, Farbe, Rahmen usw. wie im Bild unten. Ich werde diesen Teil ĂŒberspringen, aber es gibt eine gute Bewertung .

Bild

Persönlich interessierte mich am meisten das Thema der Visualisierung mehrdimensionaler DatensĂ€tze, insbesondere der UMAP-Ansatz (Uniform Manifold Approximation and Projection) - eine neue nichtlineare Methode zur Dimensionsreduzierung. Es wurde im Februar dieses Jahres vorgeschlagen, so dass es bisher nur wenige Menschen verwenden, aber es sieht sowohl in Bezug auf die Arbeitszeit als auch in Bezug auf die QualitĂ€t der Klassentrennung in zweidimensionalen Visualisierungen vielversprechend aus. In verschiedenen DatensĂ€tzen ist UMAP t-SNE und anderen Methoden in Bezug auf die Geschwindigkeit 2-10 Mal voraus. Je grĂ¶ĂŸer die Datendimension, desto grĂ¶ĂŸer ist die LeistungslĂŒcke:

Bild

DarĂŒber hinaus ist die UMAP-Betriebszeit im Gegensatz zu t-SNE nahezu unabhĂ€ngig von der Dimension des neuen Raums, in den wir unseren Datensatz einbetten (siehe Abbildung unten), was ihn zu einem geeigneten Werkzeug fĂŒr andere Aufgaben (neben der Visualisierung) macht - insbesondere fĂŒr um die Abmessung vor dem Training des Modells zu reduzieren.

Bild

Gleichzeitig haben Tests an verschiedenen DatensĂ€tzen gezeigt, dass UMAP fĂŒr die Visualisierung nicht schlechter funktioniert und t-SNE stellenweise besser ist: Beispielsweise sind Klassen in MNIST- und Fashion MNIST-DatensĂ€tzen in der Version mit UMAP besser getrennt:

Bild

Ein zusĂ€tzliches Plus ist eine praktische Implementierung: Die UMAP-Klasse erbt von den sklearn-Klassen, sodass Sie sie als regulĂ€ren Transformator in der sklearn-Pipeline verwenden können. DarĂŒber hinaus wird argumentiert, dass UMAP besser interpretierbar ist als t-SNE unterhĂ€lt eine globale Datenstruktur besser.

In Zukunft planen die Autoren, UnterstĂŒtzung fĂŒr halbĂŒberwachtes Training hinzuzufĂŒgen. Wenn wir also Tags fĂŒr mindestens einige der Objekte haben, können wir UMAP basierend auf diesen Informationen erstellen.

Welche Artikel haben Ihnen gefallen? Schreiben Sie Kommentare, stellen Sie Fragen, wir werden sie beantworten.

Source: https://habr.com/ru/post/de434694/


All Articles