Fortschritt und Hype in der Ai-Forschung

Das größte Problem bei KI ist nicht, dass es dumm ist, sondern dass es keine Definition für Intelligenz und damit kein Maß dafür gibt [1a] [1b] .


Der Turing-Test ist keine gute Maßnahme, da Gorilla Koko nicht bestehen würde, obwohl sie mehr Probleme lösen könnte als viele behinderte Menschen [2] .


Es ist durchaus möglich, dass sich Menschen in Zukunft fragen, warum die Menschen im Jahr 2019 dachten, dass ein Agent, der für das Spielen eines festen Spiels in einer simulierten Umgebung wie Go ausgebildet wurde, über Intelligenz verfügt [3a] [3b] [3c] [3d] [3e ] [3f] [3g] [3h] .


Bei Intelligenz geht es mehr darum, altes Wissen auf neue Aufgaben anzuwenden / zu übertragen (Quake Arena ohne Training nach dem Beherrschen von Doom gut genug zu spielen), als die Erfahrung des Agenten in Heuristiken zu komprimieren, um eine Spielpunktzahl vorherzusagen und die Aktion des Agenten in einem bestimmten Spielzustand zu bestimmen, um die endgültige Punktzahl zu maximieren ( Quake Arena nach Millionen Spielen nach dem Beherrschen von Doom gut genug spielen [4] .


Bei der menschlichen Intelligenz geht es um die Fähigkeit, sich an die physische / soziale Welt anzupassen, und das Spielen von Go ist eine besondere Anpassung, die von der menschlichen Intelligenz durchgeführt wird. Die Entwicklung eines Algorithmus zum Erlernen des Spielens von Go ist leistungsfähiger, und die Entwicklung einer mathematischen Theorie von Go könnte dies sein noch performanter.


Es ist sinnvoller, AIs mit Menschen zu vergleichen, nicht anhand der Effektivität und Effizienz der Endprodukte der Anpassung (in Spielen, die zwischen einer AI und einem Menschen gespielt werden), sondern anhand der Effektivität und Effizienz des Anpassungsprozesses (in Spielen, die zwischen einem maschinell erlernten Agenten und gespielt werden) ein vom Menschen codierter Wirkstoff nach begrenzter Übung) [5] .


Dota 2, StarCraft 2, Civilization 5 und wahrscheinlich sogar GTA 5 könnten in nicht allzu ferner Zukunft gelöst werden, aber die Fähigkeit, jedes neue Spiel auf menschlicher Ebene ohne vorheriges Training zu spielen, wäre weitaus bedeutender.


Das zweitgrößte Problem bei der KI ist die mangelnde Robustheit in einem langen Schwanz beispielloser Situationen (einschließlich kritischer Situationen im Gesundheitswesen [6a] , selbstfahrende Fahrzeuge, Finanzen), die derzeit nicht annähernd akzeptabel behandelt werden können [6b ] [6c] [6d] [6e] [6f] .


Komplexe Modelle nutzen alle Muster, die Eingaben mit Ausgabevariablen in Beziehung setzen, aber einige Muster gelten möglicherweise nicht für Fälle, die nur unzureichend von Trainingsdaten abgedeckt werden [Abschnitt "Fortschritt"] [7a] [7b] [7c] . > 99% der Anwendungen im Gesundheitswesen verwenden einfache Modelle wie die logistische Regression (Domänenwissen wird in Code umgewandelt, um Statistiken als Merkmale zu berechnen), um falsche Korrelationen zu vermeiden und Ausreißer robuster zu machen [8a] [8b] .


Für einen Agenten in einer simulierten Umgebung wie Go oder Quake ist entweder ein echtes Umgebungsmodell bekannt oder verfügbar, sodass der Agent eine beliebige Menge an Trainingsdaten generieren kann, um zu lernen, wie er in jeder Situation optimal handeln kann. Das Herausfinden von Korrelationen in diesen Daten ist nicht intelligent - für reale Probleme ist es entscheidend, ein echtes Modell zu finden [9a] [9b] [9c] [9d] [9e] .


Für einen Organismus ist die reale Welt kein festes Spiel mit bekannten Umgebungen und Regeln wie Go oder Quake, sondern ein Spiel mit Umgebungen und Regeln, die weitgehend unbekannt sind und sich ständig ändern [10] . Es muss sich an unerwartete Änderungen der Umgebung und der Regeln anpassen, einschließlich Änderungen, die von Gegnern verursacht werden. Es muss in der Lage sein, eine breite Autonomie zu erreichen, im Gegensatz zu einer bloßen Automatisierung, die zum Spielen eines festen Spiels erforderlich ist.


Es könnte sich als unmöglich herausstellen, selbstfahrende Fahrzeuge und humanoide Roboter neben Menschen zu betreiben, ohne sie zu schulen, um eine Anpassungsfähigkeit auf menschlicher Ebene an die reale Welt zu erreichen. Es könnte sich als unmöglich herausstellen, dass persönliche Assistenten Menschen in Schlüsselaspekten ihres Lebens ersetzen, ohne sie zu schulen , um eine Anpassungsfähigkeit auf menschlicher Ebene an die soziale Welt zu erreichen [11a] [11b] [11c] .


Wissen gegen Intelligenz


Wissen ist eine Information, wie Daten aus Beobachtungen oder Experimenten, die komprimiert und in berechenbarer Form dargestellt werden, wie Text in natürlicher Sprache, mathematische Theorie in semi-formaler Sprache, Programm in formaler Sprache, Gewichte eines künstlichen neuronalen Netzwerks oder Synapsen des Gehirns .


Bei Wissen geht es um Werkzeuge (Theorie, Programm, physikalischer Prozess) zur Lösung von Problemen. Bei Intelligenz geht es darum, Wissen anzuwenden (zu übertragen) und zu schaffen (zu lernen) [12] . Es gibt ein Wissen, wie man ein Problem löst (ein Programm für Computer, ein Lehrbuch für Menschen), und dann gibt es einen Prozess des Anwendens von Wissen (Ausführen eines Programms von Computern, Ableiten und Ausführen von Anweisungen von Menschen), und dann gibt es einen Prozess von Wissen schaffen (induktive Folgerung / Lernen aus Beobachtungen und Experimenten, deduktives Denken aus abgeleiteten Theorien und erlernten Modellen - entweder von Computern oder von Menschen).


Alpha (Go) Zero ist einem Wissen, wie bestimmte Problemklassen gelöst werden können, viel näher als einem intelligenten Agenten, der Wissen anwenden und erstellen kann. Es ist ein Suchalgorithmus wie IBM Deep Blue, bei dem die Heuristiken nicht fest codiert, sondern während der Spielsitzungen optimiert werden. Es kann das erlernte Wissen nicht auf andere Probleme anwenden - selbst wenn es auf einem kleineren Go-Board spielt. Es kann kein abstraktes Wissen schaffen, das für den Menschen nützlich ist - selbst einfache Einblicke in die Go-Taktik. Obwohl es einige nützliche Einsichten in einen Menschen hervorrufen könnte, wenn es mit ungewöhnlichen Taktiken spielt.


TD-Gammon aus dem Jahr 1992 wird von vielen als der größte Durchbruch in der KI angesehen [13a] [13b] . TD-Gammon verwendete den TD (λ) -Algorithmus mit Online-On-Policy-Updates. Der Autor von TD-Gammon nutzte seine Variation, um die Wettstrategie von IBM Watson zu lernen [13c] . Alpha (Go) Zero ist auch ungefähr eine Variation von TD (λ) [13d] . TD-Gammon verwendete ein durch Temporal Difference Learning trainiertes neuronales Netzwerk mit Zielwerten, die unter Verwendung der Baumsuche mit einer Tiefe von nicht mehr als drei berechnet wurden, und unter Verwendung der Ergebnisse von bis zum Ende gespielten Spielen als Schätzungen der Blattwerte. Alpha (Go) Zero verwendete ein tiefes neuronales Netzwerk, das durch zeitliches Differenzlernen mit Zielwerten trainiert wurde, die unter Verwendung der Monte-Carlo-Baumsuche mit viel größerer Tiefe berechnet wurden, und unter Verwendung von Schätzungen der Blattwerte und Richtlinienaktionen, die vom Netzwerk berechnet wurden, ohne bis zum Ende Spiele zu spielen.


Qualitative Unterschiede zwischen Backgammon und Go als Probleme und zwischen TD-Gammon und Alpha (Go) Zero als Lösungen (Maßstab des neuronalen Netzwerks und Anzahl der gespielten Spiele sind große Unterschiede) sind bei weitem nicht so groß wie qualitative Unterschiede zwischen perfekten Informationsspielen wie Go und unvollständige Informationsspiele wie Poker (AlphaZero gilt nicht für Poker, DeepStack gilt nicht für Go and Chess).


IBM Watson, das 2011 mit Abstand fortschrittlichste System zur Beantwortung von Fragen, ist kein intelligenter Agent. Es handelt sich um ein Wissen, das als Tausende Zeilen manuell codierter Logik zum Suchen und Bearbeiten von Wortfolgen sowie zum Generieren von Hypothesen und Sammeln von Beweisen sowie einige hundert mit linearer Regression abgestimmte Parameter zum Abwägen verschiedener Wissensbestandteile für jeden unterstützten Fragetyp und dargestellt wird antworte [14a] [14b] [14c] . Es unterscheidet sich konzeptionell nicht wesentlich von Datenbank-Engines, die Datenstatistiken und fest codierte Schwellenwerte verwenden, um einen Plan für die Ausführung einer bestimmten Abfrage zu erstellen, indem eine Teilmenge der implementierten Algorithmen zur Manipulation von Daten ausgewählt und weitergeleitet wird.


IBM Watson kann seine Logik für die Extraktion und Integration von Textinformationen (internes Wissen) auf neue Texte (externes Wissen) anwenden. Es kann sein Wissen jedoch nicht auf andere Probleme als die begrenzte Beantwortung faktoider Fragen anwenden, ohne von Menschen dafür kodiert zu werden. Es kann codiert werden, um nach Beweisen zur Unterstützung von Hypothesen in Veröffentlichungen über Krebs zu suchen, wobei jedoch nur die vom Menschen codierte Logik verwendet wird, um Texte zu interpretieren (relevante Wörter zu extrahieren und abzugleichen) und niemals darüber hinauszugehen, um Texte selbst zu interpretieren (Lernmodell der Welt und Zuordnen von Texten zu Simulationen dieses Modells). Der bisherige Ansatz zur Interpretation von Texten reichte für Jeopardy! [15] aber es reicht bei weitem nicht aus, wenn es keine einfache Antwort gibt. Es gibt einen großen Unterschied zwischen Schlussfolgerungen unter Verwendung statistischer Eigenschaften von Texten und statistischen Eigenschaften realer Phänomene, die mit Simulationen an einem erlernten Modell dieser Phänomene geschätzt wurden.


IBM Watson kann kein neues Wissen erstellen - es kann einfache Fakten aus Wissensquellen (Texten und Wissensdatenbanken) mithilfe von vom Menschen codierten Algorithmen ableiten, aber es kann keine Theorie aus den Quellen induzieren und deren Wahrheit überprüfen. WatsonPaths vermutet einen Kausalgraphen unter Verwendung der Suche nach Texten, die für den Fall relevant sind [16a] [16b], aber die Inferenzverkettung als Argumentationsansatz kann nicht ausreichend robust sein - Schlussfolgerungen müssen mit Simulationen oder Experimenten überprüft werden, die von einem Gehirn durchgeführt werden.


Was ist Intelligenz?


Biologen definieren Intelligenz als die Fähigkeit, nicht standardisierte Lösungen für nicht standardisierte Probleme zu finden (mit anderen Worten, die Fähigkeit, unbekannte Unbekannte im Gegensatz zu bekannten bekannten und bekannten Unbekannten zu behandeln) und unterscheiden dieses Merkmal von Reflexen / Instinkten, die als Standardlösungen definiert sind für Standardprobleme [17a] [17b] . Das Spielen von Go kann für AlphaGo nach dem Spielen von Millionen von Spielen nicht als nicht standardmäßiges Problem angesehen werden. Das Erkennen neuer Malware kann als nicht standardmäßiges Problem angesehen werden, für das es bisher keine Lösung auf menschlicher Ebene gibt.


Die meisten Forscher konzentrieren sich auf einen Top-Down-Ansatz für Intelligenz mit End-to-End-Training eines Modells, d. H. Die Definition eines Ziels für ein Problem auf hoher Ebene (z. B. Maximierung der erwarteten Gewinnwahrscheinlichkeit) und die Erwartung, dass ein Modell lernt, eine Lösung für dieses Problem zu finden Low-Level-Teilprobleme des ursprünglichen Problems (z. B. Ko-Kämpfe in Go) [18a] . Dieser Ansatz funktioniert für relativ einfache Probleme wie feste Spiele in simulierten Umgebungen, erfordert jedoch eine enorme Anzahl von Trainingsepisoden (mehrere Größenordnungen mehr als die Menge, die der Agent in der realen Welt erfahren kann) und führt zu Lösungen, die nicht verallgemeinerbar sind (AlphaGo-Modell) Das Training auf einem 19x19-Board ist für ein 9x9-Board ohne vollständige Umschulung praktisch nutzlos. Die schwierigsten Probleme auf hoher Ebene, die von Menschen gelöst werden können, sind offen - Menschen suchen im Gegensatz zu AlphaGo nicht im festen Raum nach möglichen Lösungen [18b] . Menschen, die durch Beobachtungen und Experimente in der realen Welt informiert und geleitet werden, haben gute Teilprobleme, z. B. spezielle und allgemeine Relativitätstheorie.


Einige Forscher [Abschnitt "Mögliche Richtungen"] konzentrieren sich auf einen Bottom-up-Ansatz, dh beginnen mit einigen Zielen auf niedriger Ebene (z. B. Maximierung der Fähigkeit zur Vorhersage der Umgebungsdynamik, einschließlich der Auswirkung der Aktionen des Agenten auf die Umgebung), und fügen dann einige übergeordnete hinzu Ziele für die intrinsische Motivation des Agenten (z. B. Maximierung des Lernfortschritts oder Maximierung der verfügbaren Optionen) [19a] [19b] und erst dann Hinzufügen eines übergeordneten Ziels für ein Problem, das für den Menschen von Interesse ist (z. B. Maximierung einer Spielpunktzahl ) [19c] . Es wird erwartet, dass dieser Ansatz zu allgemeineren und robusteren Lösungen für Probleme auf hoher Ebene führt, da das Lernen mit solchen Zielen auf niedriger Ebene dazu führen kann, dass ein Agent auch selbstgesteuertes und selbstkorrigierendes Verhalten lernt, das in nicht standardmäßigen oder gefährlichen Situationen mit Null hilfreich ist Informationen über sie effektiv durch das übergeordnete Ziel bereitgestellt. Die Notwendigkeit, sich anzupassen / zu überleben, bietet Optimierungsziele für Organismen, um die Selbstorganisation und das Lernen / die Evolution zu steuern [20a] [20b] , und einige Organismen können sich nach dem Training / der Weiterentwicklung übergeordnete Ziele setzen, um Ziele auf niedriger Ebene zu erreichen . Es ist durchaus möglich, dass einige universelle Ziele auf niedriger Ebene aus einigen Gleichungen abgeleitet werden, die den Energie- und Informationsfluss regeln [21a] , so dass eine Optimierung mit diesen Zielen [Abschnitt "mögliche Richtungen"] zur Intelligenz von Computern führen kann Ein analoger Weg, wie die Evolution des Universums, die von Gesetzen der Physik bestimmt wird, zur Intelligenz von Organismen führt [21b] .


Während das Lösen von Problemen auf hoher Ebene in simulierten Umgebungen wie Go Erfolge hatte, muss das Lösen von Problemen auf niedriger Ebene wie Vision und Robotik noch solche Erfolge erzielen. Menschen können nicht lernen, Go zu spielen, ohne vorher zu lernen, wie man Bretter erkennt und Steine ​​legt. Computer können einige Probleme auf hoher Ebene lösen, ohne Probleme auf niedriger Ebene lösen zu können, wenn Probleme auf hoher Ebene von Menschen von Teilproblemen auf niedriger Ebene abstrahiert werden [22a] . Es handelt sich um Probleme auf niedriger Ebene, die sowohl für Menschen als auch für Computer rechenintensiver sind, jedoch nicht unbedingt komplexer als mathematische oder technische Probleme [22b] . Es sind Probleme auf niedriger Ebene, die ein Weg zum vernünftigen Denken sind, d. H. Das Schätzen der Plausibilität einer beliebigen Hypothese aus erhaltenen oder imaginären Beobachtungen und aus allen zuvor erworbenen Kenntnissen, die erforderlich sind, damit sich eine Maschine an eine beliebige Umgebung anpasst und eine beliebige löst hochrangiges Problem in dieser Umgebung [22d] .


Hindernisse


Das erste größte Hindernis für Anwendungen in realen Umgebungen im Gegensatz zu simulierten Umgebungen scheinen unterbeschränkte Ziele für die Optimierung beim Erlernen des Umgebungsmodells zu sein [23a] . Jedes ausreichend komplexe Modell, das mit einem unzureichend eingeschränkten Ziel trainiert wurde, nutzt jedes Muster aus, das in Trainingsdaten gefunden wurde, die Eingaben auf Zielvariablen beziehen, aber falsche Korrelationen werden nicht notwendigerweise auf Testdaten verallgemeinert [Abschnitt "Fortschritt"] [23b] [23c] [23d] . Selbst Milliarden Beispiele schränken die Optimierung nicht ausreichend ein und führen nicht zu erheblichen Leistungssteigerungen bei der Bilderkennung [24a] [24b] . Agenten finden überraschende Möglichkeiten, simulierte Umgebungen zu nutzen, um Ziele zu maximieren, die nicht eingeschränkt genug sind, um Exploits zu verhindern [25a] [25b] .


Eine Möglichkeit, die Optimierung ausreichend einzuschränken, um nicht verallgemeinerbare und nicht robuste Lösungen zu vermeiden, sind informativere Daten für das Training, beispielsweise die Verwendung der Physik der realen Welt oder der Dynamik der sozialen Welt als Signalquellen im Gegensatz zu simulierten Umgebungen mit künstliche Agenten oder eingeschränkte physische Umgebungen ohne gegnerische Agenten - letztere sind nicht repräsentativ für Eckfälle, mit denen ein Agent in der nicht eingeschränkten realen / sozialen Welt konfrontiert ist [26a] . Ein anderer Weg ist ein komplexeres Ziel für die Optimierung, beispielsweise das Lernen, nicht nur Statistiken von Interesse vorherzusagen, wie beispielsweise zukünftige kumulative Belohnungen, die von den nächsten Aktionen des Agenten abhängig sind, sondern auch die Dynamik, d. H. Einige willkürliche zukünftige Eigenschaften der Umgebung, die von einigen willkürlichen hypothetischen zukünftigen Ereignissen abhängig sind einschließlich der nächsten Aktionen des Agenten [26b] [26c] [26d] [26e] . Zustände und Belohnungen entsprechen den statistischen Zusammenfassungen des Agenten für Interaktionen mit der Umgebung, während die Dynamik dem Wissen des Agenten über die Funktionsweise der Umgebung entspricht [27a] [27b] . Fortschritte des Agenten beim Lernen, die Dynamik der Umgebung vorherzusagen [Abschnitt "mögliche Richtungen"] [28a] [28b] [28c] sowie Fortschritte des Agenten beim Erstellen von Optionen, um sie zu beeinflussen [Abschnitt "mögliche Richtungen"] [28d] [28e] [ 28f] könnte die stärkste Art der intrinsischen Motivation des Agenten sein und könnte der effizienteste Weg sein, die Optimierung einzuschränken.


Das zweitgrößte Hindernis scheint eine enorme Lücke zwischen der Komplexität simulierter Umgebungen, die für gegenwärtige Computer verfügbar sind, und der Komplexität realer Umgebungen, die für gegenwärtige Roboter verfügbar sind, zu sein, so dass ein in einer simulierten Umgebung geschulter Agent nicht in einer realen Umgebung auf einen Roboter übertragen werden kann -Weltumgebung mit akzeptabler Leistung und Robustheit [29] . Das Boston Dynamics-Team verwendete niemals maschinelles Lernen, um seine Roboter zu steuern. Es verwendet Echtzeitlöser von Differentialgleichungen, um die Dynamik und die optimale Steuerung für Modelle von Robotern und Umgebungen zu berechnen, die nicht aus Daten gelernt, sondern manuell spezifiziert werden [30] . MIT-Forscher verwendeten bei der DARPA Robotics Challenge 2015 kein maschinelles Lernen, um ihren Roboter zu steuern, und ihr Roboter war der einzige Roboter, der nicht fiel oder physische Hilfe von Menschen benötigte [31a] . Ein Tail-Ereignis kann von einem statistischen Modell möglicherweise nicht gelernt werden [31b] , dh durch Bilden einer trennenden Hyperebene dieses Modells und Verwenden dieser als Entscheidungsgrenze für eine mögliche Aktion, und erfordert möglicherweise einige Formen nichtstatistischer Inferenz, dh durch Induzieren ein logisches Modell / eine logische Theorie für das Ereignis, aus der Hypothesen gezogen und in Experimenten überprüft werden. Daher müssen möglicherweise nicht nur Statistiken, sondern auch die Dynamik von Phänomenen berechnet werden - das Modell muss möglicherweise programmiert oder trainiert werden, um die Dynamik von Phänomenen zu simulieren [31c] .


Es ist durchaus möglich, dass sich die einzige Möglichkeit herausstellt, Agenten mit einer Intelligenz auszubilden / weiterzuentwickeln, die für schwierige Probleme in der realen Welt (z. B. Robotik) und in der sozialen Welt (z. B. Verständnis natürlicher Sprache) ausreicht:
(1) Agenten in Umgebungen zu trainieren / weiterzuentwickeln, die ebenso viele Optimierungsbeschränkungen bieten wie die reale und soziale Welt (d. H. Agenten müssen möglicherweise Roboter sein, die in der realen Welt neben Menschen arbeiten);
(2) Agenten in Problemen zu trainieren / weiterzuentwickeln, die ebenso viele Optimierungsbeschränkungen bieten wie die schwierigsten Probleme, die von Organismen in der realen Welt gelöst werden (d. H. Agenten müssen möglicherweise lernen, als Roboter in der realen Welt ohne direkte Unterstützung durch Menschen zu überleben). und von Menschen in der sozialen Welt gelöst (dh Agenten müssen möglicherweise lernen, Ziele in der realen Welt zu erreichen, indem sie die Kommunikation mit Menschen als einziges Werkzeug verwenden).


Fortschritt


Während der Renaissance des Deep Learning gab es wohl keine Fortschritte bei realen Problemen wie Robotik und Sprachverständnis, die annähernd so bedeutend waren wie bei festen Spielen, die in simulierten Umgebungen ausgeführt wurden.


Meinungen einiger der realistischsten Forscher zum Fortschritt der KI-Forschung:


Michael I. Jordan [32a] [32b] [32c]
Rodney Brooks [33a] [33b]
Philip Piekniewski [34a] [34b]
Francois Chollet [35a] [35b]
John Langford [36a] [36b]
Alex Irpan [37]


Deep-Learning-Methoden sind bei Bildverständnisaufgaben nicht sehr robust [Artikel über Verallgemeinerung und konträre Beispiele unten] [38a] [38b] [38c] [38d] [38e] [38f] .
Deep-Learning-Methoden haben Radiologen noch nicht einmal ersetzt [39a] [39b] [39c] [39d] .
Deep-Learning-Methoden sind bei Textverständnisaufgaben nicht sehr robust [Artikel über Verallgemeinerung und konträre Beispiele unten] [40a] [40b] .
Deep Learning-Methoden können die ersten Level des härtesten Atari-Spiels nicht bestehen [41] .


"ObjectNet: Ein groß angelegter, vorspannungsgesteuerter Datensatz zum Überschreiten der Grenzen von Objekterkennungsmodellen"
"Die Approximation von CNNs mit Modellen mit zahlreichen lokalen Funktionen funktioniert in ImageNet überraschend gut."
"Messung der Tendenz von CNNs, statistische Oberflächenregelmäßigkeiten zu lernen"
"Übermäßige Invarianz verursacht gegnerische Sicherheitslücke"
"Wissen tiefe generative Modelle, was sie nicht wissen?"
"Verallgemeinern ImageNet-Klassifizierer auf ImageNet?"
"Verallgemeinern sich CIFAR-10-Klassifikatoren auf CIFAR-10?"
"Deep Learning zur Segmentierung von Hirntumoren: Auswirkungen von interinstitutionellem Training und Testen"
"Durch verwirrende Variablen kann die Generalisierungsleistung radiologischer Deep-Learning-Modelle beeinträchtigt werden."
"Natürliche kontroverse Beispiele"
"Ein-Pixel-Angriff zum Täuschen tiefer neuronaler Netze"
"Eine Rotation und eine Übersetzung genügen: CNNs mit einfachen Transformationen täuschen"
"Semantische kontroverse Beispiele"
"Warum verallgemeinern tiefe Faltungsnetzwerke so schlecht auf kleine Bildtransformationen?"
"Der Elefant im Raum"
"Streik (mit) einer Pose: Neuronale Netze werden leicht durch seltsame Posen vertrauter Objekte getäuscht"
"Universelle kontradiktorische Auslöser für das Angreifen und Analysieren von NLP"
"Semantisch äquivalente kontradiktorische Regeln zum Debuggen von NLP-Modellen"
"Richtig aus den falschen Gründen: Diagnose syntaktischer Heuristiken in der natürlichen Sprachinferenz"
"Untersuchung des Verständnisses neuronaler Netze von Argumenten natürlicher Sprache"


mögliche Richtungen


Jürgen schmidhuber


"Daten werden für sich selbst vorübergehend interessant für einen sich selbst verbessernden, aber rechnerisch begrenzten subjektiven Beobachter, sobald er lernt, die Daten besser vorherzusagen oder zu komprimieren, wodurch sie subjektiv einfacher und schöner werden. Neugier ist der Wunsch, sie zu erstellen oder zu entdecken mehr nicht zufällige, nicht willkürliche, reguläre Daten, die neu und überraschend sind, nicht im traditionellen Sinne von Boltzmann und Shannon, sondern in dem Sinne, dass sie einen Komprimierungsfortschritt ermöglichen, weil ihre Regelmäßigkeit noch nicht bekannt war. Dieser Antrieb maximiert die Interessantheit, die erste Ableitung der subjektiven Schönheit oder Kompressibilität, dh der Steilheit der Lernkurve. Es motiviert die Erforschung von Säuglingen, reinen Mathematikern, Komponisten, Künstlern, Tänzern, Komikern, sich selbst und künstlichen Systemen. "

Intelligenz kann als Komprimierungseffizienz angesehen werden: Je mehr Daten komprimiert werden können, desto besser kann man sie verstehen. Beispiel für eine Erhöhung der Kompressionseffizienz: 1. Rohbeobachtungen von Planetenbahnen 2. geozentrische ptolemäische Epizyklen 3. heliozentrische Ellipsen 4. Newtonsche Mechanik 5. Allgemeine Relativitätstheorie 6.? Unter dieser Sichtweise ist die Komprimierung von Daten verständnisvoll, die Verbesserung des Kompressors lernt, der Fortschritt der Verbesserung ist eine intrinsische Belohnung. Um so schnell wie möglich etwas über ein Datenelement zu lernen, sollte die Anzahl der Bits, die zum Komprimieren dieser Daten benötigt werden, so schnell wie möglich verringert werden. Wenn man auswählen kann, welche Daten beobachtet oder erstellt werden sollen, sollte man mit der Umgebung so interagieren, dass Daten erhalten werden, die die Abnahme der Bits - den Komprimierungsfortschritt - von allem, was bereits bekannt ist, maximieren.


"Das einfache algorithmische Prinzip hinter Kreativität, Kunst, Wissenschaft, Musik, Humor"
"Formale Theorie von Spaß und Kreativität"


"Formale Theorie von Kreativität und Spaß und intrinsischer Motivation"
"Aktive Erforschung, künstliche Neugier und was interessant ist"


"Angetrieben vom Fortschritt der Komprimierung: Ein einfaches Prinzip erklärt wesentliche Aspekte subjektiver Schönheit, Neuheit, Überraschung, Interesse, Aufmerksamkeit, Neugier, Kreativität, Kunst, Wissenschaft, Musik, Witze."
"Formale Theorie von Kreativität, Spaß und intrinsischer Motivation"
"Unüberwachter Minimax: Widersprüchliche Neugier, generative Widersacher-Netzwerke und Minimierung der Vorhersagbarkeit"
"Neugiergetriebenes Verstärkungslernen für die Bewegungsplanung von Humanoiden"
"Was ist interessant?"
"PowerPlay: Schulung eines zunehmend allgemeinen Problemlösers durch kontinuierliche Suche nach dem einfachsten, noch unlösbaren Problem"


Alex Wissner-Gross


"Intelligentes System muss die zukünftige kausale Entropie optimieren oder im Klartext ausdrücken, um die verfügbaren zukünftigen Entscheidungen zu maximieren. Dies bedeutet wiederum, alle unangenehmen Situationen mit sehr wenigen Entscheidungen zu minimieren. Dies ist aus evolutionärer Sicht sinnvoll, da es konsistent ist Mit der Fähigkeit zu überleben stimmt es mit dem überein, was wir unter Menschen sehen (Sammeln von Reichtum und Absicherung gegen mehrere Ergebnisse unvorhersehbarer Dinge) und erzeugt in mehreren einfachen Spielsituationen vernünftiges Verhalten. "

"Eine Gleichung für Intelligenz"
"Die Physik der künstlichen allgemeinen Intelligenz"


"Intelligenz ist real"
"Intelligenz verwirrt das Intelligente"


"Kausale entropische Kräfte"


Filip piekniewski


"Durch die Lösung eines allgemeineren Problems der physikalischen Vorhersage (um es von der statistischen Vorhersage zu unterscheiden) werden die Eingabe und das Etikett vollständig ausgeglichen und das Problem der menschlichen Selektion verschwindet vollständig. Das Etikett ist in diesem Fall nur eine zeitversetzte Version der Roheingabe Signal. Mehr Daten bedeuten mehr Signal, bedeutet eine bessere Annäherung an den tatsächlichen Datenverteiler. Und da dieser Verteiler aus der physischen Realität stammt (nein, er wurde nicht aus einer Reihe unabhängiger und identisch verteilter Gaußscher Werte abgetastet), ist dies kein Wunder Die Verwendung der Physik als Trainingsparadigma kann dazu beitragen, sie korrekt zu entschlüsseln. Darüber hinaus sollte das Hinzufügen von Parametern durch Hinzufügen weiterer Einschränkungen (mehr Trainingssignal) ausgeglichen werden. Auf diese Weise sollten wir in der Lage sein, ein sehr komplexes System mit Milliarden von Parametern (Erinnerungen) aufzubauen ) und arbeitet dennoch nach einem sehr einfachen und leistungsfähigen Prinzip. Die Komplexität des realen Signals und die Fülle hochdimensionaler Trainingsdaten können verhindern, dass es jemals "billig" wird, spu rious Lösungen. Aber die Kosten, die wir zahlen müssen, sind, dass wir eine allgemeinere und komplexere Aufgabe lösen müssen, die möglicherweise nicht einfach und direkt in etwas von praktischer Bedeutung umgesetzt werden kann, zumindest nicht sofort. "

"Predictive Vision Model - Eine andere Art, tiefes Lernen zu betreiben"


"AI neu starten - Postulate"
"Intelligenz verwirrt das Intelligente"
"Intelligenz ist real"
"KI und der ludische Irrtum"
"Die eigentümliche Wahrnehmung des Wahrnehmungsproblems"
"Statistik und Dynamik"
"Reaktive gegen prädiktive KI"
"Mt. Intelligence"
"Physik lernen ist der richtige Weg"
"Predictive Vision auf den Punkt gebracht"


"Common Sense Machine Vision"


"Unüberwachtes Lernen aus kontinuierlichem Video in einem skalierbaren prädiktiven wiederkehrenden Netzwerk"
"Grundprinzipien der kortikalen Berechnung: unbeaufsichtigtes Lernen mit Vorhersage, Komprimierung und Rückmeldung"


Todd Hylton


"Das Hauptproblem beim heutigen Rechnen ist, dass Computer sich nicht selbst organisieren können: Billionen von Freiheitsgraden, die immer wieder dasselbe tun, eng fokussierte rudimentäre KI-Fähigkeiten. Unser mechanistischer Ansatz für das KI-Problem ist für komplexe Probleme der realen Welt ungeeignet : Maschinen sind die Summe ihrer Teile und von der Welt getrennt, außer durch uns ist die Welt keine Maschine. Thermodynamik treibt die Evolution von allem an. Thermodynamische Evolution ist das fehlende, einheitliche Konzept in Computersystemen. Thermodynamische Evolution setzt voraus, dass alle Organisationen spontan sind entsteht, um freie Energiequellen im Universum zu nutzen und um diese Energie zu konkurrieren. Die thermodynamische Evolution ist der zweite Hauptsatz der Thermodynamik, außer dass sie die Idee hinzufügt, dass eine Organisation entstehen muss, um die Entropie zu vergrößern Zugang zu freier Energie. Der erste Hauptsatz der Thermodynamik impliziert, dass es einen Wettbewerb um Energie gibt. "

"Thermodynamisches Rechnen"
"Thermodynamisches Rechnen"
"Über Thermodynamik und die Zukunft des Rechnens"
"Ist das Universum ein Produkt der thermodynamischen Evolution?"
Thermodynamic Computing Workshop


"Intelligenz ist nicht künstlich"
"Von Menschen und Maschinen"


"Thermodynamisches neuronales Netzwerk"


Susanne immer noch


"Alle Systeme führen Berechnungen durch, indem sie auf ihre Umgebung reagieren. Insbesondere berechnen lebende Systeme auf einer Vielzahl von Längen- und Zeitskalen zukünftige Erwartungen auf der Grundlage ihrer früheren Erfahrungen. Die meisten biologischen Berechnungen sind grundsätzlich ein Nichtgleichgewichtsprozess, weil a Das Überwiegen der biologischen Maschinerie in ihrem natürlichen Betrieb ist weit vom thermodynamischen Gleichgewicht entfernt. Physikalische Systeme entwickeln sich über eine Folge von Eingangsreizen, die das System aus dem Gleichgewicht bringen und anschließend in ein Thermalbad entspannen. "

"Optimale Informationsverarbeitung"
"Optimale Informationsverarbeitung: Verlust und irrelevante Informationen"
"Thermodynamische Grenzen der Informationsverarbeitung"


"Die Thermodynamik der Vorhersage"
"Ein informationstheoretischer Ansatz für neugieriges Reinforcement-Lernen"
"Informationstheoretischer Ansatz für interaktives Lernen"


Karl Friston


"Das Prinzip der freien Energie scheint ein Versuch zu sein, Wahrnehmung, Erkenntnis, Homöostase und Handeln zu vereinen. Freie Energie ist ein mathematisches Konzept, das das Versagen einiger Dinge darstellt, mit anderen Dingen übereinzustimmen, die sie vorhersagen sollen. Das Gehirn versucht zu minimieren Seine freie Energie in Bezug auf die Welt, d. H. Minimiert den Unterschied zwischen seinen Modellen und der Realität. Manchmal tut es dies, indem es seine Modelle der Welt aktualisiert. Manchmal tut es dies, indem es die Welt verändert, um besser mit ihren Modellen übereinzustimmen. Wahrnehmung und Erkenntnis sind Beide Versuche, genaue Modelle zu erstellen, die der Welt entsprechen, wodurch die freie Energie minimiert wird. Homöostase und Aktion sind beide Versuche, die Realität an mentale Modelle anzupassen. Aktion versucht, den äußeren Zustand des Organismus an ein mentales Modell anzupassen. Homöostase versucht, den internen Zustand des Organismus zu erreichen Zustand, der einem mentalen Modell entspricht. Da sogar Bakterien etwas Homöostase-ähnliches tun, teilt alles Leben das Prinzip, freie Energieminimierer zu sein. Das Leben ist also kein Doi ng vier Dinge - Wahrnehmen, Denken, Handeln und Aufrechterhaltung der Homöostase. Es geht wirklich nur um eine Sache - die Minimierung der freien Energie - auf vier verschiedene Arten - mit der besonderen Art und Weise, wie dies in einer bestimmten Situation umgesetzt wird, je nachdem, welche Möglichkeiten zur Minimierung der freien Energie am bequemsten sind. "

"Prinzip der freien Energie"
"Freie Energie und aktive Folgerung"
"Aktive Inferenz und künstliche Neugier"
"Aktive Inferenz und künstliche Neugier"
"Unsicherheit und aktive Folgerung"


Einführung in die Minimierung der freien Energie
Tutorial zur aktiven Inferenz
Tutorial über freie Energie und Neugier
Implementierung


"Das Prinzip der freien Energie: Eine einheitliche Gehirntheorie?"
"Exploration, Neuheit, Überraschung und Minimierung der freien Energie"
"Aktion und Verhalten: eine Formulierung mit freier Energie"
"Computergestützte Mechanismen der Neugier und zielgerichteten Erforschung"
"Erweiterung der aktiven Inferenzlandschaft: Weitere intrinsische Motivationen in der Wahrnehmungs-Aktions-Schleife"


abschließende Worte


Das Lösen vieler Probleme in Wissenschaft / Technik erfordert möglicherweise keine oben beschriebene Computerintelligenz - wenn Computer weiterhin so programmiert werden, dass nicht standardmäßige Probleme von Menschen wie heute gelöst werden. Einige sehr wichtige (und am meisten gehypte) Probleme wie Robotik (wirklich uneingeschränktes Selbstfahren) und Sprachverständnis (wirklich persönlicher Assistent) könnten ohne diese Intelligenz ungelöst bleiben.


frühere Versionen dieses Artikels

Source: https://habr.com/ru/post/de436458/


All Articles