🍷 🤾🏿 🆖 Progrès et battage médiatique dans la recherche en IA 🖖🏾 👨‍👨‍👦 🐟

Le plus gros problème avec l'IA n'est pas qu'elle est stupide mais le manque de définition de l'intelligence et donc le manque de mesure pour elle [1a] [1b] .

Le test de Turing n'est pas une bonne mesure car la gorille Koko ne passerait pas bien qu'elle puisse résoudre plus de problèmes que de nombreux êtres humains handicapés [2] .

Il est tout à fait possible que les gens à l'avenir se demandent pourquoi les gens en 2019 pensaient qu'un agent formé pour jouer à un jeu fixe dans un environnement simulé comme Go avait une intelligence [3a] [3b] [3c] [3d] [3e ] [3f] [3g] [3h] .

L'intelligence consiste plus à appliquer / transférer d'anciennes connaissances à de nouvelles tâches (jouer à Quake Arena assez bien sans aucune formation après avoir maîtrisé Doom) qu'à compresser l'expérience de l'agent en heuristique pour prédire un score de jeu et déterminer l'action de l'agent dans un état de jeu donné pour maximiser le score final ( jouer à Quake Arena assez bien après un million de matchs après avoir maîtrisé Doom) [4] .

L'intelligence humaine concerne la capacité de s'adapter au monde physique / social, et jouer au Go est une adaptation particulière réalisée par l'intelligence humaine, et développer un algorithme pour apprendre à jouer au Go est plus performant, et développer une théorie mathématique du Go pourrait être encore plus performant.

Il est plus logique de comparer les IA avec les humains non pas par l'efficacité et l'efficience des produits finaux d'adaptation (dans les jeux joués entre une IA et un humain) mais par l'efficacité et l'efficience du processus d'adaptation (dans les jeux joués entre un agent appris par machine et un agent codé par l'homme après une pratique limitée) [5] .

Dota 2, StarCraft 2, Civilization 5 et probablement même GTA 5 pourraient être résolus dans un avenir pas si lointain, mais la capacité de jouer à n'importe quel nouveau jeu au niveau humain sans formation préalable serait beaucoup plus importante.

Le deuxième plus gros problème de l'IA est le manque de robustesse dans une longue queue de situations sans précédent (y compris les situations critiques dans les soins de santé [6a] , les véhicules autonomes, les finances) qui, à l'heure actuelle, ne peuvent pas être traitées avec une précision même proche de ce qui est acceptable [6b ] [6c] [6d] [6e] [6f] .

Les modèles complexes exploitent tous les modèles qui relient les variables d'entrée aux sorties, mais certains modèles peuvent ne pas être valables pour les cas mal couverts par les données de formation [section "progrès"] [7a] [7b] [7c] . > 99% des applications de soins de santé utilisent des modèles simples comme la régression logistique (la connaissance du domaine est convertie en code pour calculer les statistiques en tant que fonctionnalités) afin d'éviter les corrélations parasites et de gagner en robustesse sur les valeurs aberrantes [8a] [8b] .

Pour un agent dans un environnement simulé comme Go ou Quake, un véritable modèle d'environnement est connu ou disponible afin que l'agent puisse générer n'importe quelle quantité de données de formation afin d'apprendre à agir de manière optimale dans n'importe quelle situation. Trouver des corrélations dans le fait que les données ne sont pas intelligentes - pour les problèmes du monde réel, la découverte du vrai modèle est la clé [9a] [9b] [9c] [9d] [9e] .

Pour un organisme, le monde réel n'est pas un jeu fixe avec un environnement connu et des règles telles que Go ou Quake mais un jeu avec un environnement et des règles largement inconnus et en constante évolution [10] . Il doit s'adapter aux changements inattendus de l'environnement et des règles, y compris les changements causés par les adversaires. Il doit être capable d'une large autonomie par opposition à une simple automatisation nécessaire pour jouer à un jeu fixe.

Il pourrait s'avérer impossible de faire fonctionner des véhicules autonomes et des robots humanoïdes aux côtés des humains sans les entraîner à obtenir une adaptabilité de niveau humain au monde réel. Il pourrait s'avérer impossible d'avoir des assistants personnels remplaçant les humains dans des aspects clés de leur vie sans les former pour obtenir une adaptabilité au niveau humain au monde social [11a] [11b] [11c] .

connaissance vs intelligence

La connaissance est une information, telle que des données d'observations ou d'expériences, compressées et représentées sous une forme calculable, comme un texte en langage naturel, une théorie mathématique en langage semi-formel, un programme en langage formel, des poids de réseau neuronal artificiel ou des synapses de cerveau .

La connaissance concerne les outils (théorie, programme, processus physique) pour résoudre des problèmes. L'intelligence consiste à appliquer (transférer) et à créer (apprendre) des connaissances [12] . Il y a une connaissance sur la façon de résoudre un problème (un programme pour les ordinateurs, un manuel pour les humains), puis il y a un processus d'application des connaissances (exécution du programme par les ordinateurs, déduction et exécution des instructions par les humains), et puis il y a un processus de la création de connaissances (inférence inductive / apprentissage à partir d'observations et d'expériences, raisonnement déductif à partir de théories inférées et de modèles appris - par ordinateur ou par l'homme).

Alpha (Go) Zero est bien plus proche d'une connaissance comment résoudre une classe particulière de problèmes que d'un agent intelligent capable d'appliquer et de créer des connaissances. Il s'agit d'un algorithme de recherche comme IBM Deep Blue, les heuristiques n'étant pas codées en dur mais ajustées pendant les sessions de jeu. Il ne peut pas appliquer les connaissances acquises à d'autres problèmes - même en jouant sur un petit plateau Go. Il ne peut pas créer de connaissances abstraites utiles aux humains - même un simple aperçu des tactiques Go. Bien qu'il puisse évoquer des idées utiles chez un humain s'il joue avec des tactiques inhabituelles.

TD-Gammon de 1992 est considéré par beaucoup comme la plus grande percée en IA [13a] [13b] . TD-Gammon a utilisé l'algorithme TD (λ) avec des mises à jour en ligne sur la politique. L'auteur de TD-Gammon a utilisé sa variante pour apprendre la stratégie de mise d'IBM Watson [13c] . Alpha (Go) Zero est aussi à peu près une variation de TD (λ) [13d] . TD-Gammon a utilisé un réseau de neurones formé par l'apprentissage de la différence temporelle avec des valeurs cibles calculées en utilisant une recherche d'arbre avec une profondeur ne dépassant pas trois et en utilisant les résultats des jeux joués jusqu'à la fin comme estimations des valeurs des feuilles. Alpha (Go) Zero a utilisé un réseau de neurones profonds formé par l'apprentissage de la différence temporelle avec des valeurs cibles calculées en utilisant Monte-Carlo Tree Search avec une profondeur beaucoup plus grande et en utilisant des estimations de valeurs de feuilles et des actions de politique calculées par le réseau sans jouer à des jeux à la fin.

Les différences qualitatives entre Backgammon et Go en tant que problèmes et entre TD-Gammon et Alpha (Go) Zero en tant que solutions (l'échelle du réseau neuronal et le nombre de jeux joués étant des différences majeures) ne sont pas aussi importantes que les différences qualitatives entre des jeux d'information parfaits tels que Go et les jeux d'informations imparfaits tels que le poker (AlphaZero ne s'applique pas au poker, DeepStack ne s'applique pas au go et aux échecs).

IBM Watson, le système de réponse aux questions le plus avancé de loin en 2011, n'est pas un agent intelligent. Il s'agit d'une connaissance représentée par des milliers de lignes de logique codée manuellement pour rechercher et manipuler des séquences de mots ainsi que pour générer des hypothèses et recueillir des preuves, ainsi que quelques centaines de paramètres ajustés avec une régression linéaire pour peser différentes connaissances pour chaque type de question pris en charge et répondez [14a] [14b] [14c] . Ce n'est pas très différent conceptuellement des moteurs de base de données qui utilisent des statistiques de données et des valeurs de seuil codées en dur pour construire un plan pour exécuter une requête donnée en sélectionnant et en canalisant un sous-ensemble d'algorithmes mis en œuvre pour manipuler des données.

IBM Watson peut appliquer sa logique d'extraction et d'intégration d'informations textuelles (connaissances internes) à de nouveaux textes (connaissances externes). Cependant, il ne peut pas appliquer ses connaissances à des problèmes autres que la réponse limitée aux questions factoïdes sans être codé pour le faire par les humains. Il peut être codé pour rechercher des preuves à l'appui d'hypothèses dans des articles sur le cancer, mais uniquement en utilisant une logique codée humaine pour interpréter des textes (extraire et faire correspondre des mots pertinents) et ne jamais aller au-delà pour interpréter des textes par lui-même (modèle d'apprentissage du monde et mise en correspondance des textes avec des simulations sur ce modèle). L'ancienne approche de l'interprétation des textes était suffisante pour Jeopardy! [15] mais ce n'est pas suffisant quand il n'y a pas de réponse simple. Il y a une énorme différence entre tirer des conclusions en utilisant les propriétés statistiques des textes et en utilisant les propriétés statistiques des phénomènes du monde réel estimés avec des simulations sur le modèle appris de ces phénomènes.

IBM Watson ne peut pas créer de nouvelles connaissances - il peut déduire des faits simples à partir de sources de connaissances (textes et bases de connaissances) à l'aide d'algorithmes codés par l'homme, mais il ne peut pas induire une théorie à partir des sources et vérifier sa vérité. WatsonPaths émet l'hypothèse d'un graphe causal utilisant la recherche de textes pertinents pour le cas [16a] [16b] mais le chaînage d'inférence en tant qu'approche du raisonnement ne peut pas être suffisamment robuste - les inférences doivent être vérifiées avec des simulations ou des expériences faites par un cerveau.

qu'est-ce que l'intelligence?

Les biologistes définissent l'intelligence comme la capacité de trouver des solutions non standard pour des problèmes non standard (en d'autres termes, la capacité de gérer des inconnus inconnus, par opposition aux connus connus et aux inconnus connus) et de distinguer ce trait des réflexes / instincts définis comme des solutions standard pour les problèmes standard [17a] [17b] . Jouer à Go ne peut pas être considéré comme un problème non standard pour AlphaGo après avoir joué à des millions de jeux. La détection de nouveaux logiciels malveillants peut être considérée comme un problème non standard sans solution au niveau humain jusqu'à présent.

La plupart des chercheurs se concentrent sur une approche descendante de l'intelligence avec une formation de bout en bout d'un modèle, c'est-à-dire la définition d'un objectif pour un problème de haut niveau (par exemple, maximiser la probabilité de gagner) et s'attendre à ce qu'un modèle apprenne à trouver une solution pour sous-problèmes de bas niveau du problème d'origine (par exemple Ko combattant dans Go) [18a] . Cette approche fonctionne pour des problèmes relativement simples comme les jeux fixes dans des environnements simulés mais nécessite une énorme quantité d'épisodes d'entraînement (plusieurs ordres de grandeur de plus que la quantité qui peut être vécue par l'agent dans le monde réel) et conduit à des solutions incapables de généralisation (modèle AlphaGo formé sur une carte 19x19 est effectivement inutile pour une carte 9x9 sans recyclage complet). Les problèmes de haut niveau les plus difficiles qui peuvent être résolus par les humains sont ouverts - les humains ne recherchent pas dans l'espace fixe des solutions possibles contrairement à AlphaGo [18b] . Étant informés et guidés par des observations et des expériences dans le monde réel, les humains trouvent de bons sous-problèmes, par exemple la relativité restreinte et générale.

Quelques chercheurs [section "directions possibles"] se concentrent sur une approche ascendante, c'est-à-dire en commençant par certains objectifs de bas niveau (par exemple, maximiser la capacité de prédire la dynamique de l'environnement, y compris l'effet des actions de l'agent sur l'environnement), puis en ajoutant un niveau supérieur des objectifs pour la motivation intrinsèque de l'agent (par exemple, maximiser les progrès d'apprentissage ou maximiser les options disponibles) [19a] [19b] , et ensuite seulement ajouter un objectif de haut niveau pour un problème intéressant les humains (par exemple maximiser un score de jeu) [19c] . Cette approche devrait conduire à des solutions plus généralisables et plus robustes pour les problèmes de haut niveau, car l'apprentissage avec de tels objectifs de bas niveau pourrait conduire un agent à apprendre également un comportement d'auto-direction et d'auto-correction utile dans des situations non standard ou dangereuses avec zéro des informations les concernant effectivement fournies par l'objectif de haut niveau. La nécessité de s'adapter / survivre fournit des objectifs d'optimisation aux organismes pour guider l'auto-organisation et l'apprentissage / l'évolution [20a] [20b] , et certains organismes peuvent se fixer des objectifs de haut niveau après avoir été formés / évolués pour satisfaire des objectifs de bas niveau . Il est tout à fait possible qu'un certain ensemble d'objectifs universels de bas niveau soit dérivé de quelques équations régissant le flux d'énergie et d'information [21a] , de sorte que l'optimisation avec ces objectifs [section "directions possibles"] puisse conduire à l'intelligence des ordinateurs dans une manière analogue à la façon dont l'évolution de l'Univers régie par les lois de la physique conduit à l'intelligence des organismes [21b] .

Bien que la résolution de problèmes de haut niveau dans des environnements simulés tels que Go ait eu du succès, la résolution de problèmes de bas niveau tels que la vision et la robotique n'a pas encore connu de tels succès. Les humains ne peuvent pas apprendre à jouer au Go sans d'abord apprendre à discerner le plateau et à placer des pierres. Les ordinateurs peuvent résoudre certains problèmes de haut niveau sans pouvoir résoudre ceux de bas niveau lorsque les problèmes de haut niveau sont abstraits des sous-problèmes de bas niveau par les humains [22a] . Ce sont des problèmes de bas niveau qui sont plus complexes sur le plan informatique pour les humains et les ordinateurs, mais pas nécessairement plus complexes que les problèmes mathématiques ou d'ingénierie [22b] . Ce sont des problèmes de bas niveau qui sont un chemin vers un raisonnement de bon sens, c'est-à-dire estimer la plausibilité d'une hypothèse arbitraire à partir d'observations obtenues ou imaginées et de toutes les connaissances précédemment acquises, qui sont nécessaires pour qu'une machine s'adapte à un environnement arbitraire et résolve un arbitraire. problème de haut niveau dans cet environnement [22d] .

obstacles

Le premier plus grand obstacle aux applications dans les environnements du monde réel par opposition aux applications simulées semble être des objectifs sous-limités d'optimisation dans l'apprentissage du modèle d'environnement [23a] . Tout modèle suffisamment complexe formé avec un objectif insuffisamment contraint exploitera tout modèle trouvé dans les données de formation qui relie les données d'entrée aux variables cibles, mais les corrélations fallacieuses ne se généraliseront pas nécessairement aux données de test [section "progrès"] [23b] [23c] [23d] . Même des milliards d'exemples ne limitent pas suffisamment l'optimisation et n'entraînent pas de gains de performances majeurs dans la reconnaissance d'image [24a] [24b] . Les agents trouvent des façons surprenantes d'exploiter des environnements simulés pour maximiser les objectifs qui ne sont pas assez contraints pour empêcher les exploits [25a] [25b] .

Une façon de contraindre suffisamment l'optimisation afin d'éviter des solutions non généralisables et non robustes est des données plus informatives pour la formation, par exemple, en utilisant la physique du monde réel ou la dynamique du monde social comme sources de signal par opposition aux environnements simulés avec agents artificiels ou environnements physiques contraints sans agents antagonistes - ces derniers ne sont pas représentatifs des cas de coin auxquels un agent doit faire face dans le monde réel / social sans contraintes [26a] . Un autre moyen est un objectif d'optimisation plus complexe, par exemple, apprendre à prédire non seulement les statistiques d'intérêt, telles que les récompenses cumulatives futures conditionnellement aux prochaines actions de l'agent, mais également la dynamique, c'est-à-dire certaines propriétés futures arbitraires de l'environnement conditionnellement à certains événements futurs hypothétiques arbitraires y compris les prochaines actions de l'agent [26b] [26c] [26d] [26e] . Les états et les récompenses correspondent aux résumés statistiques de l'agent pour les interactions avec l'environnement tandis que la dynamique correspond aux connaissances de l'agent sur le fonctionnement de l'environnement [27a] [27b] . Progrès de l'agent dans l'apprentissage de la prédiction de la dynamique de l'environnement [section "directions possibles"] [28a] [28b] [28c] ainsi que les progrès de l'agent dans la création d'options pour l'influencer [section "directions possibles"] [28d] [28e] [ 28f] pourrait être le type de motivation intrinsèque de l'agent le plus puissant et pourrait être le moyen le plus efficace de limiter l'optimisation.

Le deuxième plus grand obstacle semble être un énorme fossé entre la complexité des environnements simulés disponibles pour les ordinateurs actuels et la complexité des environnements du monde réel disponibles pour les robots actuels, de sorte qu'un agent formé dans un environnement simulé ne peut pas être transféré à un robot dans un environnement réel. -environnement mondial avec des performances et une robustesse acceptables [29] . L'équipe de Boston Dynamics n'a jamais utilisé l'apprentissage automatique pour contrôler leurs robots - ils utilisent des solveurs en temps réel d'équations différentielles pour calculer la dynamique et le contrôle optimal pour des modèles de robots et d'environnements qui ne sont pas tirés des données mais spécifiés manuellement [30] . Les chercheurs du MIT n'ont pas utilisé l'apprentissage automatique pour contrôler leur robot dans DARPA Robotics Challenge 2015, et leur robot était le seul robot à ne pas tomber ou à ne pas avoir besoin de l'assistance physique des humains [31a] . Un événement de queue pourrait ne pas être apprenant par un modèle statistique [31b] , c'est-à-dire en formant un hyperplan de séparation de ce modèle et en l'utilisant comme limite de décision pour une action possible, et pourrait nécessiter certaines formes d'inférence non statistique, c'est-à-dire en induisant un modèle / théorie logique pour l'événement, en tirant des hypothèses et en les vérifiant dans des expériences. Ainsi, non seulement les statistiques mais la dynamique des phénomènes pourraient devoir être calculées - le modèle pourrait devoir être programmé ou entraîné pour simuler la dynamique des phénomènes [31c] .

Il est tout à fait possible que la seule façon de former / faire évoluer des agents avec une intelligence suffisante pour des problèmes difficiles dans le monde réel (comme la robotique) et dans le monde social (comme la compréhension du langage naturel) pourrait se révéler être:
(1) former / faire évoluer les agents dans des environnements qui fournissent autant de contraintes d'optimisation que le monde réel et social (c'est-à-dire que les agents peuvent être des robots opérant dans le monde réel aux côtés des humains);
(2) pour former / faire évoluer les agents sur des problèmes qui fournissent autant de contraintes d'optimisation que les problèmes les plus difficiles résolus par les organismes dans le monde réel (c'est-à-dire que les agents pourraient avoir à apprendre à survivre en tant que robots dans le monde réel sans aucune assistance directe de l'homme) et résolu par les humains dans le monde social (c'est-à-dire que les agents pourraient avoir à apprendre à atteindre des objectifs dans le monde réel en utilisant la communication avec les humains comme seul outil).

progrès

Sans doute pendant la période de renaissance du Deep Learning, il n'y a pas eu de progrès dans les problèmes du monde réel tels que la robotique et la compréhension du langage presque aussi importants que dans les jeux fixes fonctionnant dans des environnements simulés.

Opinions sur les progrès de la recherche sur l'IA de certains des chercheurs les plus réalistes:

Michael I. Jordan [32a] [32b] [32c]
Rodney Brooks [33a] [33b]
Philip Piekniewski [34a] [34b]
François Chollet [35a] [35b]
John Langford [36a] [36b]
Alex Irpan [37]

Les méthodes d'apprentissage en profondeur sont très peu robustes dans les tâches de compréhension d'images [articles sur la généralisation et exemples contradictoires ci-dessous] [38a] [38b] [38c] [38d] [38e] [38f] .
Les méthodes d'apprentissage en profondeur n'ont pas encore failli remplacer les radiologues [39a] [39b] [39c] [39d] .
Les méthodes d'apprentissage en profondeur sont très peu robustes dans les tâches de compréhension de texte [articles sur la généralisation et exemples contradictoires ci-dessous] [40a] [40b] .
Les méthodes d'apprentissage en profondeur ne peuvent pas passer les premiers niveaux du jeu Atari le plus difficile [41] .

"ObjectNet: un jeu de données à grande échelle contrôlé par les biais pour repousser les limites des modèles de reconnaissance d'objets"
"Le rapprochement des CNN avec des modèles de fonctionnalités locales fonctionne étonnamment bien sur ImageNet"
"Mesurer la tendance des CNN à apprendre les régularités statistiques de surface"
"Une invariance excessive provoque une vulnérabilité contradictoire"
"Les modèles génératifs profonds savent-ils ce qu'ils ne savent pas?"
"Les classificateurs ImageNet se généralisent-ils à ImageNet?"
"Les classificateurs CIFAR-10 se généralisent-ils en CIFAR-10?"
"Apprentissage profond pour la segmentation des tumeurs cérébrales: impact de la formation et des tests interinstitutionnels"
"Les variables confondantes peuvent dégrader les performances de généralisation des modèles d'apprentissage profond radiologique"
"Exemples contradictoires naturels"
"Attaque d'un pixel pour tromper les réseaux de neurones profonds"
"Une rotation et un bureau de traduction: tromper les CNN avec des transformations simples"
"Exemples antagonistes sémantiques"
"Pourquoi les réseaux de convolution profonde se généralisent-ils si mal aux transformations de petites images?"
"L'éléphant dans la chambre"
"Frappez (avec) une pose: les réseaux de neurones sont facilement trompés par d'étranges poses d'objets familiers"
"Déclencheurs adversaires universels pour attaquer et analyser la PNL"
"Règles adverses sémantiquement équivalentes pour le débogage des modèles PNL"
"Bien pour les mauvaises raisons: diagnostiquer l'heuristique syntaxique dans l'inférence du langage naturel"
"Sonder la compréhension du réseau neuronal des arguments du langage naturel"

directions possibles

Juergen schmidhuber

"Les données deviennent temporairement intéressantes par elles-mêmes pour certains observateurs subjectifs qui s'améliorent, mais dont les calculs sont limités une fois qu'il a appris à prédire ou à compresser les données d'une meilleure manière, les rendant ainsi subjectivement plus simples et plus belles. La curiosité est le désir de créer ou de découvrir davantage de données régulières non aléatoires, non arbitraires qui sont nouvelles et surprenantes non pas dans le sens traditionnel de Boltzmann et Shannon mais dans le sens où elles permettent une progression de la compression parce que sa régularité n'était pas encore connue. Ce lecteur maximise l'intérêt, le premier dérivée de la beauté subjective ou de la compressibilité, c'est-à-dire de la pente de la courbe d'apprentissage. Elle motive l'exploration des nourrissons, des mathématiciens purs, des compositeurs, des artistes, des danseurs, des comédiens, de vous-même et des systèmes artificiels. "

L'intelligence peut être considérée comme une efficacité de compression: plus on peut compresser des données, plus on peut les comprendre. Exemple d'augmentation de l'efficacité de compression: 1. observations brutes des orbites planétaires 2. épicycles géocentriques ptolémaïques 3. ellipses héliocentriques 4. mécanique newtonienne 5. relativité générale 6.? Selon cette vision, la compression des données est compréhensible, l'amélioration du compresseur est l'apprentissage, la progression de l'amélioration est une récompense intrinsèque. Pour en savoir le plus rapidement possible sur un élément de données, il faut diminuer le plus rapidement possible le nombre de bits dont on a besoin pour compresser ces données. Si l'on peut choisir les données à observer ou à créer, il faut interagir avec l'environnement de manière à obtenir des données qui maximisent la diminution en bits - la progression de la compression - de tout ce qui est déjà connu.

"Le principe algorithmique simple derrière la créativité, l'art, la science, la musique, l'humour"
"Théorie formelle du plaisir et de la créativité"

"Théorie formelle de la créativité et du plaisir et de la motivation intrinsèque"
"Exploration active, curiosité artificielle et ce qui est intéressant"

"Poussé par les progrès de la compression: un principe simple explique les aspects essentiels de la beauté subjective, de la nouveauté, de la surprise, de l'intérêt, de l'attention, de la curiosité, de la créativité, de l'art, de la science, de la musique, des blagues"
"Théorie formelle de la créativité, du plaisir et de la motivation intrinsèque"
"Minimax non supervisé: curiosité contradictoire, réseaux adverses génératifs et minimisation de la prévisibilité"
"Apprentissage par renforcement axé sur la curiosité pour la planification de mouvement sur les humanoïdes"
"Qu'est-ce qui est intéressant?"
"PowerPlay: former un résolveur de problèmes de plus en plus général en recherchant continuellement le problème le plus simple encore insoluble"

Alex Wissner-Gross

"Le système intelligent doit optimiser l'entropie causale future, ou, pour le mettre dans un langage simple, maximiser les choix futurs disponibles. Ce qui signifie à son tour minimiser toutes les situations désagréables avec très peu de choix. Cela est logique du point de vue évolutif car il est cohérent avec la capacité de survivre, il est cohérent avec ce que nous voyons chez les humains (collecter de la richesse et se couvrir de multiples conséquences de choses imprévisibles) et génère un comportement raisonnable dans plusieurs situations de jeu simples. "

"Une équation pour l'intelligence"
"La physique de l'intelligence générale artificielle"

"L'intelligence est réelle"
"L'intelligence déroute l'intelligent"

"Forces entropiques causales"

Filip piekniewski

"En résolvant un problème plus général de prédiction physique (pour le distinguer de la prédiction statistique), l'entrée et l'étiquette sont complètement équilibrées et le problème de la sélection humaine disparaît complètement. L'étiquette dans ce cas n'est qu'une version décalée dans le temps de l'entrée brute signal. Plus de données signifie plus de signal, signifie une meilleure approximation du collecteur de données réel. Et puisque ce collecteur est originaire de la réalité physique (non, il n'a pas été échantillonné à partir d'un ensemble de gaussiens indépendants et identiques), il n'est pas étonnant que utiliser la physique comme paradigme de formation peut aider à le démêler correctement. De plus, l'ajout de paramètres doit être équilibré en ajoutant plus de contraintes (plus de signal de formation). De cette façon, nous devrions être en mesure de construire un système très complexe avec des milliards de paramètres (mémoires ) mais fonctionnant selon un principe très simple et puissant: la complexité du signal réel et la richesse des données d'entraînement de haute dimension peuvent l'empêcher de trouver "bon marché", spu rieuses solutions. Mais le coût que nous devons payer, c'est que nous devrons résoudre une tâche plus générale et complexe, qui ne se traduira pas facilement et directement par quoi que ce soit d'importance pratique, pas instantanément du moins. "

"Modèle de vision prédictive - une façon différente de faire l'apprentissage en profondeur"

"Redémarrer l'IA - Postulats"
"L'intelligence déroute l'intelligent"
"L'intelligence est réelle"
"L'IA et le sophisme ludique"
"La perception particulière du problème de la perception"
"Statistiques et dynamique"
"IA réactive et prédictive"
"Mt. Intelligence"
"Apprendre la physique est la voie à suivre"
"Vision prédictive en bref"

"Vision industrielle de bon sens"

"Apprentissage non supervisé de la vidéo continue dans un réseau récurrent prédictif évolutif"
"Principes fondamentaux du calcul cortical: apprentissage non supervisé avec prédiction, compression et rétroaction"

Todd hylton

"Le principal problème de l'informatique aujourd'hui est que les ordinateurs ne peuvent pas s'organiser: des milliards de degrés de liberté faisant les mêmes choses encore et encore, des capacités d'IA rudimentaires étroitement ciblées. Notre approche mécaniste du problème de l'IA est mal adaptée aux problèmes complexes du monde réel : les machines sont la somme de leurs parties et déconnectées du monde sauf à travers nous, le monde n'est pas une machine. La thermodynamique est le moteur de l'évolution de tout. L'évolution thermodynamique est le concept unificateur manquant dans les systèmes informatiques. L'évolution thermodynamique suppose que toute organisation spontanément émerge afin d'utiliser des sources d'énergie libres dans l'univers et qu'il y a une concurrence pour cette énergie. L'évolution thermodynamique est la deuxième loi de la thermodynamique, sauf qu'elle ajoute l'idée que pour que l'entropie augmente, une organisation doit émerger qui rend possible pour accéder à l'énergie gratuite. La première loi de la thermodynamique implique qu'il y a une concurrence pour l'énergie. "

"Calcul thermodynamique"
"Calcul thermodynamique"
"Sur la thermodynamique et l'avenir de l'informatique"
"L'univers est-il un produit de l'évolution thermodynamique?"
Atelier d'informatique thermodynamique

"L'intelligence n'est pas artificielle"
"Des hommes et des machines"

"Réseau neuronal thermodynamique"

Susanne toujours

"Tous les systèmes effectuent des calculs en répondant à leur environnement. En particulier, les systèmes vivants calculent, sur une variété d'échelles de longueur et de temps, les attentes futures en fonction de leur expérience antérieure. La plupart des calculs biologiques sont fondamentalement un processus sans équilibre, car un la prépondérance de la machinerie biologique dans son fonctionnement naturel est éloignée de l'équilibre thermodynamique. Les systèmes physiques évoluent via une séquence de stimuli d'entrée qui conduisent le système hors d'équilibre et sont suivis d'une relaxation dans un bain thermal. "

"Traitement optimal de l'information"
"Traitement optimal de l'information: dissipation et informations non pertinentes"
"Limites thermodynamiques du traitement de l'information"

"La thermodynamique de la prédiction"
"Une approche théorique de l'information pour l'apprentissage par renforcement axé sur la curiosité"
"Approche théorique de l'information à l'apprentissage interactif"

Karl Friston

"Le principe de l'énergie libre semble être une tentative d'unifier la perception, la cognition, l'homéostasie et l'action. L'énergie libre est un concept mathématique qui représente l'échec de certaines choses à correspondre à d'autres choses qu'elles sont censées prédire. Le cerveau essaie de minimiser Son énergie libre par rapport au monde, c'est-à-dire minimiser la différence entre ses modèles et la réalité. Parfois, elle le fait en mettant à jour ses modèles du monde. D'autres fois, elle le fait en changeant le monde pour mieux correspondre à ses modèles. La perception et la cognition sont les deux tentatives pour créer des modèles précis qui correspondent au monde, minimisant ainsi l'énergie libre. L'homéostasie et l'action sont les deux tentatives pour faire correspondre les modèles mentaux à la réalité. L'action tente d'obtenir que l'état extérieur de l'organisme corresponde à un modèle mental. L'homéostasie tente d'obtenir l'intérieur de l'organisme état pour correspondre à un modèle mental. Étant donné que même les bactéries font quelque chose comme l'homéostasie, toute vie partage le principe d'être des minimiseurs d'énergie gratuits. ng quatre choses - percevoir, penser, agir et maintenir l'homéostasie. Il s'agit vraiment d'une seule chose - minimiser l'énergie libre - de quatre manières différentes - avec la manière particulière dont il met cela en œuvre dans n'importe quelle situation donnée, en fonction des opportunités de minimisation de l'énergie libre les plus pratiques. "

"Principe de l'énergie libre"
"Énergie libre et inférence active"
"Inférence active et curiosité artificielle"
"Inférence active et curiosité artificielle"
"Incertitude et inférence active"

introduction à la minimisation d'énergie gratuite
tutoriel sur l'inférence active
tutoriel sur l'énergie gratuite et la curiosité
mise en oeuvre

"Le principe de l'énergie libre: une théorie unifiée du cerveau?"
"Exploration, nouveauté, surprise et réduction d'énergie gratuite"
"Action et comportement: une formulation à énergie libre"
"Mécanismes informatiques de curiosité et d'exploration ciblée"
"Élargir le paysage de l'inférence active: plus de motivations intrinsèques dans la boucle perception-action"

mots de clôture

La résolution de nombreux problèmes en science / ingénierie pourrait ne pas nécessiter l'intelligence informatique décrite ci-dessus - si les ordinateurs continuent d'être programmés pour résoudre les problèmes non standard des humains comme c'est le cas aujourd'hui. Mais certains problèmes très importants (et très médiatisés) tels que la robotique (conduite autonome sans contrainte) et la compréhension du langage (assistant vraiment personnel) pourraient rester sans solution sans une telle intelligence.

versions précédentes de cet article