👩🏻‍🎓 🧑🏿‍🤝‍🧑🏽 🥥 Livre (d'être?). Réflexions sur la nature de l'esprit. Partie II 💝 💌 👴🏼

Un mot sur les processus, ou nous sommes tous un peu de contraception .

Réflexions continues sur l'esprit à la fois naturel et artificiel (IA), la première partie est ici

Question pour le remblayage : une personne vit-elle maintenant? Pas lorsque nous marchons dans la rue et contemplons directement le monde qui nous entoure, nous agissons plus ou moins en temps réel ... Bien qu'en réalité - jusqu'à présent, ce que nous voyons passera les mécanismes habituels de reconnaissance / classification - tout cela sera récent, mais toujours le passé. C'est-à-dire Une personne vit-elle dans le passé?

Par exemple: vous marchez dans la rue, voyez un chien. Ou une voiture. En tout cas, si nous parlons du moment, ces informations sont déjà dépassées. Si nous opérons sur des données qui ont traversé tous nos mécanismes cognitifs (et le cerveau est loin d'être le calculateur le plus rapide!), Nous ne pourrons tout simplement pas suivre le monde! Le chien attaquera ou vice versa - il s'enfuira, et votre désir de le tapoter derrière l'oreille restera insatisfait, et la voiture vous renversera ou vous passera, bien que vous vouliez attraper cette voiture particulière.

Mais Dieu merci, cela ne se produit pas de cette façon, et voici pourquoi: le cerveau fonctionne différemment. L'unité de perception n'est pas un objet, ni même une totalité d'objets, mais des processus. Le chien court. Pour vous ou de vous. Ou ne court pas, mais ment, par exemple. La voiture est également à l'arrêt (sur le parking) ou se déplace dans une certaine direction. Dans tous les cas, vous percevez un processus qui a une longue durée et, par conséquent, un certain développement à l'avenir. Quand je dis que nous percevons des événements qui se sont déroulés dans le temps - ce n'est pas une figure de style. Menez une expérience - prenez une douzaine de photos (c'est-à-dire des prises de vues instantanées de la réalité) et décrivez ce que vous voyez. Voici quelques personnes dans la pièce, elles se disputent, ou ici un homme marche dans la rue, ou ici il est assis - à regarder la télévision, et il lit un livre. Ce sont tous des processus qui prennent du temps! Vous percevez la distribution instantanée comme quelque chose ayant une longueur. Vous ne savez pas comment faire différemment, car le cerveau fonctionne comme ça: il est formé pour reconnaître les processus, pas les objets disparates sur la scène. Tout comme pas un œil-nez-bouche, mais un visage dans un complexe (bonjour, réseaux de neurones convolutionnels).

Le monde est composé de processus et non d'objets. Si vous demandez ce qu'est une pomme , la plupart des adultes diront que c'est un fruit / fruit , et les enfants diront que c'est de la nourriture . Mais les deux sont une description du processus, car le premier signifie que cette pomme pousse sur un arbre et sert l'arbre pour la propagation, et le second - qu'elle est comestible . Ni l'un ni l'autre n'est lié aux signes immédiats de la pomme - forme, couleur, taille ... Parce que les signes vous permettent d'identifier, mais ne permettent pas d'utiliser, ou de comprendre où il est utilisé dans le monde, c'est-à-dire identifier exactement les processus.

Si nous prenons un débat typique sur la nature du temps, alors les postulats classiques porteront sur l'invariabilité du passé (en dehors du contexte du voyage dans le temps), l'importance du présent (il n'y a qu'un instant ...;)), et l'avenir, qui n'existe pas encore, ce qui signifie qu'il peut être changé. Lorsque nous parlons de réalité objective, il se peut très bien qu'il en soit ainsi. Cependant, une personne vit dans son propre modèle subjectif du monde, et là, tout est presque le contraire!

Le passé est loin d'être invariable comme nous le souhaiterions. En recevant constamment de nouvelles informations, une personne reconstruit le passé afin d'éliminer les contradictions ( pensiez-vous Pyotr Stepanych lors d'un symposium, et il quitte le club de striptease ... Cela signifie nulle part, lui, un artiste, n'est pas allé et généralement ... ). Dans le même temps, votre avenir subjectif est constant à bien des égards ( quoi qu'il en soit, mais vendredi j'ai de la bière et du football! ). Non seulement cela, ayant un objectif précis à l'avenir, vous construirez non seulement la chaîne de processus dans l'ordre inverse ( pour devenir directeur d'une grande entreprise, vous devez obtenir un diplôme d'une université prestigieuse avec un diplôme, pour cela, vous devez d'abord l'entrer, pour cela, vous devez passer l'examen d'État unifié, enseigner la marche leçons! ), mais il est également très probable - revenir dans le processus ( n’avions-nous pas des amis / connaissances qui se sont levés et ont grandi en contact et pourraient aider un enfant avec une université ) - ce qui n’est pas un engin? ;)

Cependant, j'étais un peu distrait. Pourtant, la principale chose sur laquelle je voulais me concentrer est les processus . Je suis profondément convaincu que l'IA potentielle doit être formée non pas sur la photo ou même dans la vidéo. Le réseau convolutionnel a deux niveaux (minimum) - et en fait ce sont deux réseaux différents: l'un est formé pour trouver certains motifs graphiques dans l'image brute, le second traite de la sortie du premier - c'est-à-dire avec des informations déjà traitées et préparées. Pour interagir avec succès avec le monde de l'IA, vous avez besoin de la même chose: à un niveau (loin du premier), il doit y avoir un réseau qui reçoit une carte des processus déployée dans le temps. Les concepts de «début» et de «fin», de «mouvement», de «transformation», de «fusion» et de «séparation» sont ce avec quoi le réseau devrait apprendre à travailler.

Je suis à peu près sûr que ceux qui sont impliqués dans les jeux d'IA, comme Alpha Go, comprennent cela d'une manière ou d'une autre. Peut-être les approches sont-elles quelque peu différentes, mais l'essence est la même: la situation actuelle au sein du conseil d'administration (et dans le déroulement des derniers mouvements) est analysée pour ce qui «se passe du tout». Et en fonction de ce qui se passe correspond à ce qui devrait arriver, vos propres mouvements sont sélectionnés.

Il est très difficile de parler de stratégie / comportement lorsque l'image d'entrée provient de capteurs. Et vice versa - un vecteur préparé contenant un alignement complet de l'état actuel du terrain dans les jeux avec des informations complètes (compter l'image complète du monde) est une tâche réalisable, comme le montre la pratique. Cependant, si le réseau convolutionnel des premiers niveaux a identifié les objets, et les niveaux suivants analysent ces objets en dynamique, en identifiant les processus (familiers de la formation, par exemple) complètent les données obtenues précédemment, alors il semble possible de travailler avec cela ...

Questions aux experts:

Dans quelle mesure est-il réaliste, compte tenu des développements actuels sur les réseaux de neurones, de faire quelque chose comme ceci:

A l'entrée , par exemple, un signal vidéo continu, éventuellement stéréo. En option: avec plusieurs degrés de liberté (possibilité de faire pivoter la caméra - arbitrairement, ou selon le schéma). Cependant, si nécessaire, le signal vidéo peut être complété / remplacé par toute autre méthode de perception spatiale - du sonar au lidar.

À proprement parler ...

à l'entrée, il peut y avoir n'importe quel flux en temps réel - au moins de la parole / du texte, au moins des citations de devises, mais ... Dans le processus considéré, il est plus facile pour moi de compter sur le seul échantillon de raisons à ma disposition pour une étude directe - la mienne! ) Et dans cet «échantillon», le canal sensoriel est hors compétition!

Sortie:

Carte de profondeur (si la caméra est statique) ou une carte de l'environnement. espaces (caméra dynamique / lidar, etc.);

Pour quoi
C'est nécessaire si l'on veut avoir une véritable disposition spatiale des objets pour évaluer leur interaction. Dans ce cas, l'image de la caméra n'est qu'une projection bidimensionnelle d'un espace plus grand et des transformations supplémentaires sont nécessaires.
Sélection d'objets individuels (en tenant compte de la carte de profondeur / espace, et pas seulement / pas tellement des contours visibles);
Mettre en évidence des objets en mouvement (vitesse / accélération, tracer / prédire une trajectoire (?));
Classification hiérarchique des objets en fonction de tous les attributs récupérables (forme / dimensions / couleur / nuances de mouvement / Composants (?)). C'est-à-dire récupérer essentiellement des métriques pour l'espace de Hilbert .

à propos de la hiérarchie
le mot «hiérarchique» n'est peut-être pas tout à fait approprié dans ce cas. Je voudrais souligner qu'il est possible à tout moment de choisir des métriques afin que la distance de Heming entre elles nous permette de considérer deux ensembles différents de métriques comme un seul concept. Comme «voiture rouge» et «bus bleu» devraient être généralisés dans le concept de «véhicule», par exemple.

Important: si possible, le système n'est pas pré-formé. C'est-à-dire certaines choses de base peuvent être définies (par exemple, un réseau convolutionnel de la première couche, pour mettre en évidence les contours / la géométrie), mais vous devez apprendre à sélectionner des objets et à les reconnaître plus tard vous-même.

Et enfin, la construction d'un balayage (basé sur les paragraphes 1.4, c'est-à-dire une carte spatiale prenant en compte les métriques) dans le temps (pour l'instant, à ce stade, la période directement observée est visible), dans le but d'analyser les points 2-4, s afin d'identifier: les processus / événements (qui sont essentiellement des changements de temps dans la clause 3) et leur classification de cluster (clause 4).

Encore une fois: à partir de l'image des capteurs, nous extrayons d'abord la description du monde sous une forme plus préparée, étiquetée selon les attributs récupérables et divisée non pas en pixels, mais en objets. Ensuite, nous élargissons le monde, composé d'objets dans le temps, et soumettons «l'image du monde» résultante à l'entrée du réseau suivant, qui fonctionne avec lui comme les couches précédentes avec une image tactile travaillée. Là où se dessinaient les contours des objets, on distinguera désormais les "contours" des processus en cours. La position relative des objets dans l'espace est similaire à la relation causale des processus dans le temps ... D'une certaine manière.

Vraisemblablement après cela, le système devrait être capable de reconnaître les processus par leurs parties (comme capables d'identifier des images, n'en avoir qu'un fragment, ou comme écriture de la suite du texte selon le modèle ), et par conséquent - de les prédire, à la fois en avant et en arrière dans le temps, en étendant le modèle L'article 5 est illimité dans les deux sens. Aussi, vraisemblablement, ayant une idée des processus composites, le système peut révéler des processus plus étendus, globaux et, par conséquent, implicites et cachés qui font partie intégrante du global identifié, mais pas directement perçu, par plusieurs processus locaux connexes.

Eh bien et le dernier: avoir un état fixe du système à l'avenir (où seuls les éléments significatifs des mesures de Hilbert sont fixes, avec une interprétation libre du reste, pas de valeurs significatives) - le réseau est-il capable de «deviner» le reste?

Eh bien, c'est-à-dire s'il s'agit d'une image dans laquelle seuls deux fragments déconnectés ont été spécifiés - un réseau formé sur un échantillon peut-il compléter une image complète «cohérente»? L'échantillon dans ce cas est les mêmes intervalles de temps de l'expérience, les fragments sont l'état actuel et donné. Résultat: une «histoire» cohérente reliant l'un à l'autre ...

Il me semble que ce sera déjà une base très substantielle pour de nouvelles expériences:

inclusion dans l’histoire de ses propres actions, si possible / nécessaire
la priorité des schémas de cause à effet «réguliers» sur les émissions stochastiques non contrôlées (problème de la roulette)
une sorte de curiosité, c'est-à-dire connaissance active des modèles par l'action ... etc

PS J'admets pleinement que je viens d'inventer un vélo, et les gens avertis appliquent depuis longtemps ces principes dans la pratique. ;) Dans ce cas, je vous demande de "vous mettre le nez" dans le développement approprié. Et ce sera absolument merveilleux s'il y a une description détaillée des problèmes fondamentaux de cette approche ou une justification pourquoi elle ne fonctionne pas en principe.

PPS Je suis conscient que le texte est grossier, et la pensée saute de l'un à l'autre, mais je voulais vraiment poser ces questions à quelques personnes (section «question pour experts»), et c'est difficile à faire sans au moins quelques explications. Le texte précédent (et je le relisais maintenant, et j'ai réalisé qu'il est très difficile à comprendre) a rempli sa tâche: j'ai eu des discussions qui m'ont été précieuses ... J'espère que cette fois aussi! ;)

UPD: Malgré les inconvénients - la discussion a continué, ce dont je suis extrêmement heureux!

UPD2: Liste de liens sur un sujet donné par différentes personnes à différents moments, ou trouvé moi-même:

À propos de la segmentation, populaire: mille ...
Et si renforcé par la vision stéréo? Un , deux et disons trois ...
C'était tout sur OpenCV, des mathématiques pures, sans neurones. Et vous pouvez le combiner , ou alors ... Et pourtant.
Si, selon l'ensemble des méthodes de l'objet mentionné précédemment, l'objet est sélectionné, alors un ensemble de signes pour le suivre à l'avenir peut bien se former à la volée ...
Pourquoi avez-vous besoin de chercher d'autres approches quand il y a un excellent apprentissage par renforcement ?
Un réseau pré-formé qui met en avant les actions sur la vidéo ... Difficile de dire à quel point c'est applicable dans notre cas, mais c'est intéressant!

Livre (d'être?). Réflexions sur la nature de l'esprit. Partie II

More articles: