Un catalogue de constructions logicielles, de langages et d'API qui sont inopinément complets. les implications de cela pour la sécurité et la fiabilité. Application: combien d'ordinateurs dans votre ordinateur?

Tout programme C ou Fortran assez complexe contient une implémentation nouvellement écrite, non spécifiée, boguée et lente de la moitié du langage Common Lisp . - Dixième règle Greenspan

La complétude de Turing (TC) est une propriété du système pour implémenter n'importe quelle fonction calculable avec une représentation simple des entrées et des sorties.

Turing l'exhaustivité est un concept fondamental en informatique. Il aide à répondre à de nombreuses questions clés, par exemple, pourquoi il est impossible de créer le programme antivirus parfait. Mais en même temps, c'est une occurrence étonnamment commune . Il semblerait qu'il soit difficile pour un système informatique d'atteindre une telle universalité qu'il puisse exécuter n'importe quel programme, mais l'inverse est vrai: il est difficile d'écrire un système utile qui ne se transforme pas immédiatement en un Turing complet. Il s'avère que même un petit contrôle sur les données d'entrée et leur conversion en résultat, en règle générale, vous permet de créer un système complet. Il peut être drôle, utile (bien que ce ne soit généralement pas le cas ), nuisible ou extrêmement dangereux et un véritable cadeau pour un pirate informatique (voir «Sécurité théorique et linguistique» , qui étudie les méthodes de piratage de «machines étranges» ^1). ) Des exemples étonnants de ce comportement nous rappellent que l'intégralité de Turing se cache partout et qu'il est extrêmement difficile de protéger le système.

Des langages de programmation trop puissants peuvent également déclencher des attaques DoS désagréables. Fazzer afl a trouvé une telle roff dans OpenBSD qu'il est capable de générer une boucle infinie , abusant de certaines règles de substitution de chaînes.

Probablement, ces exemples inattendus de systèmes complets de Turing sont mieux considérés comme un sous-ensemble des langages de programmation ésotériques «découverts» ou «trouvés». Le FRACTRAN extraordinairement minimaliste n'est donc pas considéré ² , ainsi que le langage spécialement obscurci Malbolge (où l'écriture d'un programme trivial prendra des années), car ce sont des YaP ésotériques spécialement conçus. De plus, le jeu Life n'est pas inclus dans notre sous-ensemble, car des questions sur l'intégralité de Turing sont apparues immédiatement après sa sortie, et la reconnaissance de son Turing complet n'est pas une surprise. Et compte tenu de la complexité des réseaux avec routage et commutation de paquets, il n'est pas surprenant que vous puissiez construire un automate cellulaire ou programmer des schémas logiques sur ces réseaux, et la planification / validation des tickets n'est pas seulement une tâche difficile pour NP et même EXPSPACE, mais elle est complètement insoluble (en raison de règles complexes des compagnies aériennes).

De nombreuses configurations, langages spéciaux, outils ou jeux complexes, en fin de compte, violent la règle du moindre pouvoir et «deviennent accidentellement Turing complet» , comme le MediaWiki , les modèles sed ou les commandes répétées regexp / find-replace dans l'éditeur. En général, toute forme de remplacement de ligne ou de création de modèles ou de compilation à la volée avec une forte probabilité est un système Turing complet lui-même ou lorsqu'il est répété, car ils prennent souvent en charge le calcul lambda ou la réécriture des termes d'une langue ou d'une étiquette, par exemple, les langues ésotériques " /// " ou thue .

XSLT , Démineur Infini , Forteresse Naine ³ , Starcraft, Minecraft , Ant , Transport Tycoon , les modèles C ++ et les généralisations Java , les calculs d'ADN et ainsi de suite - tous ces systèmes sont Turing-complet, et cela n'est pas surprenant non plus. De nombreux jeux prennent en charge les scripts pour simplifier le développement et les mods personnalisés. Par conséquent, pour rendre le jeu Turing-complete élémentaire: il suffit d'activer la syntaxe pour appeler des langages plus connus tels que Perl.

Turing l'exhaustivité peut simplement être une partie peu connue du format standard. À notre époque, beaucoup ne savent probablement pas que TrueType et de nombreuses polices sont des programmes PostScript sur des machines empilées, similaires aux métadonnées ELF et aux informations de débogage DWARF . Ou que certains formats de musique dépassent le MIDI , prennent en charge les scripts et nécessitent une interprétation. Si vous connaissez l'intégralité de Turing des polices, alors l'intégralité des documents Turing de TeX n'est pas surprenant, ce qui entraîne naturellement de nombreuses failles de sécurité sérieuses et intéressantes dans les polices et les supports, telles que BLEND ou Linux SNES et NES . Dans d'autres formats comme PDF, il y a juste une quantité terrible de vulnérabilités ⁴ . Encore une fois, des réalisations exceptionnelles comme la création d'une petite machine de Turing à partir de blocs Lego ou de dominos ⁵ ne sont pas pris en compte, car nous savons depuis longtemps comment fonctionnent les ordinateurs mécaniques.

D'un autre côté, une ligne de recherche en sécurité informatique appelée machines étranges révèle souvent des systèmes vraiment incroyables et complets. De plus, ils provoquent la surprise à différents degrés chez différentes personnes: l'une semble inhabituelle et ne surprend pas les autres.

Peano arithmetic : l'addition et la multiplication de nombres naturels suffisent pour l'exhaustivité de Turing. Au contraire, l'arithmétique de Presburger est dépourvue de multiplication et, par conséquent, n'est pas complète de Turing.
Tuiles Van : carrés multicolores, dont le placement est déterminé par la règle selon laquelle les côtés adjacents de deux tuiles doivent être de la même couleur (historiquement clair pour Van, mais le système m'a surpris, et probablement beaucoup d'autres personnes).
Fraude x86:
- MMU mélange la RAM pour simplifier la programmation. Si le programme attribue correctement les adresses en mémoire d'une manière spéciale, il pourra effectuer des calculs arbitraires sur la MMU en utilisant des exceptions de défauts de page ( commentaires ; travaux scientifiques ) sans exécuter le code lui-même. Le mécanisme d'exception MMU se transforme en un ordinateur avec une instruction .
- mov est un système complet de Turing : l'instruction d'assembleur mov , qui transfère des données entre le CPU et la RAM, vous permet d'implémenter un ordinateur avec une instruction sur l' architecture de transport de déclenchement TTA . Sur un tel ordinateur, vous pouvez jouer à Doom (en bonus: sur les instructions xor aussi).
- "X86 est un ensemble complet sans registres."
Attaques de retour en libc : les bibliothèques de logiciels fournissent des fonctions pré-packagées, chacune étant conçue pour faire une chose utile. Des appels à ces fonctions, vous pouvez créer un «langage» complet qui peut contourner les mécanismes de sécurité, car un attaquant n'exécute pas son propre code reconnaissable. Parmi de nombreux autres exemples, voir «La géométrie de la chair innocente sur l'os: retour en libc sans appels de fonction (sur x86)» et «Sur l'expressivité des attaques de retour en libc» .
Pokemon Yellow : "Le piratage complet du contrôle Pokemon Yellow" décrit une attaque de corruption de mémoire qui vous permet de créer des programmes arbitraires sur l'assembleur Game Boy en marchant d'avant en arrière et en achetant des éléments dans le jeu. Il y a des réalisations similaires par les fans de speedran (passage rapide), mais je les ignore généralement comme "impurs": par exemple, vous pouvez transformer Super Mario World sur SNES en un jeu arbitraire comme "Snakes" ou "Pong" , mais de nouveaux programmes doivent être téléchargés sur un équipement supplémentaire . À mon avis, cela ne nous permet pas d'appeler Super Mario World un système complet de manière «inattendue» et diffère des autres exemples de cet article. Par exemple, vous pouvez passer de Super Game Boy à SNES et à du code arbitraire tel que IRC . Il s'agit d'une différence controversée.
- Un problème de corruption de mémoire similaire se produit dans printf de POSIX, dans l'option %n , comme dans d'autres fonctions de bibliothèque C ( Karlini et al., 2015 ). D'où l' « printbf -Brainfuck dans printf .
- La communauté StarCraft a exploité un débordement de tampon dans le jeu pour implémenter des cartes complexes, des jeux de défense, des jeux Mario et des éditeurs de niveau pour cela. Le piratage de l'émulation pour protéger les mods dans les versions mises à jour de SC a causé beaucoup de problèmes à Blizzard .
Le jeu de tresses est complet
Une notation musicale avec des instructions pour transférer les notes suivantes devient le langage ésotérique de Choon .
Les cellules musculaires du cœur (cardiomyocytes) interagissent de manière à pouvoir être programmées via des portes logiques, elles représentent donc un système complet (ce n'est peut-être pas trop surprenant, car les automates cellulaires sont créés à l'aide d'un exemple biologique)
Une catégorie de machines étranges n'est pas considérée comme complètement Turing-complete, car l'utilisateur doit cliquer sur l'interrupteur mécanique ou faire le seul choix possible pour que le système passe à l'étape suivante. Dans ce cas, l'utilisateur n'introduit aucune logique et n'effectue pas de calculs, par conséquent, cette catégorie ne satisfait pas entièrement la définition des systèmes Turing-complets:
- Magic: the Gathering : c'est un système complet , basé sur l'hypothèse que les joueurs acceptent mécaniquement l'option proposée, mais sinon toutes les actions obéissent aux règles du jeu
- CSS est conçu comme un langage de balisage déclaratif pour personnaliser l'apparence visuelle des pages HTML, mais la règle 110 de l'automate cellulaire élémentaire, qui change d'état par des clics de souris mécaniques dans le navigateur, peut être codée sur les déclarations CSS
- Les animations Microsoft PowerPoint (à l'exception des macros, VBScript, etc.) avec des liens spéciaux peuvent implémenter une machine de Turing ( Wildenhain, 2017 : vidéo ; PPT ) si l'utilisateur clique sur des déclencheurs d'animation actifs

Peut-être que les systèmes suivants seront accidentellement terminés:

CSS sans clics
SVG: PostScript est TC par conception, mais qu'en est-il du format graphique vectoriel SVG plus moderne, qui est écrit en XML, c'est-à-dire dans un langage de document qui n'est (généralement) pas Turing-complet? Il semble qu'en combinaison avec XSLT, il puisse toujours en être ainsi, mais je n'ai trouvé aucune preuve ou démonstration de cela dans le contexte habituel d'un navigateur Web. La norme SVG est excellente et parfois terrifiante: une version infructueuse de la norme SVG 1.2 a essayé d'ajouter la possibilité d'ouvrir des sockets réseau dans des images SVG.
Unicode : Nicholas Seriot suggère que les algorithmes Unicode bidirectionnels (conçus pour afficher des scripts de droite à gauche, tels que l'arabe ou l'hébreu) peuvent être suffisamment complexes pour prendre en charge un système de balises via des règles sensibles à la casse (par exemple, le turc)

Voir aussi

Effet intra-plateforme

Les références

Discussion à HN: 1 , 2
Accidentellement quadratique
"Machines à coder" ; «Réflexions sur la délégation de confiance», Ken Thompson, 1984
«Reprogrammation contradictoire des réseaux de neurones» , Elsayed et al., 2018

App

Combien d'ordinateurs compte votre ordinateur?

Certains s'enlisent dans des disputes sur des voitures étranges ou sur la taille d'un agent d'intelligence artificielle: un tel, deux, dix ou des millions seront créés. Cela n'a pas d'importance, car ce n'est qu'une question d'organisation. En fait, les entrées et sorties du système sont importantes: quelle est l'efficacité du système dans son ensemble et quelles ressources consomme-t-il? Personne ne se soucie si Google fonctionne sur 50 superordinateurs, 50 000 ordinateurs centraux, 5 millions de serveurs, 50 millions de processeurs intégrés / mobiles ou une combinaison de tous les éléments ci-dessus . Peu importe que Google utilise une variété de puces: des «processeurs tenseurs» faits maison aux processeurs au silicium uniques (Intel les vend sur des puces pour les processeurs Xeon pour un certain nombre de clients majeurs), FPGA, GPU, CPU, à des équipements encore plus exotiques comme les ordinateurs quantiques D-Wave . Il est seulement important qu'il reste compétitif et puisse fournir des services moyennant des frais modérés. En fin de compte, aujourd'hui, un supercalculateur ressemble généralement à un grand nombre de serveurs rack avec une énorme quantité de GPU et des connexions InfiniBand inhabituellement rapides. Autrement dit, le supercalculateur n'est pas si différent du centre de données, comme vous pourriez le penser. Tout équipement répertorié peut prendre en charge de nombreuses machines étranges, en fonction de sa dynamique interne et de sa connectivité.

De même, tout système d'IA peut être mis en œuvre sous la forme d'un réseau neuronal géant ou de nombreux réseaux neuronaux séparés fonctionnant de manière asynchrone, ou comme un ensemble hétérogène de microservices, ou comme une «société de l'esprit» et ainsi de suite. Tout cela n'est pas particulièrement important. Du point de vue de la complexité ou des risques, la façon dont le système est organisé pendant son fonctionnement n'est pas si importante. Le système peut être vu à plusieurs niveaux, chacun étant également invalide en soi, mais utile à différentes fins dans le système général.

Voici un exemple d'une question mal définie: combien d'ordinateurs avez-vous dans vos poches et sur votre bureau maintenant? Combien d'ordinateurs compte votre «ordinateur»? Pensez-en un seul? Examinons de plus près.

Il ne s'agit pas seulement du processeur: de nos jours, les transistors et les cœurs de processeur sont si bon marché qu'il est souvent logique d'allouer des cœurs séparés pour les tâches en temps réel, pour améliorer les performances, pour la sécurité, pour éviter de charger le système d'exploitation principal, pour la compatibilité avec l'ancienne architecture ou progiciel existant. Tout simplement parce qu'un DSP ou un noyau est plus rapide à programmer que la création d'un ASIC spécialisé, ou parce que c'est la solution la plus simple possible. De plus, bon nombre de ces composants peuvent être utilisés comme éléments de calcul, même s'ils ne sont pas prévus ou masquent même cette fonctionnalité.

Donc:

Dans un processeur Intel conventionnel, des milliards de transistors effectuent de nombreuses tâches:
- Chacun des cœurs de processeur principal 2-8 est capable de fonctionner indépendamment, en s'allumant et en s'éteignant si nécessaire, il a son propre cache (plus grand que la RAM dans la plupart des ordinateurs jusqu'à récemment), et il doit être considéré comme un ordinateur indépendant.
- Le processeur dans son ensemble est reprogrammé via un microcode, par exemple, pour éliminer les erreurs de conception des puces et affiche des objets de plus en plus opaques, tels que Intel Management Engine (avec JVM pour la programmation ; Rouen, 2014 et SGX ) ou le Platform Security Processor (PSP) d'AMD, ou Android TEE Ces modules matériels sont, en règle générale, des ordinateurs à part entière, fonctionnent indépendamment de l'hôte et peuvent interférer avec son fonctionnement.
- Tout FPU peut devenir un système complet de Turing grâce à l'encodage dans des opérations en virgule flottante dans l'esprit de FRACTRAN.
La MMU peut être programmée dans une étrange machine à défaut de page, comme mentionné ci-dessus.
Blocs DSP , puces personnalisées. Les ASIC pour les formats vidéo comme h.264 ne seront probablement pas des systèmes complets (malgré la prise en charge de deltas complexes et de méthodes de compression qui peuvent permettre quelque chose comme les tuiles Van). Mais le SoC mobile Apple A9 va bien au-delà du processeur ARM dual-core habituel avec un GPU intégré. Comme les puces de bureau Intel ou AMD, il comprend un environnement sécurisé appelé Secure Enclave (cœurs de processeur physiquement dédiés), mais il contient également un coprocesseur pour les images, un coprocesseur pour la reconnaissance vocale (en partie pour prendre en charge Siri) et, apparemment, plusieurs autres cœurs. Ces ASIC existent parfois pour des tâches d'IA et, apparemment, se spécialisent dans les multiplications matricielles pour les réseaux de neurones, et puisque les réseaux de neurones récurrents sont Turing complets, alors ... vous comprenez. Motorola, Qualcomm et d'autres sociétés se sont également précipités pour étendre leur SoC.
BIOS de la carte mère et / ou puces de contrôle d'accès au réseau.
- Mark Ermolov note:
  
  «Il est étonnant de voir combien de cœurs de processeurs hétérogènes sont intégrés dans Intel Silvermont Moorefield SoC (ANN): x86, ARC, LMT, 8051, Audio DSP, chacun avec son propre firmware et la prise en charge de l'interface JTAG
Ces puces de contrôle ou de débogage peuvent «accidentellement» rester activées sur les appareils après la vente, comme l'ARM intégré dans la CPU Via C3 .
Le GPU a plusieurs centaines ou milliers de cœurs simples, chacun fonctionnant très bien avec les réseaux de neurones ou effectuant des calculs à usage général (bien que plus lent qu'un processeur).
Les contrôleurs de bande, de disque dur, de lecteur flash et de SSD s'exécutent généralement sur des processeurs ARM pour exécuter des utilitaires intégrés pour des tâches telles que masquer les secteurs défectueux du système d'exploitation. Ils peuvent être piratés. Mais les processeurs ARM sont utilisés dans la plupart des applications embarquées, donc ARM aime se vanter qu ' «un smartphone moderne contient de 8 à 14 processeurs ARM, dont l'un est un processeur d'application (fonctionnant sous Android ou iOS), et l'autre est un processeur pour la pile de bandes de fréquences (pile de bande de base) . "
les puces réseau effectuent un traitement indépendant pour DMA (grâce à des fonctions d'indépendance telles que Wake-on-LAN pour le travail de démarrage réseau ).
smartphones: en plus de tous les blocs mentionnés, il existe également un processeur de bande de base indépendant qui fonctionne sous son propre système d'exploitation en temps réel pour traiter les communications avec les tours de téléphonie cellulaire / GPS / etc. Ou même plus d'un si vous utilisez la virtualisation comme L4 . Des portes dérobées ont déjà été détectées dans les processeurs en bande de base, en plus d'autres vulnérabilités.
Les cartes SIM pour smartphones sont bien plus que de simples cartes mémoire avec l'enregistrement de vos données d'abonné. Ce sont des cartes à puce qui peuvent exécuter indépendamment des applications Java Card (probablement des puces NFC aussi). C'est comme une JVM dans IME. Naturellement, les cartes SIM peuvent être piratées et utilisées pour la surveillance, etc.
Les appareils connectés via USB ou à la carte mère peuvent être équipés de leurs propres processeurs. Par exemple, les adaptateurs WiFi, les claviers, les souris, etc. Théoriquement, la plupart d'entre eux sont isolés des interférences directes avec l'hôte via DMA et IOMMU, mais le diable est dans les détails ...
puces étranges aléatoires comme le MacBook Touch exécutant WatchOS .
...

Ainsi, dans un smartphone ou un ordinateur de bureau classique, il y aura de quinze à plusieurs milliers d'ordinateurs dans le sens d'appareils complets. Chacun d'eux peut être programmé, il a suffisamment de puissance pour exécuter de nombreux programmes et peut être utilisé par un attaquant pour surveiller, exfiltrer ou attaquer le reste du système.

Il n'y a rien d'inhabituel dans le contexte historique, car même les tout premiers mainframes comprenaient généralement plusieurs ordinateurs où l'ordinateur principal effectue un traitement par lots, et les ordinateurs auxiliaires fournissent des opérations d'E / S à grande vitesse, qui autrement interféreraient avec la machine principale avec leurs interruptions.

En pratique, en plus de la communauté de la sécurité de l'information (puisque tous ces ordinateurs sont dangereux et, par conséquent, utiles pour les rédacteurs de virus et de NSA), tous les autres utilisateurs ne se soucient pas que sous le capot de nos ordinateurs se trouvent des systèmes incroyablement complexes qui sont plus précisément considérés comme une ménagerie hétéroclite de centaines ordinateurs embarrassants connectés les uns aux autres (ce n'est pas clair, "un réseau est un ordinateur" ou "un ordinateur est un réseau" ...?). L'utilisateur le perçoit et l'utilise comme un seul ordinateur.

1. Un domaine de recherche actif est la création de langages et de systèmes soigneusement conçus et garantis de ne pas être complets de Turing (par exemple, une programmation totalement fonctionnelle ). Pourquoi consacrer autant d'efforts à la création d'un langage que de nombreux programmes ne peuvent pas écrire? Le fait est que l'exhaustivité de Turing est étroitement liée au théorème d'incomplétude de Gödel et au théorème de Rice.. Par conséquent, si TC est autorisé, nous perdons toutes les propriétés de provabilité possibles. Au contraire, diverses choses utiles sont facilement prouvées dans un langage Turing-incomplet: par exemple, qu'un programme est complet, de type sécurisé ou non, qu'il est facile de convertir en un théorème logique, qu'il consomme une quantité limitée de ressources, que la mise en œuvre du protocole est vraie ou équivalente à une autre mise en œuvre. Il est facile de prouver qu'il n'y a pas d' effets secondaires et que le programme peut être converti en une option logiquement équivalente mais plus rapide (cela est particulièrement important pour les langages déclaratifs comme SQL, où la capacité de l' optimiseur à convertir des requêtes est la clé de performances acceptables. Bien que, bien sûr, des choses étonnantes puissent être faites avec SQL, commedescente de gradient pour les modèles d'apprentissage automatique , et certaines extensions SQL le rendent de toute façon complet , vous permettant soit de coder un système en boucle , ou modelDSL , ou d'appeler PL / SQL , etc.

Voici de la littérature sur les voitures étranges:

«Exploiter la programmation: des débordements de tampon aux machines étranges et à la théorie du calcul» , Bratus et al., 2011
«Le problème d'arrêt de la sécurité de la pile réseau», Sassamen et al., 2011
The Strange Page-Fault Machine: Lessons in Computing Without Instructions , Bangert et al., 2013
«Des voitures étranges chez ELF: un accent sur les métadonnées sous-estimées», Shapiro et al 2013
«Programmation orientée sur les interruptions de bogues: une approche minimaliste pour intégrer des bogues dans le micrologiciel de systèmes embarqués» , Tan et al., 2014
Strange Cars in the Evidence-Based Code , Vaneg, 2014
«Signaux cycliques - retour au Shellcode portable», Bosman et Bos, 2014

↑

2. Bien que les réseaux de neurones linéaires exploitent le mode virgule flottante avec arrondi à zéro pour coder un comportement potentiellement complet de Turing (pour RNN), il est invisible en fonctionnement normal, ce qui est également un comportement aléatoire de Turing complet et un bon exemple d'un langage sûr. ↑

3. La forteresse naine fournit une horloge, donc l'intégralité de Turing n'est pas surprenante. Mais l'eau est également implémentée comme un simple automate cellulaire, il y a donc encore plus de façons d'obtenir l'intégralité de turing! Maintenant, le wiki du jeu nomme quatre façons possibles de créer des portes logiques: les liquides, les mécanismes d'horlogerie, les chariots de mine et les portes logiques de créature / animal avec des portes et des capteurs de pression. ↑

4. La spécification PDF complète est exceptionnellement gonflée. Par exemple, dans une visionneuse PDF simple qui prend en charge une bonne quantité de spécifications PDF comme le navigateur Google Chrome, vous pouvez jouer à Breakout (car le PDF comprend son propre sous-ensemble étrange de JavaScript). La visionneuse officielle Adobe PDF prend en charge des fonctionnalités allant jusqu'à la CAO en trois dimensions. ↑

5. Voir les portes logiques domino sur Think Math et la démo d'un additionneur de jointure domino 4 bits . ↑

La complétude inattendue de Turing partout

Voir aussi

Les références

App

Combien d'ordinateurs compte votre ordinateur?

More articles: