L'un des paradoxes des plates-formes Internet modernes est que, bien qu'elles soient substantiellement automatisées et que le contenu que les utilisateurs finaux voient soit montré sans aucune modération humaine, elles dépendent néanmoins complètement du comportement humain, car en fait, ils ne font qu'observer, recevoir des informations et tirer des conclusions sur la base des actions de centaines de millions ou de milliards de personnes.
L'origine de ce principe est le PageRank. Au lieu de s'appuyer sur des règles créées manuellement qui permettent de comprendre la signification de chaque page individuelle ou de travailler avec le texte d'origine, PageRank observe ce que les gens ont fait ou dit exactement sur une telle page. Qui y est lié de quelque manière que ce soit, quel texte ils ont utilisé et qui est lié aux personnes associées à cette page? Dans le même temps, Google donne à chaque utilisateur la possibilité de classer (indexer, noter) chaque ensemble de résultats de recherche manuellement: vous recevez 10 liens bleus et vous dites simplement à Google lequel convient. Il en va de même pour Facebook: Facebook ne sait pas vraiment qui vous êtes, ce qui vous intéresse, ni le contenu de tel ou tel contenu. Mais il sait qui vous suivez, ce que vous aimez, qui d'autre que vous aimez et ce qu'ils aiment et ce à quoi ils ont souscrit. Facebook est un PageRank à vocation humaine. En général, la même chose s'applique à YouTube: il n'a jamais su de quoi parlait la vidéo en question, mais seulement ce que les gens y écrivaient et ce qu'ils regardaient et aimaient d'autre.
À la base, ces systèmes sont d'immenses «Turcs mécaniques». Après tout, ils ne comprennent absolument pas le contenu du contenu avec lequel ils travaillent, ils essaient seulement de créer, de capturer et de transmettre le sentiment humain concernant ce contenu. Ce sont d'énormes systèmes informatiques distribués dans lesquels les gens agissent comme des processeurs, et la plate-forme elle-même est une combinaison de routeurs et d'interconnexions. (Cela me rappelle un peu l'idée du livre «Guide de l'auto-stoppeur de la galaxie» que la Terre entière est en fait un énorme ordinateur qui remplit certaines fonctions, et nos activités quotidiennes font partie des calculs).
Cela signifie qu'une grande partie de la conception du système est liée à la recherche des points d'application optimaux des ressources humaines en travaillant avec un système automatisé. Capturez-vous ce qui se passe déjà? Google a donc commencé à utiliser des liens qui existaient déjà. Avez-vous besoin de stimuler l'activité afin de révéler sa valeur? Facebook a dû créer une activité lui-même avant d'en tirer un avantage. Vous comptez peut-être fortement sur les ressources humaines? Cette approche est utilisée dans Apple Music, avec leurs listes de lecture sélectionnées manuellement, qui sont automatiquement envoyées à des dizaines de millions d'utilisateurs. Ou devez-vous payer des gens pour tout faire?
Initialement, le répertoire de ressources Internet de Yahoo était une tentative d’adopter l’approche «payer les gens pour tout» - Yahoo payait les gens pour cataloguer l’Internet tout entier. Au début, cela semblait réalisable, mais comme Internet se développait trop vite, il s'est vite avéré être un défi écrasant, et lorsque Yahoo s'est rendu, la taille de leur catalogue dépassait déjà 3 millions de pages. PageRank a résolu ce problème. Au contraire, Google Maps utilise un grand nombre de voitures avec des caméras contrôlées par des personnes (pour l'instant) et parcourant presque toutes les rues du monde et beaucoup plus de gens regardent ces photos, et ce n'est pas une tâche écrasante - cela coûte juste beaucoup. Google Maps est un tel «Turc mécanique» privé. Maintenant, nous étudions exactement la même question, en parlant de la modération du contenu par les gens - combien de dizaines de milliers de personnes aurez-vous besoin pour afficher chaque message et combien cette tâche peut-elle être automatisée? Cette tâche est-elle écrasante ou sa mise en œuvre est-elle simplement très coûteuse?
Si vous considérez ces plates-formes comme utilisant des milliards de personnes pour faire de l'informatique réelle, cela devrait soulever deux questions intéressantes: quelles vulnérabilités existent dans ces plates-formes et comment l'apprentissage automatique peut-il changer ce domaine?
Dans le passé, lorsque nous pensions au piratage de systèmes informatiques, nous avions l'idée de diverses vulnérabilités techniques - mots de passe volés ou faibles, vulnérabilités ouvertes dans les systèmes, bogues, débordements de tampon, injections SQL. Nous avons représenté des «hackers» à la recherche de trous dans les logiciels. Mais, si vous imaginez que YouTube ou Facebook sont des systèmes informatiques distribués dans lesquels les logiciels habituels agissent comme des routeurs, mais que les gens jouent le rôle de processeurs, tout attaquant pensera immédiatement à trouver des vulnérabilités non seulement dans les logiciels, mais aussi chez les humains. Les biais cognitifs typiques commencent à jouer le même rôle que les défauts typiques des logiciels.
En fait, il existe deux façons de voler une banque: vous pouvez contourner le système d'alarme et récupérer une clé principale pour un coffre-fort, ou vous pouvez soudoyer un employé de banque. Dans chacun de ces exemples, le système a échoué, mais maintenant l'un des systèmes est vous et moi. Par conséquent, comme je l'ai écrit dans cet article sur le récent changement dans le cours de Facebook vers la confidentialité et la sécurité des utilisateurs, la modération du contenu par des personnes vivantes sur de telles plateformes est intrinsèquement similaire au travail des antivirus, qui a commencé à se développer rapidement en réponse à l'apparition de logiciels malveillants sur Windows il y a deux décennies . Une partie de l'ordinateur regarde si l'autre partie fait quelque chose qu'il ne devrait pas faire.
Même si nous ne parlons pas de piratage délibéré de systèmes, il y a d'autres problèmes qui surviennent en essayant d'analyser l'activité d'une personne avec l'aide d'une autre personne. Ainsi, lorsque vous commencez à utiliser un ordinateur pour analyser un autre ordinateur, vous courez le risque de créer des boucles de rétroaction. Cela se reflète dans des concepts tels que la «bulle du filtre», la «radicalisation de YouTube» ou le spam de recherche. Dans le même temps, l'un des problèmes rencontrés par Facebook est que la disponibilité et la production d'une grande quantité de données compensent parfois la valeur de ces données. Nous appellerons cela le problème de la surcharge du fil d'actualité: par exemple, vous avez 50 ou 150 amis et vous publiez 5 ou 10 entrées chaque jour, ou quelque chose comme ça, mais tous vos amis font exactement la même chose et maintenant vous avez 1500 entrées dans votre flux chaque jour. Numéro de Dunbar + loi de Zuckerberg = surcharge ... ce qui nous amène à la loi de Goodhart.
"Tout modèle statistique observé est sujet à destruction dès qu'une pression est exercée sur lui pour le contrôler." - Charles Goodhart
Pourtant, comment l'apprentissage automatique peut-il faire la différence? Plus tôt, j'ai déjà dit que la principale difficulté était de savoir comment utiliser les ressources humaines pour travailler avec les logiciels de la manière la plus optimale, bien qu'il existe une autre option - laissez simplement l'ordinateur faire tout le travail. Jusqu'à très récemment, les difficultés et les raisons pour lesquelles de tels systèmes existaient consistaient principalement en une grande classe de tâches que les ordinateurs ne pouvaient pas résoudre, bien que les gens les aient résolus instantanément. Nous l'avons appelé «des tâches faciles pour une personne, mais difficiles pour un ordinateur», mais en réalité, il s'agissait de tâches faciles pour une personne, mais qu'une personne est pratiquement incapable de décrire à un ordinateur. Une caractéristique révolutionnaire de l'apprentissage automatique est qu'il permet aux ordinateurs eux-mêmes de développer la description nécessaire.
La bande dessinée ci-dessous (directement à partir de 2014, juste au moment où les systèmes d'apprentissage automatique et de vision par ordinateur ont commencé à se développer rapidement) illustre parfaitement ces changements. La première tâche a été facilement accomplie, contrairement à la seconde, du moins jusqu'à l'avènement du machine learning.

L'ancienne façon de résoudre ce problème consiste à trouver des personnes qui classeraient l'image - à recourir à une sorte de crowdsourcing. En d'autres termes, utilisez un «Turc mécanique». Mais aujourd'hui, nous n'avons peut-être plus besoin de personne pour regarder cette image, car avec l'aide du machine learning, nous pouvons très souvent automatiser la solution de ce problème particulier.
Donc: combien de problèmes pourriez-vous résoudre avant d'utiliser une analyse des actions de millions ou de centaines de millions de personnes que vous pouvez maintenant résoudre en utilisant l'apprentissage automatique et généralement sans avoir besoin d'engager les utilisateurs?
Bien sûr, il y a une contradiction à cela, car dans l'apprentissage automatique, vous avez toujours besoin d'une grande quantité de données. Évidemment, dans ce cas, quelqu'un pourrait dire que si vous avez une grande plate-forme, vous avez automatiquement beaucoup de données, par conséquent, le processus d'apprentissage automatique sera également plus facile. C'est certainement vrai, au moins au début, mais je pense qu'il ne serait pas déplacé de demander combien de tâches pourraient être résolues uniquement avec l'aide des utilisateurs existants. Dans le passé, si vous aviez une photo de chat, elle ne pouvait être marquée comme «chat» que si vous aviez suffisamment d'utilisateurs, et l'un d'eux regarderait cette photo particulière et la marquerait. Aujourd'hui, vous n'avez pas du tout besoin de vrais utilisateurs pour traiter cette image particulière d'un chat - il vous suffit d'avoir d'autres utilisateurs, n'importe où dans le monde, à un moment donné dans le passé qui ont déjà classé suffisamment d' autres images avec chats pour générer le modèle de reconnaissance nécessaire.
C'est juste une autre façon de tirer le meilleur parti des ressources humaines: dans tous les cas, vous avez besoin de personnes pour classer les objets (et pour écrire des règles selon lesquelles les gens les classeront). Mais ici, nous déplaçons déjà le levier et, peut-être, changeons radicalement le nombre de personnes nécessaires, et donc, les règles du jeu, dans une certaine mesure, changent en raison de l'effet du «le gagnant obtient tout». Au final, tous ces réseaux sociaux à grande échelle de la plateforme ne sont que d'énormes collections de données classées manuellement, car au final il s'avère que leur verre est à moitié plein ou à moitié vide? D'une part, il est à moitié plein: ils ont à leur disposition la plus grande collection de données classées manuellement (dans leur domaine d'activité spécifique). En revanche, le verre est à moitié vide: ces données ont été sélectionnées et classées manuellement.
Même là où les données pourraient former l'une de ces plates-formes (ce qui, très probablement, ne se produira pas - certainement ne se produira pas - comme je l'ai écrit ici ), elles deviendraient toujours, eh bien, une plate-forme. Comme avec AWS, qui permettait aux startups qui n'avaient plus besoin de millions d'utilisateurs d'avoir des économies d'échelle pour leur infrastructure, la création de tels outils signifierait que vous n'auriez plus besoin de millions ou de milliards d'utilisateurs pour reconnaître un chat. Vous pouvez automatiser le processus.
Traduction: Alexander Tregubov
Montage: Alexey Ivanov
Communauté: @ponchiknews