Vorhersagen versus ErklĂ€rungen: oder warum mehr „Semi-Buys“ im Bereich Data Science benötigt werden

Phoebe Wong, Wissenschaftlerin und CFO bei Equal Citizens, sprach ĂŒber den kulturellen Konflikt in der Kognitionswissenschaft. Elena Kuzmina ĂŒbersetzte den Artikel ins Russische.



Vor einigen Jahren habe ich eine Diskussion ĂŒber die Verarbeitung natĂŒrlicher Sprache gesehen. Es sprachen der „Vater der modernen Linguistik“ Noam Chomsky und der neue Wachsprecher Peter Norvig , Forschungsdirektor bei Google. Chomsky ĂŒberlegte, in welche Richtung sich die SphĂ€re der Verarbeitung natĂŒrlicher Sprache bewegt, und sagte :
Angenommen, jemand ist im Begriff, eine Physikabteilung aufzulösen, und möchte dies nach den Regeln tun. Nach den Regeln bedeutet dies, eine unendliche Anzahl von Videos ĂŒber das Geschehen auf der Welt aufzunehmen, diese Gigabyte an Daten an den grĂ¶ĂŸten und schnellsten Computer weiterzuleiten und eine komplexe statistische Analyse durchzufĂŒhren Was passiert vor deinem Fenster? TatsĂ€chlich erhalten Sie eine bessere Prognose als die der FakultĂ€t fĂŒr Physik. Wenn der Erfolg davon abhĂ€ngt, wie nah Sie an der Masse chaotischer Rohdaten sind, ist dies besser als die Vorgehensweise der Physiker: keine Gedankenexperimente auf idealen OberflĂ€chen und so weiter. Aber Sie werden nicht die Art von VerstĂ€ndnis bekommen, nach der die Wissenschaft immer gesucht hat. Was Sie bekommen, ist nur eine ungefĂ€hre Vorstellung davon, was in der RealitĂ€t passiert.

* Von der Bayes-Wahrscheinlichkeit - eine Interpretation des Wahrscheinlichkeitsbegriffs, bei der Wahrscheinlichkeit anstelle der HĂ€ufigkeit oder Tendenz zu einem bestimmten PhĂ€nomen als vernĂŒnftige Erwartung interpretiert wird, die eine quantitative EinschĂ€tzung eines persönlichen Glaubens oder Wissensstandes darstellt. Forscher der kĂŒnstlichen Intelligenz verwenden Bayes'sche Statistiken beim maschinellen Lernen, um Computern zu helfen, Muster zu erkennen und darauf basierende Entscheidungen zu treffen.

Chomsky betonte wiederholt diese Idee: Der heutige Erfolg bei der Verarbeitung der natĂŒrlichen Sprache, nĂ€mlich die Genauigkeit der Vorhersage, ist keine Wissenschaft. Ihm zufolge ist das Werfen eines riesigen TextstĂŒcks in eine „komplexe Maschine“ lediglich eine AnnĂ€herung an die Rohdaten oder das Sammeln von Insekten, was nicht zu einem wirklichen VerstĂ€ndnis der Sprache fĂŒhren wird.

Laut Chomsky besteht das Hauptziel der Wissenschaft darin, erklĂ€rende Prinzipien fĂŒr die tatsĂ€chliche Funktionsweise des Systems zu entdecken. Der richtige Ansatz, um dieses Ziel zu erreichen, besteht darin, der Theorie die Möglichkeit zu geben, Daten zu leiten. Es ist notwendig, die grundlegende Natur des Systems zu untersuchen, indem man mit Hilfe sorgfĂ€ltig entworfener Experimente von "irrelevanten EinschlĂŒssen" abstrahiert, das heißt auf die gleiche Weise, wie es in der Wissenschaft seit Galileo akzeptiert wurde.

In seinen Worten:
Es ist unwahrscheinlich, dass ein einfacher Versuch, mit chaotischen Rohdaten umzugehen, irgendwohin fĂŒhrt, so wie Galileo nicht irgendwohin.

Anschließend antwortete Norwig in einem langen Aufsatz auf Chomskys Behauptungen. Norvig merkt an, dass in fast allen Bereichen der Anwendung der Sprachverarbeitung: Suchmaschinen, Spracherkennung, maschinelle Übersetzung und Beantwortung von Fragen geschulte Wahrscheinlichkeitsmodelle Vorrang haben, da sie viel besser funktionieren als alte Werkzeuge, die auf theoretischen oder logischen Regeln basieren. Er sagt, dass Chomskys Erfolgskriterium in der Wissenschaft - die Betonung der Frage nach dem Warum und die Untertreibung der Bedeutung des Wie - falsch ist.

BestĂ€tigt er seine Position, zitiert er Richard Feynman: "Physik kann sich ohne Beweise entwickeln, aber wir können uns nicht ohne Fakten entwickeln." Norwig erinnert sich, dass probabilistische Modelle mehrere Billionen Dollar pro Jahr generieren, wĂ€hrend Nachkommen von Chomskys Theorie unter Berufung auf Chomskys bei Amazon verkaufte BĂŒcher weit weniger als eine Milliarde verdienen.

Norwig schlĂ€gt vor, dass Chomskys Verachtung fĂŒr das „Bayes'sche Hin und Her“ auf die Trennung der beiden Kulturen in der von Leo Breiman beschriebenen statistischen Modellierung zurĂŒckzufĂŒhren ist :

  1. Eine Datenmodellierungskultur , die davon ausgeht, dass die Natur eine Black Box ist, in der Variablen stochastisch miteinander verbunden sind. Die Arbeit von Modellierungsexperten besteht darin, das Modell zu bestimmen, das am besten zu den zugrunde liegenden Assoziationen passt.
  2. Die Kultur der algorithmischen Modellierung impliziert, dass Assoziationen in einer Black Box zu komplex sind, um mit einem einfachen Modell beschrieben zu werden. Die Arbeit der Modellentwickler besteht darin, den Algorithmus auszuwÀhlen, der das Ergebnis am besten anhand von Eingabevariablen bewertet, ohne zu erwarten, dass die wahren grundlegenden Zuordnungen von Variablen in der Black Box verstanden werden können.

Norwig meint, dass Chomsky nicht so sehr mit probabilistischen Modellen als solchen polemisiert, sondern algorithmische Modelle mit „Billiarden-Parametern“ nicht akzeptiert: Sie sind nicht einfach zu interpretieren und daher fĂŒr die Lösung der Fragen nach dem „Warum“ unbrauchbar.
Norwig und Breiman gehören zu einem anderen Lager - sie glauben, dass Systeme wie Sprachen zu komplex, zufĂ€llig und willkĂŒrlich sind, um durch einen kleinen Satz von Parametern dargestellt zu werden. Wenn man von Schwierigkeiten abstrahiert, ist dies mit einem mystischen Werkzeug vergleichbar, das auf einen bestimmten permanenten Bereich abgestimmt ist, der nicht wirklich existiert. Daher wird die Frage, was Sprache ist und wie sie funktioniert, ĂŒbersehen.

Norwig bekrĂ€ftigt seine These in einem anderen Artikel , in dem er argumentiert, dass wir aufhören sollten, so zu handeln, wie es unser Ziel ist, Ă€ußerst elegante Theorien zu schaffen. Stattdessen mĂŒssen Sie KomplexitĂ€t akzeptieren und unseren besten VerbĂŒndeten einsetzen - unangemessene Dateneffizienz. Er weist darauf hin, dass bei der Spracherkennung, der maschinellen Übersetzung und fast allen maschinellen Lernanwendungen fĂŒr Webdaten einfache Modelle wie n-Gramm-Modelle oder lineare Klassifikatoren, die auf Millionen spezifischer Funktionen basieren, besser funktionieren als komplexe Modelle. die versuchen, die allgemeinen Regeln zu entdecken.

Was mich an dieser Diskussion am meisten reizt, ist nicht, womit Chomsky und Norvig nicht einverstanden sind, sondern worin sie vereint sind. Sie sind sich einig, dass die Analyse großer Datenmengen mit statistischen Lernmethoden ohne VerstĂ€ndnis von Variablen bessere Vorhersagen liefert als ein theoretischer Ansatz, der versucht, die Beziehung zwischen Variablen zu modellieren.

Und ich bin nicht der einzige, der sich darĂŒber wundert: Viele Menschen mit mathematischem Hintergrund, mit denen ich gesprochen habe, finden dies auch widersprĂŒchlich. Sollte der Ansatz, der sich am besten zur Modellierung grundlegender struktureller Beziehungen eignet, nicht auch die grĂ¶ĂŸte Vorhersagekraft haben? Oder wie können wir etwas genau vorhersagen, ohne zu wissen, wie alles funktioniert?

Vorhersagen gegen die Verursachung


Selbst in akademischen Bereichen wie Wirtschafts- und anderen Sozialwissenschaften werden die Konzepte der Vorhersage- und ErklÀrungskraft oft miteinander kombiniert.

Modelle, die eine hohe ErklĂ€rungsfĂ€higkeit aufweisen, gelten hĂ€ufig als sehr aussagekrĂ€ftig. Der Ansatz zur Erstellung des besten Vorhersagemodells unterscheidet sich jedoch grundlegend vom Ansatz zur Erstellung des besten ErklĂ€rungsmodells, und Modellierungsentscheidungen fĂŒhren hĂ€ufig zu Kompromissen zwischen den beiden Zielen. Die methodischen Unterschiede sind in EinfĂŒhrung in das statistische Lernen (ISL) dargestellt.

Vorhersagemodellierung


Das Grundprinzip von Vorhersagemodellen ist relativ einfach: Bewerten Sie Y anhand eines Satzes leicht verfĂŒgbarer Eingabedaten X. Wenn der Fehler X im Durchschnitt Null ist, kann Y vorausgesagt werden mithilfe von:


wobei ƒ die systematische Information ĂŒber Y ist, die von X geliefert wird und zu ƶ (Vorhersage von Y) fĂŒr ein gegebenes X fĂŒhrt. Die genaue Funktionsform ist normalerweise nicht signifikant, wenn sie Y vorhersagt, und ƒ wird als „Black Box“ betrachtet.

Die Genauigkeit dieses Modelltyps kann in zwei Teile zerlegt werden: einen reduzierbaren Fehler und einen schwerwiegenden Fehler:

Um die Genauigkeit der Vorhersage des Modells zu erhöhen, ist es erforderlich, den reduzierbaren Fehler zu minimieren und die am besten geeigneten Methoden des statistischen Trainings fĂŒr die SchĂ€tzung zu verwenden, um ƒ zu bewerten.

Ausgabemodellierung


ƒ kann nicht als „Black Box“ betrachtet werden, wenn das Ziel darin besteht, die Beziehung zwischen X und Y zu verstehen (wie sich Y als Funktion von X Ă€ndert). Weil wir die Auswirkung von X auf Y nicht bestimmen können, ohne die funktionale Form zu kennen ƒ.

Fast immer werden bei der Modellierung von Schlussfolgerungen parametrische Methoden verwendet, um ƒ zu schĂ€tzen. Das parametrische Kriterium bezieht sich darauf, wie dieser Ansatz die SchĂ€tzung von ƒ vereinfacht, indem er die parametrische Form ƒ annimmt und ƒ anhand der vorgeschlagenen Parameter bewertet. Dieser Ansatz besteht aus zwei Hauptschritten:

1. Machen Sie eine Annahme ĂŒber die Funktionsform ƒ. Die hĂ€ufigste Annahme ist, dass ƒ in X linear ist:



2. Passen Sie die Daten an das Modell an, dh finden Sie die Werte der Parameter ÎČ₀, ÎČ₁, ..., ÎČp so, dass:


Der gebrÀuchlichste Modellanpassungsansatz ist die Methode der kleinsten Quadrate (OLS).

Der Kompromiss zwischen FlexibilitÀt und Interpretierbarkeit


Sie fragen sich vielleicht schon: Woher wissen wir, dass ƒ linear ist? TatsĂ€chlich werden wir es nicht wissen, da die wahre Form ƒ unbekannt ist. Und wenn das ausgewĂ€hlte Modell zu weit vom tatsĂ€chlichen Modell entfernt ist, werden unsere SchĂ€tzungen verzerrt. Warum wollen wir also ĂŒberhaupt eine solche Annahme machen? Weil es einen inhĂ€renten Kompromiss zwischen ModellflexibilitĂ€t und Interpretierbarkeit gibt.

FlexibilitÀt bezieht sich auf die Formenpalette, die ein Modell erstellen kann, um den vielen verschiedenen möglichen funktionalen Formen zu entsprechen. Je flexibler das Modell ist, desto besser kann es angepasst werden, was die Genauigkeit der Prognose erhöht. Ein flexibleres Modell ist jedoch komplexer und erfordert eine Anpassung von mehr Parametern, und -SchÀtzungen werden hÀufig zu komplex, als dass die Assoziationen einzelner PrÀdiktoren und Prognosefaktoren interpretiert werden könnten.

Auf der anderen Seite sind die Parameter im linearen Modell relativ einfach und interpretierbar, auch wenn es keine sehr gute Prognose liefert. Hier ist ein großartiges Diagramm in ISL, das diesen Kompromiss in verschiedenen statistischen Trainingsmodellen veranschaulicht:
" "

Wie Sie sehen, sind flexiblere Modelle fĂŒr maschinelles Lernen mit besserer Prognosegenauigkeit, wie die Support-Vektor-Methode und die Verbesserungsmethoden, gleichzeitig schlecht interpretierbar. Inferenzmodellierung verweigert auch die Prognosegenauigkeit des interpretierten Modells, wodurch eine sichere Annahme ĂŒber die funktionale Form f getroffen wird.

Ursachenermittlung und kontrafaktische BegrĂŒndung


Aber warte einen Moment! Selbst wenn Sie ein gut interpretiertes Modell mit guter Übereinstimmung verwenden, können Sie diese Statistiken nicht als separaten Beweis fĂŒr die KausalitĂ€t verwenden. Dies liegt an dem alten, mĂŒden Klischee "Korrelation ist keine KausalitĂ€t".

Hier ist ein gutes Beispiel : Angenommen, Sie haben Daten ĂŒber die LĂ€nge von hundert Fahnenmasten, die LĂ€nge ihrer Schatten und den Sonnenstand. Sie wissen, dass die LĂ€nge des Schattens von der LĂ€nge des Pols und dem Stand der Sonne abhĂ€ngt. Auch wenn Sie die LĂ€nge des Pols als abhĂ€ngige Variable und die LĂ€nge des Schattens als unabhĂ€ngige Variable festlegen, passt Ihr Modell dennoch zu statistisch signifikanten Koeffizienten und so weiter.

Deshalb können KausalzusammenhÀnge nicht nur durch statistische Modelle hergestellt werden und erfordern Grundkenntnisse - die angebliche KausalitÀt sollte durch ein vorlÀufiges theoretisches VerstÀndnis des Zusammenhangs gerechtfertigt sein. Daher basieren Datenanalyse und statistische Modellierung von Ursache-Wirkungs-Beziehungen hÀufig weitgehend auf theoretischen Modellen.

Und selbst wenn Sie eine gute theoretische BegrĂŒndung dafĂŒr haben, dass X Y verursacht, ist die Identifizierung eines Kausaleffekts oftmals sehr schwierig. Dies liegt daran, dass bei der Bewertung eines Kausalzusammenhangs ermittelt werden muss, was in einer gegenaktiven Welt passieren wĂŒrde, in der X nicht stattgefunden hat, was per Definition nicht beobachtbar ist.

Hier ist ein weiteres gutes Beispiel : Angenommen, Sie möchten die gesundheitlichen Auswirkungen von Vitamin C bestimmen. Haben Sie Daten darĂŒber, ob jemand Vitamine einnimmt (X = 1, wenn er einnimmt; 0 - nicht einnimmt), und einige binĂ€re Gesundheitsergebnisse (Y = 1, wenn er gesund ist; 0 - nicht gesund), dass sieht so aus:

Y₁ ist das gesundheitliche Ergebnis derjenigen, die Vitamin C einnehmen, und Y₀ ist das gesundheitliche Ergebnis derjenigen, die es nicht sind. Um die Wirkung von Vitamin C auf die Gesundheit zu bestimmen, bewerten wir die durchschnittliche Wirkung der Behandlung:

= E (Y & sub1;) - E (Y & sub4;)

Dazu ist es jedoch wichtig zu wissen, welche gesundheitlichen Konsequenzen die Einnahme von Vitamin C haben wĂŒrde, wenn sie kein Vitamin C einnehmen und umgekehrt (oder E (Y₀ | X = 1) und E (Y₁ |) X = 0)), die in der Tabelle durch Sternchen gekennzeichnet sind und unbeobachtete kontrafaktische Ergebnisse darstellen. Der durchschnittliche Behandlungseffekt kann ohne diese Eingabe nicht sequenziell bewertet werden.

Stellen Sie sich nun vor, dass bereits gesunde Menschen in der Regel versuchen, Vitamin C einzunehmen, aber bereits ungesunde Menschen dies nicht tun. In diesem Szenario wĂŒrden Beurteilungen einen starken Heileffekt zeigen, selbst wenn Vitamin C die Gesundheit ĂŒberhaupt nicht beeintrĂ€chtigen wĂŒrde. Der bisherige Gesundheitszustand wird als Mischfaktor bezeichnet, der sowohl die Vitamin C-Aufnahme als auch die Gesundheit (X und Y) beeinflusst und zu verzerrten SchĂ€tzungen fĂŒhrt. Der sicherste Weg, einen konsistenten Ξ-Score zu erhalten, besteht darin, die Behandlung durch Experimente zu randomisieren, sodass X nicht von Y abhĂ€ngig ist.

Wenn die Behandlung nach dem Zufallsprinzip verordnet wird, wird das Ergebnis der Gruppe, die das Arzneimittel im Durchschnitt nicht erhĂ€lt, zu einem objektiven Indikator fĂŒr die kontrafaktischen Ergebnisse der Gruppe, die die Behandlung erhĂ€lt, und stellt sicher, dass kein Verzerrungsfaktor vorliegt. A / B-Tests orientieren sich an diesem VerstĂ€ndnis.

Aber randomisierte Experimente sind nicht immer möglich (oder ethisch, wenn wir die gesundheitlichen Auswirkungen des Rauchens oder Essens von zu vielen Schokoladenkeksen untersuchen möchten), und in diesen FÀllen sollten die ursÀchlichen Auswirkungen aus Beobachtungen mit hÀufig nicht randomisierten Behandlungen abgeschÀtzt werden.

Es gibt viele statistische Methoden , mit denen kausale Effekte unter nicht experimentellen Bedingungen identifiziert werden können. Sie tun dies, indem sie kontrafaktische Ergebnisse konstruieren oder zufÀllige Behandlungsvorschriften in Beobachtungsdaten modellieren.

Es ist leicht vorstellbar, dass die Ergebnisse dieser Analysetypen oft nicht sehr zuverlÀssig oder reproduzierbar sind. Und noch wichtiger: Diese Ebenen methodischer Hindernisse sollen nicht die Genauigkeit der Vorhersage des Modells verbessern, sondern den Nachweis der KausalitÀt durch eine Kombination aus logischen und statistischen Schlussfolgerungen erbringen.

Es ist viel einfacher, den Erfolg einer Prognose zu messen als ein Kausalmodell. Obwohl es Standard-Leistungsindikatoren fĂŒr Prognosemodelle gibt, ist es viel schwieriger, den relativen Erfolg von Kausalmodellen zu bewerten. Wenn es jedoch schwierig ist, Ursache und Wirkung aufzuspĂŒren, heißt das nicht, dass wir aufhören sollten, es zu versuchen.
Der Hauptpunkt hierbei ist, dass prognostische und kausale Modelle völlig unterschiedlichen Zwecken dienen und völlig unterschiedliche Daten und statistische Modellierungsprozesse erfordern, und oft mĂŒssen wir beides tun.

Ein Beispiel aus der Filmindustrie zeigt: Studios verwenden Prognosemodelle, um Einnahmen an den Kinokassen zu prognostizieren, die finanziellen Ergebnisse des Filmvertriebs vorherzusagen, die finanziellen Risiken und die RentabilitĂ€t ihres Filmportfolios zu bewerten usw. Prognosemodelle werden uns jedoch nicht nĂ€her an die Struktur und Dynamik des Filmmarkts heranfĂŒhren und helfen nicht dabei Investitionsentscheidungen, weil in den frĂŒheren Phasen des Filmproduktionsprozesses (in der Regel Jahre vor dem Erscheinungsdatum), wenn Investitionsentscheidungen getroffen werden, die Varianz möglich ist Die Ergebnisse sind hoch.

Daher ist die Genauigkeit von Vorhersagemodellen, die auf Anfangsdaten in den frĂŒhen Stadien basieren, stark verringert. Vorhersagemodelle nĂ€hern sich dem Startdatum des Filmvertriebs, wenn die meisten Produktionsentscheidungen bereits getroffen wurden und die Prognose nicht mehr besonders realisierbar und relevant ist. Andererseits können die Studios durch die Modellierung von Ursache-Wirkungs-Beziehungen herausfinden, wie verschiedene Produktionsmerkmale das potenzielle Einkommen in den frĂŒhen Phasen der Filmproduktion beeinflussen können und sind daher fĂŒr die Information ĂŒber ihre Produktionsstrategien von entscheidender Bedeutung.

Erhöhte Aufmerksamkeit fĂŒr Vorhersagen: Hatte Chomsky recht?


Es ist leicht zu verstehen, warum Chomsky verĂ€rgert ist: Prognosemodelle dominieren die wissenschaftliche Gemeinschaft und die Industrie. Eine Textanalyse akademischer Preprints zeigt, dass die am schnellsten wachsenden Bereiche der quantitativen Forschung den Prognosen immer mehr Aufmerksamkeit schenken. Beispielsweise hat sich die Anzahl der Artikel auf dem Gebiet der kĂŒnstlichen Intelligenz, in denen „Vorhersage“ erwĂ€hnt wird, mehr als verdoppelt, wĂ€hrend sich die Anzahl der Artikel zu Schlussfolgerungen seit 2013 halbiert hat.

In datenwissenschaftlichen LehrplÀnen werden Ursache-Wirkungs-Beziehungen weitgehend ignoriert. Die Datenwissenschaft in der Wirtschaft konzentriert sich hauptsÀchlich auf Vorhersagemodelle. Renommierte Feldwettbewerbe wie der Kaggle- und der Netflix-Preis basieren auf der Verbesserung der prÀdiktiven Leistungsindikatoren.

Andererseits gibt es noch viele Bereiche, in denen der empirischen Vorhersage nicht genĂŒgend Aufmerksamkeit geschenkt wird, und sie können von den im Bereich des maschinellen Lernens und der prĂ€diktiven Modellierung erzielten Errungenschaften profitieren. Die Darstellung des aktuellen Zustands als Kulturkrieg zwischen dem „Chomsky-Team“ und dem „Norvig-Team“ ist jedoch falsch: Es gibt keinen Grund, warum nur eine Option gewĂ€hlt werden muss, denn es gibt viele Möglichkeiten zur gegenseitigen Bereicherung zwischen den beiden Kulturen. Es wurde viel Arbeit geleistet, um Modelle fĂŒr maschinelles Lernen verstĂ€ndlicher zu machen. Susan Ati aus Stanford verwendet beispielsweise Methoden des maschinellen Lernens in einer Kausalzusammenhangsmethodik.

Um positiv abzuschließen, erinnern Sie sich an die Arbeiten von Jude Pearl . Pearl leitete in den 1980er Jahren ein Forschungsprojekt zur kĂŒnstlichen Intelligenz, das es Maschinen ermöglichte, probabilistisch mit Bayes'schen Netzwerken zu argumentieren. Seitdem ist er jedoch der grĂ¶ĂŸte Kritiker geworden, wie die Aufmerksamkeit der kĂŒnstlichen Intelligenz ausschließlich auf probabilistische Assoziationen und Korrelationen zu einem Hindernis fĂŒr Erfolge wurde.

Pearl teilt die Meinung von Chomsky und argumentiert, dass all die beeindruckenden Leistungen des Deep Learning darauf hinauslaufen, die Kurve an die Daten anzupassen. Heutzutage steckt die kĂŒnstliche Intelligenz fest und tut dieselben Dinge (zum Vorhersagen und Diagnostizieren und Klassifizieren) wie Maschinen vor 30 Jahren. Jetzt sind Autos nur unwesentlich besser, wĂ€hrend Vorhersage und Diagnose „nur die Spitze der menschlichen Intelligenz“ sind.

Er glaubt, dass der SchlĂŒssel zur Schaffung wirklich intelligenter Maschinen, die wie Menschen denken, darin liegt, Maschinen das Nachdenken ĂŒber Ursache und Wirkung beizubringen, damit diese Maschinen widersprĂŒchliche Fragen stellen, Experimente planen und neue Antworten auf wissenschaftliche Fragen finden können.

Seine Arbeit in den letzten drei Jahrzehnten konzentrierte sich auf die Schaffung einer formalen Sprache fĂŒr Maschinen, um KausalitĂ€t zu ermöglichen, Ă€hnlich wie seine Arbeit in Bayes'schen Netzwerken, die es Maschinen ermöglichten, probabilistische Assoziationen zu erzeugen. In einem seiner Artikel heißt es:
Der grĂ¶ĂŸte Teil des menschlichen Wissens ist eher nach kausalen als nach probabilistischen ZusammenhĂ€ngen organisiert, und die Grammatik der Wahrscheinlichkeitsberechnung reicht nicht aus, um diese ZusammenhĂ€nge zu verstehen ... Aus diesem Grund betrachte ich mich nur als halb Bayesian.

Es scheint, dass Data Science nur gewinnen wird, wenn wir mehr Knabbereien haben.

Source: https://habr.com/ru/post/de474862/


All Articles