Wie die In-Memory-Technologie Business Intelligence verändert hat

Etwa 5 Millisekunden dauern von der Anforderung bis zur Antwort, wenn die Daten auf der Festplatte gespeichert sind. SSD reagiert 30-mal schneller - in 150 Mikrosekunden. RAM benötigt 300.000 Mal weniger Zeit - nur 15 Nanosekunden. *



Sie können lange darüber sprechen, wie Business Intelligence zur Finanzierung oder Logistik beiträgt. Es gibt viele Möglichkeiten, Informationen anzuwenden. Es werden ständig neue angezeigt. Das Funktionsprinzip verschiedener analytischer Lösungen ist jedoch dasselbe und besteht darin, Daten aus verschiedenen Quellen zu kombinieren und zusammen zu betrachten - das heißt in ihrer Gesamtheit.

Um Informationen aus mehreren Quellen zu verwenden, müssen Sie eine Verbindung zu ihnen herstellen und Daten extrahieren. Die Daten wurden jedoch auf unterschiedliche Weise und mit unterschiedlicher Häufigkeit erstellt und in unterschiedlichen Formaten gespeichert. Bevor die Daten visualisiert oder zur weiteren Verarbeitung auf andere Systeme übertragen werden, müssen sie daher mithilfe einiger mathematischer Operationen kombiniert werden - transformieren.

Die In-Memory-Technologie besteht darin, dass alle Daten aus verschiedenen Quellen gleichzeitig in den RAM geladen werden. Danach kann die Transformation "on the fly" durchgeführt werden, ohne die Festplatte abzufragen. Klicken Sie beispielsweise auf, um eine Dimension auszuwählen, und erhalten Sie sofort ein Diagramm, in dem die Werte der Indikatoren im gewünschten Abschnitt angezeigt werden. Aufgrund der Tatsache, dass sich alle Daten bereits im RAM befinden, muss die Analyseanwendung keine Anforderungen an die Festplatte stellen, um neue Informationen zu erhalten.

Diese Einführung soll mir helfen, darüber zu sprechen, wie und warum sich die Technologien, die modernen analytischen Lösungen zugrunde liegen, geändert haben.

Anfangs war es teuer


"Speicher ist das neue Laufwerk", sagte Microsoft-Forscher Jim Gray Anfang der 2000er Jahre. 2003 veröffentlichte er einen Artikel mit dem Titel "The Economics of Distributed Computing" **, in dem er die Kosten der verschiedenen Phasen der Computerdatenverarbeitung verglich. Jim Gray zeigte, dass sich die Berechnungen an derselben Stelle wie die Daten befinden sollten, um sie nicht erneut zu verschieben. Er empfahl, die Berechnungen so nah wie möglich an Datenquellen zu bringen. Filtern Sie die Daten so früh wie möglich und speichern Sie sie als Ergebnis.

In den nächsten Jahren wurde In-Memory-DBMS von mehreren Branchenführern, darunter Oracle, IBM und SAP, sowie von mehreren Open-Source-Projekten - beispielsweise Redis und MemcacheDB - auf den Markt gebracht.

Die erste Aufgabe, die das In-Memory-DBMS löste, war nicht Business Analytics oder gar Geschäftsanwendungen, sondern E-Commerce-Möglichkeiten, die sich im Zusammenhang mit der sofortigen Extraktion von Informationen eröffnen. Ein In-Memory-DBMS kann beispielsweise einem Online-Shop in Echtzeit ermöglichen, Kunden Produkte basierend auf ihren Präferenzen anzubieten oder Anzeigen anzuzeigen.

Der Markt für Unternehmensdatenanalyselösungen hat sich auf einem anderen Weg entwickelt. Die meisten Unternehmen sind untrennbar mit Systemen verbunden, die Transaktions-DBMS verwenden, die auf Prinzipien basieren, die in den 80er Jahren des letzten Jahrhunderts entwickelt wurden. Ihre Aufgabe ist es, ständig kleine Teile der Daten, die in den Stream gelangen, auf der Festplatte zu speichern und ihre Integrität sofort zu bestätigen (OLTP-Arbeitsszenario). Zu den Systemen, die solche DBMS verwenden, gehören ERP-Lösungen, automatisierte Bankensysteme, Abrechnungen und POS-Terminals.

Für analytische Aufgaben ist jedoch eine völlig andere Datenbank erforderlich. Hier müssen Sie zuvor gespeicherte Informationen schnell abrufen. Darüber hinaus werden in großen Stücken - für jeden Analysebericht - absolut alle Daten benötigt, die sich darin widerspiegeln sollten. Auch wenn der Bericht selbst aus einer Ziffer besteht.

Darüber hinaus wäre es gut, Daten so selten wie möglich hochzuladen, da ihr Volumen sehr groß sein kann und das Laden eines großen Datensatzes mithilfe von analytischen Abfragen auf mehrere Hindernisse stößt.

Erstens ist die Festplatte, auf der Informationen gespeichert werden, eine langsame Festplatte. Zweitens ermöglicht die Struktur der Datenspeicherung in einem herkömmlichen DBMS keine schnelle Durchführung einer analytischen Abfrage. Die Daten wurden zeilenweise gespeichert - so wie sie empfangen wurden, sodass die Werte, die zu einer Zeile gehören, physisch in der Nähe sind. Als Antwort auf eine analytische Abfrage muss die Datenbank die Werte einer Spalte zurückgeben, jedoch aus verschiedenen Zeilen. Daher sind solche Anforderungen langsam und verursachen eine große Belastung des Speichersystems. Das heißt, der Speicherort der Informationen auf der Festplatte ist unangemessen organisiert.

Daher waren herkömmliche DBMS, in denen alle anfänglichen Informationen für die Analyse ursprünglich gespeichert waren, schlecht geeignet, die Rolle einer Datenquelle zu spielen, mit der das Analysesystem direkt verbunden ist. Daher bestand im vergangenen Jahrhundert für analytische Aufgaben die Standardpraxis darin, ein Zwischendatenmodell zu verwenden, in dem alle Werte bereits zu einem bestimmten Zeitpunkt berechnet wurden. Dieses Datenmodell wurde als "analytischer Cube" oder OLAP-Cube bezeichnet. Um einen OLAP-Cube zu erstellen, wurden die sogenannten ETL-Prozesse (Extrahieren, Transformieren, Laden) entwickelt - Datenbankabfragen in den Quellsystemen und die Regeln, nach denen Datentransformationen durchgeführt werden sollen. Wenn der OLAP-Cube keine Informationen enthält, können diese natürlich nicht im Bericht angezeigt werden.

Das Problem bei diesem Ansatz waren die hohen Kosten der Lösung. Zunächst war ein Data Warehouse erforderlich, in dem die vorberechneten Indikatoren platziert wurden. Zweitens, wenn wir einen bestimmten Indikator in einem anderen Kontext benötigten, mussten alle Prozesse der Datentransformation auf dem Weg vom Quellsystem zum OLAP-Cube neu erstellt werden, indem analytische Abfragen neu geschrieben wurden, um ihn zu erhalten. Berechnen Sie dann den gesamten OLAP-Cube neu, was mehrere Stunden gedauert hat.

Angenommen, ein OLAP-Cube enthält Verkaufsinformationen für verschiedene Länder. Aber der CFO wollte plötzlich die Verkäufe nach Städten sehen und sie dann nach Durchschnittsrechnung gruppieren. Um einen solchen Bericht zu erhalten, musste er sich an die IT-Abteilung wenden, um den OLAP-Cube neu zu erstellen. Oder er könnte Dinge erzwingen und einen Kenner von MS Excel anziehen, der einen solchen Bericht manuell erstellen würde. Dazu musste er mithilfe analytischer Abfragen Daten aus den Quellsystemen in Tabellen entladen und eine Reihe mühsamer und nicht deklarierter Manipulationen mit ihnen durchführen.

Im ersten Fall musste der CFO warten. Im zweiten erhielt er Zahlen, denen man nur schwer vertrauen kann.

Darüber hinaus erwies sich die Lösung als sehr teuer. Es war notwendig, Geld für die Erstellung eines Repositorys auszugeben, das verwaltet werden muss. Es war notwendig, DBMS-Spezialisten für die ETL einzustellen - OLAP-Cubes für jede Aufgabe neu zu erstellen. Parallel dazu erschienen in der Regel spezielle Analysten im Unternehmen, die bei Bedarf Berichte erstellten (sogenannte Ad-hoc-Berichte). Tatsächlich haben sie verschiedene Methoden erfunden, um mit MS Excel den gewünschten Bericht zu erhalten, und die Schwierigkeiten überwunden, die mit der Tatsache verbunden sind, dass dieses Programm für andere Aufgaben entwickelt wurde.

Infolgedessen war der Berichtspfad selbst für große Unternehmen teuer. Manager aus kleinen und mittleren Unternehmen mussten sich mit den Möglichkeiten zufrieden geben, die in MS Excel verfügbar sind.

Die Lösung wurde an anderer Stelle gefunden.


1994 veröffentlichte das damalige schwedische Unternehmen QlikTech aus der Kleinstadt Lund das QuikView-Programm, das später in QlikView umbenannt wurde. Die App wurde entwickelt, um die Produktion zu optimieren. Es wurde möglich zu wissen, welche Teile und Materialien miteinander verbunden sind und welche nicht. Das heißt, das Programm musste die logischen Beziehungen zwischen Teilen, Materialien, Baugruppen und Produkten visualisieren. Zu diesem Zweck lud sie Datensätze aus verschiedenen Quellen in den RAM-Speicher, verglich sie und zeigte sofort die Verbindung.

Zum Beispiel gibt es mehrere Tische mit Schauspielern, deren Rollen in Filmen, Regisseuren, Genres, Veröffentlichungsterminen, Gebühren - mit allem. Alle von ihnen werden in den RAM geladen. Jetzt können Sie auf einen beliebigen Parameter klicken, um ihn auszuwählen und sofort alle anderen Parameter anzuzeigen, die ihm zugeordnet sind. Wir klicken auf Brad Pitt - wir bekommen eine Abendkasse aller Filme, in denen er mitgespielt hat. Wählen Sie Komödien - erhalten Sie die Anzahl der Kassenkomödien mit Brad Pitt. All dies geschieht sofort in Echtzeit.

Obwohl in jenen Jahren auf dem Markt für Unternehmensinformationssysteme analytische Aufgaben mithilfe von Zwischendatenmodellen - OLAP-Cubes - gelöst wurden, erwies sich der QlikTech-Ansatz als wesentlich praktischer. Es erlaubte, die Zwischenstufe in Form der Berechnung eines OLAP-Würfels aufzugeben und dadurch viel zu sparen.

Die analytische Anwendung wurde direkt mit den Quellen verbunden und lud regelmäßig alle für den Bericht erforderlichen Daten in den RAM. Die Notwendigkeit, ETL-Prozesse jedes Mal zu ändern, um die Werte von Indikatoren in neuen Abschnitten zu erhalten, ist verschwunden - jetzt werden sie zum Zeitpunkt der Anforderung in Echtzeit berechnet. Es ist nicht mehr erforderlich, ein Data Warehouse zu erstellen und zu verwalten. Die Betriebskosten der analytischen Lösung sind gesunken.

Mit der Verbreitung von 64-Bit-Servern, die es ermöglichten, mit großen Mengen an RAM zu arbeiten, begann die In-Memory-Technologie schnell, Business Intelligence zu ändern. Dies wird durch Berichte des Magic Quadrant-Forschungsunternehmens Gartner gut veranschaulicht. Im Jahr 2016 verließen sechs BI-Plattform-Entwickler gleichzeitig den Marktführer, darunter Branchenveteranen wie IBM, Oracle und SAP. Es gibt nur noch drei Spieler, die sich auf In-Memory-Technologie verlassen und OLAP-Cubes aufgegeben haben. Dies sind Microsoft, Qlik und Tableau.


Position der Spieler in Gartners Magic Quadrant für Analytics- und Business Intelligence-Plattformen ***

Wir können sagen, dass Qlik ein Pionier und Marktführer bei der Markttransformation geworden ist. Bis 2016 wurde die QlikView-Datenanalyseplattform von Kunden auf der ganzen Welt verwendet, und der Jahresumsatz lag über 600 Mio. USD.

Von Berichten bis zur datengesteuerten Verwaltung


Mit der Verbreitung von Analyselösungen auf Basis der In-Memory-Technologie eröffnete eine große Anzahl von Unternehmen bisher unzugängliche Möglichkeiten zur Verwendung von Unternehmensdaten. Es bestand die Möglichkeit, sich nicht auf Managementberichte zu beschränken, die für jede Branche Standard sind. Eine Vielzahl von Prozessen begann zu "messen" - um Metriken einzuführen und sie zur Beschreibung von Prozessen zu verwenden. Es ist viel einfacher geworden, objektive Informationen zu verwenden, um fundiertere Entscheidungen zu treffen. Die Anzahl der Geschäftsbenutzer, die mit Daten arbeiten, ist stark gestiegen.

Einen großen Einfluss auf das Interesse an der Nutzung von Daten hatten Änderungen im Verbraucherverhalten und im Marketing, die digital wurden, dh auf Metriken basierten. Viele neue Menschen haben sich für Data Science interessiert, weil sie erwartet haben, wie die Welt Big Data verändern wird.

Infolge all dieser Prozesse kam es schnell zu einer „Demokratisierung“ der Unternehmensdaten. Bisher gehörten Daten zu IT-Diensten. Marketing, Vertrieb, Business Intelligence und Führungskräfte kontaktierten die IT-Abteilung für Berichte. Jetzt arbeiteten die Mitarbeiter selbstständig mit den Daten. Es stellte sich heraus, dass der direkte Zugriff der Mitarbeiter auf Daten die Produktivität steigern und einen Wettbewerbsvorteil verschaffen kann.

Die erste Generation von In-Memory-Technologie-basierten Analyselösungen bot Geschäftsanwendern jedoch nur sehr begrenzte Möglichkeiten, Daten zu verwenden. Sie konnten nur mit vorgefertigten Bedienfeldern und Dashboards arbeiten. Die In-Memory-Technologie ermöglichte es ihnen, tief in jeden Indikator zu "fallen" und zu sehen, woraus er besteht. Es ging aber immer um die Indikatoren, die im Voraus festgelegt werden. Die Studie beschränkte sich auf Visualisierungen, die sich bereits im Dashboard befanden. Diese Methode zur Verwendung von Daten wurde als "Richtungsanalyse" bezeichnet, und er ging nicht davon aus, dass der Geschäftsbenutzer unabhängig neue Quellen verbinden und selbst Indikatoren und Visualisierungen erstellen würde.

Der nächste Schritt bei der Demokratisierung von Daten war die Selbstbedienung. Die Idee der Selbstbedienung war, dass Geschäftsbenutzer die Daten untersuchen, Visualisierungen erstellen und selbst neue Indikatoren einführen.

Es ist erwähnenswert, dass es zu dem Zeitpunkt, als die In-Memory-Technologie begann, die Geschäftsanalyse zu ändern, keine ernsthaften technologischen Hindernisse gab, bevor Benutzer Zugriff auf alle Daten erhielten. Die vielleicht konservativsten Kunden hatten eine Frage zur Angemessenheit einer solchen Funktion. Aber die Welt hat sich bereits in Richtung des Wunsches gedreht, "alles zu zählen". Jetzt brauchten Manager, die keine mathematischen Kenntnisse und Programmierkenntnisse haben, auch ein Werkzeug, mit dem sie die Datensprache sprechen können.

Der direkte Zugriff auf Daten für Geschäftsanalysten hat viele neue Möglichkeiten eröffnet. Sie könnten Hypothesen aufstellen und testen, Data Science-Methoden anwenden, solche Abhängigkeiten identifizieren, deren Existenz im Voraus schwer vorherzusagen ist. Jetzt können Sie interne Unternehmensdaten mit externen Daten aus Quellen von Drittanbietern kombinieren.

Im September 2014 veröffentlichte Qlik die zweite Generation seiner Plattform namens Qlik Sense. Qlik Sense verwendete dieselbe Architektur und dieselbe Technologie. Der Unterschied lag im neuen Ansatz zur Erstellung von Visualisierungen. Jetzt können Standardvisualisierungen im laufenden Betrieb erstellt werden, indem einfach Felder mit den gewünschten Abmessungen auf das Arbeitsblatt gezogen und dort abgelegt werden. Dies vereinfachte das Data Mining aufgrund einer sehr starken Verkürzung des Forschungszyklus. Ein Hypothesentest dauerte nur ein paar Sekunden.

Möglicherweise war das schnelle Umsatzwachstum bei Self-Service-Analyseplattformen hauptsächlich auf die einfache Demonstration zurückzuführen. Wenn der Kunde früher unter Berücksichtigung der Präsentationsfolien eine Kaufentscheidung treffen musste, konnte er das Programm jetzt auf seinem Computer installieren, eine Verbindung zu Quellen herstellen und in wenigen Stunden von der Erstellung eines Dashboards bis zum Öffnen in seinen Daten gehen.

Es gibt Daten. Was jetzt?


Die In-Memory-Technologie hat einen großen Einfluss darauf, wie Unternehmen Informationen heute nutzen. Das Kombinieren und Erkunden von Daten ist einfacher geworden, und es war ein starker geschäftlicher Vorstoß zur digitalen Transformation. Es ist jedoch töricht zu sagen, dass die digitale Transformation alltäglich geworden ist und jetzt jedes Unternehmen sie leicht umsetzen kann.

Aus technologischer Sicht ist alles einfach, solange die untersuchte Datenmenge auf mehrere Excel-Tabellen beschränkt ist. Wenn es darum geht, Milliarden von Datensätzen zu kombinieren, wird die Aufgabe aus technischer Sicht höchstwahrscheinlich weiterhin schwierig sein, und ihre Lösung erfordert Fachwissen auf dem Gebiet der BI- und technischen Erkenntnisse. Insbesondere, wenn Sie die Datenqualität noch verwalten müssen, was für die meisten mittleren und großen Unternehmen eine häufige Aufgabe ist.

Aus geschäftlicher Sicht ist alles einfach, solange Sie Berichte oder Dashboards mit branchenüblichen Indikatoren benötigen. Wenn es sich um ein Analysesystem handelt, zu dem ständig neue Quellen hinzugefügt, neue Metriken eingeführt und Experten aus verschiedenen Bereichen in all dies einbezogen werden, gibt es auch keine Einfachheit.

Dies sind jedoch nicht die Schwierigkeiten, die Kunden vor einigen Jahren überwunden haben. Der heutige Reifegrad von Analyseplattformen ist so, dass Sie selbst bei vielen Anfangsdaten nicht mehr auf die Berechnung der Indikatoren warten müssen und den erhaltenen Zahlen vertrauen können. Im Zentrum der Transformation steht das In-Memory-Computing.

Die nächste Technologie, die den Markt für analytische Lösungen verändern wird, dürften Cloud-Plattformen sein. Die Infrastruktur von Cloud Service Providern (CSP) wird zusammen mit einer Reihe von Diensten bereits zu einer Datenverwaltungsplattform.



Quellen:

* IDC, "Market Guide for In-Memory Computing Technologies", www.academia.edu/20067779/Market_Guide_for_In-Memory_Computing_Technologies

** Jim Gray "Distributed Computing Economics", www.microsoft.com/en-us/research/wp-content/uploads/2016/02/tr-2003-24.doc

*** In der interaktiven Visualisierung können Sie sehen, wie sich die Situation von BI-Plattformentwicklern in Gartner Magic Quadrant-Berichten von 2010 bis 2019 geändert hat: qap.bitmetric.nl/extensions/magicquadrant/index.html

Source: https://habr.com/ru/post/de470113/


All Articles