13.06.2019

Nutzt eure Daten!

Analyse ungenutzter Daten durch Big-Data und maschinelles Lernen

| 13.06.2019

Daten - das Gold des 21. Jahrhunderts

In der Industrie 4.0 ist die wichtigste und wertvollste Ware kein materielles Gut mehr, sondern es ist ein immaterielles: die Information. War im 20. Jahrhundert noch die Suche nach Informationen die größte Anstrengung, ist es heute die Sondierung und Kategorisierung zur Mustererkennung und Analyse. Die Schlacht um den Kunden wird nun nicht mehr über das Material geführt, sondern über die Art, wie die Informationen über den Kunden und die eigenen Unternehmenskennzahlen ausgewertet werden. Das betrifft nicht nur große Unternehmen wie Konzerne, die mit gigantischen Datenmengen mannigfaltige Ableitungen bilden können, sondern auch KMUs, die selbst mit kleinen Datenmengen Diagnosen und Prognosen erstellen können, um sich in den Bereichen Beschaffung, Produktion, Lagerung, Transport und Verkauf zu verbessern. Durch Mustererkennungsprogramme, Big-Data Analyse Tools und Extrapolierungsverfahren lassen sich bemerkenswerte Hard- und Soft Facts zu den Kunden und den Unternehmensvorgängen ableiten.

Infografik

Deep Learning, maschinelles Lernen, Big-Data - eine Abgrenzung

Obwohl in aller Munde, werden die Bezeichnungen Deep Learning und Big Data immer wieder falsch angewendet. Unter Big-Data versteht man die komplexe und unstrukturierte Gesamtheit an Daten die zu einem bestimmten Sujet oder allgemein gesammelt werden. Dazu gehören auch Informationen, deren Relevanz zeitlich begrenzt ist. Gerade deswegen ist eine effiziente Auswertung großer Datenmengen erforderlich. Ein Mensch ist nicht in der Lage, in kurzer Zeit bei großen, scheinbar nicht zusammenhängenden Daten, Muster zu erkennen, die für das Unternehmen relevant sein könnten. Deswegen ist für die Analyse von Big Data künstliche Intelligenz mit Deep Learning erforderlich. Unter maschinellem Lernen in Bezug auf Big-Data versteht man die Fähigkeit einer Software, selbstständige Analyseentscheidungen zu treffen und die gesammelten Informationen zu nutzen, um die eigenen Fähigkeiten zu erweitern und damit noch effizienter analysieren zu können. Im Endeffekt entwickelt die Software dabei Verfahren, die für einen Menschen nicht mehr zu durchschauen sind, da sie auf der Erfahrung und dem Wissen der Software basieren und Zusammenhänge gefunden werden, die zunächst absurd erscheinen. Hier ein exemplarisches Beispiel um die Erkenntniskraft maschinellen Lernens zu verdeutlichen: Durch die Auswertung tausender Patientengespräche hat ein Algorithmus der Universität Kalifornien (USC) herausgefunden, dass die Stimme eines Menschen geringfügig verändert ist, wenn er unter einer Depression leidet. Das Analyse Tool SimSensei nutzt diese Erkenntnis mittlerweile erfolgreich im klinischen Bereich. Einem Menschen wäre die nicht wahrnehmbare Änderung der Stimmmodulation nie aufgefallen, doch eine künstliche Intelligenz, die maschinelles Lernen beherrscht, kann derartige Schlüsse ziehen.

Kunden- und Unternehmensdaten zu Big-Data veredeln

Die Frage für Unternehmer lautet: Wie kann ich konkret meine Kunden- und Unternehmensdaten nutzen, um meinen Gewinn zu erhöhen und meine Verfahren zu optimieren? Oft liegen gerade in KMUs zahlreiche Kundendaten ungenutzt brach, da die Unternehmer nicht wissen, dass (und vor allem wie) sie mit den Daten Gewinn machen können. Auch aus kleinen Datenmengen lassen sich Trends und Tendenzen ab- und nachzeichnen sowie Muster herauslesen. Im Gegensatz zum sogenannten Small Data, wobei nur die Informationen gesammelt werden, die für eine bestimmte Erkenntnis erforderlich sind, werden bei Big Dataalle Arten von Daten gesammelt, da sich die Einsatzgebiete und Schlussfolgerungen erst bei der Analyse ergeben. Dazu zählen bei Kundendaten Hard Facts wie Alter, Adresse und Geschlecht, aber auch Details wie Einzelheiten der Bestellungen (Datum, Menge, Differenz zur letzten Bestellung), etwaige Kundenkorrespondenz, Informationen für einen Cross-Selling-Ansatz und vieles mehr. Zu einer akkuraten Big Data Pflege gehören aber auch sämtliche Unternehmensdaten von allen Abteilungen. So lassen sich Fertigungs- und Absatztrends herauslesen, die eine intelligente Produktion, eine intelligente Wartung und einen intelligenten Vertrieb erlauben. Entscheidend ist hierbei, sämtliche Daten automatisiert zu sammeln und in die entsprechenden Analysetools einzuspeisen. Anders als bei Small Data ist bei Big-Data im Vorfeld nicht unbedingt klar, wofür die Daten genau verwendet werden können. Die künstliche Intelligenz findet mit Hilfe von maschinellen Lernen aus dem Datenwust Muster, die sich dann in konkrete Handlungsanweisungen für den Unternehmer übertragen lassen können.

Tools zur optimalen Auswertung

Für die Auswertung der gesammelten Daten gibt es eine Vielzahl an Tools, die für unterschiedliche Mustererkennungen sowohl in großen Unternehmen als auch einem KMU geeignet sind. Zu den kostenfreien Programmen gehören zum Beispiel das von OW2-Konsortium entwickelte Knowage, welches in JavaScript geschrieben ist und beispielsweise georeferenzierte Statistiken erstellen kann und mit Hilfe von Data Mining versteckte Informationen entdeckt. Ebenfalls kostenlos ist der Konstanz Information Miner (kurz: KNIME), der die Bearbeitung sehr großer Datensätze erlaubt, wie beispielsweise 300 Millionen Adressdaten, 10 Millionen molekulare Strukturen und 20 Millionen Zellbilder. Im Gegensatz zu den meisten anderen Analyse Tools ist KNIME nicht arbeitsspeicherbasiert, weshalb eine Analyse derart großer Datenmengen möglich ist.

Ein drittes Open-source Analyse Tool ist BIRT-Projekt, das von der Non-profit-Organisation Eclipse entwickelt wurde und auf Datenquellen wie SQL-Datenbanken, XML und Webdienste sowie JDO-Datenspeicher oder JFire-Skriptobjekte zugreifen kann.

Zu den Cloud-basierten Analyse Programmen gehört das vom gleichlautenden Hersteller entwickelte Talend, das mit nativer Codegenerierung unkomplizierte und schnelle Datenverarbeitung verspricht. Aus dem Hause Apache (einer ehrenamtlichen Organisation zur Förderung von Softwareprojekten) kommen zwei Big-Data Analyse-Tools. Das jüngere der beiden Programme ist Apache Kafka, welches dank hoher Fehlertoleranz, einer guten Skalierbarkeit sowie seines verteilten Systems (distributed computing) Datenströme effizient speichern und verarbeiten kann und eine Schnittstelle zu Drittsystemen bereitstellt. Das ältere der beiden ist Apache Hadoop, das unter anderem von Facebook und IBM zur Datenverarbeitung genutzt wird. Mit Apache Hadoop lassen sich nämlich komplizierte und umfassende Rechenprozesse auch mit gigantischen Datenmengen auf Computerclustern bewerkstelligen. Nicht in Java oder JavaScript programmiert, sondern auf Python basierend und in C++ implementiert, ist das Analyse-Tool Tensorflow. Mit diesem werden beispielsweise die Google Street View Bilder analysiert und ausgewertet. Auch Tensorflow ist ein Open-source (frei zugängliches) Programm. Für die Auswertung von Bild- und Videoaufnahmen hat Intel die Programmbibliothek OpenCV entwickelt, mit der maschinelles Sehen und Gesichtserkennung möglich sind. Die leistungsfähigen Algorithmen arbeiten mit einer sehr hohen Geschwindigkeit und unterstützen Gestenerkennung, stereoskopisches Sehen, die Nächste-Nachbarn-Klassifikation (Schätzung von Wahrscheinlichkeitsdichtefunktionen) oder den Kalman-Filter (Reduktion von Fehlern bei Messwerten und Schätzungen) zum Tracking. OpenCV ist unter anderem mit dem Tool Tensorflow kompatibel, sodass die gesammelten Daten ohne Compilierung (Umwandlung in für das Tool verständliche Sprache) eingepflegt und genutzt werden können.

Wie aus Big Data Smart Data wird

Im 21. Jahrhundert sind Informationen der wertvollste Besitz des Unternehmers. Allerdings nur dann, wenn er sie zu nutzen weiß. Big Data alleine bringt noch keinen Gewinn. Auch die strukturierte Aufbereitung der Daten mit Hilfe der Tools ist im ersten Schritt nur eine Fleißaufgabe. Der wichtigste Schritt ist die Analyse. Die Extraktion von Smart Data aus großen Datensätzen. Dies geschieht mit sogenannten Algorithmen, die durch maschinelles Lernen einer künstlichen Intelligenz Strukturen in den Big Data Rohdaten erkennen und sie in Smart Datakonkretisieren und für den Nutzer lesbar machen. Die bekannteste Schmiede solcher Algorithmen ist Algorithmia, wo Unternehmen die Tools entweder in ihre bestehenden Soft- und Hardwarelösungen einbauen oder selbst Algorithmen zum Verkauf anbieten können. Weitere Marktplätze für Big Data Algorithmen sind das von Google geschaffene Kaggle.com oder der schweizer CrowdAI.

Grundsätze zur Auswertung

Obwohl die Thematik des Big Data und deren Anwendung noch relativ jung ist, hat sich für die algorithmische Auswertung folgende Betrachtung etabliert: Die gesamte Menge an Daten wird mit einem Wert "Volume" umschrieben. Aus dieser Gesamtheit werden dann Themengebiete abgeleitet, "Variety". Der dritte Gesichtspunkt ist die Geschwindigkeit, mit der die Informationen bearbeitet werden, "Velocity" und der vierte die Authentizität bzw. Plausibilität, "Veracity" (Stichwort: Fake News). Schritt fünf klärt die Frage der Datenquellen bzw. der Art des Ausgangsmaterials/-formats, "Viability". Nächster Aspekt ist die "Visibility", die Sichtbarkeit der Daten. Den sichtbaren Daten steht das unbekannte Dark-Data gegenüber. Und unter "Volatility" wird die Dauer der Verfügbarkeit der Daten umrissen (Stichwort: Datenschutz) und im letzten Schritt wird der Wert, "Value", der Informationen definiert. Sprich: wie relevant sind die Daten, welche ökonomische Bedeutung haben sie? Im Endeffekt entstehen Erkenntnisse, mit denen der Unternehmer die eigenen Unternehmenskennzahlen verbessern, die Effizienz steigern und Abläufe optimieren kann. Das Gold des 21. Jahrhunderts ist täglich in gigantischen Mengen verfügbar, es muss nur als solches erkannt und genutzt werden.

Kommentare