Lost in Big Data?
Die fehlgeleitete Vorstellung, das Datenuniversum zu beherrschen.
“. . . In diesem Reich erreichte die Kunst der Kartographie eine solche Perfektion, dass die Karte einer einzigen Provinz die Fläche einer gesamten Stadt und die Karte des Reichs die Fläche einer gesamten Provinz bedeckte. Mit der Zeit waren diese unzumutbaren Karten nicht mehr zufriedenstellend, sodass die Kartographengilden eine Karte des Reichs anfertigten, deren Größe der des Reichs entsprach und welche diesem Punkt für Punkt entsprach.[…]”
Übersetzung nach „Del rigor en la ciencia“ (Über die Genauigkeit von Wissenschaft)
Jorge Luis Borges
Borges Geschichte folgt der Vorstellung eines Reiches, das besessen von der Idee ist, eine perfekte Abbildung der Welt zu schaffen. Das fiktive Reich hat sich voll und ganz der Aufgabe verschrieben, eine Karte zu erstellen, die mit dem Territorium des Reichs Punkt für Punkt übereinstimmt. Heute komme ich nicht umhin, zu denken, dass wir uns in einer sehr ähnlichen Umgebung befinden: Daten verändern die Welt, in der wir leben und wie wir diese wahrnehmen, in tiefgreifender Weise. Wir befinden uns inmitten einer Datenrevolution, die so groß, allumfassend und neu ist, dass sie in Gänze kaum zu erfassen ist. Die Auswirkungen von Daten machen sich auf einer immensen Bandbreite bemerkbar; wir möchten Big Data nutzen, um ganze Industrien zu revolutionieren, von Marketing und Vertrieb bis zu Wettervorhersagen, von medizinischen Diagnosen bis zu Lebensmittelverpackungen, von der Aufbewahrung von Dokumenten und der Verwendung von Software bis zur Kommunikation. Tatsächlich sind wir sehr ähnlich zu Borges fiktivem Reich zu der Überzeugung gelangt, dass wir, je mehr Daten wir sammeln und auswerten können, desto mehr Wissen über die Welt und die darin lebenden Menschen gewinnen. Wie töricht der Datenwahnsinn doch geworden ist.
Es herrscht mittlerweile die Überzeugung vor, dass Big Data umsetzbare Erkenntnisse zu nahezu jedem Aspekt des Lebens liefern können. Philip Evans und Patrick Forth widersprechen dem: „Informationen werden durch grundlegend neue Methoden der künstlichen Intelligenz verstanden und verwendet, die darauf abzielen, über Algorithmen, die auf massive, verrauschte Datensätze zurückgreifen, Erkenntnisse zu gewinnen. Da größere Datensätze zu besseren Erkenntnissen führen sind Big Data eine gute Sache“ (Übersetzung nach ihrem gemeinsamen Artikel in bcg.perspectives). In Übereinstimmung mit diesen Zeilen wird unser Datenhunger immer größer und unser digitales Ökosystem schürt diese Entwicklung: Sensoren, Connected Devices, Social Media und eine wachsende Anzahl an Clouds produzieren kontinuierlich neue Daten, die wir sammeln und auswerten können. Laut einer Studie der International Data Corporation (IDC) wird sich das digitale Universum alle zwei Jahre verdoppeln. Zwischen 2005 und 2020 vergrößerte sich das Datenvolumen um den Faktor 300 auf 40 Zettabyte an Daten. Ein Zettabyte hat 21 Nullen. In dieser Welt des exponentiellen Datenwachstums geht die angestrebte Anhäufung von Daten ungebremst weiter. So wie in Borges fiktivem Reich ist die äußere Maßstabsgrenze ein Verhältnis von 1:1, eine vollständige digitale Abbildung unserer Welt.
Unternehmen wie IBM oder LinkedIn nähern sich dieser Grenze bereits heute mit großen Schritten an. IBM trainiert sein kognitives Rechensystem namens Watson darauf, buchstäblich jede Frage beantworten zu können. Hierzu sammelt IBM Watson ungeahnte Datenmengen, um einen beeindruckenden Informationskorpus anzulegen. Das Unternehmen erwarb vor kurzem für 2,6 Milliarden $ das Unternehmen Truven Health Analytic, das seine Gesundheitssparte um einen wichtigen Speicher mit Gesundheitsdaten von tausenden Krankenhäusern, Arbeitgebern und föderalen Regierungen in den USA erweitert. Es handelte sich dabei um den viertgrößten Erwerb eines Gesundheitsdatenunternehmens seit dem 10-monatigen Bestehen von IBM Watson. Dies zeigt, wie wichtig die digitale Kartierung von Patienten, Diagnosen, Behandlungen und Krankenhäusern für das künstliche Intelligenzsystem des Computerriesen ist. Die Vision von LinkedIn ist gleichermaßen ambitioniert: es wird „Economic Graph“ geschaffen, nichts geringeres als eine digitale Kartierung der Weltwirtschaft. Die Karte soll ein Profil von allen 3 Milliarden Mitgliedern der globalen Arbeiterschaft beinhalten. Alle Unternehmen, alle ihre Produkte und Dienstleistungen, die von den Unternehmen gebotenen Wirtschaftschancen und die Skills, die zum Erreichen dieser Chancen erforderlich sind, sollen digital abgebildet werden. Außerdem soll ein digitaler Auftritt für alle höheren Bildungseinrichtungen der Welt integriert werden. Aber die Bestrebungen der beiden Unternehmen sind nur die Spitze des Eisbergs. Ihr Vorhaben, eine vollständige digitale Abbildung der jeweiligen Felder zu erstellen, steht symbolisch für die allgemeinere Bestrebung eine allgegenwärtige Informationsgesellschaft zu schaffen.
Die Visionen von Unternehmen wie IBM Watson und LinkedIn erwecken daher bereits eine Welt zum Leben, die Borges Vorstellungen entspricht. Die Macht der Big Data überträgt die kartographischen Ziele von dem Reich aus Borges Geschichte und erschafft diese neu. Die Welt wird zu einem Bezugspunkt ihrer selbst. Die digitale Abbildung unserer Welt nimmt schnell an Fahrt auf und an den äußeren Rändern fangen Abbildung und Realität bereits an, übereinzustimmen. Die Welt und das Bild, das wir von ihr haben, konvergieren. Plötzlich finden wir uns in einer Welt wieder, die erstaunliche Ähnlichkeit zu Borges Reich hat.
Wie töricht – Borges Geschichte geht so weiter, dass der Sinn einer solchen massiven Kartierung in Frage gestellt wird. Eine Karte im Maßstab von 1:1 ist, sei es kartographisch oder digital, ist wahrscheinlich nicht so wertvoll wie gedacht.
„[…] Die nachfolgenden Generationen, die dem Kartographiestudium nicht so zugewandt waren, wie es ihre Vorfahren gewesen waren, stellten fest, dass riesige Karten nutzlos wären und überließen diese schonungslos der Witterung durch Sonne und Winter. In den Wüsten des Westens gibt es noch heute zerfetzte Überreste dieser Karte, auf der Tiere und Bettler leben; im ganzen Land ist kein anderes Relikt vom Fachgebiet der Geographie zu finden.“
In Borges fiktiver Welt entsorgten die kommenden Generationen die Karte ihrer Vorväter, da sie nicht von dem gleichen Ehrgeiz wir ihre Vorfahren erfasst waren und erkannt hatten, dass eine Karte im Maßstab von 1:1 unnütz wäre. Sie überließen die Karte dem Zerfall und das einzige, was übrig blieb, waren die „zerfetzten Überreste“ von der Karte ihrer Vorfahren. Die Feststellung, dass eine Karte im Maßstab von 1:1 praktisch nutzlos ist, spiegelt auch unsere Erfahrung mit dem expandierenden Datenuniversum wieder. Professor Patrick Wolfe, Executive Director des Big Data Institute des University College of London warnt: „die Rate, in der wir Daten generieren, übersteigt rasant unsere Fähigkeit, diese analysieren zu können.” Derzeit werden nur etwa 0,5% aller Daten ausgewertet und Wolfe meint, dass diese Prozentzahl weiter sinken wird, da mehr Daten gesammelt werden. Wir beginnen also, die Unbrauchbarkeit der von uns geführten Massen von Daten zu realisieren. Anstatt durch Daten exponentiell mehr Wissen über die Welt zu gewinnen, schaffen wir eine Entität, die aufgrund ihrer bloßen Größe droht in Vergessenheit zu geraten.
Um unsere ständig wachsende digitale Sammlung vor dem selben Schicksal wie Borges Karte zu bewahren – die von den uns nachfolgenden Generationen als zerfetzter Überrest verkommt – ist es von entscheidender Bedeutung, umsetzbare Erkenntnisse aus diesen Informationen zu gewinnen. Dementsprechend wird die Fähigkeit, diese Massen gesammelter Daten vollständig zu verstehen und relevante Erkenntnisse daraus abzuleiten, heute und vor allem in Zukunft der ultimative Wettbewerbsvorteil sein.
Auch wenn sich bereits viele für die Umwandlung von Big Data in smarte oder intelligente Daten aussprechen, hat sich bislang keine brauchbare Lösung hervorgetan, um diesen Wandel wirklich realisieren zu können. Die angewandte Mathematik, die natürliche Verarbeitung von Sprache und das Maschinenlernen halten sich die Waage und verdrängen jedes andere Tool, das ggf. zur Anwendung gebracht wird. Die Idee besteht darin, dass bei einer ausreichenden Menge an Daten die Zahlen für sich sprechen. Oder in den Worten von Evans und Forth: „Big Data sind eine gute Sache“. Diese Idee verändert die Kultur des Silicon Valley und im Weiteren auch die zahlreicher anderer Unternehmungen auf der Welt.
Andere Methodologien wie Ontologien, Taxonomien und Semantiken finden bei dem aktuellen Entdeckergeist überhaupt keine Berücksichtigung. Die angewandte Mathematik, das Maschinenlernen und die prädiktive Analytik stehen hierbei für Größe, Ontologien, Taxonomien und Semantiken stehen für Bedeutung und Verständnis. Und auch wenn letztgenannte Kategorie im Vergleich zu den Dimensionen der zuerst genannten Kategorien weniger bedeutsam erscheinen mag, ist die Semantik nicht weniger wichtig, um die Wettbewerbstauglichkeit von Unternehmen zu bestimmen. Nach dem exponentiellen Wachstum des digitalen Universums in den vergangenen Jahren, haben wir einen Komplexitätsgrad erreicht, der die Einführung eines tiefgreifenden Verständnisses der vorliegenden Daten erforderlich macht. Dies ist etwas, was nicht dadurch geschafft werden kann, dass noch mehr Daten gesammelt werden oder dass ein Algorithmus implementiert wird. Ironischerweise ist es somit ein Richtungswandel, der weg von dem Motto „Big Data sind eine gute Sache“ führt, welcher das ganze Potenzial der Big Data zur Geltung bringen kann.
Die fehlgeleitete Vorstellung, das Datenuniversum zu beherrschen.