Immer noch mehr Lärm um nichts… oder warum der Hype um Big Data und AI meist mehr mit Selbstvermarktung als mit Fakten und Fortschritt zu tun hat.
Wir produzieren alle zwei Tage die Menge an Daten, die vorher insgesamt bis zum Jahr 2003 produziert wurde. Mit diesem Faktum schockierte der ehemalige CEO Googles, Eric Schmidt, schon 2010. Seitdem hat sich die Datenproduktion natürlich noch beschleunigt. Obwohl «Massendatenverarbeitung» zwar nichts Neues ist, ist erst in den letzten Jahren der Hype um den bekannteren Begriff «Big Data» richtig entfacht [1]. Doch viel zu schnell verlieren sich viele in diesem immer grösseren Daten-Dschungel und abstrusen Methoden.
Zufälle können nicht errechnet werden
Denn «Mehr Daten bedeutet eben nicht mehr Wissen», proklamiert Gerd Antes prägnant im Interview mit dem Tagesanzeiger. Der Mathematiker kritisiert den Rummel um Big Data Nutzung scharf, denn durch die Masse an Daten würden zufällige Korrelationen wahrscheinlicher. So zeigen der Pro-Kopf-Käsekonsum und die Anzahl Toter durch Verheddern im Bettlaken in den USA eine identische Kurve auf. Während eine maschinelle Analyse möglicherweise Rückschlüsse daraus gezogen hätte, erkennt ein menschlicher Wissenschaftler sofort, dass dies ein Zufall ist. [2]
Zufälle gibt es jedoch laut vielen Big Data Anhängern nicht mehr. Wenn genügend grosse Datenmengen verfügbar sind, meinen diese Anhänger nun, dass damit auch sämtliche Zusammenhänge vorausberechnet werden können. Und zwar mithilfe von Machine oder Deep Learning sowie den richtigen Analysen. Die Erfahrung und verfügbaren Trainingssets (aus der Vergangenheit) würden dafür vollends ausreichen, und Fehlerbereiche aufgrund fehlender oder irrelevanter Daten gebe es kaum oder keine. Dieser Rückschluss ist doch überaus fatal. Natürlich können gewisse Bereiche, Zeiträume und Zusammenhänge, etc. für die etwas eher oder weniger wahrscheinlich eintritt, leichter erschlossen werden. Jedoch bedeutet dies noch lange nicht, dass deshalb keine Zufälle bzw. wesentliche Abweichungen möglich sind. Wie soll beispielsweise eine Analyse gesammelter Daten aus der Vergangenheit Verkehrsunfälle in der Zukunft präzise voraussagen? Oder auch Krankheiten? Schliesslich sind Krankheitsverläufe – und damit digitale Daten von Patienten – längst nicht immer vollständig, einheitlich und aussagekräftig genug. [2]
Datenanalyse kann also lebensbedrohlich sein…
Gerade in der Medizin warnt nicht nur Gerd Antes vor dem Big Data und AI Hype. Wird eine falsche Behandlungsmethode aufgrund von Ergebnissen von Big Data Analysen und Machine Learning angewendet, können die Auswirkungen sehr gefährlich sein – für den Menschen, für das Portemonnaie und für die Reputation. Denn vielleicht werden bei dieser Riesenmenge an Daten die wahren Korrelationen und Ungereimtheiten gar nicht erst entdeckt. Korrelationen und Ungereimtheiten, die Leben bedrohen oder retten können. [2]
Erst kürzlich geriet IBM erneut in die Negativ-Schlagzeilen, als das Medienunternehmen STAT für einen Bericht IBM-interne Dokumente analysierte, welche konkludierten, dass Watson for Oncology wiederholt «unsichere und inkorrekte» Krebsbehandlungen empfohlen hatte. Ebenso besagten diese, dass IBM-Mitarbeiter und -Vorgesetzte davon in Kenntnis waren. Immerhin sei aufgrund dieser Empfehlungen noch kein nachgewiesener Todesfall aufgetreten, jedoch haben viele renommierte Spitäler beschlossen, die mehrere millionenteure Technologie nicht mehr einzusetzen. [3]
Insofern sind in diesem Bereich erste Anzeichen eines Umdenkens sowie eines wieder etwas rationaleren Vorgehens zu erkennen. Schliesslich ist auch der noch vor 2-3 Jahren scheinbar grenzenlose Hype um IBM‘s Wundercomputer Watson im Bereich Medizin wieder am Abklingen. Viele weitere, ähnliche Anwendungsgebiete werden folgen. Spätestens, wenn es wieder mehr um Fakten, belastbare Ergebnisse und Relevanz geht, und weniger um grossspurige Selbstvermarktung sowie vollmundige Versprechungen der bekannten globalen Tech-Konzerne und deren oft noch sehr experimentellen Produkte. Sicher ist, dass die vorgängig beschriebenen Erkenntnisse und Learnings aus der Medizin nahezu 1:1 auf den digitalen HR-Markt zu übertragen sind, wo diese beispielsweise beim Matching von Jobs und Talenten Anwendung finden.
Vertrauenswürdiges Wissen kommt von Experten
Schon vor über fünf Jahren provozierte Cornel Brücher mit seinem Werk «Rethink Big Data» und bezeichnete die Big Data Anhänger als Narren. [2] Wir bei JANZZ haben schon von Anfang an dies sehr ähnlich gesehen. So ist es schlichtweg nicht möglich, Wissen im Umfeld von Jobs und CV’s, komplexerer Occupation Data etc. mit Machine Learning allein zu erlangen. Alle, die etwas anderes behaupten, liegen nachweislich falsch. Und diese Behauptungen bleiben falsch und nutzlos, egal, wie oft man die gleichen Ideen und Produkte wieder neu anpreist und vermarktet. Und selbst dann noch, wenn noch viel mehr Geld als bereits bis anhin in diese Technologien investiert wird.
Deswegen und trotz der vielen Investitionen sind die Ergebnisse, die auf dieser immer gleichen Herangehensweise basieren, immer noch weitgehend unzureichend, und haben sich darüber hinaus während der letzten Jahre kaum noch weiter verbessert. Und zwar unabhängig davon, wie gross die dafür verwendeten Datensätze z.B. bei LinkedIn, IBM & Co. auch sein mögen. Die Ergebnisse aus Machine Learning werden nicht nur immer fehlerbehafteter je mehr Faktoren und Variablen und damit komplizierte Regeln und Relationen hinzukommen, es resultieren daraus auch diese falschen Korrelationen oder zeitweise sogar vermeintliche Kausalität. Knowledge Graphs, bzw. Ontologien dagegen schaffen die Möglichkeit, Wissen in einer sehr tiefgehenden und strukturierten Art und Weise abzubilden und zu nutzen. Dadurch, dass das Wissen von Experten in ihrem Bereich strukturiert abgelegt und verbunden ist – und nicht durch Informatiker berechnet, die nun mal Experten im Programmieren sind, aber beispielsweise nicht in der Medizin oder in unterschiedlichen Ingenieurberufen oder Investmentbanking-Bereichen etc., – ist das Wissen von Knowledge Graphs sehr gut überprüfbar und vertrauenswürdig. Eine wichtige Eigenschaft, die beim Errechnen aus Machine Learning fehlt. Da Knowledge Graphs die Zusammenhänge zwischen vielen verschiedenen Bereichen verstehen, können nur diese relevante und präzise Suchergebnisse und Empfehlungen liefern. So zum Beispiel im Bereich Occupation Data: Weil ein Knowledge Graph den Unterschied und die Zusammenhänge zwischen Kompetenzen, Erfahrungen, Funktionen, Spezialisierungen und Ausbildung erkennt, weiss dieser, dass für Jobtitel «J» mit Ausbildung «A», Kompetenz «K» wichtig ist. Nehmen wir als Beispiel einen «Senior Cloud Architect»: Ein Knowledge Graph erkennt diesen Jobtitel und weiss, dass beispielweise das Masterstudium «Computer Science» eines Tages zu diesem Titel führen könnte, wenn der Bewerber gleichzeitig beispielsweise die Kompetenz «Cloud Solution Development», sowie einige Jahre Berufserfahrung nachweisen kann.
Auch Google vertraut bei Occupation Data auf Experten bzw. auf einen Knowledge Graph
Dies proklamierte schliesslich auch Google, als das Unternehmen ihren Knowledge Graph «Google Cloud Jobs API» lancierte, worauf ihre Google for Jobs Suche aufbaut (Siehe „Google Launches its Ontology-powered Jobs Search Engine. What Now?“). Google erkannte damals, dass ein Ontologie-basierter Ansatz bessere Suchergebnisse liefert. Bei einer semantischen Suche, die sich auf das Wissen eines Knowledge Graphs stützt, kämen bei einer Suche eines «Admin Assistant» keine Ergebnisse hinzu, die nur dem Suchwort ähnlich sind, wie «HR Admin» oder «Software Admin». Gleichermassen könnte eine Big Data Analyse womöglich zufällige Korrelationen ermitteln und somit ganz andere, dritte Jobs vorschlagen, die lediglich ähnliche Kompetenz-Anforderungen aufweisen (so benötigen sicherlich sowohl Ingenieure als auch Büroangestellte Wissen über Microsoft Office).
Den Unterschied und damit wahrlich die Jobsuche und das allgemeine Verständnis für Berufe und ihre Zusammenhänge zu kennen, geht also meist nur mit einem Knowledge Graph. So erläuterte Matt Moore, Produktmanager der Google Cloud, den Sinn und Grund für die Google Cloud Jobs API: «Wir wollen allen Arbeitgebern und Bewerbern bessere Erfahrungen bei der Jobsuche ermöglichen. Denn seien wir ehrlich: Die richtigen Personen einzustellen, ist das Wichtigste, was Unternehmen tun müssen.« [4]
Nur Menschen verfügen über die nötigen Menschenkenntnisse…
Und da stellt sich die Frage, wem man wirklich vertrauen kann, wenn es um die wohl wichtigste Aufgabe geht: die Auswahl des Personals. Eine unendliche Geschichte: Nach dem Lebenslauf beurteilt, war der Bewerbende der perfekte Kandidat/die perfekte Kandidatin, doch menschlich passte es dann leider überhaupt nicht. Solche Schlussfolgerungen zu ziehen, die die verfügbaren (digitalen) Daten nicht suggerieren, bewegt sich auf einer Ebene, auf der HR-Spezialisten, sprich Menschen am Zug sind. Technologische Tools können Lebensläufe nach offensichtlichen Erkenntnissen wie Ausbildung, Skills, Erfahrung, etc. verwalten und ranken, falls die Datenflut beherrschbar ist und vor allem korrekt ausgewertet wird. Auch der beste Kandidat auf dem Papier kann durch die grossen Mengen an falsch interpretierten oder unverstandenen Kriterien plötzlich in der Menge verschwinden. Und CV Nr. 1 gehört eben nicht immer dem besten Kandidaten, bzw. der besten Kandidatin. Im festen Glauben daran, auch diesen letzten Rest Faktor Mensch endgültig aus den Prozessen zu verbannen, versuchen immer mehr Techfirmen und Start-ups diese Dimension noch zu digitalisieren und dank künstlicher Intelligenz zu beherrschen. Wiederum mit meist untauglichen Methoden und noch bevor die eigentlich prozessfähigen, bestehenden, digitalen Daten richtig verwendet und ausgewertet worden wären. Eine Tatsache, worüber sich die Spezialisten und führenden Anbieter von Technologien, die sich schon seit einigen Jahren mit seriösen und belastbaren Prozessen und Produkten im digitalen HR befassen, grundsätzlich einig sind. Und nicht erst seit Google auch in dieses Marktsegement eingetreten ist. [5]
Big Data begrenzt Wissensentwicklung
Mehr Daten bedeuten meist also wirklich nicht mehr Wissen. Wissen muss strukturiert, abgelegt und validiert werden. Und fachkundige Menschen müssen dafür involviert sein. Es ist somit Vorsicht geboten, bei der Bekämpfung der Datenflut, welche sich am Ende nicht mehr strukturieren lässt und zufällige Korrelationen ergibt. Alexander Wissner-Gross, Wissenschaftler an der Harvard University und am Massachusetts Institute of Technology (MIT), hat es interessant zusammengefasst: «Die vielleicht wichtigste Nachricht unserer Zeit ist, dass Datensätze – nicht Algorithmen – der entscheidende begrenzende Faktor für die Entwicklung der künstlichen Intelligenz auf menschlicher Ebene sein könnten.» [6]
Vielversprechend ist also vor allem der Inhalt des Wissens, nicht die Menge an Daten, woraus dieses Wissen entzogen werden soll. Und vielversprechend bzw. beruhigend ist, dass letztendlich in vielen wichtigen Bereichen wie der Medizin oder der Personalauswahl nur Experten oder auf echter Expertise basierende Tools zuverlässig und richtig urteilen können. All das macht den ganzen Hype um Big Data und AI im HR bereits etwas erträglicher. Und unsere Mission bei JANZZ.technology „We turn Big Data into Smart Data“ aktueller denn je.
[1] Brücher, Cornel. 2013. Rethink Big Data. Frechen: MITP-Verlag.
[2] Straumann, Felix. «Vieles ist blankes Marketing». Big Data. In: Tagesanzeiger (2018), Nr. 168, S. 32.
[3] Spitzer, Julie. 2018. IBM’s Watson recommended “unsafe and incorrect” cancer treatments, STAT report finds. URL: https://www.beckershospitalreview.com/artificial-intelligence/ibm-s-watson-recommended-unsafe-and-incorrect-cancer-treatments-stat-report-finds.html [2018.08.01].
[4] Aus Video: Google Cloud Platform. 2017. Google Cloud Jobs API: How to power your search for the best talent (Google Cloud Next ’17). URL: https://www.youtube.com/watch?v=Fr_8oNKtB98 [2018.08.03].
[5] Watson, Christine. 2018. RecTech is creating more – not less – need for the human touch. URL: http://www.daxtra.com/2018/08/03/rectech-creating-more-need-for-human-touch/?utm_content=75449136&utm_medium=social&utm_source=twitter [2018.08.09].
[6] Alexander Wissner-Gross. 2016. Datasets Over Algorithms. URL: https://www.edge.org/response-detail/26587 [2018.07.27].