Der vergiftete Apfel der «einfachen» Skills-Daten – sind Sie bereit, auf diesen süssen Geschmack zu verzichten?

Dies ist der dritte Teil einer Serie von Beiträgen über Skills. Wenn Sie es noch nicht getan haben, lesen Sie zuerst die anderen Beiträge:
Lassen wir mal den Bullshit weg und Sorry Leute, aber «Microsoft Office» ist KEINE Kompetenz.

Im zweiten Beitrag dieser Serie haben wir über Skills und die Probleme bei deren Definition und Spezifizierung gesprochen. Angenommen, wir können uns auf ein gemeinsames Verständnis dieser wertvollen neuen Währung einigen, dann besteht der nächste Schritt darin einen Weg zu finden, aussagekräftige Skills- und Job-Daten zu erzeugen.

Wackelige Daten – wackelige Ergebnisse

Big Data von Online-Jobplattformen oder professionellen Networking-Sites können eine Fülle von Informationen mit einer viel höheren Granularität liefern als die üblichen Daten, die von nationalen Statistikämtern in Umfragen erhoben werden – insbesondere in Bezug auf Skills. Ein Grund dafür ist, dass Arbeitgebende im Gegensatz zu gedruckten Anzeigen für Online-Stellenausschreibungen nicht nach Platz bezahlen müssen und daher detailliertere Informationen über die von ihnen benötigten Kenntnisse und Fähigkeiten bereitstellen können. Diese Online-Daten ermöglichen auch die Überwachung einer viel grösseren Stichprobe in Echtzeit, was für Analysten und politische Entscheidungsträger sehr wertvoll sein kann, um ein zeitnahes und detaillierteres Verständnis der Bedingungen und Trends auf dem Arbeitsmarkt zu entwickeln.

Wenn wir jedoch mit Daten arbeiten, die online verfügbar sind, wie z. B. Online-Stellenanzeigen (OJA – online job advertisements) oder professionelle Profile (z. B. LinkedIn-Profile), müssen wir uns darüber im Klaren sein, dass diese Daten weder vollständig noch repräsentativ sind und daher müssen alle Ergebnisse immer mit Vorsicht interpretiert werden. Nicht nur wegen der offensichtlichen Tatsache, dass die Ergebnisse verzerrt sein werden, sondern vor allem wegen der Auswirkungen. Die Förderung bestimmter Skills auf Basis verzerrter Daten kann dem Arbeitsmarkt schaden: Wenn sich Arbeitnehmer auf den Erwerb dieser Skills konzentrieren – die naturgemäss aus Daten abgeleitet werden, die auf hochqualifizierte Fachkräfte ausgerichtet sind, z. B. in der IT-Branche und anderen Bereichen, die eine höhere Bildung erfordern –, ist es weniger wahrscheinlich, dass sie sich für Karrierewege entscheiden, die andere Skills beinhalten, die tatsächlich stark nachgefragt werden, z. B. im Handwerk, im Bauwesen, im Gesundheitswesen, in der Produktion usw. Und dies, obwohl die Digitalisierung in erster Linie besser ausgebildete Arbeitnehmer mit hohen Löhnen in den Industrieländern treffen wird, schlicht deshalb, weil es viel einfacher ist, zumindest einen Teil der Aufgaben in diesen Berufen zu digitalisieren oder zu automatisieren als in vielen Arbeiter- und Lehrberufen wie z. B. in der Schreinerei, der Pflege usw. Das Letzte, was man in der Arbeitsmarktpolitik will, ist, die ohnehin schon kritische Skill-Lücke in diesem Bereich zu verschärfen. Oder einen noch engeren Arbeitsmarkt für bestimmte Berufe, z. B. IT-Fachkräfte, zu schaffen.[1] Ebenso benötigen Bildungsanbieter, die ihre Lehrpläne an der Marktnachfrage ausrichten wollen, verlässliche Daten, um Skill-Lücken nicht zu verstärken, anstatt sie zu verringern. Und dennoch verlässt sich eine wachsende Zahl von öffentlichen Arbeitsverwaltungen auf diese oft wackeligen Daten für die Entscheidungsfindung und die Gestaltung der aktiven Arbeitsmarktpolitik.

So gibt es zum Beispiel mehrere Projekte, die darauf abzielen, alle verfügbaren OJA aus allen möglichen Quellen in einem bestimmten Arbeitsmarkt zu sammeln und zu analysieren und diese aggregierten Daten zu nutzen, um Empfehlungen zu geben, einschliesslich Prognosen zur zukünftigen Beschäftigungsfähigkeit und zum Skills-Bedarf. Aber die Skills werden typischerweise ohne jeden semantischen Kontext verarbeitet und präsentiert, was extrem irreführend sein kann.

Herausforderungen von OJA-Daten

Im Jahr 2018 veröffentlichte das ESSnet-Big-Data-Projekt des Europäischen Statistischen Systems einen Bericht über die Machbarkeit der Nutzung von OJA-Daten für die amtliche Statistik.[2] Ihre Schlussfolgerung lautete: «Die Qualitätsprobleme sind derart, dass es nicht klar ist, ob diese Daten in einer Weise integriert werden können, dass sie den von der amtlichen Statistik erwarteten Standards entsprechen.»

Werfen wir einen Blick auf einige der grundlegenden Herausforderungen von OJA-Daten.

  1. Unvollständig und verzerrt: Nicht alle offenen Stellen werden online ausgeschrieben. Ein beträchtlicher Anteil der Stellen wird besetzt, ohne dass sie überhaupt ausgeschrieben werden (manche sagen etwa 20 %, andere behaupten bis zu 85 % der offenen Stellen). Von denen, die ausgeschrieben werden, werden nicht alle online veröffentlicht. CEDEFOP berichtete, dass 2017 der Anteil der online veröffentlichten Stellen in den EU-Ländern sehr unterschiedlich war und von fast 100 % in Estland, Finnland und Schweden bis hin zu unter 50 % in Dänemark, Griechenland und Rumänien reichte.[3] Darüber hinaus werden einige Arten von Stellen mit höherer Wahrscheinlichkeit online ausgeschrieben als andere. Und grosse Unternehmen oder solche, die verpflichtet sind, offene Stellen zu veröffentlichen, sind typischerweise statistisch überrepräsentiert, während kleine Unternehmen, die oft andere Kanäle wie Printmedien, Mundpropaganda oder Schilder in Schaufenstern bevorzugen, unterrepräsentiert sind. Ein weiterer relevanter Punkt ist, dass bestimmte Märkte so ausgetrocknet sind, dass es sich schlichtweg nicht lohnt, offene Stellen zu inserieren, und stattdessen spezialisierte Headhunter eingesetzt werden. Zusammengefasst bedeutet dies, dass die OJA-Daten nicht nur viele offene Stellen nicht erfassen, sondern auch nicht repräsentativ für den gesamten Arbeitsmarkt sind.[4]
  2. Duplikate: In den meisten Ländern gibt es keine zentrale Quelle für OJA-Daten. In jedem Land gibt es zahlreiche Online-Stellenportale, von denen einige nur Originalanzeigen veröffentlichen, andere wiederum Anzeigen aus anderen Quellen, Hybridversionen, spezialisierte Seiten für bestimmte Branchen oder Karrierestufen usw. Um also eine angemessene Abdeckung zu gewährleisten, müssen die OJA-Daten im Allgemeinen aus mehreren Quellen bezogen werden. Dies führt unweigerlich zu vielen Duplikaten, die wirksam in den Griff bekommen werden müssen, um Arbeitsmarkttrends in der realen Welt zuverlässig messen zu können. So meldete das britische Nationale Statistikinstitut (NSI) in einem Projekt aus dem Jahr 2016 einen Duplikatanteil von 8–22 % je nach Portal und eine Gesamtduplizierungsrate von 10 %.[5] Im Rahmen des ESSnet-Big-Data-Projekts identifizierte das schwedische NSI 4–38 % Duplikate pro Portal und 10 % im zusammengeführten Datensatz.[6]
  3. Uneinheitlicher Detaillierungsgrad: Bestimmte Stellenausschreibungen bieten deutlich mehr explizite Informationen zu den geforderten Skills als andere, etwa je nach Branche (z. B. Technik/IT) oder Land (z. B. aufgrund von Gesetzen oder kulturellen Gewohnheiten). Zudem werden implizite Informationen nur in geringem Umfang erfasst und sind trotz ihrer hohen Relevanz statistisch unterrepräsentiert. Ein Grund dafür ist, dass US-Datenanbieter oft nicht erkennen, wie einzigartig detailliert OJA in den USA sind, und daher davon ausgehen, dass dies überall der Fall ist und ihre Methoden auf diese Annahme stützen. Dies ist jedoch alles andere als korrekt. Zum Beispiel wird eine Stellenbeschreibung wie die folgende, die in den USA recht typisch ist, in europäischen Ländern oft auf «Durchführung aller Malerarbeiten in den Bereichen Instandhaltung, Umbau und Renovierung; Einhaltung von Sicherheits- und Qualitätsvorschriften; mindestens drei Jahre Erfahrung oder abgeschlossene Berufsausbildung» verkürzt. Darüber hinaus müssen in solchen Stellenanzeigen viele der geforderten Skills aus den aufgeführten Aufgaben oder Verantwortlichkeiten abgeleitet werden. Dies zeigt, wie wichtig es ist, implizite Informationen zu extrahieren.

The poison apple of “easy” skills data – are you ready to give up that sweet taste?

Die Frage ist also, ob diese Probleme so gelöst werden können, dass dennoch aussagekräftige Daten erzeugt werden.

Die Antwort: mehr oder weniger. Beschränkungen der Repräsentativität können mit verschiedenen Ansätzen angegangen werden. Es gibt keine Einheitslösung, aber je nach verfügbaren Daten und spezifischem Arbeitsmarkt könnte eine statistische Gewichtung der Daten entsprechend der aus Arbeitskräfteerhebungen abgeleiteten Branchenstruktur vielversprechend sein, ebenso wie der Vergleich von Ergebnissen aus mehreren Datenquellen, um Robustheitsprüfungen durchzuführen, oder einfach die Fokussierung auf diejenigen Marktsegmente mit weniger problematischen Erfassungsbias.[7]

Probleme mit der Deduplikation können bis zu einem gewissen Grad technisch gelöst werden, und es gibt auf diesem Gebiet zahlreiche laufende Forschungsprojekte. Im Wesentlichen bestehen die meisten Methoden darin, gemeinsame Felder abzugleichen, Textinhalte zu vergleichen und dann eine Ähnlichkeitsmetrik zu berechnen, um die Wahrscheinlichkeit zu bestimmen, dass es sich bei zwei Stellenangeboten um Duplikate handelt. Einige Jobsuchaggregatoren versuchen auch, Duplikate selbst zu entfernen – mit unterschiedlichem Erfolg. Die Identifizierung von Duplikaten ist relativ einfach, wenn OJAs Backlinks zu einer Originalanzeige enthalten, da diese Links identisch sind. Andererseits stellen Stellenanzeigen, die auf mehreren Jobbörsen veröffentlicht wurden, eine grössere Herausforderung dar. Daher sollten idealerweise mehrere robuste Qualitätssicherungsprüfungen durchgeführt werden, z. B. eine manuelle Validierung über kleinere Datensätze.

Ernsthaft unterschätzt: die Herausforderung der Skills-Extraktion

Die dritte Herausforderung, der Detaillierungsgrad, scheint die am meisten unterschätzte zu sein. OJA aus den USA sind in der Regel viel detaillierter als anderswo. Viele Informationen werden explizit angegeben, die in OJA-Daten aus dem Vereinigten Königreich und anderen Ländern nur implizit vorhanden sind (z. B. durch Ausbildungsanforderungen oder Berufserfahrung abgedeckt) – oder überhaupt nicht angegeben werden. Aber selbst innerhalb der USA kann dies stark variieren.

The poison apple of “easy” skills data – are you ready to give up that sweet taste?

Es ist klar, dass selbst wenn wir die Probleme bezüglich Repräsentativität und Duplikaten lösen können, die blosse Aufzeichnung der expliziten Daten immer noch zu höchst unzuverlässigen Nowcasts oder Prognosen führen wird. Stattdessen müssen sowohl die expliziten als auch die impliziten Daten extrahiert werden – zusammen mit ihrem Kontext. Um die Verzerrungen in den erfassten Daten zu reduzieren, müssen wir sie präzise und semantisch abbilden. Dies kann mit einer umfangreichen Wissensrepräsentation geschehen, die nicht nur Skills oder Jobs, sondern auch Ausbildungen, Arbeitserfahrungen, Zertifizierungen und mehr sowie erforderliche Niveaus und die komplexen Beziehungen zwischen den verschiedenen Entitäten umfasst. Auf diese Weise können wir mehr implizite Skills erfassen, die in den Vorgaben zu Ausbildung, Qualifikationen und Erfahrung verborgen sind. Darüber hinaus ist die höhere Granularität der OJA-Daten nur dann wirklich nützlich, wenn die extrahierten Skills bei der nachfolgenden Verarbeitung nicht zu sehr geclustert oder verallgemeinert werden, z. B. zu Begriffen wie «Projektmanagement», «digitale Fähigkeiten» oder «Gesundheitswesen» (siehe unseren vorherigen Beitrag), weil mit zu stark vereinfachten Klassifikationen oder Taxonomien gearbeitet wird, anstatt umfassende Ontologien mit einem hohen Detailgrad zu nutzen.

Und dann ist da natürlich noch die Frage, wie man die Daten analysiert. Darauf werden wir im nächsten Beitrag näher eingehen, aber für den Moment lässt sich so viel sagen: Selbst wenn wir in der Lage sind, das perfekte System für die Extraktion aller relevanten Daten aus OJAs (und Kandidatenprofilen, wenn man so will) einzurichten, stehen wir immer noch vor der Herausforderung, die Ergebnisse zu interpretieren – oder auch nur die richtigen Fragen zu stellen. Wenn es um Arbeitsmarktanalysen, Nowcasting und Prognosen, z. B. des Skills-Bedarfs, geht, verspricht die Kombination von OJA-Daten mit externen Daten, z. B. aus Umfragen der NSI, robustere Ergebnisse, da die OJA-Daten gegengeprüft und somit besser kalibriert, gewichtet und stratifiziert werden können. Relevante und zeitnahe externe Daten sind jedoch äusserst rar. Und wir stehen möglicherweise vor einem weiteren Problem. Es ist viel einfacher und billiger, Arbeitssuchende z. B. mit einem Online-SEO-Kurs umzuschulen oder weiterzubilden als mit einer beruflichen oder technischen Ausbildung im MIG/MAG-Schweissen. Vielleicht also, nur vielleicht, sind einige von uns gar nicht so sehr am wahren Skills-Bedarf interessiert…

[1] Laut der Umfrage der Manpower Group 2020 stehen IT-Positionen in den USA ganz oben auf der Liste der am schwersten zu besetzenden Stellen, aber nicht überall sonst. In einigen Ländern, darunter auch in entwickelten Ländern wie Grossbritannien und der Schweiz, stehen IT-Fachkräfte überhaupt nicht auf der Top-10-Liste.
[2] https://ec.europa.eu/eurostat/cros/sites/crosportal/files/SGA2_WP1_Deliverable_2_2_main_report_with_annexes_final.pdf
[3] The feasibility of using big data in anticipating and matching skills needs, Section 1.1, ILO, 2020 https://www.ilo.org/wcmsp5/groups/public/—ed_emp/—emp_ent/documents/publication/wcms_759330.pdf
[4] Das ESSnet Big-Data-Projekt hat auch die Abdeckung der Daten untersucht; für die detaillierten Resultate siehe Anhänge C und G im Bericht von 2018..
[5] https://ec.europa.eu/eurostat/cros/content/WP1_Sprint_2016_07_28-29_Virtual_Notes_en
[6] https://ec.europa.eu/eurostat/cros/sites/crosportal/files/WP1_Deliverable_1.3_Final_technical_report.pdf
[7] Siehe z. B. Kureková et al.: Using online vacancies and web surveys to analyse the labour market: a methodological inquiry, IZA Journal of Labor Economics, 2015 https://izajole.springeropen.com/track/pdf/10.1186/s40172-015-0034-4.pdf