Tous les deux jours, nous produisons la quantité de données qui avait été produite au total jusqu’en 2003. Déjà en 2010, l’ancien PDG de Google, Eric Schmidt, choqua par la révélation de ce fait et la production de données a bien sûr subit une accélération depuis. Bien que le «traitement de masses de données» ne soit pas nouveau, l’engouement pour le terme plus connu sous le terme de «Big Data» n’a réellement commencé qu’au cours des dernières années [1]. Mais bien trop rapidement et beaucoup se perdent dans cette jungle de données sans cesse croissante et de méthodes abscons.
Les coïncidences sont incalculables
Parce que «davantage de données ne signifie aucunement un plus grand savoir», proclame succinctement Gerd Antes dans un entretien avec le Tagesanzeiger. Le mathématicien critique avec virulence le battage publicitaire autour de l’utilisation de Big Data, car la masse de données rendrait les corrélations aléatoires plus probables. Ainsi par exemple, la consommation de fromage par habitant et le nombre de décès causés par l’enchevêtrement dans les draps de lit aux États-Unis présentent une courbe identique. Alors qu’une analyse machine aurait pu en tirer des conclusions, un scientifique humain reconnaît immédiatement qu’il s’agit d’une coïncidence. [2]
Big, bigger, big data? N’exagérez pas vos réussites.
Cependant, selon de nombreux adeptes de Big Data, les coïncidences n’existent plus. Si suffisamment de données sont disponibles, ces adeptes croient à présent que toutes les interrelations peuvent être calculées à l’avance. Et ce, grâce à la machine ou à l’apprentissage profond et aux analyses correctes. L’expérience et les ensembles de formation disponibles (du passé) seraient amplement suffisants pour cela, et il n’y aurait pratiquement pas ou presque pas de zones d’erreur en raison de données manquantes ou non pertinentes. Cette conclusion est absolument fatale. Bien sûr, certains domaines, périodes temporelles et interrelations, etc. pour lesquels quelque chose est plus ou moins susceptible de se produire peuvent être identifiés plus facilement. Ce qui ne signifie pas pour autant qu’aucune coïncidence ou déviation significative n’est possible. Ainsi, par exemple, comment une analyse des données recueillies dans le passé peut-elle prédire avec précision les accidents de la route à l’avenir? Ou celui des maladies? Car les progressions de maladies – et donc les données numériques sur les patients – sont loin d’être toujours complètes, uniformes et suffisamment significatives. [2]
L’analyse des données peut donc constituer une menace pour la vie…
Surtout dans le domaine de la médecine, Gerd Antes n’est pas le seul à mettre en garde contre le battage publicitaire autour de Big Data et de l’intelligence artificielle. Si une méthode de traitement incorrecte est appliquée sur la base des résultats d’une grande analyse de données et de l’apprentissage machine, les effets peuvent être très dangereux – pour l’humain, pour le portemonnaie et pour la réputation. Car avec une telle quantité de données, les véritables corrélations et incohérences ne seront peut-être même pas détectées. Des corrélations et des incohérences qui peuvent menacer ou sauver des vies. [2]
Très récemment, IBM refaisait la une des gros titres négatifs lorsque l’entreprise de média STAT avait analysé les documents internes d’IBM pour un rapport interne qui concluaient que Watson for Oncology avait recommandé à plusieurs reprises des traitements «dangereux et incorrects» contre le cancer. Des documents qui révélaient également que les employés et les cadres supérieurs d’IBM en étaient informés. Bien que ces recommandations n’aient pas encore permis de prouver un seul décès relatif, de nombreux hôpitaux renommés ont décidé de cesser d’utiliser cette technologie de plusieurs millions de dollars. [3]
À ce titre, les premiers signes distincts d’une remise en question et d’une approche un peu plus rationnelle peuvent être constatés dans ce domaine. En définitive, l’engouement apparemment illimité pour l’ordinateur miracle Watson d’IBM dans le domaine de la médecine d’il y a deux ou trois ans est en train de s’estomper. De nombreuses autres applications similaires suivront. Au plus tard lorsqu’il s’agira davantage de faits, de résultats fiables et de pertinence, et moins d’auto-marketing à grande échelle et de promesses charpentées des groupes technologiques mondiaux bien connus et de leurs produits souvent encore très expérimentaux. Ce qui toutefois est certain, c’est que les résultats et les apprentissages de la médecine décrits précédemment peuvent être transférés presque 1:1 sur le marché numérique des ressources humaines, où ils sont utilisés pour faire correspondre les emplois et les talents, par exemple.
Les savoirs dignes de confiance proviennent d’experts
ll y a plus de cinq ans déjà, Cornel Brücher provoquait avec son ouvrage «Rethink Big Data» et qualifiait les adeptes de Big Data de crétins. Chez JANZZ, nous l’avons vu de façon très similaire depuis le tout début. Il n’est tout simplement pas possible d’acquérir des connaissances dans le domaine des emplois et des CV, des données professionnelles plus complexes, etc. uniquement avec l’apprentissage machine. Quiconque affirme le contraire a de toute évidence tort. Et ces affirmations restent fausses et inutiles, quelle que soit la fréquence à laquelle les mêmes idées et produits sont promus et commercialisés à nouveau. Et ce, même si l’on investit beaucoup plus d’argent dans ces technologies qu’auparavant. De ce fait, et malgré les nombreux investissements réalisés, les résultats qui reposent sur cette même approche restent largement insuffisants et ne se sont guère améliorés au cours des dernières années. Et ce, nonobstant la quantité de données utilisées, par exemple pour LinkedIn, IBM & Co. Les résultats de l’apprentissage machine sont non seulement de plus en plus sujets à l’erreur – plus les facteurs et les variables se cumulent, et par conséquent des règles et des relations compliquées sont ajoutées, plus ces corrélations incorrectes ou parfois même des causalités supposées en résultent. Les Knowledge Graphs, voire les ontologies, créent par contre la possibilité de cartographier et d’utiliser les connaissances d’une manière extrêmement profonde et structurée. Du fait que les connaissances et les savoirs des experts dans leur domaine sont archivés et connectés de manière structurée – et non pas calculés par des informaticiens qui sont des experts en programmation et non pas par exemple, en médecine ou dans différents domaines de l’ingénierie ou de l’investissement bancaires – la connaissance des Knowledge Graphs est parfaitement vérifiable et digne de confiance. Une caractéristique majeure qui manque aux calculs basés sur l’apprentissage machine. Comme par exemple dans le domaine des données sur les professions: parce qu’un Knowledge Graph reconnaît la différence et les liens entre les compétences, les expériences, les fonctions, les spécialisations et la formation, il sait que pour le titre du poste à pourvoir «T» avec la formation «F», la compétence «C» est importante. Prenons l’exemple d’un «Senior Cloud Architect»: un Knowledge Graph reconnaît ce titre de poste et sait par exemple que les études de master «Computer Science» pourraient un jour mener à ce titre si le candidat peut prouver en même temps sa compétence en «Cloud Solution Development» ainsi que plusieurs années d’expérience professionnelle.
Google aussi s’appuie sur des experts, voire sur un Knowledge Graph pour les données sur les professions
Google aussi n’avait pas négligé de le proclamer lorsque l’entreprise a lancé son Knowledge Graph «Google Cloud Jobs API , sur lequel est basé son moteur de recherche d’emplois Google (voir Google lance son moteur de recherche d’emploi par ontologie. Et alors?). Google s’était alors rendu compte qu’une approche ontologique permettait d’obtenir de meilleurs résultats de recherche. Dans le cas d’une recherche sémantique basée sur la connaissance d’un Knowledge Graph, aucun résultat qui ne serait similaire au terme de recherche, tel que «RH Admin» ou «Logiciel Admin», ne serait ajouté à une recherche «Admin Assistant administratif». De même qu’une analyse de Big Data pourrait éventuellement identifier des corrélations aléatoires, suggérant des emplois complètement différents, des emplois tiers qui n’ont en commun que des exigences de compétences similaires (ainsi, les ingénieurs et les employés de bureau ont certainement tous besoin de connaître Microsoft Office).
Connaître la différence et donc connaître vraiment la recherche d’emploi et la compréhension générale des professions et de leurs interrelations n’est généralement possible qu’avec un Knowledge Graph. Matt Moore, directeur du produit Google Cloud, a expliqué la signification et la raison d’être de l’API Google Cloud Jobs: «Nous voulons donner à tous les employeurs et tous les candidats de meilleures expériences lors de leur recherche d’emploi. Parce que, soyons réalistes, embaucher les bonnes personnes est la chose la plus importante que les entreprises doivent faire.» [4]
Seuls les humains disposent des connaissances humaines requises…
Et cela soulève la question de savoir en qui on peut vraiment avoir confiance lorsqu’il s’agit de ce qui est probablement la tâche la plus importante: la sélection du personnel. C’est une histoire sans fin: à en juger par le CV, le candidat/la cadidate était parfait/parfaite, mais au niveau humain, ça n’allait pas du tout. Tirer de telles conclusions, qui ne suggèrent pas les données (numériques) disponibles, relève du domaine des spécialistes des RH, c’est-à-dire des humains.
Les outils technologiques peuvent gérer et classer les CV en fonction de connaissances évidentes telles que la formation, les compétences, l’expérience, etc. pour autant que le flux des données soit gérable et, surtout, correctement évalué. Même le meilleur candidat sur papier peut soudainement disparaître dans la foule en raison du grand nombre de critères mal interprétés ou mal compris. Et le CV n°1 n’appartient pas toujours au meilleur candidat, voire, à la meilleure candidate. De plus en plus d’entreprises technologiques et de start-ups tentent encore de numériser cette dimension et de la contrôler grâce à l’intelligence artificielle – dans la ferme conviction qu’ils vont finalement maîtriser ce dernier facteur humain qui subsiste dans les processus. Et ce, toujours avec des méthodes le plus souvent inadaptées et avant même que les données numériques existantes puissent être traitées, les données numériques existantes aient pu être correctement utilisées et évaluées. C’est un fait sur lequel les spécialistes et les principaux fournisseurs de technologies qui s’occupent de processus et de produits sérieux et fiables dans le domaine des ressources humaines numériques depuis plusieurs années, sont fondamentalement d’accord. Et pas seulement depuis que Google a également pénétré ce segment de marché. [5]
Big Data limite le développement des connaissances et des savoirs
Par conséquent, davantage de données ne signifie vraiment pas davantage de connaissances. Les connaissances doivent être structurées, stockées et validées. Et des experts humains doivent impérativement être impliqués. La prudence est donc de mise dans la lutte contre le flux de données, qui au final ne peuvent plus être structurées et engendrent des corrélations aléatoires. Alexander Wissner-Gross, scientifique à l’Université de Harvard et au Massachusetts Institute of Technology (MIT), l’a résumé de façon intéressante: «La nouvelle la plus importante de notre époque est peut-être que les ensembles de données – et non les algorithmes – pourraient être le facteur contraignant décisif pour le développement de l’intelligence artificielle au niveau humain.» [6]
C’est donc avant tout le contenu de la connaissance qui est prometteur, et non la quantité de données dont cette connaissance doit être extraite. Il est donc prometteur, voire rassurant, de constater que dans de nombreux domaines importants tels que la médecine ou la sélection du personnel, seuls des experts ou des outils basés sur une véritable expertise peuvent établir des jugements fiables et corrects. Tout cela rend le battage médiatique autour de Big Data et l’Intelligence artificielle dans les ressources humaines un peu mieux supportable. Et notre mission chez JANZZ.technology «We turn Big Data into Smart Data» est plus que jamais d’actualité.
[1] Brücher, Cornel. 2013. Rethink Big Data. Frechen: MITP-Verlag.
[2] Straumann, Felix. «Vieles ist blankes Marketing». Big Data. In: Tagesanzeiger (2018), Nr. 168, P. 32.
[3] Spitzer, Julie. 2018. IBM’s Watson recommended “unsafe and incorrect” cancer treatments, STAT report finds. URL: https://www.beckershospitalreview.com/artificial-intelligence/ibm-s-watson-recommended-unsafe-and-incorrect-cancer-treatments-stat-report-finds.html [2018.08.01].
[4] De la vidéo: Google Cloud Platform. 2017. Google Cloud Jobs API: How to power your search for the best talent (Google Cloud Next ’17). URL: https://www.youtube.com/watch?v=Fr_8oNKtB98 [2018.08.03].
[5] Watson, Christine. 2018. RecTech is creating more – not less – need for the human touch. URL: http://www.daxtra.com/2018/08/03/rectech-creating-more-need-for-human-touch/?utm_content=75449136&utm_medium=social&utm_source=twitter [2018.08.09].
[6] Alexander Wissner-Gross. 2016. Datasets Over Algorithms. URL: https://www.edge.org/response-detail/26587 [2018.07.27].