Perdu dans Big Data?
L’idée erronée de contrôler l’univers des données.

lost_in_big_data

 …En cet empire, l’Art de la Cartographie fut poussé à une telle Perfection que la Carte d’une seule Province occupait toute une Ville et la Carte de l’Empire toute une Province. Avec le temps, ces Cartes Démesurées cessèrent de donner satisfaction et les Collèges de Cartographes levèrent une Carte de l’Empire, qui avait le Format de l’Empire et qui coïncidait avec lui, point par point. […]”

Extrait de l’œuvre de Jorge Luis Borges «Del rigor en la ciencia»
Traduction officielle «De la rigueur de la science»

L’histoire de Borges suit la vision d’un empire obsédé par l’idée de créer une image parfaite du monde. L’empire fictif est pleinement engagé dans la tâche de créer une carte cohérente avec le territoire de l’empire, point par point. Aujourd’hui, je ne peux m’empêcher de penser que nous sommes dans un environnement très similaire : Les données changent profondément le monde dans lequel nous vivons et la façon dont nous le percevons. Nous sommes au beau milieu d’une révolution des données si vaste, si globale et si nouvelle qu’il est presque impossible de la saisir dans son intégralité. L’impact des données se fait sentir sur une immense étendue ; nous aspirons à tirer parti de Big Data pour révolutionner des industries entières, du marketing et de la distribution aux prévisions météorologiques, des diagnostics médicaux aux emballages alimentaires, de la conservation des documents et de l’utilisation des logiciels jusqu’à la communication. En fait, à l’instar du royaume fictif de Borges, nous en sommes arrivés à la conclusion que plus nous recueillons et évaluons de données, plus nous acquérons de connaissances sur le monde et ses habitants. Que la phobie des données est donc devenue absurde.

Il est aujourd’hui largement considéré que Big Data est à même de fournir des informations pratiques sur presque tous les aspects de la vie. Philip Evans et Patrick Forth, eux, le contestent : « Les informations sont comprises et utilisées par des méthodes d’intelligence artificielle fondamentalement nouvelles qui visent à acquérir des connaissances via des algorithmes qui utilisent eux, des ensembles de données massifs et bruyants. Puisque des ensembles de données plus volumineux conduisent à une meilleure connaissance, Big Data est une bonne chose « (traduction selon leur article commun dans les perspectives bcg.). Conformément à ces lignes, notre besoin en données augmente et notre écosystème numérique alimente ce développement : capteurs, appareils connectés, médias sociaux et un nombre croissant de nuages produisent inlassablement de nouvelles données que nous pouvons collecter et analyser. Selon une étude de l’International Data Corporation (IDC), l’univers numérique doublera tous les deux ans. Entre 2005 et 2020, le volume des données a été multiplié par un facteur de 300 à 40 zettaoctets. Un zettabyte compte 21 zéros. Dans ce monde de croissance exponentielle des données, l’accumulation souhaitée de données se poursuit sans relâche. Comme dans le royaume fictif de Borges, la ligne limite d’échelle extérieure est d’un rapport de 1:1, voire,  une représentation numérique complète de notre monde.

Certaines entreprises comme IBM ou LinkedIn approchent déjà cette limite à pas de géants. IBM entraîne son système informatique cognitif nommé Watson pour répondre littéralement à toute question. Dans ce but, IBM Watson collecte des quantités innombrables de données pour créer un ensemble impressionnant de données. La société a récemment acquis Truven Health Analytic pour 2.6 milliards de dollars, ce qui lui permet d’étendre ses activités dans le secteur de la santé avec un important dépôt de données sur la santé provenant de milliers d’hôpitaux, d’employeurs et de gouvernements fédéraux aux États-Unis. Il s’agit là de la quatrième acquisition la plus importante d’une société de données sur la santé depuis le lancement d’IBM Watson il y a dix mois. Ce qui montre l’importance que tient la cartographie numérique des patients, des diagnostics, des traitements et des hôpitaux dans le système d’intelligence artificielle du géant informatique. La vision de LinkedIn est tout aussi ambitieuse : elle crée « Economic Graph », rien de moins qu’une cartographie numérique de l’économie mondiale. On dit que la carte contient un profil des 3 milliards de travailleurs consécutifs dans le monde entier. Toutes les entreprises, l’ensemble de leurs produits et services, les opportunités économiques offertes par les entreprises et les compétences requises pour réaliser ces opportunités doivent faire l’objet d’une cartographie numérique. En outre, l’intégration d’une présence numérique de tous les établissements d’enseignement supérieur au monde est prévue. Mais les efforts des deux entreprises ne sont que la pointe de l’iceberg. Leur intention de créer une représentation numérique complète des domaines respectifs symbolise l’aspiration plus générale à créer une société de l’information omniprésente.

Les visions d’entreprises telles qu’IBM Watson et LinkedIn insufflent donc déjà vie à un monde qui correspond aux visions de Borges. La puissance des Big Data transforme et recrée les objectifs cartographiques de l’histoire de l’empire de Borges. Le monde devient un point de référence pour lui-même. L’image numérique de notre monde prend rapidement de l’ampleur et, aux frontières extérieures, l’image et la réalité commencent déjà à se confondre. Le monde et l’image que nous en avons convergent. Tout à coup, nous nous retrouvons dans un monde qui ressemble étonnamment à l’empire de Borges.

Quelle folie – En suivant son cours, l’histoire de Borges  remet en question le sens d’une telle cartographie massive. Une carte à l’échelle 1:1, qu’elle soit cartographique ou numérique, n’est probablement pas aussi précieuse qu’initialement présumée et des entreprises comme IBM ou LinkedIn approchent déjà de cette limite à grands pas. Une carte à l’échelle 1:1, qu’elle soit cartographique ou numérique, n’est probablement pas aussi précieuse qu’initialement présumée.

« […] Moins passionnées pour l’Étude de la Cartographie, les Générations Suivantes réfléchirent que cette Carte Dilatée était inutile et, non sans impiété, elles l’abandonnèrent à l’Inclémence du Soleil et des Hivers. Dans les Déserts de l’Ouest, subsistent des Ruines très abîmées de la Carte. Des Animaux et des Mendiants les habitent. Dans tout le Pays, il n’y a plus d’autre trace des Disciplines Géographiques. »

Dans le monde fictif de Borges, les générations futures se sont débarrassées de la carte de leurs ancêtres parce qu’ils n’étaient pas pris par la même ambition que ne l’avaient été leurs ancêtres et qu’ils avaient réalisé qu’une carte 1:1 serait sans utilité aucune. Ils ont abandonné la carte à sa détérioration. La seule trace qui en faisait preuve était les « restes déchiquetés » de la carte de leurs ancêtres. Le constat qu’une carte à l’échelle 1 : 1 est pratiquement inutile reflète également notre expérience avec l’univers des données en expansion. Le professeur Patrick Wolfe, Directeur exécutif du Big Data Institute de l’University College of London, met en garde : « Le rythme auquel nous produisons des données dépasse rapidement notre capacité à les analyser. À l’heure actuelle, seul environ 0,5 % de toutes les données sont évaluées et Wolfe croit que ce pourcentage continuera de diminuer au fur et à mesure que d’autres données seront recueillies. Nous commençons donc à prendre conscience de la futilité des masses de données que nous gérons. Au lieu d’utiliser les données pour acquérir de façon exponentielle davantage de connaissances sur le monde, nous créons une entité qui menace d’être oubliée en raison de son volume brut.

Afin de préserver notre collection numérique en constante expansion du même sort que celui de la carte de Borges – qui se détériore au fil des générations pour n’être plus que des fragments déchiquetés -, il est d’une importance capitale de tirer des conclusions applicables de toutes ces informations. Par conséquent, la capacité de comprendre pleinement ces masses de données recueillies et d’en tirer des enseignements pertinents constituera l’avantage concurrentiel ultime aujourd’hui et surtout à l’avenir.

Bien que de nombreuses personnes se déclarent déjà favorables à la conversion de Big Data en Smart Data, voire, données intelligentes, aucune solution viable n’ a encore vu le jour pour effectivement concrétiser cette transformation. Les mathématiques appliquées, le traitement naturel du langage et l’apprentissage machine s’équilibrent mutuellement, évinçant tout autre outil qui pourrait être appliqué. L’idée est qu’avec une quantité suffisante de données, les chiffres parlent d’eux-mêmes. Ou, pour reprendre les termes d’Evans et Forth : « Les Big Data sont une bonne chose ». Cette idée modifie la culture de la Silicon Valley et de nombreuses autres entreprises à travers le monde.

D’autres méthodologies telles que les ontologies, les taxonomies et les sémantiques ne sont pas du tout prises en compte dans l’esprit actuel de la découverte. Les mathématiques appliquées, l’apprentissage machine et l’analyse prédictive sont synonymes de volume, alors que les ontologies, les taxonomies et la sémantique sont synonymes de signification et de compréhension. Et même si cette dernière catégorie peut sembler moins importante que les dimensions des catégories mentionnées ci-dessus, les sémantiques n’en sont pas moins importantes pour déterminer la compétitivité des entreprises. Au contraire. Suite à la croissance exponentielle de l’univers numérique au cours des dernières années, nous avons atteint un niveau de complexité qui impose l’impératif de l’introduction d’une compréhension profonde des données disponibles. C’est quelque chose qui ne peut pas être réalisé en recueillant davantage de données ou en implémentant un algorithme. Ironiquement, c’est donc un changement de cap qui s’éloigne de la devise « Les Big Data sont une bonne chose » pour mettre à profit tout le potentiel complet des Big Data.