Lost in Big Data?
La idea equivocada que domina el universo de los datos.

«. . . En aquel Imperio, el Arte de la Cartografía logró tal Perfección que el mapa de una sola Provincia ocupaba toda una Ciudad, y el mapa del Imperio, toda una Provincia. Con el tiempo, estos Mapas Desmesurados no satisficieron y los Colegios de Cartógrafos levantaron un Mapa del Imperio, que tenía el tamaño del Imperio y coincidía puntualmente con él.[…]»

«Del rigor en la ciencia»
Jorge Luis Borges

La historia de Borges imagina un Imperio adicto a la idea de crear una representación perfecta de su mundo. El Imperio ficticio se ha enfrascado totalmente en la tarea de crear un mapa que coincida con su terreno punto a punto. Hoy no puedo evitar pensar que nos encontramos en un ambiente muy similar: los datos están cambiando profundamente nuestro mundo y la manera que tenemos de percibirlo. Nos encontramos en medio de una revolución de datos tan grande, dominante y joven que cuesta abarcarla entera. El impacto de los datos se está extendiendo a una escala realmente masiva; tratamos de usar los big data para transformar industrias completas, desde el marketing y las ventas hasta las predicciones meteorológicas, desde los diagnósticos médicos hasta los envases alimenticios y desde el almacenamiento de documentos y el uso de software hasta la comunicación. En realidad, como en el Imperio ficticio de Borges, hemos llegado a creer que cuantos más datos recopilemos y analicemos, mejor conoceremos al mundo y a las personas que lo habitan. Qué ingenuos nos hemos vuelto los maníacos de los datos.

En la actualidad prevalece la convicción de que los big data proporcionan un conocimiento práctico de casi cualquier aspecto de la vida. Philip Evans y Patrick Forth impugnan que «la información se comprende y aplica con medios básicamente nuevos de inteligencia artificial que buscan el conocimiento mediante algoritmos que emplean conjuntos de datos masivos y ruidosos. Como los mayores conjuntos de datos producen un mejor conocimiento, lo grande es hermoso» (de su artículo conjunto en bcg.perspectives). En este sentido, nuestra hambre de datos aumenta de forma constante y nuestro ecosistema digital la impulsa: los sensores, los dispositivos conectados, las redes sociales y un número creciente de nubes que producen continuamente nuevos datos para que los recopilemos y analicemos. Según un estudio de la International Data Corporation (IDC), el universo digital será casi el doble cada dos años. Desde 2005 a 2020, el volumen de datos crecerá en un factor de 300, hasta 40 zettabytes de datos. Un zettabyte tiene 21 ceros. En este mundo de crecimiento exponencial de datos, la ambición de acumular datos no conoce límites. Como en el Imperio ficticio de Borges, el límite externo es la escala de 1:1, una representación digital completa de nuestro mundo.

En la actualidad, empresas como IBM o LinkedIn ya están presionando este límite. IBM está formando a su sistema informático cognitivo llamado Watson para que pueda contestar virtualmente a cualquier pregunta. Para lograrlo, IBM Watson está recopilando una cantidad de datos sin precedentes para crear un impresionante corpus de información. La empresa acaba de adquirir Truven Health Analytics por 2,6 mil millones de $ en efectivo, proporcionando a su unidad de salud un inmenso depósito de datos sobre salud de miles de hospitales, empleados y gobiernos estatales de EE. UU. Fue la cuarta gran adquisición de una empresa de datos sanitarios en los 10 meses de vida de IBM Watson, lo que muestra la importancia que una representación digital de los pacientes, diagnósticos, tratamientos y hospitales tiene para el sistema de inteligencia artificial del gigante de la informática. La visión de LinkedIn es igual de ambiciosa: están creando Economic Graph, nada menos que una cartografía digital de la economía global. Aspira a incluir un perfil de cada uno de los 3 mil millones de miembros de la población activa mundial. Pretende representar digitalmente a todas las empresas, sus productos y servicios, las oportunidades económicas que ofrecen y las capacidades necesarias para obtener esas oportunidades. Y planea incluir una presencia digital para todas las organizaciones de educación superior del mundo. Sin embargo, los esfuerzos de las dos empresas son solo la punta del iceberg. Su empeño por crear una representación digital completa de sus respectivos campos es emblemático de una aspiración más general que va en la actualidad hacia un estado de información ubicua.

Las visiones de empresas como IBM Watson y LinkedIn ya evocan el mundo imaginado por Borges. Los poderes de los big data están convergiendo y recreando las ambiciones cartográficas del Imperio de su historia. Este mundo se está convirtiendo en referencial de sí mismo. La representación digital de nuestro mundo se está expandiendo deprisa y en los límites exteriores, la representación y la realidad están empezando a coincidir. El mundo y nuestra imagen de él están convergiendo. De repente nos encontramos en un mundo que guarda una semejanza alarmante con el Imperio de Borges.

Qué disparate – la historia de Borges continúa, cuestionando el propósito de una representación tan inmensa. Ya sea cartográfico o digital, un mapa a escala 1:1 puede que no sea tan útil como se piensa.

«[…] Menos Adictas al Estudio de la Cartografía, las Generaciones Siguientes entendieron que ese dilatado Mapa era Inútil y no sin Impiedad lo entregaron a las Inclemencias del Sol y los Inviernos. En los Desiertos del Oeste perduran despedazadas Ruinas del Mapa, habitadas por Animales y por Mendigos; en todo el País no hay otra reliquia de las Disciplinas Geográficas.»

En el mundo ficticio de Borges, las siguientes generaciones tiraron el mapa de sus antepasados porque no sentían la misma ambición que sus ancestros y reconocieron que el mapa a escala 1:1 era inútil. Dejaron que se descompusiera y solo quedaron las «despedazadas ruinas» del mapa de los antepasados. La comprensión de que un mapa a escala 1:1 no tiene sentido en la práctica también recuerda a nuestra experiencia con el universo de los datos en expansión.  El profesor Patrick Wolfe, director ejecutivo del Big Data Institute de la University College of London, advierte de que «la tasa en la que generamos datos supera rápidamente nuestra capacidad para analizarlos.» En la actualidad solo se analiza aproximadamente el 0,5 % de todos los datos y Wolfe afirma que este porcentaje disminuye a medida que se recopilan más datos. También estamos empezando a darnos cuenta de la inviabilidad de las masas de datos que estamos manejando. En lugar de ganar de manera exponencial más conocimiento sobre nuestro mundo con los datos, estamos creando una entidad que está en peligro de caer en el olvido por su gran tamaño.

Para evitar que nuestra colección digital que se acumula constantemente sufra la misma suerte que el mapa de Borges – que las generaciones venideras la dejen en despedazadas ruinas –, es esencial crear una inteligencia práctica a partir de ella. Por consiguiente, la capacidad para entender de verdad la total complejidad de las masas de los datos recopilados y para producir un conocimiento relevante de ellos será la ventaja competitiva definitiva; esto es válido en la actualidad y todavía lo será más en el futuro.

Mientras que muchos ya proponen la conversión de los big data en smart data o intelligent data, todavía no ha surgido ninguna solución clara sobre cómo lograr realmente esta transformación. Hoy en día, las matemáticas aplicadas, el procesamiento del lenguaje natural y el aprendizaje automático tienen el mismo peso en la balanza y sustituyen a cualquier otra herramienta que se pueda aplicar. Es la idea de que con suficientes datos, los números hablan solos. Repitiendo lo que dijeron Evans y Forth, «lo grande es hermoso». Esta idea conforma la cultura de Silicon Valley y, por extensión, la de muchas empresas de todo el mundo.

Otras metodologías como las ontologías, las taxonomías y la semántica se ignoran totalmente en el espíritu de descubrimiento actual. Mientras que las matemáticas aplicadas, el aprendizaje automático y el análisis predictivo representan el tamaño; las taxonomías y la semántica representan el significado y la comprensión. Y mientras que las segundas pueden parecer insignificantes en comparación con las dimensiones de las primeras, no desempeñan un papel menor al determinar la salud competitiva de las empresas. Tras el crecimiento exponencial del universo digital en los últimos años, hemos llegado a un grado de complejidad que requiere la introducción de un conocimiento profundo de las materias en cuestión. Esto es algo que no se logrará recopilando todavía más datos ni implementando un algoritmo. Irónicamente, es un cambio de dirección que se aleja del «lo grande es hermoso» y podría aprovechar todo el potencial de los big data.