Cada vez más ruido sobre…nada, o por qué el boom publicitario sobre Big Data e Inteligencia Artificial, tiene mucho más que ver con la auto-promoción, que con hechos y progreso reales

Cada dos días producimos la cantidad de datos que se produjeron en total hasta el año 2003. Esto era un hecho ya en 2010, lo cual resultaba impactante para el ex director general de Google, Eric Schmidt, y desde entonces la producción de datos ha continuado, obviamente, acelerándose. Aunque la expresión «procesamiento masivo de datos» no es nada nuevo, sí lo es el furor reciente en torno al cada vez más conocido término «Big Data» (en español: macrodatos, datos masivos o datos a gran escala) . Dicho entusiasmo no ha hecho más que empezar[1]. Resulta muy fácil perderse en esta inmensa y creciente jungla de datos y métodos complicadísimos para el procesamiento de los mismos.

Las coincidencias no se pueden calcular …

…Y es que según afirmaba Gerd Antes, en una entrevista para el Tagesanzeiger: «más datos no significa más conocimiento». El conocido matemático alemán critica duramente el boom publicitario que se le da al uso del Big Data, debido a que cuanto mayor sea la masa de datos, más probables son las correlaciones o correspondencias que se generan aleatoriamente. Así se producen hechos curiosos como el siguiente: En Estados Unidos, la curva estadística del consumo de queso per cápita y la de las muertes producidas en la cama, por enredos con las sábanas, son idénticas. Un análisis realizado con Inteligencia Artificial, arrojaría inmediatamente conclusiones sobre este hecho, mientras que un científico humano reconocería enseguida que se trata de una casualidad. [2]

Según muchos fanáticos de todo lo concerniente a Big Data, las coincidencias ya no existen. Los defensores acérrimos afirman que, si se dispone de una cantidad suficiente de datos, mediante el uso de las computadoras, el “Deep Learning” y los análisis correctos, todas las interrelaciones pueden ser calculadas de antemano. Según estos mismos seguidores, la experiencia y las herramientas de formación existentes hasta ahora (provenientes del pasado), son absolutamente suficientes para ello, y además afirman que apenas se producen regiones de error, a causa de falta de datos, o datos irrelevantes. Estas conclusiones son una auténtica fatalidad. Por supuesto que existen en la actualidad ciertos campos y períodos de tiempo en los cuales se pueden establecer interrelaciones más fácilmente, donde la probabilidad juega un papel menos importante. Sin embargo, esto no debería significar de ninguna manera que se han erradicado factores como coincidencias o desviaciones significativas. ¿Sería posible, por ejemplo, a través de un análisis de datos antiguos, prevenir con precisión posibles accidentes de tráfico en el futuro? o ¿Es factible digitalizar la prevención de enfermedades, considerando que la información sobre la evolución de las mismas y en consecuencia los datos digitales de los pacientes, están lejos de ser lo suficientemente completos, uniformes y relevantes? [2]

Muchos, muchísimos, datos infinitos? No exageres tus logros.

Por lo tanto, el análisis de datos puede poner en peligro la vida…

Especialmente en medicina. Gerd Antes no es el único que advierte sobre el boom del Big Data y de la Inteligencia Artificial. Si, basándose en resultados de análisis de Big Data y Machine Learning se utiliza un método de tratamiento incorrecto, las consecuencias pueden ser muy peligrosas, tanto para las personas, como para los bolsillos y la reputación. Es probable que las verdaderas correlaciones e inconsistencias dentro de esta enorme cantidad de datos, ni siquiera sean descubiertas; inconsistencias y correlaciones que pueden amenazar o salvar vidas. [2]

Recientemente IBM se adjudicó, nuevamente, titulares negativos, cuando la compañía de medios de comunicación STAT analizó los documentos internos de IBM para un reportaje, tras lo cual se hizo pública la conclusión de que la plataforma “Watson for Oncology” había recomendado repetidamente tratamientos contra el cáncer «inseguros e incorrectos». También sacaron a la luz que los empleados y supervisores de IBM eran conscientes de estos errores. Tras todo el revuelo, ninguna muerte a causa de estas equívocas recomendaciones ha sido demostrada, pero muchos hospitales de renombre han decidido no seguir utilizando la tecnología de muchos millones de dólares. [3]

En este sentido, se puede decir que se empiezan a observar los primeros signos de un replanteamiento y de un enfoque algo más racional en el ámbito de la IA. La aparentemente ilimitada y exorbitada publicidad sobre el maravilloso ordenador Watson de IBM en el campo de la medicina, durante un período que duró de 2 a 3 años, finalmente parece que acaba. Muchas otras aplicaciones similares le seguirán, a más tardar, cuando los hechos y los resultados confiables y relevantes, cobren su verdadera importancia, frente a grandes promesas y enormes campañas de auto-promoción de los conocidos gigantes tecnológicos globales y sus, a menudo, muy experimentales productos. Una cosa es cierta: los hallazgos y lecciones aprendidas en el campo de medicina, descritos anteriormente, pueden ser extrapolados casi 1:1 al mercado digital de RRHH y como ejemplo, al emparejamiento entre candidatos y ofertas de empleo.

El conocimiento confiable viene de los expertos

Hace más de cinco años Cornel Brücher hizo alarde de provocación con su trabajo «Rethink Big Data» y describió a los fanáticos del Big Data como tontos (2). Desde el principio, nosotros en JANZZ hemos analizado este asunto de forma bastante similar. Conseguir adquirir mayores conocimientos en el campo de los empleos, CV’s y datos más complejos del marcado laboral, basándose exclusivamente en Machine Learning, simplemente no es posible. Cualquiera que diga lo contrario está equivocado de forma probada. Y las afirmaciones en tal sentido, continúan siendo falsas e inútiles, no importa cuán a menudo se repitan las mismas ideas y se reciclen los productos, para su nueva difusión y comercialización. Y esto es así, incluso cuando actualmente se invierte mucho más dinero en estas tecnologías que antes.

Por esta razón, y pese a las numerosas inversiones, los resultados que se basan en este mismo enfoque, siguen siendo en gran medida insuficientes y apenas han mejorado en los últimos años. Esta ausencia de avances significativos, se observa independientemente del tamaño de los registros de datos utilizados, como en el caso de LinkedIn o IBM & Co., por ejemplo. Los resultados obtenidos con Machine Learning serán cada vez más propensos a errores, a medida que se añadan nuevos factores, variables, reglas y relaciones complicadas. De esta manera surgen, por ejemplo, falsas correlaciones y de cuando en cuando, supuestas causalidades. En contraposición, los gráficos de conocimiento u ontologías, crean la posibilidad de representar y utilizar el conocimiento de una manera muy profunda y estructurada. Debido a que los conocimientos de expertos en cada campo se almacenan y conectan de forma estructurada (y no son analizados por informáticos, los cuales son expertos en programación, pero no en medicina, ingeniería, banca de inversión, etc. por ejemplo), el conocimiento de las ontologías es fácilmente verificable y muy confiable. No siendo el caso de lo que se calcula a partir de Machine Learning. Dado que los gráficos de conocimiento comprenden las relaciones entre muchas áreas diferentes, sólo éstos pueden proporcionar resultados de búsqueda y recomendaciones relevantes y precisas. Por ejemplo, en el área de datos sobre empleo: Un gráfico de conocimiento reconoce las diferencias y las interrelaciones entre competencias, experiencia, funciones, especializaciones y formación. Así, reconoce la información importante para el puesto «P» con la formación «F» y competencia «C». Tomemos como ejemplo un «Senior Cloud Architect«. Una ontología reconoce este puesto de trabajo y sabe que, por ejemplo, un “máster en informática” podría conducir algún día a esta posición, si el candidato tiene además la competencia «Cloud Solution Development» y varios años de experiencia profesional.

Google también confía en expertos y gráficos de conocimiento para los datos de empleo

Esto fue proclamado por Google cuando la empresa lanzó su gráfico de conocimiento «Google Cloud Jobs API«, en el cual se basa su búsqueda de Google for Jobs (véase «Google lanza su buscador de trabajo apoyado en la ontología. ¿Y ahora qué?»). Google se dio cuenta entonces, de que un enfoque basado en ontología daría mejores resultados de búsqueda. Cuando se hace una búsqueda semántica (a través un gráfico de conocimiento) de un “asistente administrativo” los resultados no arrojarán “administrador de RRHH” o “software de administración” solo porque contienen palabras similares al término de búsqueda. Posiblemente un análisis de Big Data determinaría correlaciones aleatorias y sugeriría, por lo tanto, otros puestos de trabajo, completamente diferentes, porque tienen requisitos de competencias similares (por ejemplo: tanto un ingeniero como cualquier trabajador de oficina, necesitan, sin duda, conocimientos sobre Microsoft Office, pero no por ello tienen ambos las mismas competencias).

Reconocer las diferencias, tener una amplia comprensión general de las profesiones y sus interrelaciones y, por ende, llegar verdaderamente a conocer el campo de la búsqueda de empleo, sólo es posible con un gráfico de conocimientos. Así describió Matt Moore, gerente de producto de Google Cloud, el origen y sentido de Google Cloud Jobs API: «Queremos ofrecer a todos los empleadores y solicitantes una mejor experiencia de búsqueda de empleo. Porque, enfrentémoslo, contratar a la gente adecuada es lo más importante que tienen que hacer las compañías». [4]

Sólo las personas tienen el conocimiento necesario para comprender la naturaleza humana …

Y eso plantea la cuestión de en quién se puede confiar realmente, cuando se trata de esta tarea tan importante: la selección de personal. La historia interminable: según el CV, el candidato/a era el perfecto/a, pero desafortunadamente su personalidad no encajaba en absoluto. Sacar tales conclusiones, que no se pueden extraer de los datos (digitales) disponibles, le corresponde a los especialistas en RRHH, es decir, a las personas. Las herramientas tecnológicas pueden gestionar CVs y clasificar según criterios obvios como educación, habilidades, experiencia, etc., siempre y cuando el aluvión de datos sea manejable y, sobre todo, si se evalúa correctamente. Incluso el mejor candidato sobre el papel puede desaparecer repentinamente entre la multitud, debido a la gran cantidad de criterios malinterpretados o incomprendidos. Y el CV No. 1 que arroja el resultado de búsqueda, no siempre pertenece al mejor candidato/a. En la firme creencia de que hasta el último factor humano será finalmente desterrado de los procesos, cada vez más empresas tecnológicas y start-ups persisten en el intento de digitalizar esta dimensión de los RRHH y controlarla gracias a la Inteligencia Artificial. Dichos intentos se realizan, una vez más, con métodos en su mayoría inadecuados y los procesos se llevan a cabo incluso antes de que los datos digitales existentes sean realmente utilizables, procesables, y hayan sido evaluados correctamente. En esto sí están de acuerdo los especialistas y proveedores líderes de tecnologías, quienes desde años se ocupan del desarrollo de procesos y productos serios, consistentes y duraderos, para el campo de los recursos humanos digitalizados; y no sólo desde que Google también entró en este segmento de mercado. [5]

Big Data limita el desarrollo del conocimiento

Entonces, llegamos a la conclusión de que más datos no necesariamente significa, en realidad, más conocimiento. Los conocimientos deben ser estructurados, examinados y validados. Y los expertos tienen que estar involucrados en el proceso. Por lo tanto, es necesario actuar con cautela a la hora de combatir la avalancha de datos, los cuales no pueden finalmente estructurarse, dando lugar a correlaciones aleatorias. Alexander Wissner-Gross, científico de la Universidad de Harvard y del Instituto Tecnológico de Massachusetts (MIT), lo ha resumido de una manera interesante: «Quizás la noticia más importante de nuestro tiempo es que los conjuntos de datos, y no los algoritmos, podrían ser el factor limitante decisivo para que el desarrollo de la inteligencia artificial alcance el nivel de la inteligencia humana”. [6]

Por tanto, es mucho más prometedor el contenido del conocimiento en sí y no la cantidad de datos de los cuales se extrae ese conocimiento. Y lo que también resulta a la vez prometedor y tranquilizador, es que, en última instancia, sólo los expertos, o las herramientas basadas en la experiencia real, pueden hacer juicios fiables y correctos en muchas áreas importantes, como la medicina o la selección de personal. Todo esto hace que el boom publicitario sobre Big Data e Inteligencia Artificial en aplicaciones para RRHH, sea un poco más soportable. Y nuestra misión en JANZZ.technology «We turn Big Data into Smart Data» (“Convertimos macrodatos en datos inteligentes») está más vigente que nunca.

[1] Brücher, Cornel. 2013. Rethink Big Data. Frechen: MITP-Editorial.

[2] Straumann, Felix. «Vieles ist blankes Marketing». Big Data. En: Tagesanzeiger (2018), Nr. 168, Pág. 32.

[3] Spitzer, Julie. 2018. IBM’s Watson recommended “unsafe and incorrect” cancer treatments, STAT report finds. URL: https://www.beckershospitalreview.com/artificial-intelligence/ibm-s-watson-recommended-unsafe-and-incorrect-cancer-treatments-stat-report-finds.html [2018.08.01].

[4] Del video: Google Cloud Platform. 2017. Google Cloud Jobs API: How to power your search for the best talent (Google Cloud Next ’17). URL: https://www.youtube.com/watch?v=Fr_8oNKtB98 [2018.08.03].

[5] Watson, Christine. 2018. RecTech is creating more – not less – need for the human touch. URL: http://www.daxtra.com/2018/08/03/rectech-creating-more-need-for-human-touch/?utm_content=75449136&utm_medium=social&utm_source=twitter [2018.08.09].

[6] Alexander Wissner-Gross. 2016. Datasets Over Algorithms. URL: https://www.edge.org/response-detail/26587 [2018.07.27].