Los datos de competencias «fáciles», una manzana envenenada, ¿estás dispuesto a renunciar a ese dulce sabor?

Este es el tercero de una serie de posts sobre habilidades. Si aún no lo has hecho, lee primero los otros artículos:
Dejemos las tonterías aparte y Lo sentimos, pero »Microsoft Office» NO es una habilidad.

En el segundo artículo de esta serie, hablamos de las competencias y de los problemas que plantea su definición y especificación. Suponiendo que podamos llegar a algún tipo de entendimiento común de esta valiosa «nueva moneda», el siguiente paso es encontrar una manera de generar habilidades y datos de trabajo significativos.

 

Datos poco fiables, resultados poco fiables

Las grandes cantidades de datos de las plataformas de empleo en línea o de los sitios de redes profesionales pueden arrojar una gran cantidad de información con una precisión mucho mayor que los datos habituales recogidos por las oficinas nacionales de estadística en las encuestas, especialmente en lo que respecta a las competencias. Una de las razones es que, a diferencia de los anuncios impresos, los empleadores no tienen que pagar por espacio para los anuncios de empleo en línea y, por lo tanto, pueden proporcionar información más detallada sobre los conocimientos y habilidades que requieren. Estos datos en línea también permiten supervisar una muestra mucho mayor en tiempo real, lo que puede ser muy valioso para que los analistas y los responsables políticos desarrollen una comprensión oportuna y más detallada de las condiciones y tendencias del mercado laboral.

Sin embargo, al trabajar con los datos disponibles en línea, como los anuncios de empleo en línea (AEL) o los perfiles profesionales (por ejemplo, los perfiles de LinkedIn), debemos tener claro que estos datos no son ni completos ni representativos y, por tanto, cualquier resultado debe interpretarse siempre con precaución. No solo por el hecho evidente de que los resultados estarán distorsionados, sino sobre todo por las implicaciones. La promoción de determinadas competencias sobre la base de datos distorsionados puede ser perjudicial para el mercado laboral: si los trabajadores se centran en la obtención de estas competencias – que por naturaleza tienden a derivarse de datos sesgados hacia profesionales altamente cualificados en sectores como la informática y otras áreas que implican una educación superior – es más improbable que opten por trayectorias profesionales que impliquen otras competencias que realmente tienen una gran demanda, por ejemplo, carreras profesionales en oficios cualificados, construcción, sanidad, fabricación, etc. El hecho es que la digitalización afectará principalmente a los trabajadores mejor formados y con salarios elevados en los países industrializados, simplemente porque es mucho más fácil digitalizar o automatizar al menos algunas de las tareas de estos trabajos que las de muchas ocupaciones de construcción y vocacionales como la carpintería, el trabajo de cuidados, etc. Lo último que querría cualquier responsable de la política del mercado laboral es acentuar el ya crítico déficit de cualificación en este ámbito o crear un mercado laboral aún más reducido para determinadas profesiones, por ejemplo, los profesionales de la informática. [1] Del mismo modo, los proveedores de educación que pretenden alinear sus planes de estudio con la demanda del mercado necesitan datos fiables para no amplificar las carencias de competencias en lugar de aliviarlas. Sin embargo, un número creciente de SPE se basa en estos datos, a menudo poco fiables, para la toma de decisiones y el diseño de las PAE.

Por ejemplo, hay varios proyectos que pretenden recopilar y analizar todos los AEL disponibles de todas las fuentes posibles en un mercado laboral determinado y utilizar estos datos agregados para hacer recomendaciones que incluyan previsiones de empleabilidad y demanda de competencias futuras. Sin embargo, las competencias suelen procesarse y presentarse sin ningún contexto semántico, lo que puede resultar muy engañoso.

Los desafíos de los datos de AEL

En 2018, el proyecto ESSnet Big Data del sistema estadístico europeo emitió un informe [2] sobre la viabilidad de utilizar los datos de AEL para las estadísticas oficiales. Su conclusión fue que «los problemas de calidad son tales que no está claro si estos datos podrían integrarse de una manera que les permita cumplir con los estándares que se esperan de las estadísticas oficiales».

Veamos algunos de los problemas principales de los datos de AEL.

  1. Incompletos y sesgados: No todas las ofertas de empleo se anuncian en línea. Una parte importante de los puestos se cubren sin anunciarse en absoluto (algunas fuentes afirman que alrededor del 20 %, otras que hasta el 85 % de las vacantes); no obstante, no todas las que se anuncian se publican en línea. El Cedefop comunicó que en 2017, la proporción de vacantes publicadas en línea en los países de la UE varía sustancialmente, desde casi el 100 % en Estonia, Finlandia y Suecia hasta menos del 50 % en Dinamarca, Grecia y Rumanía. [3] Además, algunos tipos de puestos de trabajo tienen más probabilidades de anunciarse en línea que otros. Y las grandes empresas o las que tienen la obligación de publicar las vacantes suelen estar estadísticamente muy representadas, mientras que las pequeñas empresas, que suelen preferir otros canales como la prensa escrita, el boca a boca o los carteles en los escaparates, no están lo suficientemente representadas. Otro punto relevante es que algunos mercados están tan vacíos que no vale la pena publicar las vacantes, y en su lugar se recurre a cazatalentos especializados. En resumen, esto significa que los datos de AEL no solo no captan muchas ofertas de empleo, sino que tampoco son representativos del mercado laboral en general. [4]
  2. Duplica: En la mayoría de los países, no existe una única fuente de datos de AEL. Cada país cuenta con numerosos portales de empleo en línea, algunos de los cuales solo publican anuncios originales, otros vuelven a publicar anuncios de otras fuentes, versiones híbridas, sitios especializados para determinados sectores o niveles de carrera, etc. Por lo tanto, para garantizar una cobertura adecuada, los datos de AEL generalmente deben obtenerse a partir de diversas fuentes. Esto conduce inevitablemente a muchas duplicidades, que deben ser tratadas con eficacia para medir de forma fiable las tendencias del mercado laboral en el mundo real. Por ejemplo, en un proyecto de 2016, el Instituto Nacional de Estadística del Reino Unido (NSI por sus siglas en inglés) informó de porcentajes de duplicación del 8 % al 22 %, dependiendo del portal, y de una tasa de duplicación global del 10 %. [5] En el proyecto ESSnet Big Data, el INE sueco identificó entre un 4 % y un 38 % de duplicados por portal y un 10 % del conjunto de datos combinados. [6]
  3. Falta de detalle en la información: Algunas ofertas de empleo ofrecen información mucho más explícita sobre las competencias requeridas que otras, como en función del sector (por ejemplo, técnico/TI) o del país (por ejemplo, debido a la legislación o a los hábitos culturales). Además, la información implícita solo se registra de forma limitada y está estadísticamente mal representada, a pesar de su gran relevancia. Una de las razones es que los proveedores de datos estadounidenses a menudo no reconocen lo detallado que son los AEL en Estados Unidos, por lo que asumen que esto es así en todas partes y basan sus métodos en esta suposición. Sin embargo, esto dista mucho de ser correcto. Por ejemplo, una descripción de trabajo como la que se muestra a continuación, que es bastante común en EE.UU., a menudo se limita a «realizar todos los trabajos de pintura en las áreas de mantenimiento, conversiones y renovaciones; cumplimiento las normas de seguridad y calidad; mínimo de tres años de experiencia o aprendizaje» en los países europeos. Además, en este tipo de anuncios de empleo, muchas de las competencias requeridas deben derivarse de las tareas o responsabilidades enumeradas. Esto demuestra lo importante que es extraer información implícita.

 

The poison apple of “easy” skills data – are you ready to give up that sweet taste?

 

Por lo tanto, la cuestión es si se pueden tratar estos temas de forma que se generen datos significativos.

La respuesta es aproximada. Las limitaciones de la capacidad de representación pueden abordarse con diversos enfoques. No existe una solución única, pero dependiendo de los datos disponibles y del mercado laboral en cuestión, la ponderación estadística de los datos, según la estructura de la industria derivada de las encuestas de población activa, podría ser prometedora; del mismo modo que comparar los resultados de varias fuentes de datos para realizar comprobaciones de solidez o simplemente centrarse en aquellos segmentos del mercado con un sesgo de cobertura menos problemático. [7]

Los problemas de deduplicación pueden resolverse técnicamente hasta cierto punto y existe una amplia investigación en este ámbito. Básicamente, la mayoría de los métodos consisten en cotejar los campos comunes, comparar el contenido del texto y, a continuación, calcular una métrica de similitud para determinar la probabilidad de que dos ofertas de empleo sean duplicadas. Algunos agentes de búsqueda de empleo también intentan eliminar los duplicados, con mayor o menor éxito. La identificación de duplicados es bastante sencilla cuando los AEL contienen backlinks a un anuncio original, ya que estos enlaces serán idénticos. Por otro lado, los anuncios de empleo que se han publicado en varias bolsas de trabajo suponen un reto mayor. Por ello, lo ideal es que se realicen comprobaciones sólidas de garantía de calidad, como la validación manual en conjuntos de datos más pequeños.

Seriamente subestimadas: el problema de la extracción de competencias

El tercer problema, el nivel de detalle, parece ser el más subestimado. Los AEL de Estados Unidos suelen ser mucho más detallados que los de otros países. Se expone explícitamente mucha información que solo está presente de forma implícita en los datos de los AEL de Reino Unido y otros países (por ejemplo, cubierta por los requisitos de formación o la experiencia laboral) o no se da en absoluto. Pero incluso dentro de EE.UU., esto puede variar mucho.

 

The poison apple of “easy” skills data – are you ready to give up that sweet taste?

 

Resulta innegable que, incluso si podemos resolver las cuestiones relativas a la capacidad de representación y a los duplicados, el simple registro de los datos explícitos seguirá dando lugar a previsiones o pronósticos muy poco fiables. En cambio, hay que extraer tanto los datos explícitos como los implícitos, junto con su contexto. Para reducir las distorsiones de los datos recogidos, hay que analizarlos semánticamente con precisión. Esto puede hacerse con una amplia representación del conocimiento que incluya no solo las habilidades o los puestos de trabajo, sino también la educación, la experiencia laboral, los certificados, etc., así como los niveles requeridos y las complejas relaciones entre las distintas entidades. De este modo, podremos recoger más habilidades implícitas ocultas en las estipulaciones sobre educación, cualificaciones y experiencia. Además, la mayor granularidad de los datos de los AEL solo resulta útil si las habilidades extraídas no se agrupan o generalizan demasiado en el proceso posterior, por ejemplo, en términos como «gestión de proyectos», «habilidades digitales» o «atención sanitaria» (véase nuestro post anterior), debido a que se trabaja con clasificaciones o taxonomías demasiado simplificadas en lugar de aprovechar ontologías completas con un elevado nivel de detalle.

Por otro lado, está la cuestión de cómo analizar los datos. Profundizaremos en este aspecto en el próximo artículo, pero por ahora, podemos decir lo siguiente: incluso si somos capaces de establecer el sistema perfecto para extraer todos los datos relevantes de los AEL (y, por ende, de los perfiles de los candidatos), todavía nos enfrentaríamos al reto de interpretar los resultados (o simplemente hacer las preguntas correctas). Cuando se trata del análisis del mercado de trabajo, de previsiones y de pronósticos, por ejemplo, de la demanda de competencias, la combinación de los datos de los AEL con datos externos, como los de las encuestas de los INE, promete resultados más sólidos, ya que los datos de los AEL pueden cotejarse y, por tanto, calibrarse, ponderarse y estratificarse mejor. Sin embargo, los datos externos relevantes y actualizados son extremadamente raros. Es posible que nos encontremos con otro problema. Es mucho más fácil y más barato mejorar o volver a formar a los solicitantes de empleo, por ejemplo, con un curso de SEO en línea que con una formación profesional o técnica en soldadura MIG/MAG. Así que tal vez algunos de nosotros no estemos tan interesados en la verdadera demanda de habilidades…

 

[1] Según la encuesta de 2020 del Manpower Group, los puestos de TI ocupan un lugar destacado en la lista de puestos más difíciles de cubrir en EE.UU., pero no en todos los demás países. En algunos países, incluidos los desarrollados como Reino Unido y Suiza, los profesionales de las tecnologías de la información no figuran en absoluto en la lista de los diez primeros puestos.
[2] https://ec.europa.eu/eurostat/cros/sites/crosportal/files/SGA2_WP1_Deliverable_2_2_main_report_with_annexes_final.pdf
[3] The feasibility of using big data in anticipating and matching skills needs, Section 1.1, ILO, 2020 https://www.ilo.org/wcmsp5/groups/public/—ed_emp/—emp_ent/documents/publication/wcms_759330.pdf
[4] El proyecto ESSnet Big Data también investigó la cobertura; para los resultados detallados, véanse los anexos C y G del 2018 report.
[5] https://ec.europa.eu/eurostat/cros/content/WP1_Sprint_2016_07_28-29_Virtual_Notes_en
[6] https://ec.europa.eu/eurostat/cros/sites/crosportal/files/WP1_Deliverable_1.3_Final_technical_report.pdf
[7]Véase, por ejemplo Kureková et al.: Using online vacancies and web surveys to analyse the labour market: a methodological inquiry, IZA Journal of Labor Economics, 2015, https://izajole.springeropen.com/track/pdf/10.1186/s40172-015-0034-4.pdf