Ainda mais barulho por nada… Ou porque o hype sobre Big Data e inteligencia artificial (IA) geralmente é mais sobre auto-marketing do que fatos e progresso.

A cada dois dias, produzimos a mesma quantidade de dados que foram produzidos anteriormente até o ano de 2003. Com este fato chocou Erich Schmidt, o ex-CEO da Google, em 2010. Claro que a produçao de datos acelerou desde então. Embora o “processamento de dados em massa” não seja novidade, somente nos últimos anos o hype em torno do termo mais conhecido como “Big Data” foi realmente desencandeado [1]. Ma ligeiramente muitos se perdem nessa selva de dados cada vez maior e em métodos abstrusos.

Coincidências não podem ser calculadas

Pois «mais dados não significa mais conhecimento”, proclama Gerd Antes efimero em uma entrevista com o Tagesanzeiger. O matemático critica bruscamente o hype sobre o Big Data, porque a massa de dados tornaria as correlações aleatórias mais prováveis. Assim mostra o consumo de queijo por cabeça e o número de mortes causadas por emaranhado na cama nos EUA uma curva idêntica. Enquanto uma anásile de máquina pode ter tirado conclusões, um cientista humano reconhece imediatamente que isso é uma coincidência [2].

De acordo com muitos defensores do Big Data, coincidências não existem mais. Eles acreditam que, se as quantidades de dados disponíveis forem grandes o suficiente, todas as inter-relações podem ser calculadas antecipadamente com a ajuda de processamento ou com um profundo aprendizado de máquinas e o tipo certo de análise. Experiências passadas e em conjunto com treinamentos disponíveis são suficientes para isso, e há risco insignificante de intervalos de erro devido a dados ausentes ou irrelevantes. No entanto, tal conclusão é fatal. Claro, certas áreas, períodos de tempo e inter-relações, etc. podem ser exploradas mais facilmente, para as quais algo é mais ou menos provável de acontecer. No entanto, isso certamente não significa que coincidências ou desvios significativos sejam impossíveis. Por exemplo, como podemos esperar uma análise dos dados coletados do passado para prever com precisão acidentes de trânsito no futuro? Ou doenças, uma vez que informações sobre progressões da doença – e, portanto, dados digitais de pacientes – podem ser incompletas, inconsistentes e / ou imprecisas [2].

Big, bigger, big data?

A análise de dados podem também ser fatal…

Especialmente na medicina, não apenas Gerd Antes alerta sobre o hype da Big Data e o da IA. Usar um método de tratamento incorreto baseado em análise de Big Data e resultados de aprendizado de máquina pode ser muito perigoso – para as pessoas, para o “bolso” e para a reputação. Porque nessa imensa quantidade de dados as verdadeiras correlações e inconsistências talvez não sejam sequer descobertas. Correlações e inconsistências que podem ameaçar ou salvar vidas [2].

Resentemente a IBM esteve novamente nas manchetes negativas, quando a empresa de mídia STAT analisou documentos internos da IBM para um relatório, que concluiu que o “Watson for Oncology” recomendou tratamentos de câncer “inseguros e incorretos” repetidamente. Da mesma forma, estes disseram que os funcionários e supervisores da IBM estavam cientes disso. No fim das contas com base nessas recomendações não houve morte comprovada, mas muitos hospitais renomados decidiram não usar a tecnologia multimilionária[3].

Na medida em que no campo da tecnologia tenha uma mudança de pensamento, e novamente o pensamento racional pode ser reconhecido. Finalmente, o hype de há 2-3 anos, que parecia ser ilimitado, em torno do computador milagroso Watson da IBM no campo da medicina, está novamente em declínio. Muitas outras aplicações semelhantes surgirão. O mais tarde, quando se tratar mais de fatos, resultados confiáveis e relevância, e menos sobre promessas brutais de auto-marketing, bem como promessas encorpadas das empresas globais de technologia bem conhecidas e seus produtos muitas vezes ainda mais experimentais. Certo é que os insights e aprendizados da medicina anteriormente descritos podem ser transferidos quase 1:1 para o merdado de RH digital, onde estes são usados, por exemplo, quando combinando trabalhos e talentos.

Conhecimento confiável vem de especialistas

Já a mais de cinco anos atrás, Cornel Brücher provocou com seu trabalho “Rethink Big Data” (“Repense Big Data”) e descreveu os seguidores de Big Data como tolos [2]. Nós da JANZZ desde o começo temos esta mesma visão. Portanto, simplesmente não é possível obter conhecimento no campo de trabalhos e currículos, dados de ocupação mais complexos, etc., apenas com o aprendizado de máquina. Qualquer um de afirme o contrário está simplesmente errado. E essas alegações permaneceram falsas e inúteis, não importa quantas vezes as mesmas idéias e produtos sejam reajustados e comercializados. Mesmo que muito mais dinheiro do que anteriormente seja investido nessas technologias.

Por isso, e apesar dos muitos investimentos, os resultados são baseados nessa mesma abordagem, ainda largamente inadequada, e mal melhoraram nos últimos anos. Independentemende do tamanho dos conjuntos de dados utilizados para esta finalidade, por exemplo no LinkedIn, IBM & Co. Os resultados do aprendizado de máquina não só estão ficando mais errôneos quanto mais fatores e variáveis ​​e, portanto, regras e relações mais complicadas são adicionadas resultando em falsas correlações ou, às vezes, até da suposta causalidade. Por outro lado, os grafos de conhecimento, respectivamente ontologias, criam a possibilidade de mapear e utilizar o conhecimento de forma muito profunda e estruturada. Assim, o conhecimento de especialistas é armazenado em suas áreas respectivas e conectado de maneira estruturada, o conhecimento de ontologia é verificável e confiável e não calculada por cientistas da computação, que agora são especialistas em programação, mas que por exemplo, não em medicina ou em várias profições de engenharia ou áreas de investimento como banco, etc. Uma característica importante que falta ao utilizar o modo de “Machine Learning” (aprendizado de máquina). Como os gráficos de conhecimento entendem os relacionamentos entre muitas áreas diferentes, somente eles podem fornecer resultados e recomendações de pesquisa relevantes e precisos. Por exemplo no campo de dados de ocupação: Pois o grafico de conhecimento reconhece a diferença e as conexões entre competências, experiências, funções, especializações e educação, e sabe que, para os cargos “J” com treinamento “A” a competência “K” é importante. Consideramos um “arquiteto sênior de Cloud” como exemplo: Um gráfico de conhecimento reconhece esse cargo e sabe que, por exemplo, o programa de mestrado em Ciência da Computação pode um dia levar a esse título se, por exemplo, o candidato puder demonstrar a competência “Cloud Solution Development” (“desenvolvimento de soluções em cloud/nuvem”) e vários anos de experiência profissional.

O Google também conta com especialistas ou um gráfico de conhecimento para dados de ocupação

Finalmente proclamou o Google, quando a empresa lançou seu gráfico de conhecimento “Google Cloud Jobs API”, onde o “Google for Jobs Search” foi baseado (Veja “Google launches Ontology-powered Jobs Search Engine – What Now?”). O Google reconheceu que uma abordagem baseada em ontologia oferece melhores resultados. Em uma busca semântica que se baseia em um gráfico de conhecimento, se procurar por um “Assistente Administrativo”, não obteria resultados semelhantes ao termo de pesquisa, como “Administrador RH” ou “Administrador de software”. Da mesma forma, uma análise de grande volume de dados poderia identificar correlações aleatórias, sugerindo trabalhos terceirizados completamente diferentes que possuam apenas requisitos de competência semelhantes (assim, engenheiros e funcionários de escritório certamente precisam de conhecimento sobre o Microsoft Office).

Conhecer a diferença e, portanto, a procura de emprego e a compreensão geral das ocupações e seus relacionamentos geralmente só é possível com um gráfico de conhecimento. Matt Moore, gerente de produto do Google Cloud, explicou o objetivo da Google Cloud Jobs API: “Queremos permitir que todos os empregadores e candidatos melhorem a experiência de procura de emprego. Sejamos honestos: Contratar as pessoas certas é a coisa mais importante que as empresas precisam fazer.”[4].

Apenas os humanos têm o conhecimento humano necessário…

E isso levanta a questão de quem você realmente pode confiar quando se trata da tarefa mais importante: a seleção de profissionais. Uma história infinita: Julgado pelo CV, o/a aplicante era o candidato(a) perfeito(a), mas infelizmente humanamente não se encaixava em nada. Tirando conclusões como essa, que não sugerem os dados (digitais) disponíveis, está se movendo no nível dos especialistas em RH, isto é relações interpessoais. As ferramentas tecnológicas podem gerenciar e classificar os currículos com base em insights óbvios, como educação, habilidades, experiência, etc., se o fluxo de dados for gerenciável e, acima de tudo, avaliado corretamente. Mesmo o melhor candidato no papel pode de repente desaparecer no meio da multidão devido à grande quantidade de critérios mal interpretados ou mal compreendidos. E o CV númeo 1 nem sempre pertence ao melhor candidato(a). Acreditando que este último remanescente do fator humano será finalmente banido dos processos, cada vez mais empresas de tecnologia e start-ups estão tentando digitalizar essa dimensão e dominá-la com inteligência artificial. Novamente com métodos inadequados e até mesmo antes dos dados digitais realmente processáveis, existentes, teriam sido usados ​​e avaliados corretamente. Um fato sobre o qual os especialistas e os principais fornecedores de tecnologias, que têm lidado com processos e produtos respeitáveis ​​e resilientes na área de RH digital há vários anos, estão basicamente de acordo. E não apenas desde que o Google entrou nesse segmento de mercado [5].

Big Data limita o desenvolvimento do conhecimento

Mais dados realmente nao significam mais conhecimento. O conhecimento deve ser estruturado, arquivado e avaliado. E as pessoas bem informadas precisam estar envolvidas. Portanto, é necessário ter cuidado ao combater o fluxo de dados, que no final não podem mais ser estruturados e resultam em correlações aleatórias. Alexander Wissner-Gross, um cientista da Universidade de Harvard e do Instituto de Tecnologia de Massachusetts (MIT), resume de uma forma interessante: “Talvez a notícia mais importante do nosso tempo seja que conjuntos de dados – não algoritmos – poderiam ser o fator limitante crucial para o desenvolvimento da inteligência artificial em escala humana.” [6] O mais promissor é, portanto, o conteúdo do conhecimento, não a quantidade de dados, da qual esse conhecimento deve ser retirado. E promissora respectivamente reconfortante é que, no final, em muitas áreas importantes, como medicina ou seleção de pessoal, apenas especialistas ou ferramentas baseadas em experiência verdadeira possam julgar de maneira confiável e precisa.Tudo isso faz com que a propaganda sobre Big Data e AI em RH já seja um pouco mais suportável. E nossa missão na JANZZ.technology “We turn Big Data into Smart Data” é mais relevante do que nunca.

[1] Brücher, Cornel. 2013. Rethink Big Data. Frechen: MITP-Verlag.

[2] Straumann, Felix. «Vieles ist blankes Marketing». Big Data. In: Tagesanzeiger (2018), Nr. 168, P. 32.

[3] Spitzer, Julie. 2018. IBM’s Watson recommended “unsafe and incorrect” cancer treatments, STAT report finds. URL: https://www.beckershospitalreview.com/artificial-intelligence/ibm-s-watson-recommended-unsafe-and-incorrect-cancer-treatments-stat-report-finds.html [2018.08.01].

[4] From video: Google Cloud Platform. 2017. Google Cloud Jobs API: How to power your search for the best talent (Google Cloud Next ’17). URL: https://www.youtube.com/watch?v=Fr_8oNKtB98 [2018.08.03].

[5] Watson, Christine. 2018. RecTech is creating more – not less – need for the human touch. URL: http://www.daxtra.com/2018/08/03/rectech-creating-more-need-for-human-touch/?utm_content=75449136&utm_medium=social&utm_source=twitter [2018.08.09].

[6] Alexander Wissner-Gross. 2016. Datasets Over Algorithms. URL: https://www.edge.org/response-detail/26587 [2018.07.27].