Você se sente perdido com grandes volumes de dados?
A ideia mal interpretada que reina no universo dos dados.

lost_in_big_data

“. . . Nesse império, a arte da cartografia atingiu um nível de perfeição tal que o mapa de uma única província ocupava a área de uma cidade inteira, e o mapa de um império ocupava a área de uma província inteira. Em tempo, esses mapas inconcebíveis não eram mais satisfatórios e as guildas dos cartógrafos traçaram um mapa do império com as mesmas dimensões do próprio império, coincidindo com a área original em cada ponto.[…]”

“Sobre o rigor nas ciências”
Jorge Luis Borges

A história de Borges narra um império imaginário, obcecado com a ideia de criar uma representação perfeita do mundo. O Império fictício se dedicou completamente à tarefa de criar um mapa que coincidisse com as terras ponto a ponto. Hoje, eu não posso evitar de pensar que nos encontramos em um ambiente muito parecido: os dados estão em profunda mudança no nosso mundo, assim como a maneira como os percebemos. Estamos em meio a uma revolução dos dados tão vasta, difundida e jovem que fica difícil absorver tudo. O impacto dos dados está se estendendo em uma escala realmente assustadora; estamos nos empenhando em utilizar grandes volumes de dados para transformar setores inteiros, do marketing e das vendas à previsão do tempo, dos diagnósticos clínicos às embalagens de alimentos e do armazenamento de documentos e do uso de software à comunicação. Na verdade, de uma maneira muito parecida com o império fictício de Borges, acabamos acreditando que quanto mais dados coletarmos e analisarmos, mais conhecimentos vamos adquirir do mundo e das pessoas que o habitam. Como se tornaram tolos os maníacos da informação.

Atualmente prevalece a convicção de que grandes volumes de dados geram perspectivas viáveis para quase todos os aspectos da vida. Philip Evans e Patrick Forth contestam, alegando que “as informações são compreendidas e aplicadas fundamentalmente por meio de novos métodos de inteligência artificial, que buscam perspectivas em algoritmos, utilizando conjuntos de dados volumosos e ruidosos. Como os conjuntos de dados mais volumosos geram perspectivas melhores, a imensidão é linda” (do artigo de coautoria dos cientistas bcg.perspectives). Ao longo dessas linhas, nosso apetite por dados está aumentando continuamente e nosso ecossistema digital está alimentando essa tendência: sensores, dispositivos conectados, redes sociais e um número crescente de nuvens produzem continuamente novos dados para coletarmos e analisarmos. Segundo um estudo da International Data Corporation (IDC), o universo digital deve dobrar, aproximadamente, a cada dois anos. De 2005 até 2020, o volume de dados vai crescer 300 vezes, atingindo 40 zetabytes de dados. Um zetabyte equivale a 1021 bytes. Neste mundo em que os volumes de dados crescem exponencialmente, não há limites para a necessidade de acúmulo de dados. Assim como no império fictício de Borges, o limite externo é a escala 1:1, uma representação digital completa do nosso mundo.

Hoje em dia, empresas como a IBM ou o LinkedIn já procuram atingir esse limite. A IBM está treinando seu sistema de computação cognitiva, conhecido como Watson, para ser capaz de responder a praticamente qualquer pergunta. Para tanto, o IBM Watson está coletando volumes de dados sem precedentes, para compor um acervo impressionante de informações. A empresa acaba de adquirir a Truven Health Analytics por US$ 2,6 bilhões à vista, trazendo para sua unidade clínica um poderoso repositório de dados de milhares de hospitais, funcionários e governos de vários estados dos EUA, relacionados à saúde. Trata-se da quarta grande aquisição de empresas de dados na área de saúde nos 10 meses de vida do IBM Watson, demonstrando a importância da representação digital de pacientes, diagnósticos, tratamentos e hospitais para o sistema de inteligência artificial dessa gigante da informática. A visão do LinkedIn é igualmente ousada: a empresa está criando um Gráfico Econômico, que representa nada menos que o mapeamento digital da economia global. Outro objetivo do site é incluir um perfil para cada um dos 3 bilhões de membros da força de trabalho ativa no planeta. O intuito é representar digitalmente cada empresa, seus produtos e serviços, as oportunidades econômicas que oferecem e as competências necessárias para se enquadrar nessas oportunidades. E a empresa planeja incluir uma presença digital para cada instituição de ensino superior n mundo. Ainda assim, o empenho dessas duas empresas é apenas a ponta do iceberg. Seus planos de manter uma apresentação digital em seus respectivos campos são ícones de uma aspiração mais geral dos dias de hoje em relação ao status das informações polivalentes.

A visão de empresas como IBM Watson e Linkedin já está, portanto, invocando o mundo idealizado por Borges. As forças dos grandes volumes de dados estão se convergindo e recriando as pretensões cartográficas do império da obra do escritor. O mundo está se tornando autorreferenciável. A representação digital do nosso mundo está se expandindo rapidamente e os limites externos, a representação e a realidade estão começando a se fundir. O mundo e nossa imagem do mundo estão se convergindo. De repente, nos vemos em um mundo que tem uma semelhança assustadora com o império de Borges.

Que bobagem – prossegue a narrativa de Borges, chamando a atenção para a questão da própria finalidade dessa imensa representação. Seja cartográfico ou digital, um mapa em escala 1:1 pode não ser tão importante quanto se supunha.

“[…] Menos dedicadas ao estudo da cartografia, as gerações seguintes decidiram que esse dilatado mapa era inútil e não sem impiedade entregaram-no às inclemências do sol e dos invernos. Nos desertos do oeste perduram despedaçadas ruínas do mapa habitadas por animais e por mendigos; em todo o País não há outra relíquia das Disciplinas Geográficas.”

No mundo fictício de Borges, as próximas gerações desprezaram o mapa de seus ancestrais, pois já não tinham mais a mesma ambição deles e reconheceram que um mapa em escala 1:1 era inútil. Eles deixaram o mapa se decompor e tudo o que sobrou foram “ruínas laceradas” do mapa de seus ancestrais. A conclusão de que um mapa em escala 1:1 praticamente não tem utilidade também ecoa em nossa experiência com o universo dos dados em franca expansão. O Professor Patrick Wolfe, Diretor Executivo do Instituto de Grandes Volumes de Dados do College of London, alerta que “a velocidade com que estamos gerando dados está superando rapidamente nossa capacidade de analisá-los.” Apenas cerca de 0,5% de todos os dados são analisados atualmente e Wolfe diz que esse percentual está se reduzindo à medida que mais dados são coletados. Portanto, também estamos começando a constatar a falta de praticidade das massas de dados com que estamos lidando. Em vez de adquirir mais conhecimentos, exponencialmente, sobre o nosso mundo, por meio dos dados, estamos criando uma entidade que corre o risco de cair no esquecimento, graças ao seu tamanho exagerado.

Para evitar que nossa coleção digital em eterno acúmulo tenha o mesmo destino do mapa de Borges – ser abandonada pelas próximas gerações até se tornar um amontoado de ruínas – é essencial gerar inteligência aproveitável com ela. Desta forma, a capacidade de realmente compreender inteiramente a complexidade das massas de dados coletados e produzir conhecimentos relevantes a partir delas será a vantagem competitiva definitiva da atualidade e ainda mais no futuro.

Apesar de várias pessoas já estarem transformando grandes volumes de dados em dados inteligentes, ainda não surgiu uma solução patente que determine como de fato chegar a essa transformação. No momento, a matemática aplicada, o processamento da linguagem natural e a aprendizagem de máquinas têm peso igual na balança e substituem todas as demais ferramentas que possam ser concebidas. É a ideia de que, com dados suficientes, os números falam por si próprios. Para reiterar o que Evans e Forth disseram, “a imensidão é linda”. Essa ideia supre de informações a cultura do Vale do Silício e, por extensão, a de diversos empreendimentos em todo o mundo.

Outras metodologias como as ontologiastaxonomias e semânticas são inteiramente desprezadas no atual espírito de descobrimento. Enquanto a matemática aplicada, a aprendizagem de máquinas e as análises preditivas se baseiam no volume, as ontologias, taxonomias e semânticas se baseiam no significado e na compreensão. E embora estas últimas possam parecer irrelevantes, se comparadas às dimensões daquelas, elas ainda têm um papel de igual importância na determinação da adequação competitiva das empresas. Depois do crescimento exponencial do universo digital nos últimos anos, atingimos um grau de complexidade que requer uma profunda compreensão dos temas em questão. Algo que não se obtém pela mera coleta de ainda mais dados ou com a implementação de um algoritmo. Portanto, por mais irônico que possa ser, é uma mudança de direção que nos afasta da ideia de que “o grande é lindo”, e que pode realmente alavancar o poder integral dos grandes volumes de dados.