在大数据中迷失方向?
统治数据宇宙的误导思想

lost_in_big_data

“…在那个帝国,制图技艺是如此地精湛绝伦,省级地图绘制得如同一个城市一般大,而帝国地图绘制得如同一个省一般大。在那个时候,人们对这些不合常理的地图仍不满意,绘图师 Guilds 绘制了一幅面积与实际国土一样大的地图,其中的每个点都与实际国土无异。[…]”

《论科学的精确性》
豪尔赫·路易斯·博尔赫斯

在博尔赫斯的故事所设想的帝国中,人们沉迷于创造完美表示其国土的想法。这个虚构的帝国已经完全沉浸在创建与其国土完全吻合的地图中。今天,我不禁想到,我们自己也处在一个非常相似的环境中:数据正在深刻地改变着我们的世界,也改变着我们看待世界的方式。我们发现自己处于一场汹涌澎湃的数据革命之中。数据的影响无处不在;我们努力使用大数据来改变整个行业 — 市场营销、销售、天气预报、医疗诊断、食品包装、文件存储、软件使用、通信等等。事实上,与博尔赫斯的虚构帝国非常相似,我们盲目地认为,收集和分析的数据越多,我们获得的有关世界和人类生活的知识就越多。我们简直就是愚蠢的数据疯子。

现在盛行的观点是,大数据几乎可以在生活各个方面提供可操作的见解。Philip Evans 和 Patrick Forth 认为:“信息通过基本的人工智能新方法得到理解和应用,通过使用大量嘈杂数据集的算法形成见解。由于更大的数据集可以产生更好的见解,因此大即是美”(摘自 bcg.perspectives 的联合文章)。与这些观点相符的现象是,我们对数据的渴求在不断增加,我们的数字生态系统正在加速:传感器、互连设备、社交媒体和越来越多的云,不断产生供我们收集和分析的新数据。国际数据公司 (IDC) 的研究表明,数字宇宙每两年将翻一番。从 2005 年到 2020 年,数据量将增长 300 倍,达到 40 泽字节数据(一个泽字节是数字后面再跟 21 个零)。在这个数据呈指数级增长的世界里,积累数据的冲动势不可挡。就像博尔赫斯虚构的帝国一样,我们希望使用外部极限是 1:1 的比例尺,对我们的世界进行完整的数字表示。

今天,IBM 或 LinkedIn 这样的公司已经在向这个极限迈进。IBM 正在对其称为 Watson 的认知计算系统进行培训,以便能够回答几乎任何问题。为此,IBM Watson 正在收集数量空前的数据,以形成庞大的信息库。该公司刚刚以 26 亿美元现金收购了 Truven Health Analytics,将美国数千家医院、雇主和州政府的健康数据库融入其健康部门的主数据库。这是 IBM Watson 在 10 个月内对健康数据公司的第四次重大收购,显示了患者、诊断、治疗和医院的数字信息对这个计算机巨头人工智能系统的重要性。LinkedIn 的愿景同样非常宏大:他们正在创建一个经济图表,其规模堪称有关全球经济的数字地图。它打算在收录全球 30 亿劳动力成员的档案。它打算以数字化方式来表示每家公司、他们的产品和服务、他们提供的经济机会以及获得这些机会所需的技能。它计划以数字化形式来呈现全球所有高等教育机构。然而,这两家公司的工作只是冰山一角。他们对于在各自领域建立完整数字化表现形式的追求,象征着当今人们实现信息无处不在的普遍渴望。

像 IBM Watson 和 LinkedIn 这样的公司愿景,让人们联想到博尔赫斯所设想的世界。大数据的力量正在聚合并重现那个虚构帝国的制图追求。历史似乎正在重演。我们这个世界的数字化表现形式正在快速扩张并达到外部极限,表现形式和现实情况开始重合。世界和我们为其描绘的图片正在重合。突然,我们发现自己处于一个与博尔赫斯帝国非常相似的世界。

这是多么愚蠢的事情 — 博尔赫斯的故事仍在继续,这让我们对这种巨大表现形式的目的提出质疑。无论是制图还是数字,比例尺为 1:1 的地图都可能不如想象中的那样具有价值。

“[…] 后来的几代人,不太喜欢制图研究,因为他们看到那张巨大的地图毫无用处,他们将其弃之不用。在西方的沙漠中,这个地图的碎片直到今天仍不时可见,有的已成为动物和乞丐的栖身之所;在所有的土地上,再也不存在地理规范的遗迹。”

在博尔赫斯虚构的世界中,下一代遗弃了他们祖先的地图,因为他们没有像祖先那样沉迷其中,他们认识到 1:1 的地图是无用的。他们把它分解,剩下的只是祖先地图上的“破烂废墟”。他们认识到比例尺为 1:1 的地图实际上毫无意义,而我们无限拓展数字宇宙的做法最终也将迎来相同的结局。伦敦大学大数据研究所执行主任 Patrick Wolfe 教授警告说,“我们产生数据的速度正快速超过我们分析它的能力”。目前只有大约 0.5% 的数据被分析,Wolfe 表示,随着收集的数据越来更多,这个比例还正在缩小。所以,我们也开始意识到,我们所掌握的大量数据并没有实际意义。我们并没有通过数据获得对这个世界的更多了解,而是通过其庞大的规模创造出一个处于被湮没边缘的实体。

为了防止我们不断积累的数字集合遭受与博尔赫斯地图一样的命运 — 被我们的后代丢进废墟 — 我们必须从中获得具有可操作性的情报。因此,如何真正了解收集大量数据并从中获得相关知识的全部复杂性,将成为今天的最终竞争优势,在未来更是如此。

在将大数据转化为智能或智慧数据的过程中,许多人已经提出了这样的要求,但尚未出现有关如何实现这一转变的清晰解决方案。今天,应用数学、自然语言处理和机器学习同样在寻求着某种平衡,并取代可能产生的其他所有工具。人们的想法是,只要有了足够的数据,这些数据就能说明问题。再次想想 Evans 和 Forth 所说的“大即是美”。这个想法代表了硅谷文化,也延伸到了全世界的许多企业。

在当前的发现精神中,本体分类法语义等其他方法被完全忽视。如果说应用数学、机器学习和预测分析代表规模的话,那么本体、分类法和语义代表的就是含义理解。虽然后者看起来与前者的规模相比可能并不重要,但它们在确立公司竞争优势方面的作用将不容小觑。在过去几年数字规模呈指数级增长之后,我们已经达到了一定的复杂程度,需要深入了解我们已经获得的数据。这种了解是不能通过收集更多数据或实施算法来实现的。具有讽刺意味的是,这个远离“大即是美”的方向性转变却可以真正发挥大数据的全部作用。