在大数据中迷失方向？<br/>统治数据宇宙的误导思想

“…在那个帝国，制图技艺是如此地精湛绝伦，省级地图绘制得如同一个城市一般大，而帝国地图绘制得如同一个省一般大。在那个时候，人们对这些不合常理的地图仍不满意，绘图师 Guilds 绘制了一幅面积与实际国土一样大的地图，其中的每个点都与实际国土无异。[…]”

《论科学的精确性》
豪尔赫·路易斯·博尔赫斯

在博尔赫斯的故事所设想的帝国中，人们沉迷于创造完美表示其国土的想法。这个虚构的帝国已经完全沉浸在创建与其国土完全吻合的地图中。今天，我不禁想到，我们自己也处在一个非常相似的环境中：数据正在深刻地改变着我们的世界，也改变着我们看待世界的方式。我们发现自己处于一场汹涌澎湃的数据革命之中。数据的影响无处不在；我们努力使用大数据来改变整个行业 — 市场营销、销售、天气预报、医疗诊断、食品包装、文件存储、软件使用、通信等等。事实上，与博尔赫斯的虚构帝国非常相似，我们盲目地认为，收集和分析的数据越多，我们获得的有关世界和人类生活的知识就越多。我们简直就是愚蠢的数据疯子。

现在盛行的观点是，大数据几乎可以在生活各个方面提供可操作的见解。Philip Evans 和 Patrick Forth 认为：“信息通过基本的人工智能新方法得到理解和应用，通过使用大量嘈杂数据集的算法形成见解。由于更大的数据集可以产生更好的见解，因此大即是美”（摘自 bcg.perspectives 的联合文章）。与这些观点相符的现象是，我们对数据的渴求在不断增加，我们的数字生态系统正在加速：传感器、互连设备、社交媒体和越来越多的云，不断产生供我们收集和分析的新数据。国际数据公司 (IDC) 的研究表明，数字宇宙每两年将翻一番。从 2005 年到 2020 年，数据量将增长 300 倍，达到 40 泽字节数据（一个泽字节是数字后面再跟 21 个零）。在这个数据呈指数级增长的世界里，积累数据的冲动势不可挡。就像博尔赫斯虚构的帝国一样，我们希望使用外部极限是 1:1 的比例尺，对我们的世界进行完整的数字表示。

今天，IBM 或 LinkedIn 这样的公司已经在向这个极限迈进。IBM 正在对其称为 Watson 的认知计算系统进行培训，以便能够回答几乎任何问题。为此，IBM Watson 正在收集数量空前的数据，以形成庞大的信息库。该公司刚刚以 26 亿美元现金收购了 Truven Health Analytics，将美国数千家医院、雇主和州政府的健康数据库融入其健康部门的主数据库。这是 IBM Watson 在 10 个月内对健康数据公司的第四次重大收购，显示了患者、诊断、治疗和医院的数字信息对这个计算机巨头人工智能系统的重要性。LinkedIn 的愿景同样非常宏大：他们正在创建一个经济图表，其规模堪称有关全球经济的数字地图。它打算在收录全球 30 亿劳动力成员的档案。它打算以数字化方式来表示每家公司、他们的产品和服务、他们提供的经济机会以及获得这些机会所需的技能。它计划以数字化形式来呈现全球所有高等教育机构。然而，这两家公司的工作只是冰山一角。他们对于在各自领域建立完整数字化表现形式的追求，象征着当今人们实现信息无处不在的普遍渴望。

像 IBM Watson 和 LinkedIn 这样的公司愿景，让人们联想到博尔赫斯所设想的世界。大数据的力量正在聚合并重现那个虚构帝国的制图追求。历史似乎正在重演。我们这个世界的数字化表现形式正在快速扩张并达到外部极限，表现形式和现实情况开始重合。世界和我们为其描绘的图片正在重合。突然，我们发现自己处于一个与博尔赫斯帝国非常相似的世界。

这是多么愚蠢的事情 — 博尔赫斯的故事仍在继续，这让我们对这种巨大表现形式的目的提出质疑。无论是制图还是数字，比例尺为 1:1 的地图都可能不如想象中的那样具有价值。

“[…] 后来的几代人，不太喜欢制图研究，因为他们看到那张巨大的地图毫无用处，他们将其弃之不用。在西方的沙漠中，这个地图的碎片直到今天仍不时可见，有的已成为动物和乞丐的栖身之所；在所有的土地上，再也不存在地理规范的遗迹。”

在博尔赫斯虚构的世界中，下一代遗弃了他们祖先的地图，因为他们没有像祖先那样沉迷其中，他们认识到 1:1 的地图是无用的。他们把它分解，剩下的只是祖先地图上的“破烂废墟”。他们认识到比例尺为 1:1 的地图实际上毫无意义，而我们无限拓展数字宇宙的做法最终也将迎来相同的结局。伦敦大学大数据研究所执行主任 Patrick Wolfe 教授警告说，“我们产生数据的速度正快速超过我们分析它的能力”。目前只有大约 0.5% 的数据被分析，Wolfe 表示，随着收集的数据越来更多，这个比例还正在缩小。所以，我们也开始意识到，我们所掌握的大量数据并没有实际意义。我们并没有通过数据获得对这个世界的更多了解，而是通过其庞大的规模创造出一个处于被湮没边缘的实体。

为了防止我们不断积累的数字集合遭受与博尔赫斯地图一样的命运 — 被我们的后代丢进废墟 — 我们必须从中获得具有可操作性的情报。因此，如何真正了解收集大量数据并从中获得相关知识的全部复杂性，将成为今天的最终竞争优势，在未来更是如此。

在将大数据转化为智能或智慧数据的过程中，许多人已经提出了这样的要求，但尚未出现有关如何实现这一转变的清晰解决方案。今天，应用数学、自然语言处理和机器学习同样在寻求着某种平衡，并取代可能产生的其他所有工具。人们的想法是，只要有了足够的数据，这些数据就能说明问题。再次想想 Evans 和 Forth 所说的“大即是美”。这个想法代表了硅谷文化，也延伸到了全世界的许多企业。

在当前的发现精神中，本体、分类法和语义等其他方法被完全忽视。如果说应用数学、机器学习和预测分析代表规模的话，那么本体、分类法和语义代表的就是含义和理解。虽然后者看起来与前者的规模相比可能并不重要，但它们在确立公司竞争优势方面的作用将不容小觑。在过去几年数字规模呈指数级增长之后，我们已经达到了一定的复杂程度，需要深入了解我们已经获得的数据。这种了解是不能通过收集更多数据或实施算法来实现的。具有讽刺意味的是，这个远离“大即是美”的方向性转变却可以真正发挥大数据的全部作用。

在大数据中迷失方向？
统治数据宇宙的误导思想

JANZZ公司已通过认证

新闻和重要信息

类别

联系方式