大数据和人工智能的大肆宣传更多的是自我营销,而不是事实和真正的进步

人类每两天产生的数据量就等同于从文明开始到2003年产生的数据总量。这个惊人的统计数据是由谷歌前首席执行官Eric Schmidt最早提出的。尽管大规模数据处理并不是什么新鲜事,但围绕着“大数据”的炒作是最近几年才火的。[1] 然而,在这个不断增长的数据丛林中,许多人很快就迷失了方向,特别是在数据处理方法这个问题上。

 

无法计算巧合

…因为正如Gerd Antes在接受Tagesanzeiger采访时说的一样,“更多的数据并不意味着更多的知识”。数学家们强烈批评对大数据的炒作,因为大量的数据导致随机相关的概率提高。例如,美国人均奶酪消费量和由床单纠缠引起的死亡人数显示出相同的曲线。机器分析可能就会从中得出相关结论,而科学家立即认定这只是一个巧合。 [2]

然而,根据许多大数据支持者的说法,巧合是不存在的。他们认为,如果数据量足够大,所有相互关系都可以借助机器处理或深度学习以及正确的分析类型提前算出。过去的经验和可用的训练集就足够了,由于缺失或不相关的数据产生误差范围的风险可以忽略不计。然而,这样的结论是致命的。当然,在某些领域,某些时间段和相互关系等可能性可以更容易地被探索。然而,这并不意味着巧合或重大偏差是不可能的。例如,我们如何期望对过去收集的数据进行分析,以准确预测未来的交通事故?又或者疾病,关于疾病进展的信息-及数字患者数据-可能是不完整的、不一致的和/或不准确的。[2]

大,更大,大数据?不要夸大你的成就。

 

数据分析可能会危及生命

特别是在医学领域,Gerd Antes不是唯一一个警告大数据和人工智能陷阱的人。因为大数据分析和机器学习的结果而选择了错误的治疗方法,为此对患者及家属带来的影响是毁灭性的。由于数据的庞大性,使其相关性和不一致性无法真正显现。不一致和相关性会可能会挽救生命,但也会威胁生命。 [2]

最近,当媒体公司STAT分析IBM内部文件的一份报告时,让IBM再次成为负面新闻,该报告得出结论,Watson for Oncology一再推荐“不安全和不正确”的癌症治疗方法。该报告还声称IBM员工和主管都知道这一点。虽然这些建议没有被证明是造成死亡事件的主要原因,但许多著名医院已经决定停止使用这个价值数百万美元的技术。 [3]

IBM的例子,应该让我们反思并更理性的探讨在医学领域对大数据的运用。关于IBM奇迹般的计算机Watson在医学领域沸沸扬扬的炒作算是终于结束了,但是同样的例子也会发生在其他领域-直到,当人们意识到事实的重要性、可靠的结果和相关性,而不是自我推销和知名全球技术集团用他们通常仍非常实验性的产品做出的宏伟承诺。可以肯定的是,上述在医学领域的发展几乎可以1:1地转移到数字人力资源市场,例如在工作和技能匹配方面。

 

值得信赖的知识来自专家

五年前,Cornel Brücher发表了他的挑衅性着作“重新思考大数据”,他将大数据支持者描述为傻瓜。在JANZZ我们一开始就持有类似的观点。只通过单独的机器学习,根本不可能从工作和简历中,乃至更复杂的职业数据中获取知识。对此持反对意见的人都是错误的。而且,不管同样的想法和产品被广告和市场宣传的频率有多高,即使这些技术投入的资金比以前多得多,它们仍将是错误的。

尽管投入巨大,基于通过单独机器学习获取知识的“大数据方法”的结果仍然在很大程度上是不够的,并且近年来几乎没有改进,不管所使用的数据记录的大小,例如LinkedIn和IBM&Co。机器学习的结果将变得越来越容易出错,因为增加了更多因素和变量 – 如同复杂的规则和关系。由于存在错误相关或甚至假设的因果关系事件也暴露了其风险性。相反,只知识图或本体能够以非常深入和结构化的方式被映射和使用。知识图的知识是高度可验证和值得信赖的,因为它来源于医学,工程,投资银行等各个领域的专家,并以结构化的方式储存和联系起来,绝非由精通编程的计算机科学家通过计算得出。由于知识图反映了许多不同领域之间的关系,因此只有它才能提供相关且精确的搜索结果和建议。例如,在职业数据领域:知识图能识别能力,经验,职能,专业和教育之间的差异和联系。它能够判定例如对于职位J,技能S非常重要。我们以高级云架构师为例。 知识图表可以识别这个职称,并且知道,如果一位计算机科学硕士学位持有者,具有“云解决方案开发”技能和几年的专业经验,那么此人便能胜任这份工作。

 

Google同样依赖专家和职业数据知识图

当推出其知识图“Google Cloud Jobs API”时,谷歌公司就宣布了这一点。谷歌公司的Google for Jobs搜索正是基于其知识图 (请参阅 “Google Launches its Ontology-powered Jobs Search Engine. What Now?”)。谷歌同时也意识到基于本体的方法可以提供更好的搜索结果。在基于知识图知识的语义搜索的情况下,搜索“管理助理”不会添加仅与搜索项类似的结果,例如“HR管理员”或“软件管理员”。又或者, 某些大数据分析可能会确定随机关联,从而提出只有相似技能要求的完全不同的工作(例如,工程师,因为两者都需要Microsoft Office的知识)。

因此,要分辨其中的不同,通常只有知识图才能真正了解求职并对职业及其相互关系有一定的了解。Google Cloud产品经理Matt Moore表示,推出Google Cloud Jobs API的原因是:“我们希望为所有雇主和候选人提供更好的求职体验。 因为,让我们面对现实:雇用合适的人才是贵公司需要做的最重要的事情之一。” [4]

 

只有人才具备理解人性所必需的知识……

如何选择员工,在面对这项最重要的任务时你可以真正信任谁?这是一个永无止境的话题:根据简历,申请人A是完美的候选人,但是不幸的是在人员配置方面申请人A完全不合适,现有的(数字)数据不能得出这样的结论,只有人力专家才行。在数据量可控并且被正确评估的前提下,技术工具可以处理简历,并根据教育,技能,经验等明显的发现对其进行排名。但由于大量的误读和误解标准,根据文档选出的最佳候选人也会突然在人群中消失。最好的简历并不总等于最佳候选人。数字化的信徒坚信这最后一环的人为因素最终将排除在选择过程之外,越来越多的科技公司和初创企业也正试图将这一环数字化并用人工智能控制。他们使用的方法大多都是不合适的,甚至在启用过程之前,现有的数字数据本可以被正确使用和评估。多年来,一直在处理数字人力资源中做出了严谨且有弹性的流程和产品的专家和领先的技术提供商现在在很大程度上同意这一点 – 不仅仅是因为Google进入了这个细分市场。 [5]

 

大数据限制了知识的发展

综上所述,越多的数据并不意味着更多的知识。必须对数据进行结构化,储存和验证。在这个过程中,应该有具有专业知识的人参与其中。要谨慎对待大量无法构建的数据及其导致的随机相关性。哈佛大学和麻省理工学院(MIT)的科学家Alexander Wissner-Gross有趣地总结道,“也许当今最重要的新闻是数据集 – 而不是算法 – 可能是限制人脑思维级别的人工智能发展的关键因素。” [6]

因此,最重要的是从知识中获取的内容是有价值的,而不是提取知识的数据量越大越好。最后,我们重申只有在医学或招聘等重要领域具有真正的专业知识的专家和工具才能做出可靠和正确的判断,这是有希望的,也是令人放心的。所有这些都使得对大数据和人力资源管理的宣传更容易忍受。我们在JANZZ科技的使命-“我们把大数据变成智能数据”-比以往任何时候都更为先进。

 

[1] Brücher, Cornel. 2013. Rethink Big Data. Frechen: MITP-Verlag.

[2] Straumann, Felix. «Vieles ist blankes Marketing». Big Data. 在: Tagesanzeiger (2018), 第 168期, 第 32页.

[3] Spitzer, Julie. 2018. IBM’s Watson recommended “unsafe and incorrect” cancer treatments, STAT 报告结果. URL: https://www.beckershospitalreview.com/artificial-intelligence/ibm-s-watson-recommended-unsafe-and-incorrect-cancer-treatments-stat-report-finds.html [2018.08.01].

[4] 来自视频: Google Cloud Platform. 2017. Google Cloud Jobs API: How to power your search for the best talent (Google Cloud Next ’17). URL: https://www.youtube.com/watch?v=Fr_8oNKtB98 [2018.08.03].

[5] Watson, Christine. 2018. RecTech is creating more – not less – need for the human touch. URL: http://www.daxtra.com/2018/08/03/rectech-creating-more-need-for-human-touch/?utm_content=75449136&utm_medium=social&utm_source=twitter [2018.08.09].

[6] Alexander Wissner-Gross. 2016. Datasets Over Algorithms. URL: https://www.edge.org/response-detail/26587 [2018.07.27].