![]()
比特币收益与制造业和金属采矿业的股票收益呈负相关……
特朗普在推特文章中使用“with”这个单词四天后,中国茶叶分销商Urban Tea的股价会下跌……
特朗普在推特文章中使用“president”这个单词与两天后股价的标准普尔500指数之间存在0.43的相关性……
看到这些新发现的“规律”或“模式”,你震不震撼?惊不惊喜?如你所料,这样的发现离不开“大数据”和“AI算法”,特别是近年一个非常时髦的方法“数据挖掘”。
![]()
《不被信任的科学——大数据、人工智能与信息欺骗》,[美]加里·史密斯 著,孙 强 译,上海科技教育出版社2025年出版
一个经济学家眼中的“数据挖掘”
“数据挖掘”又被称为“机器学习”或“知识发现”——这些名词在中文语境中都是“好词”,充满了高科技和创新意味,肯定不具有任何批判色彩。所谓“数据挖掘”,用大白话来说,就是在海量的“大数据”中,借助各种“AI算法”,尝试“发现”或获取各种各样的数据关系。
加里·史密斯(Gary Smith)是美国经济学家、统计学家,耶鲁大学经济学博士,在波莫纳学院当经济学教授。面对如今的“大数据”和“AI算法”浪潮,史密斯看来是一个明显的保守派。2023年他出版了《不被信任的科学——大数据、人工智能与信息欺骗》一书,基本论点是:“虚假信息”“数据歪曲”“数据挖掘”这三件事情,正在极大地损害科学的信誉,使得科学不再被公众所信任。其中尤以“数据挖掘”让他深恶痛绝,在书中花了很大的篇幅进行抨击(主要集中在第三部分,即第8—10章)。
史密斯在书中所举的各种“数据挖掘”的例子,看上去当然是非常荒谬的。他将这些“数据挖掘”的发现称为“愚人金”(一种有着黄金色泽的铜),认为这些数据关系不仅很可能是毫无意义的,甚至还会具有欺骗性。但问题在于,“荒谬”和“不荒谬”的界限在哪里呢?或者说,在被“挖掘”出来的各种关系中,如何判断一种数据关系是“荒谬”的,而另一种是“不荒谬”的呢?
史密斯在对“数据挖掘”的定义中,似乎也接触到了这个问题:“在不受理论影响的数据中寻找潜在的模式,这被称为数据挖掘,即研究人员在数据中深入挖掘,并且无法预知他们会发现什么。”他又表示:“传统的数据库查询需要一定程度的假设,但挖掘大数据会揭示出我们甚至不知道要去寻找的关系和模式。”他还引用《连线》杂志上题为“大数据与理论家的消亡”的文章说:“算法寻找模式,而假设从数据中得出。分析师甚至不必再费心提出假设。”
总而言之,史密斯的意思归纳起来就是:传统的数据处理有理论指导和预期,而“数据挖掘”则是信马由缰,乱挖一气,希望能挖出点意想不到的东西来(比如本文开头所举的那些例子就很典型)。而史密斯在书中毫不犹豫地断言:“由数据挖掘所发现的大多数模式都是胡说八道。”
从传统的数据处理到“数据挖掘”
史密斯是一个经济学家,我猜想他可能并未接受过理工科的学术训练。其实“数据挖掘”到底是天使还是魔鬼,也未必像史密斯所想象的那样,因为它和传统的数据处理之间并无不可逾越的鸿沟,很多情况下它就是正常的科学研究手段。
我本科学天体物理专业出身,曾在中国科学院上海天文台工作过15年。天文学界有一种工具称为“星历表”,就是用现代天体力学方法,计算出太阳系中各大行星、矮行星等天体每隔一段时间(这个间隔称为“步长”)的天球坐标(黄经和黄纬)。用今天的眼光来看,我们完全可以将星历表看成一种“大数据”,我们可以使用适当的计算机语言(就是“AI算法”),在其中“挖掘”出各种各样的结果。例如,我们可以求出牧野之战那天(公元前1044年1月9日)清晨时木星在天球上的位置,也可以找出其他各种各样的数据关系——如果我们觉得这种关系有意义的话。
换句话说,从正常合理的数据分析处理,到史密斯所抨击的“数据挖掘”,中间有着类似“连续谱”的过度区域。数据处理技术在互联网和人工智能出现之前很早就存在了。史密斯所深恶痛绝的,其实应该是当下对“数据挖掘”的滥用。
至于“数据挖掘”为何会在当下被滥用,那确实与大数据和AI有关。我进天文台工作是20世纪80年代,那时的星历表还是一种非常厚的纸质大书,里面用极小的字密密麻麻印着数据,如果要在里面“挖掘”,只能用肉眼耐心搜寻数据,找出数据后还要用内插法处理过,才能够使用,在这种情况下,滥用是不可能发生的。而进入1990年代,我们开始使用NASA喷气推进实验室的星历表数字光盘,这时采用“AI算法”从星历表中“挖掘”数据已经成为可能,不过我们当然从未起过“滥用”的念头。
这是一幅荒诞的图景吗?
仅看《不被信任的科学》这样的书名,很容易让人误以为是“科学知识社会学”(SSK)方面的著作,其实却并非如此。史密斯虽然没有从科学哲学的角度去讨论问题(也许他不具备这方面的背景),但他对“大数据”和“AI算法”各种弊端的强烈批判,至少在客观效果上还是很有启发意义的。
比如书中第一部分讨论“虚假信息”,这就是我们通常意义上的所指:给出一些富有“科学”色彩的概念和说法,目的是对公众进行欺骗。作者举的例子是当下炙手可热的区块链和比特币。史密斯认为许多人根本不知道区块链是什么,只觉得它非常“科学”,非常高大上,那和它绑在一起的比特币必定前程远大。而他认为“比特币的内在价值为零”,他将比特币和金融史上的郁金香炒作和南海股票骗局视为同类——注意这是本书作者的看法,他被视为经济学家。不过我们当然不在这里讨论比特币的成败,如果比特币真的前程远大,那就是史密斯举例不当,但并不影响他对“虚假信息”的批判。
书中第二部分揭露“数据歪曲”,这也是中国读者所熟悉的,指对数据进行错误解读,看起来很“科学”,而且“用数据说话”,显得更加“有理有据”,因而更具欺骗性。史密斯举的例子还是比特币——看来他是真的和比特币有仇了。当然他对“数据歪曲”的批判,从学理上说仍然成立。
在本书的最后两个部分,史密斯发起了对人工智能和当代某些社会学研究的密集批判。他对人工智能业界迄今为止所宣称的各种进展,普遍评价很低。他还举出了各种他认为是荒诞离奇的“学术研究”例证,比如女性向男性求助时是披着头发还是扎着马尾更容易成功之类(其实这个例子未必荒诞)。
史密斯用一种相对来说比较朴素的思路,指出了一个有点魔幻的现象——科学技术的最新成果(互联网、大数据、人工智能等等),正在损害科学技术之前积累起来的声誉,使得公众失去对科学的信任:“科学家创造了大数据和分析大数据的工具,但两者都为科学家制造了更多让他们尴尬和损害他们信誉的机会。”





京公网安备 11011402013531号