199IT数据中心微信账户:i199IT
内容提要:
大数据时代的领军人物的诸多观点与经验主义、逻辑经验主义,尤其是南茜·卡特莱特倡导的新经验主义的观点极其相似。比如说,他们认为基本定律是不存在的、大数据时代不需要理论;大数据时代相关性替代了因果性;世界是斑杂的,大数据时代世界的本质是数据,是混乱的。我们不否认大数据方法论,并认为数据和大数据在科学与日常生活中扮演着重要的作用,但并不赞同大数据经验主义对大数据神化的观点。
正文:
为了分析大数据经验主义,本文首先说明经验主义的含义。所谓经验主义,就是这样的一种哲学观点:所有的概念都起源于经验;所有的概念要在经验中被证实地认识到。①也就是说,一切知识都是“后验”(a posteriori)的,除了从经验上认识的和从经验上归纳出来的东西之外,其他的知识都不是科学知识,只是思辨的形而上学,这种立场叫作经验主义立场,16世纪、17世纪的洛克、牛顿、贝克莱、休谟都坚持这种观点。逻辑经验主义也坚持这种观点:科学理论和定律的唯一的认识论来源就是观察和经验,所以科学的语词和命题,必须是经验地可证实的,否则就是没有意义的,应作为形而上学加以拒斥。他们的创始人卡尔纳普说:“任何一个词的意义就在于知道它的经验标准,能从观察记录句子中将它推出。”②而石里克说:“一个命题的意义就是(经验地)证实它的方法。”③但是事实上,理论的语言T(质点、原子、分子运动、引力等等)没有直接的观察经验或观察语言与它相对应,所以逻辑经验主义要求必须有个桥接原理(bridge principle)或对应原则(corresponding principle),记作C,将T与一组经验语言对应起来,使这组经验语言与理论语言共外延,因此理论结构就是TC。逻辑经验主义之所以是“逻辑”的,因为它有一套逻辑分析的方法,来说明这种经验的结构。但桥接原理是很难找到的,并且常常出现不同概念的“异质混淆”。例如“质量”这种东西就有很多方法局部地证实它:用弹簧秤来称它;用肩膀来扛它;用物体来碰它。这些不同方法是异质的,怎能混淆在一起与质量这个概念共外延?于是逻辑经验主义便陷入困境。
在逻辑经验主义被推翻之后,兴起了一场关于实在论与反实在论的讨论。中心问题是科学的理论实体和理论定律是用来指称客观实在的实体和关系,还是仅仅为了“拯救现象”?在这场论战中,出现了一种以南茜•卡特莱特(Nancy Cartwright)为首的新经验主义的观点和新哲学运动,想要说明科学实际上是怎样工作的,它与世界的关系如何。他们认为:
所有的物理学的基本定律,都是非常特殊的人为的“律则机器”(nomological machines)④制作出来的,即在极特殊的人工创造的实验室条件下将它制作出来的,因而都不是真的和普遍的。卡特莱特的《物理定律是如何撒谎的》(1983)主要论证了这个观点。
因此,基本物理定律不能应用于现实世界的对象。例如谁能用万有定律来解释或预言屋顶上一张钞票会飞落到哪里去呢?
这样看来,世界是斑杂的,“自然界中大多数发生的事是碰巧发生的,完全不受制于定律”⑤。
所以国家不应将大量财政资金用到基本物理学的研究上,例如不应将100亿美元用到建设核物理的大型强子对撞机上。新经验主义者的这些观点得到许多学者的拥护,中国也有一些科学哲学研究者认可这些观点,并进行分析研究。
大数据经验主义随着大数据方法的兴起而兴起。数据(data)一词本来有大量资料、海量数据的意思,最先经历信息爆炸的学科(如天文学和基因学)创造出了“大数据”(big data)这个概念。大数据指的是一般的软件工具难以捕捉、管理和分析的大容量数据,一般以“太字节”为单位。“大数据”之“大”,并不仅仅在于“容量之大”,更大的意义在于:通过对海量数据的交换、整合和分析,发现新的知识,创造新的价值,带来“大知识”、“大科技”、“大利润”和“大发展”⑥。从哲学的角度看,这种意义上的大数据可以被看成经验大数据。根据这样的梳理,像维克托•迈耶-舍恩伯格(Viktor Mayer-Sch nberger)那样最受人尊敬的大数据权威发言人,以及像《连线》杂志主编安德森(C.Anderson)这样的人物,过于夸大了大数据方法论中经验数据在科学与实践中的作用,贬低甚至抹杀了理论、定律以及因果性的作用,这样的思路与卡特莱特为首的新经验主义极其相似,因此本文将其称为大数据经验主义。大数据经验主义的基本论点可概括为三个:(1)大数据时代“理论终结了”;(2)大数据时代,因果性不存在了,由相关性来代替;(3)世界的本质是混乱的,但又是数据的。
一 大数据时代“理论终结了”吗?
2008年,安德森指出,“数据爆炸使得科学的研究方法都落伍了”⑦。大量的数据从某种程度上意味着“理论的终结”。他还提出,用一系列的因果关系来验证各种猜想的传统研究范式已经不实用了,如今它已经被无需理论指导的纯粹的相关关系研究所取代。
为了支撑自己的观点,安德森阐述了量子物理学已变成一门纯理论学科,量子物理学的理论已脱离实际。他提到了谷歌的搜索引擎和基因排序工程,他认为:“现在已经是一个有海量数据的时代,应用数学已经取代了其他的所有学科工具。而且只要数据足够,就能够说明问题。如果你有一拍字节的数据,只要掌握了这些数据之间的相关关系,一切就都迎刃而解了。”⑧舍恩伯格也有相同的观点:“我们一直都是把理论应用到实践中来分析和理解世界,而如今处在大数据时代下,我们不再需要理论了,只要关注数据就足够了。这就意味着所有的普遍规则都不重要了,比方说世界的运作、人类的行为、顾客买什么东西什么时候会坏等。如今,重要的就是数据分析,它可以揭示一切问题。”⑨
这种观点,随着大数据方法一起很快传入中国。在2014年1月由黑龙江大学主办的“大数据时代的哲学问题学术研讨会”上,哈尔滨理工大学孙博文教授曾在会议报告中提到:所谓大数据,可以将其定义为大量的、静态的、离散的人造资料,它本身无价值,它的价值是人的需求赋予的,是人为构造的规则将有趣的数据分离出来,于是可以说有一种规则就会有一种规律……而我们所谓被发现的规律也就是独一无二的了。需求创建规则,将现象分类与连接,有效的规则便创造了一种有效的规律,科学就是根据需求创建规则,并获得规律的学问。因此,人类追求客观真理,只是一种虚幻的自我陶醉而已。⑩
经验大数据可以完全替代理论吗?它真的是人们为了需要而人工创造出来的吗?我们可以从大数据方法论本身和大数据在科学中的应用这两个方面来分析这个问题。
一方面,从处理大数据的方法论来说,涂子沛在《大数据》一书中分析了处理大数据的整个过程:(1)首先需要有一个“运营式信息系统”,数据在其中的作用,“是一个个商务流程的记录”。(11)彼得•德鲁克(Peter Drucker)谈到大数据方法的这一阶段时说:“迄今为止,我们的系统产生的还仅仅是数据,而不是信息,更不是知识!”(12)(2)有了记录一切的数据,还必须有一个“数据仓库”。它是一个面向主题的以数据分析为基础,以决策支持为目的的数据收集、分类和整理的物理构架。这里,要进行分类就需要各种不同的维度,如要研究一个公司的销售量就需要“时间”、“产品类别”、“地区”、“销售数量”等维度。由于工商业的发展,这个分析维度可以有上万个维度,它们起到联机分析的作用。你需要从仓库中获得什么类别的资料数据,设计好数据仓库,只要鼠标一点就可以列出动态报表。笔者认为,在这里我们需要区分主观的目标和客观的资料。分类框架的设计和鼠标点击选择是有目的和意向的,但维度和数据本身是客观的,事物的量的特征,不能任意创造的。(3)进一步地,决策支持系统的数据需要“数据挖掘”(基于数据库的知识发现)。例如,沃尔玛是世界上最大的零售商,拥有世界上数一数二的数据仓库。在一次例行的数据分析之后,研究人员突然发现:尿布和啤酒的销售量有一种正比例的相关性。这就发现了一个有用的“规律”。它是客观存在的,不是“需要创建出来的”,而是需要使我们发现了它。它也不是独一无二的,而是适用于所有具有同样情况的消费关系。(4)数据可视化。它就是将“数据仓库”的数据分析和联机分析以及数据挖掘的结果在计算机中自动生成图表,给人们一种直观的数字思维。
这是已经列出的大数据方法论的主要梗概,从中可以看出,“科学始于人造资料”、“需要创建了规律”是一种夸张的表达方式。这里有两个问题:其一,不论你怎样选择、分类和利用它,大数据本身是不是客观物理事件和客观经济运作的反映或表征,大数据是关于什么对象的大数据?它不是关于决策者想象力和创造力的大数据,而是我们所要研究的客观对象的大数据,这不是虚幻的自我陶醉。其二,海量数据本身不会对决策产生影响,首要的问题是运用数据的意向性和由此对数据进行分类。不同的意向性或者目的性以及不同的分类体系是由选定的概念决定的,这些都离不开一套理论体系。所以从大数据方法论来看,理论不是可有可无的。大数据时代不再需要理论吗?完全不是这么回事!大数据的取得和分析不但需要计算机科学,而且还需要复杂性科学。盖尔曼是复杂适应系统理论的创始人之一,他在讨论复杂适应系统时每次都加上规律性或普遍原理一词。他说:“复杂性科学是研究潜在于各种复杂系统的‘一般原理’及其具体表现的科学。”(13)霍金认为,21世纪的主导科学是复杂性科学。没有普遍规则,普遍定律能构造一门学科吗?今天,大数据方法之所以能起到如此重要的作用,究其根源都来自这些复杂性科学、计算机科学和网络科学的理论和定律。怎么会不要理论和原理呢?
另一方面,我们看大数据对发现现代科学理论的新事实和检验科学理论的作用。当代物理学最前沿的理论是量子场论中基本粒子及其相互作用力的理论,它关系到我们宇宙的起源问题,被称为粒子物理学中的标准模型。这个理论的形成与发展需要证实它所预言的一种称为希格斯玻色子,它自旋为零,不带电荷,物质之所以有质量都因为其中的基本粒子与它耦合而得来,这种粒子和它的场发生于宇宙大爆炸后的一亿分之一秒间。物理学家花了40年的时间都没有找到它。世界上最大的、最昂贵的大型强子对撞机建立的目的之一就是为了找到它。大型强子对撞机每天实验将产生相当于500垓字节(5×10[20])的数据,是全世界所有数据源总和的200倍。只有这样大的数据才能发现难于发现的基本粒子。2012年7月4日,欧洲研究组织(CERN)向世界宣布,找到了这种粒子,这使基本粒子物理学前进了一大步。所以说,大数据使“量子物理已经脱离实际”,进而使科学理论走向终结是完全没有根据的。大数据不但没有终结科学理论,而且因为有更多、更新、更准确的实验数据从而使科学理论大大向前发展了。由于发现这种被称为“上帝粒子”的希格斯玻色子,欧美的许多物理学家彻夜狂欢,庆祝物理学的胜利,这也是庆祝大数据的胜利。所以大数据并没有使“理论终结”而是使量子物理向前推进了一大步。对于这个发现有人高兴有人愁,愁的是根据理论计算,我们发现的希格斯玻色子只是希格斯场的一种形态,希格斯场还有第二种状态,比我们现在观察的希格斯场的密度要高出几十亿倍,物理学家期望计划今年实现的欧洲核子研究中心大型强子对撞机将碰撞的质子能量翻倍,用更强烈的质子碰撞,更大的大数据使我们进一步探索粒子新世界,使我们有可能知道,为什么希格斯玻色子的能量如此特殊?为什么它能正好让我们的宇宙平衡在发生相位的临界点?而我们的宇宙为什么可能是许许多多宇宙中的很幸运的一个。从理性的观点看,询问为什么的问题,比询问过程是怎样进行的更重要、更有吸引力。
二 因果性不存在,由相关性来代替吗?
舍恩伯格认为,在大数据时代,相关关系分析为我们提供了一系列新的视野和有用的预测,我们看到了很多以前不曾注意到的联系,还掌握了以前无法理解的复杂技术和社会动态。但最重要的是,通过探求“是什么”,而不是“为什么”,相关关系帮助我们更好地了解了这个世界。(14)所以,在他看来,知道“是什么”就够了,没必要知道“为什么”。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”(15)。进而他又提出:“相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加。(16)……相反,相关关系弱就意味着当一个数据值增加时,另一个数据值几乎不会发生变化。例如,我们可以寻找关于个人的鞋码与幸福的相关关系,但会发现它们几乎扯不上什么关系。”(17)相关性真的可以替代因果性吗?
因果与相关(causality and correlation,在物理学中后者常译成关联),本来是哲学上的老问题,它们是同时存在又相互交叉、彼此又有区别的概念,一直缠绕着哲学家、数学家、统计学家和物理学家们。黑夜过去就是白天,黑夜和白天只有相关,没有因果关系。诗人说,“冬天到了,春天还会远吗”,春天与冬天也只有相关,而没有因果关系。这是日常生活中的事件之间的相关,而不是因果关系。如果追究真正的原因,黑夜与白天交替是地球的自转,春冬季节更替是地球的公转。
所以,相关性是一种比因果性更广泛的概念。从数学上看,在集合论中,相关性不过是两个集合或多个集合组成元素之间的“有序对”,或通俗说来,是一些对应关系:多一对应、一多对应或一一对应的关系,它完全没有因果作用的含义。函数关系也是在这基础上进行定义的,“自变量”在数学上并没有原因的意思,“因变量”即函数也没有结果的意思。而因果关系或因果作用比一般的相关性进了一步,它要求揭示事物之间、个体元素之间、性质之间的机制作用和动力。所以,基本的解释进路是用因果解释相关,而不是用相关解释因果。由于因果关系在哲学上是很古老的概念,而函数的相关关系则是比较新的。所以,1913年罗素曾尝试用函数的概念代替因果概念。他说:“我相信符合哲学家要求的因果律是一个逝去时代的遗留物,就像君主政体一样,它的存在只因为人们错误地认为它是无害的……老因果律之所以长期保留在哲学家的书本中,那是因为他们大多数人对函数概念不熟悉。”(18)不过,1948年罗素还是放弃了用函数代替因果这个拒斥形而上学的观点,提出了很有分量的“因果过程”或“因果线”的概念以及因果线交叉而发生“因果作用”的概念(本文下面部分会分析它的重要性)。其实,17世纪的老经验主义者休谟早就坚决反对用看不见摸不着的“能力”(power)、“力量”(force)或“必然性”这些“形而上学”的本体论概念来说明因果。他将因果性仅定义为原因C在结果E之先,C与E有接触,C与E有恒常结合。事实上,是用一种无因果力作用的相关概念来定义因果。而步休谟、早期罗素的后尘,逻辑经验论也只将因果性定义为条件之间的逻辑关系,将真正的因果作用抛得远远的。这可以看作哲学上的相关概念压倒因果作用的早期相关观念。,赫勒和马顿(1975)、邦格(1983)、萨尔蒙(1984)、罗素后期(1948)基本上将因果关系看作物质、能量、信息(或他们所说的作用力、守恒量)的传递与转移。传递者是原因,被传递者由此发生的变化是结果,它发生在因果线之间的交叉点上;而其他的相关或关联关系则称作非因果相关。现在这个阶段,在哲学上是因果力相关相对一般相关占优势的时期,恢复了用因果解释一般相关的基本观念。在这个时期,哲学家和统计学家研究了统计相关、统计因果。统计上概率大的事物并不是因为它的数据大,它就能成为确定的因果力,只是说明它包含真正原因的可能性比较大。关于统计相关与因果作用的关系,有许多不同的理论,这不是本文所能讨论的。取其中最简单的公式,它是由阿姆斯特朗(D.M.Armstrong)和苏佩斯(P.Suppes)提出来的:所谓统计正相关关系是“因果关系将会发生的概率”(19),这种统计正相关表明,C成为E的原因的可能性有多大。所以,正相关为Pr(E/C)>Pr(E)或Pr(E/C)>Pr(E|﹁C),则C是E的原因的可能性等于Pr(E/C)。例如,一个妇女超过预产期还未生产,则有可能流产(E),但是只有千分之一的可能性,即Pr(E/C)=0.1%。所以,医生建议产妇引产一般被拒绝,这是C成为E的原因的一个置信度(从概率的主观解释看)或倾向性(从概率的客观解释看)的问题。许多大事件,例如飞机失事,都是通过统计相关来看清事件的真正原因,所以它仍然立足于以物质、能量、信息传递这个真正原因来解释统计相关。某次飞机失事了,人们不会说,根据大数据,这是统计相关,因为这个型号的飞机有千分之一的失事率,那就不必找黑箱查原因了。
从量子物理学看,20世纪70年代末科学上著名的“量子纠缠”这个范例,它成了爱因斯坦与玻尔争论量子力学完备性的一个焦点,因贝尔不等式和EPR的实验,量子力学保卫了自己的完备性,同时爱因斯坦学派又继续坚持了相对论和光速是速度极限的观点。
“量子纠缠”,通俗地说是这样一个问题:假设两个粒子在短暂时间里有过耦合,随后,它们彼此分开,一个行至太阳边,一个行到太阳系之外,但由于彼此组成的复合系统处于量子纠缠,对于其中一个粒子测量得到结果(例如,自旋为上旋),则另外一个粒子在之后任意时间做测量,必定会得到相关结果(在此案例里,自旋为下旋)。给定一系列被量子纠缠的粒子对,对于每一个粒子对的两个粒子做测量,分析所得到的数据,可以推论,两个粒子的性质存在着一种相关现象,尽管它们可能相隔很遥远,但仍可观察到这种相关现象。多次重复做实验已证实这一论点,甚至当两个测量的时间间隔,比光波传播于两个测量位置所需的时间间隔还短暂,这现象依然发生。也就是说,量子纠缠的作用如果将它们之间的关系看作定域因果关系,则其速度至少比光速还快。最近完成的一项实验显示,量子纠缠的作用速度至少比光速快10,000倍。这是完全违反相对论的“鬼魅般的相互作用”(爱因斯坦语)。EPR相关说明相关性压倒了因果性吗?没有!因为这里只是说明定域性的信息传递不成立,并不说明一切因果关系不成立。怎样解释这种情况呢?主持这次实验检验的物理学家玻姆这样解析道:定域的因果关系没有成立并不等于非定域的因果性没有成立,只要认定微观体系总是它的薛定谔波函数ψ伴随,那么就可以说这个物理体系是因果地被确定的。因此,玻姆把这种解释叫作“因果解释”(20)。
连EPR这样被誉为20世纪的“第三次风暴”或“狂飙”都必需在相关的背后去寻找能解释问题的因果作用,可见因果与相关的关系中仍然是因果起着根本性的解释作用。因此,在大数据的研究中,作为物质、能量、信息传递的因果作用相对一般相关关系而言,有决定性的作用是毫不奇怪的。
从逻辑上看,自从科学出现以来,因果与相关的关系是既相互区别,又相互交叉。传统科学方法一般是从因果与相关的缠结中区分因果与非因果相关,即从一般相关中找出统计相关,再从统计相关中找出直接因果,大数据的实践依然符合这个进路;但大数据经验主义不区分因果与相关,主张只要一般相关,不要因果。
笔者认为,大数据经验主义消除因果关系的看法是片面的。大数据表面上看没有因果律,或不问因果关系,但事实上并不是这样。再以上面“尿布和啤酒的销售量有一种正比例的相关性”作为分析这个问题的案例。大数据方法论最后强调数据的挖掘,如果数据挖掘出来的信息对预测产生作用,它必定带有一定的普遍性。比如商品销售中尿布与啤酒之间具有正相关性,这种正相关性在大数据经验主义者们看来只是一种相关关系。但从更广泛的角度来看,这种正相关性实际上包含着一种普遍的因果关系。这是因为,通过数据分析,发现一些年轻的(占30%~40%)新爸爸到超市买婴儿尿布,他们常会顺便买啤酒慰劳自己。有了这种因果关系才会有这种消费的相关。看来,表面的正相关实际上可以找到背后的因果关系。因果与相关是有区别的。当然,人们并不是一定要弄清因果关系然后才能行动,但弄清因果关系毕竟有利于我们理解各种相关的机制。所以,决不能说“知道是什么就够了,没必要知道为什么”(21),事实上,知道“为什么”之后,我们才会知道未来将必然会“是什么”。
三 世界和数据的本质是混乱的吗?
舍恩伯格一方面说,“世界本质上是混乱的”(22),而且混乱也构成了人脑的本质;另一方面,他又说“世界本质上是数据”(23),将这两个命题结合在一起,就表明了人生活在混乱的大数据世界之中。
显然,与新经验主义者南茜•卡特莱特的《斑杂的世界》观点相似,大数据经验主义者不再追求精确度;他们强调探索事物间的相关关系,不再追求因果关系;他们承认混杂性,认为世界的本质是混乱的,这种混乱性只有使用全体数据(大数据)而不是样本数据才能进行说明。
统计学家们业已证明,采样分析的精确性随着采样随机性的增加而大幅度提高,但与样本数量的增加关系不大。所以问题的关键在于:增加数据的数量,只是想要得到更多的异常值,大数据采用全体数据的处理方法,原因在于不会错过这些异常值,使最后的分析和预测结果更精确。诚然,这种大数据处理方法的初衷是好的,但具体实现起来却面临着困难:研究对象越来越复杂,如何保证能获得所有的、包含了全部信息的数据呢?退一步讲,即使以后在技术上能够得以实现,但使用这种方法的同时就说明这个世界并不是完全混乱的,而是有规律可循的。“大数据的核心在于预测”,运用各种算法从海量数据中预测未来可能发生的事情,这种做法,同样说明大数据表面看来是混乱的、随机产生的,但就在这种混杂的状态中却包含了规律性。运用计算机模拟方法对混沌理论中的逻辑斯蒂方程进行迭代模拟,所显示的图像清晰地证明了这种观点。自然界的演化规律如此(确定性与随机性的统一),大数据时代的表象亦应该是如此,但却不能因为存在随机性,就一竿子将规律性全部打倒,说世界的本质就是混乱的,这是一种悲观的看法。《爆发:大数据时代预见未来的新思维》重振了人类在新时代掌握自身命运的新希望。在作者巴拉巴西看来,大数据的海量记录虽然引爆了个人隐私危机,但同时也创造了历史的机遇,那就是我们拥有了成千上万人的详细行为记录。这些大数据实验研究的结果证明,人类的大部分行为都遵循于一定的规律、模型以及原理法则,而且在可重现性和可预测性方面与自然科学不相上下。基于这种积极的信念,在“爆发洞察”栏目,巴拉巴西说明了他写此书的根本目标:“我会向大家展示,在日趋精密的数字技术创造的这个巨大、复杂而又翔实,并且超越以往任何科技水平的研究实验室面前,人类赤裸裸的一面。通过对这些发现进行追踪研究,大家会看到生命的韵律,会发现人类行为中更深层次的规律,并确证这些行为是能够被探究、被预测,而且无疑是能够为人所用的。有了这些四处搜集来的信息,我们不会再把人类的行为视为互不相关、随意偶然的独立事件。相反,它们应该是相互依存的奇妙大网的一部分,是相互串联的故事集中的一个片段。它们会在不经意时显示次序,在意想不到之处偶然出现。我们观察得越仔细就越容易发现,人类行为遵循着一套简单并可重复的模型,而这些模型则受制于更加广泛的规律。”(24)
请在关注199IT微信后『微信号:i199IT』,回复相应日期进行查询,如2014年10月8日,输入“20141008”。
『 WeMedia 』自媒体联盟覆盖千万人群,『199IT-互联网数据中心 』为其成员。( 账户:i199IT )