社科网首页|客户端|官方微博|报刊投稿|邮箱 中国社会科学网
新兴领域

【段虹 徐苗苗】论大数据分析与认知模式的重构

大数据时代是一场发生在当代社会中的变革,各领域的研究者纷纷探究“大数据”在何种意义上改变着人们的生活方式。在这个过程中,大数据分析作为一种新的研究范式,解构了传统认识论模式的窠臼,又克服了后现代主义的个体中心主义倾向,为当代哲学研究提供了新的思路。

一、大数据分析对认知方式的重构

何谓“大数据”?大数据时代的基本特征是什么?大数据何以为大?只有准确把握这一系列问题,我们才有可能了解大数据分析如何从一种信息处理技术转变为新的思维方式。对于这一问题,维克托·迈尔的观点为学界所普遍接受:与传统数据集和数据处理技术不同的是,大数据需要处理的信息量大过一般计算机系统在处理数据时所能使用的内存量,而且在处理大量信息的过程中新的技术被催生,传统意义上结构性和层次化的数据库表格不再被需要,数据结构更加分散且芜杂。同时,大数据集中含有巨大的隐藏信息,其带来的价值将会逐渐成为驱动社会资本增长的动因。(参见迈尔等,第8-9)学术界和产业界的观点可以让我们更准确的理解“大数据”的基本特征:

一是庞大的信息量构成了大数据的最基本特征。例如,维克托·迈尔在书中所介绍,当数字数据洪流席卷世界之后,“每个地球人都可以获得大量数据信息,相当于当时亚历山大图书馆存储的数据总量的320倍之多”。(同上,第13)

二是速率增大:大数据集的数据量有着极快的增长速率,这为数据分析提供了庞大的原始素材。电子技术的发展提供了高速增长的数据处理能力,为大数据分析提供了条件。极其复杂且高度动态的大规模数据集需要高效率甚至实时的分析技术。传统的结构化和序列化的数据库处理方式相对而言过于耗时,无法简单地移植在大数据处理之中。

三是大数据在信息的资源搜集和表述形式上存在巨大的多样性。数据可以是来自网络上的图片视频,或是从医疗系统中搜集的病例信息,也可以是通过嵌入式传感网络系统采集到的实时数据。如此庞大多样的数据结构不仅为网络工程师和销售企业者所大量应用,其他自然科学和人文科学领域的研究者也开始关注。而大数据的存在形式是多样化的,包括文本、微博、传感器数据、音频、视频、点击流、日志文件等,数据管理类型则包括结构化、半结构化和非结构化等。正因如此,普遍性信息与特例信息都会存在于大数据分析的全归纳中,同一数据集中信息质量的差异性也会表现出来。这就意味着大数据分析技术在全归纳的同时,要通过过滤和容错等方式提炼主要相关关联。

四是价值的巨大。这里的“价值”并不局限于经济资本的增长,而是经济效益、社会资本、文化产品的全面增值。商业价值的获得仅仅得益于技术层面的大数据分析,一旦科学数据采集和理论研究广泛地应用大数据分析,那么科学发明和理论创新将会层出不穷,人类认知的现有界限亦会不断突破,机关、企业、研究机构等社会组织的运用效率也会将不断提高。就此而言,大数据分析的应用所带来的增值将发生于商业、科技、管理以及文化等各大领域。

以上特征决定了大数据分析不再是一种网络技术或统计学方法,而是一种新的思维方式,重新塑造了现代认知模式,具体表现为三个方面:

1.“样本=总体” 以归纳为核心的实证研究取代逻辑演绎,成为现代哲学的主要方法,实验法、观察法和访谈法这些实证研究最常用的方法实际上都依赖于选取的样本。然而,早在休谟那里,归纳法的弊端就已被揭示出来:由于无法穷尽一切样本,因而无法保证结论的可证伪性,以致很多形而上学命题带有较大的偏见。而大数据分析选取的是全部样本,可以最大程度保证认识过程中的最小化误差,主要是出于以下两个原因:其一,注重经验而不是体验。认识论模式所采用的归纳法在选取样本过程中包含着主体所预设的意图或目的,因而传统意义上的实证研究更注重能动性参与的体验,而把另外一些与实验目的或预设意图无关的样本排除在外,甚至人类历史研究所得出的结论也是“效果历史”。大数据分析几乎囊括了全部的人类经验,最大限度排除了联想和预设。其二,整体功能的最大化。大数据分析采用所有的数据,是最接近完全归纳的方法,恰如维克托·迈尔所言:“我们依然可以使用样本分析法,但不再是我们分析数据的主要方式。慢慢地,我们会完全抛弃样本分析。”(迈尔等,第43)

2.从因果关系到相关关系 因果解释模式是认识论把握世界的根本方式,休谟把这种因果关系解释为习惯性联想,比如“太阳升”和“路面热”并不是前因后果,只是二者总是相继出现而形成的联想。依维克托·迈尔所言,因果关系这样一种线性思维的存在,是由于人们没有办法经验到和某一类事物相关的全部信息;一旦人们采用大数据分析,作为整体而存在的社会经验就会呈现出前所未有的效用,因果关系不再为人们所沉迷,取而代之的是一种“相关关系”。迈尔强调,这种相关关系的核心是最大化地去量化数值之间的数理关系,一个数据值的增加很有可能引起另一数据值的增加。通过大数据分析,人们可以找到与某个因变量相关的全部自变量,并看到彼此之间的相关变化,但这样一种变化往往无法寻求其原因或预测其后果。例如,沃尔玛公司总是将库存的蛋挞和飓风用品放到一起销售,这是由于沃尔玛公司注意到每到飓风来临时,手电筒和蛋挞的销量都会激增。在这里,飓风用品和蛋挞之间形成了一种强相关关系。这样一种相关关系从以下两个方面改变着人们的认知:

首先,强调人对物的一种依赖关系。人们在认识论模式的影响下总是不断地自我反思,不断探寻现象背后的根源。而在相关关系中,人们却相信“关联物”给出的建议,而非自身的感觉经验才最为有效,无论它是一台计算机,抑或一种测试软件,还是一个分析系统。越来越多的人宁愿相信,这样一个“代理”所分析的结果往往比自己最忠实的朋友或专业人士更加可靠,甚至在与自身体验密切相关的审美活动中,人们也开始借助“颜值”测试软件来确定美的标准。越来越多的人将目光集中到关联物身上,只去观察相关关系“是什么”,而不再追问其原因。

其次,非线性关系的强调。因果关系论试图将世界解释为因果链条,将现象之间的关系归结为线性逻辑演绎。维克托分析了两种线性因果关系,第一种是毫不费力的快速思维,形成常识;第二种则是比较费力的慢性思维,这是一种科学思维方式。然而大数据分析追求的是全归纳,只需要通过关联物了解“是什么”,线性的逻辑实证主义思维框架不再适用,而随着信息处理能力的强化,关联物的数量也大幅增长,形成网状关系。

3.淡化精确性 大数据分析的结果具有价值和有效性,但就大数据分析这种认知范式本身而言,它并不以追求精确性为目的。大数据分析用总体化全归纳法去置换抽样调查的统计学方法,打破了因果关系模式,植入了相关关系,更多的信息量被掌握,一个人可以了解某种现象的全部过去式,也可以从关联物那里了解事态的未来走势。在这个过程中,真正实用的并不是对精确度的追求,而是快速获得大概的轮廓和脉络。(参见迈尔等,第65)亚马逊的网销可以用来说明这一点。顾客以往的购买记录全部计入数据系统,顾客的购买倾向也随之出现在页面上,尽管这样一种预测并无确切的根据,事实上却影响着消费者的行为和产品销量。在相关关系中,虽然每一次分析都淡化精确性,但就整体效用而言,它比小数据时代更加准确地预测了事物的走向。

二、大数据分析对“主观事实”的重构

由于认知方式的影响,认知对象也从传统认识论模式中的对“客观事实”的追求转变为对“主观事实”的建构。对客观事实的追求,源于认识论模式下的理性演绎。自古希腊开始,哲学家们预设现象背后皆有终极解释,客观事实完全排除个人的意志,人们只能运用自己的理性去认识,而无法去改变或建构。自笛卡尔开始,考察理性本身如何追求客观事实的精确性成为哲学的主题。

传统认识论范式中的客观事实要求预设清楚明白的前提。笛卡尔在《第一哲学沉思录》中开宗明义地指出事实的可靠性依赖前提的清楚明白。(参见笛卡尔,第4)笛卡尔的这个论断提醒人们不要过度专注于过程的推理而将最重要的事情遗忘:一旦前提可疑,那么推理越精确,结论越谬误,这就好比每天都憧憬远游的人总是忘记自己所立足的空间。人们在追问前提的时候,必须一直思考“为什么”,这是获得唯一真理的途径。而且,真理的标准是“清晰明白”,而真正清晰的东西必须经得起理性的怀疑,否则它只能是一种“意见”。在笛卡尔看来,真正清晰的并不是那些看似可靠的外物,而恰恰是人自身的理性,只有主体自身的“思”才能保证所获得的知识是真实的和精确的。理性演绎是掌握客观事实的根本途径。“我思,故我在”这一命题所开启的认知论转向将关注点置于人类理性中,给予了思想相对于身体、外物和非理性的优先地位。

由于小数据时代选取的样本有限,客观事实的追求被认为可以通过抽样法获得,只要每一步的分析都被因果关系所牢牢拴住。正是样本数量的限制,让人们有足够的精力去追寻唯一的真理和不变的前提。在大数据时代,“一个唯一的真理”这种想法已经彻底改变,因为追求这个唯一真理是对注意力的分散,要想获得大数据所带来的好处,就必须能够接受混乱、芜杂和模糊的认知方式,这就意味着对客观事实的追求变得毫无意义。

然而,认知的对象总是某种“实在”,那么在真理的唯一性和事实的客观性被普遍忽略的大数据时代,认识的对象又该如何确定?维克托·迈尔解释,尽管相关关系有取代因果关系的趋势,但并非全然拒斥它。“在大多数情况下,一旦我们完成了对大数据的相关关系分析,而又不再满足于仅仅知道‘是什么’时,我们就会继续向更深层次研究因果关系,找出背后的‘为什么’。”(迈尔等,第89)实际上,相关关系并非海量数据的堆砌,它所呈现出的是全部的人类经验——包括人的理性活动;意志、心理、意欲等非理性活动;个人的全部历史活动。在这个过程中,人们可以根据大数据分析所提供的信息更加全面地了解自己所处的外部情境,获得更多的历史经验,评估自己可以选择的生活方式,这些因素共同构成了人类认识中的“主观事实”。基于相关关系的主观事实不同于认识论模式所追求的客观事实,主要表现在:

其一,客观事实通过演绎推理出来,主观事实则是主体基于相关关系的建构。例如,“美国进入了飓风季节”是客观事实,而“飓风期间,我准备了雨衣、手电和蛋挞,避免外出”则属于主观事实。大数据分析在最大程度上把那些和飓风相关的人类活动都列了出来,为人们提供了各种适切的选择,直接由主体进行判断,主观事实与其说是认知的对象,不如说是建构的结果。

其二,客观事实预设了绝对真理的存在,而在主观事实中的真理是一个相对的概念。正如维克托·迈尔的分析,大数据所带来的好处是基于相关关系,要求用有限的时间去处理与全部人类经验息息相关的海量数据,接受混乱、芜杂和模糊的认知方式,这意味着澄清真理标准和探寻绝对真理是一件费时且低效的行为。

其三,客观事实关注“自然、宇宙、物质”等宏大主题,主观事实则偏重于对日常生活中衣食住行、婚丧嫁娶的叙事。大数据分析的出现受到实用主义的推动,关注不同生活情境中主体的最佳选择,避免在那些与生活无直接关联的主题上分散精力。例如,婴儿的父亲常常在购买纸尿裤时,往往顺手把几瓶摆在旁边的啤酒放在购物车中。可见,相关关系并不告诉你为何这些商品会成对出现,而是告诉你什么样的混搭方式既能促进商品销量,又能让人们的生活更加便利。

三、大数据分析对社会关系的重构

相关关系在最大程度上概括了人的社会活动与社会交往,大数据时代的社会关系呈现为多样化的社群关系,基于这种关系人们形成了一种“社群意识”。

“社交网络在线化”是大数据时代的典型特点和产生根源,但社会网络的发展并不是唯一原因。从理论上来看,实用主义和后现代主义对传统认识论和宏大叙事的解构功能,也推动着个体化、异质性和多元主义的发展。在这样的理论背景中,相关关系模式取代因果关系模式成为可能。很多人认为大数据分析放弃了对因果关系、客观事实、唯一真理的追求,塑造了个体的独特生活方式和思考模式。以芝加哥学派为代表的实用主义强调,任何社会科学的研究都应该“专门化”地服务于人们的各类需求,因为现实的多元世界总是划分为不同的族群。以美国社会为例,土著人、白人、新移民甚至暂居者都有各自的文化背景和历史经验,对每一类人的需求进行有效评估才能避免冲突,而一旦人们陷入形而上学意义上的沉思或纠结于事物之间的因果逻辑,那么社会科学则无法满足其“属人性”(engaged);后现代主义则将基础主义一直苦苦追寻的“唯一真理”消解,也把以康德为代表的传统伦理学所恪守的道德戒律解构为价值相对主义,主张个体的意志、需要和体验具有绝对的优先性。然而后现代主义所倡导的个体主义并未因此而盛行,大数据社区成为一种生活方式。在此过程中,一直以来作为认识起点的“自我意识”渐渐被“社群意识”所取代,大多数学者强调“社群意识”的获得需通过社群网络。

社群网络是一种网上的虚拟社群,由拥有相似兴趣爱好或价值取向的网友构成。就现实状况而言,每个人的教育、习俗、族群、职业等背景都各异,但有越来越多的人加入“低头族”的指尖生活模式,成为社群网络中的成员,而这样一种成员资格极易获得,只需要获得任何一种形式的网络交往平台,它在大数据时代强大的技术支持中获得了普及,成为企业与客户之间、合作伙伴之间、亲人朋友之间的沟通方式,取代了传统意义上的走亲访友或电话联络,因此现在很少看到人们会珍藏电话联络簿,毕业季的学生也很少购买毕业留言册来收藏毕业寄语。社群网络在最大限度上记录了亲人、朋友、同僚等交往对象的个人信息,在较大程度上释放了人脑中的记忆内存,对他人信息的认知不再需要诉诸记忆,只需要输入某个社交网站的私人ID。这样一种方式甚至可以帮助寻找一度失联的昔日同窗。社交平台上的互动频率渐渐成为亲密与疏远的衡量标准;一个人是否“合群”,较大程度上取决于他在社群网络中的融入程度,融入程度并不应简单量化为在线时长和社交好友的数量,网络话语的熟练运用也是一个重要标志。

社群话语系统是催生“社群意识”的另一有效途径。大数据时代的网络会话消解语法、语义的结构主义语言观,更加注重语用,形成了简洁、实用的会话方式,人们在社群网络中的交际变得更加便捷,其日常生活也更加依赖社群,这样一种对社群生活的依赖也让社群本身变得更加坚固。

大数据时代的社群意识与传统意义上的“共同体观念”截然不同:第一,就所属范畴而言,社群意识既是社会学概念,也是心理学概念,它意味着社群成员对社群的归属感和认同感;共同体观念则是一个社会学概念,链接着人们的居所、血缘和情感。第二,从成因来看,尽管二者都强调一种归属感或认同感,但社群意识的形成基于共同爱好、相似的价值取向或行为规范,而忽略社群成员的教育水平、职业归属、家庭出身等背景,比如明星歌迷会、车友俱乐部等,共同体观念的产生则是出于地域的临近、血缘关系的联结或者生活习俗的相近等因素,如地域共同体、职业群体等。第三,就构成要素来说,社群意识包括“成员身份、影响力、整合与需求满足以及共享情感”四个层面,成员之间的互动是基于“同理”或“关爱”;共同体观念虽然也包括成员身份、影响力以及需求满足,但在共享情感方面则相对欠缺,成员关系体现为彼此之间的规约。第四,社群成员之间往往采用言语沟通,社群意识的建立依赖于“低文化语境”,社群成员注重社群规则的合理性;共同体成员之间的沟通方式更为丰富,包括言语沟通和非言语交际,甚至极具象征意义的符号也具有凝聚力,共同体观念在“高文化语境”中形成,共同体的约定或习俗传统并不追求合理性,而是强调效用性。尽管二者之间有以上四个方面的差异,但社群意识所强调的个体对群体的归属与认同并不是对共同体观念的全然否定,毋宁说,它是对解构于后现代主义的共同体观念的重置。从这个意义上来看,社群意识的形成在一定程度上克服了后现代的个体主义倾向。

大数据分析通过重构认知模式去改变人们的行为方式和生活习惯。从认知方式来看,大数据分析强调“样本=总体”的全归纳法,以相关关系替代因果关系,淡化认识过程中对精确性的追求;基于这样的认知方式,大数据分析不再追求以因果关系为中心的“客观事实”,而是把由“相关关系”链接的“主观事实”建构为认知的主要内容;“相关关系”的形成需要更多的咨询和更为迅捷的信息处理方式,人的日常生活更加依赖社群,渐渐形成“社群意识”。这是人们对大数据时代社会关系的基本认知,与传统的共同体观念具有明显的不同。基于大数据分析从根本上改变了人们的认知模式,大数据时代社会科学研究主题、研究方法和研究范式的转变渐渐成为社会科学研究的崭新课题。

【参考文献】

[1]笛卡尔,1986年:《第一哲学沉思集》,庞景仁译,商务印书馆。

[2]迈尔等,2013年:《大数据时代:生活、工作与思维的大变革》,周涛译,浙江人民出版社。

(原载《哲学研究》2016年第2期)