摘要:本文探讨了大数据技术的创新、研发和应用中的伦理问题。文章首先指出,大数据技术是双刃剑,这种技术的创新给亿万个人、商业以及社会带来巨大受益,但同时也引起风险。我们需要鉴定风险,仔细地和合适地平衡创新的受益与风险。文章接着探讨了与信息通讯技术及大数据技术有关的数字身份、隐私、可及、安全和安保、数字裂沟等伦理问题,并讨论了解决这些伦理问题的进路。最后,文章建议引入伦理治理概念,指出大数据的顺利推广应用要求我们制订评价在大数据方面所采取行动的伦理框架,即伦理原则,为制订行为准则、管理和立法建立一个伦理学基础。
关键词:大数据,风险,数字身份,隐私,可及,安全,安保,数字裂沟,伦理治理
前 言
目前流行的称之为“大数据”这种现象基于传统的数据库技术与新的数据储存和处理技术之间的诸多区别。大数据的数据量太大不能用传统数据库系统(如结构化查询语言,Structured Query Language,简称SQL)来处理和分析。2004年沃尔玛特公司声称拥有世界上最大的数据库,达500TB(1TB=1024GB);2009年eBay公司储存的信息达8TB;两年后雅虎储存的数据量达170PB(1PB=1048576GB)。数据量大只是大数据技术一个方面。由于可得的信息量(volume)、信息的多样性(variety)以及速度(velocity)呈几何级数增长,增加了要处理的信息的复杂性,这些因素产生了以前没有遇到过的问题。2009年全世界储存的信息总计是0.8ZB,等于8000亿GB(1ZB=1万亿GB),到2020年全球储存的信息将达35ZB(国际数据公司预测)。到2025年人们预测互联网将超过生活在整个地球上的所有人脑的容量。另外输入源和所生成的数据类型随着新技术的产生而迅速扩展。更重要的是,随着输入源数目以及格式的多样性的增加,数据生成、获取、分析、处理以及输出呈几何级数增长。全世界90%的数据是最近两年内产生的。这种大数据革命驱动我们在处理复杂事件、捕获在线数据、研发更佳产品、提供更佳服务,以及做出更佳决策方面的能力发生巨大的进步。(Rayport 2011;Davies 2012 4-5)大数据技术会提出一些我们应该做什么以及我们应该如何做的问题,前者我们称之为实质伦理问题,后者称之为程序伦理问题。本文试图鉴定这些伦理问题以及提出一些解决这些问题的进路。
身份(identity)是界定一个人是谁或是什么的一个特征或属性集,被认可为独一无二地属于那个人。在现实生活中判定身份,使用一套组合的技术。身份有社会身份(同伴、家庭和朋友)、法律身份(出生证、驾驶执照)以及物理身份(DNA、外观)。数字身份是在线使用的身份,所以又称“在线身份”(online identity),是在现实生活中界定一个人的特征子集,是特征和属性数字编码以适合于计算机系统处理的结果。当从事在线活动时数字身份代表那个特定的人,能为电子技术手段可及。与实际生活的身份不同,数字身份可从与那个人的任何特定属性或特征无关的一个简单的用户名/密码组合,到来自官方证书的敏感的和有个人身份标识的信息的组合。数据身份引起一些问题。首先,一个人可有不止一个有效的数据身份,其特征可根据使用的情境、应用的目的或所获服务种类而有不同,例如一个人为了获得某种服务提供的数字身份含有护照号、驾驶执照等信息;而在线交友时可提供完全不同的数字身份。其次,在网络世界中数字身份不是固定而是流动的,它可随时间流逝而变化,因此例如邮寄地址或电话号码需要定期查验。因此,数字身份不一定是唯一的、静态的或永久的。还可能有这样的情况,有人使用的是假身份,或者选择匿名。因此数字身份是非常多样化的。由于这些情况,有人界定数字身份为“在在线环境发展起来的,可通过电子或计算机装置或系统可及、使用、储存、转移或处理的身份。”(ICBCEM 2011)
数字身份要解决可信的身份识别问题,即识别一个人在网上的身份。例如在数字交易中交易双方都要确保他们的签名是有效的,属于签字的那个人;不仅是信用卡或银行账户的使用是有担保的,而且整个网上购物过程必须依赖于这样的信任,即我们提供的是我们自己的信息。除了商业交易外,社交网络也要求他们的使用者提供“可信的”名字。因此在人们活动期间留下的数字痕迹要求双方对他人的隐私、财产或尊严信任、关怀和尊重。虽然商业方面的数字身份现在正在受到管理,但需要解决更为广泛的用以识别身份的身份(identity-as-identification)问题,例如在网络、游戏中使用“假身份”。
围绕数字身份存在两个问题。其一是身份盗用(identity theft)的事件层出不穷。由于互联网上私人信息的可得性,身份盗用(identity theft)事件迅速上升。例如2002年700万美国人的身份被盗用,2012年被盗用身份人数达1200万,成为美国发展最为迅速的犯罪行为。公共记录搜索引擎和数据库是网络犯罪的元凶。2011年4月索尼的游戏机网络被侵入,不仅造成一些用户的账户被盗用,而且多达7700万用户的个人可辨识身份的信息被盗,情况是如此严重致使整个服务关闭了24天,索尼因此损失140亿日元,约128万欧元。(Kinderlere et al. 2012;BCG 2012)根据Symantec公司2009年报告,全球电子邮件中垃圾邮件占86%,许多垃圾邮件的目的就是要榨取个人细节,以便进行身份盗用,这种做法称为“网络钓鱼”(phishing)。(Gillies 2012)
隐私(Privacy)
隐私是将他人排除在知悉某人的信息或数据的某些方面之外。隐私概念仅适用于有可能发生人际互动关系的领域,在没有人迹的荒芜小岛,不存在隐私问题。有三种不同形式的隐私:(1)躯体隐私,这是指人身体的阴私部位,不能暴露给一般外人;(2)空间隐私,这是指与非亲密关系的人保持一定的距离;(3)信息隐私,这是指保护和控制与个人有关的信息。有关个人的信息包括:(1)固有特征。这个人来自何处?他或她是谁?出生日期、性别、国籍等;(2)获得性特征。这个人的历史,例如地址、医疗记录和购物史;(3)个人偏好。这个人喜欢什么?包括兴趣、业余爱好、喜欢的品牌和电视节目等。上述信息可联系到有身份标识或可辨识身份的人。
可及(Access)
网络上信息的可及、对网络信息的审查和滤除、网络的关闭或暂停使用,也引起许多伦理问题。这些问题也与隐私、安全和我们参与社会有关。许多世纪以来,以保护和安全为名,建立了许多机制。今天利用软件滤除一些网域和内容,使得如果没有精细制作的规避措施(翻墙软件)人们无法进入或获得这些网域和内容。互联网的审查和滤除被用来控制或压制信息的发表或可及。网络审查与网络外审查的问题是相同的:人们自由可及信息情况会更好呢,还是应该不让他们获得那些有害的、下流的或违法的材料会更好?小规模的网站审查和滤除指是一些公司,屏蔽一些个人使用的网站限制员工上班进入网络空间,以免影响生产和工作。大规模的则有政府建立大型火墙不让其公民接触国外的在线可得的信息。国家控制信息可及最著名的例子是我国的金盾工程,例如有时在全国性重要会议期间,使得所有人都无法进入Google,使得研究人员大为苦恼。在法国和美国,则政府有屏蔽和滤除种族主义和反犹太人的网站的工程。
人们普遍担心危及公共安全、危及个人生命健康,以及危及青少年身心健康的信息在网络上肆意泛滥,因此负责的公共机构对网络进行管理,是合理的。但单位或公共机构的网络管理人员要认识到,信息可及权利来自于尊重公民或使用者个人的自主、自我决定和知情选择权。个人对与个人有关的事情做出理性的决定,必须基于对相关信息的可及和理解。同时公民的信息可及权利,包括网络信息可及的权利,也是一种初始(prima facie)权利,即设条件不变时应该尊重、保护和实施公民的网络信息可及权利,如果有一项更为重要的公民权利,例如公民人身安全的权利与之相冲突,或有重大的公共利益(例如保障国家或社会的安全)与之相冲突,可以暂停或限制公民的信息可及权利。但暂停或限制公民的信息可及权,必须有充分的理由,对公民的这种权利的侵犯必须是最小程度的,侵犯的范围、程度和时间必须与所得的效用(例如国家安全得到保障)相称。因此,国家层次的审查、滤除、屏蔽行为也提出重要的伦理问题,即在什么条件下审查、滤除、屏蔽某些网站和内容可得到伦理学的辩护?如何评价审查、滤除和屏蔽所得和所失?多大的利弊得失比可让我们采取这种行动?拿屏蔽Google来说,Google已经成为自然科学、社会科学、人文学科研究资料的来源,例如人类基因组研究计划的数据就在发表在Google网站上(我国的“百度”至今无法匹敌),如果完全屏蔽它,会给我们的工作带来多大的损失?这是我们在管理网络时必须考虑的。
一方面是如何确保使用者信息可及的正当权利,另一方面如何防止不当可及(inappropriate access),这包括垃圾邮件、网络色情材料、网上兜售药品等十分严重的问题,引起各国政府的关注。例如在英国,根据信息专员(Information Commissioner)办公室的建议,制订了《隐私和电子通讯条例》,规定公司发送未经请求的电子营销材料的规则,例如要求公司给用户发送未经请求的营销材料必须事先获得同意(consent),或者在每次发送消息时让用户有机会表示反对。如果用户收到未经请求的电子营销材料,且在用户表示拒绝后还这样做,用户可以向信息专员投诉。同时电子邮件的使用者也应自己来采取实际步骤减少垃圾邮件。例如可考虑使用不同的个人或商业email地址;选择难以被人猜测到的email地址;不要公开你的email地址;仔细查验公司隐私政策以及发送营销材料可选择拒绝(opt-out)的措施;不要答复你不熟悉和不信任的发件人;不要点击垃圾邮件上的广告;使用垃圾邮件过滤软件;维护好你的系统等。不当可及中最为严重的是对青少年造成伤害的网上色情和暴力材料的传播。一些国家要求搜索引擎安装滤过软件,防止青少年接触到这些讨厌的材料。例如新加坡政府建立了媒体发展局(Media Development Authority),手中有一份被封锁的网站的黑名单,这些网站在新加坡国内是不可及的。禁止这些网站上的材料是“基于公共利益、公共道德、公共秩序、公共安全、国家和谐的理由或以其他理由为新加坡法律所禁止的”,其中包括禁止色情、鼓吹族群、种族或宗教仇恨、暴力等材料,但也包括禁止有争议的维护同性恋的材料;同时确保具有医学、科学、艺术或教育的材料在网上为使用者可及。
互联网内容的管制也引起一些困难问题:管制者应该是谁?应该使用何种标准来判断哪些材料合适,哪些不合适? 如何实现内容的管制?目前大多数机制业已存在,而且互联网目前仍然是一个基于文本的媒体,它会自动创造它自己的审计痕迹(audit trail)。(Gillies 2012)
安全/安保(Safety/Security)
互联网存在一种悖论:互联网的技术平台实际上是一个受高度管控的环境,然而通过在这个平台上建立的网页、email和社交网络地址表达的内容却往往被认为是完全不受管控的虚拟荒野,不必考虑规则。于是网络犯罪迭起,从制造播散病毒,黑客入侵,诈骗,造谣惑众,身份盗窃,网络贩卖假药、毒品、枪支、人口、器官,教唆杀人和自杀,传播色情材料,到恐怖主义利用网络危害国家利益。根据英国广播标准理事会1999年调查,3/4的人要求加强对互联网的管理。(Gillies 2012)
数字裂沟(Digital Divide)
1997年美国科幻电影Gattaca描述了兄弟二人的故事,其中一人经基因工程改良因而被分配做重要工作,而未经基因改良的则只能从事低等工作,两人似乎分属不同阶层,此后这种现象被成为“基因裂沟”(genetic divide)。所谓的“基因裂沟”实际上是一种“技术裂沟”(technological divide)即先进技术的成果不能为人公平分享,于是造成“富者越富,穷着越穷”的情况。这是一个公正问题。数字裂沟的概念涉及在信息技术及与其有关的服务、通讯和信息可及方面的失衡关系,在全球或各国贫富之间、男女之间、受教育与未受教育之间信息可及的不平等和不公平。与区别或差异的概念相反,裂沟是指某些群体在信息可及方面遭到不合伦理和得不到辩护的排除。除了例如衣食住行、医疗、教育、安全等基本品外,信息也是基本品,因此要求信息的公正分配,以及对信息技术及信息的普遍可及。(Hessen 2012)
信息通信技术是逐渐摆脱贫困的重要手段。例如穷人通过网络技术销售产品增加收入,获得更好的医疗保健,更好的教育和培训,获得工作发展机会,参与政府服务,与家人和朋友联系,获得发展企业的机会,提高农业生产率等等。然而,一方面网络使用在不断普及,但另一方面却加剧了贫富差距,在信息“富有者”和“贫困者”之间形成一道数字裂沟。互联网的普及率数据(1999年末)显示,加拿大达到每一千人中有428.2人的普及率,而全球平均水平仅为46.74人;印尼为0.18人,菲律宾为0.23人,泰国为0.49人。(Sembok 2003)数字裂沟是一个由在信息领域内和领域外的人之间新创造的缺口。信息领域不是一个地理、政治、社会、或语言的空间。它是精神生活的空间,从教育到科学,从文化表达到交流,从贸易到娱乐。在信息领域的边界跨越了南北东西,跨越了工业化国家和发展中国家,政治制度和宗教传统,年轻的和老一代人,甚至同一家庭的成员。与其说数字裂沟发生在国家之间或整个社会之间,不如说发生在个人之间更为准确,即在电脑精通者和电脑文盲之间,掌握大量信息的人和信息匮乏者之间。目前,只有少部分世界人口能够获得信息通讯技术。大部分人仍属于是“弱势群体”。他们生活在这种新的数字现实的阴影下,使得他们没有接触信息通讯技术的机会,但这对他们生活影响深远。数字裂沟造成了对弱势群体的歧视,形成了一种新的社会不公正。如何克服数字裂沟,这是信息社会的时代面临主要挑战之一。(Sembok 2003)我国网民近6亿人,那么其余7亿人呢?在我国是否也存在数字裂沟,如果存在,我们如何努力来缩小或填补这个裂沟,使得这奇妙的信息通讯技术和大数据技术能造福绝大多数人,在实现“小康”社会中发挥最大作用。
如何解决这些伦理问题呢?这些都是信息通讯技术和大数据技术创新提出的新的伦理问题或虽然以前已提出但至今未解决或很好解决的伦理问题,因此仍然是有待于解决的我们应该做什么和应该如何做的问题。在鉴定新技术提出的伦理问题后,我们一般不能依靠现有的规则或新制订的规则,用演绎方法,自上而下地加以解决;反之,需要自下而上地分析这些伦理问题,考虑其特点,对相关利益攸关者的价值给予权衡,以找到解决办法的选项,然后应用伦理学的理论和原则加以论证。因此,我们说伦理学的工作是“鉴定”、“权衡”和“论证”。与科学技术要解决的“能不能”问题不同,伦理学要解决的是“该不该”问题。要解决“该不该”问题时,我们就必须首先考虑我们要选择那些价值。
大数据技术的伦理治理
有关信息通讯和大数据技术的管理问题,我们推荐“伦理治理”这一概念。治理(governance)与管理不同,“管理”(management)是治理的一个方面,是指特定的行政机构内一些在组织、预算和行政方面的具体技巧,而治理的意义是决策和决策实施过程,并包括公司的、当地的、国家的以及国际的多个层次。对治理的分析集中于涉及决策和决策实施的种种行动者及其结构。在治理中政府是一个重要行动者,但还包括其他利益有关者,例如在信息通讯和大数据技术领域,包括科研人员、网络/平台的拥有者和提供者、使用者、政府执法部门、政府非执法部门,以及相关的学术、维权组织。因此治理意味着一项决定不单是依赖权力或市场,而是一个多方面协调的行动,必须体现开放性、参与性、问责性、有效性和连贯性等5项原则。同时由于新的科学技术创新越来越引起公众的伦理关注,伦理学与处于社会之中的科学技术紧密相连,解决这些问题单单靠决策者或科学家或伦理学家都有局限,需要多元部门、多元学科共同参与,共同研讨新的科学技术创新提出的伦理、法律和社会问题,并提出政策、法律法规和管理方面的建议,因此进一步提出“伦理治理”(ethical governance)这一概念。(Macedo 2008, Ozolina et al. 2009)
我们认为,制订行为准则或管理办法需要在对上述伦理问题进行多学科研讨的基础上,这类研讨首先要在价值问题上取得共识,才有利于解决上述伦理问题,并在解决这些问题和制订准则或管理办法上取得共识。控制论创始人维纳(Wiener)基于他对人类生活的理解提出了它认为社会应建立于其上的“伟大公正原则”。他认为一个社会坚持这些原则就会是一个人的发展能力最大化。这些原则包括:自由原则、平等原则和有益于人的原则。(Bynum 2006)我们在2009年国际生物识别技术的伦理学和政策会议以及2013年欧洲安全技术与伦理学会议上的发言和已发表文章基础上提出如下的信息通讯和大数据技术的伦理原则建议。伦理原则是利益攸关者应尽的义务,也是我们应该信守的价值,这些伦理原则构成一个评价我们行动(包括决策、立法)的伦理框架:评价的结果将是,这个行动是应该做的或有义务做的;或者这个行动是不应该做的或应该禁止做的;或者这个行动是允许做的,也允许不做。正如我们在前面说过的那样,其中每一条原则都是一项“初始”(prima facie)义务,如条件不变我们必须履行;如果条件有了改变,初始义务之间发生冲突,有另一条初始义务比它更重要,那么该初始义务就不能成为实际义务,而那个另一条初始义务成为实际义务。
参考文献
BCG (The Boston Consult Group) 2012 The Value of our Digital Identity. Published by
Bynum, Terrell 2008 Computer and Information Ethics, in Edward N. Zalta (ed.). Stanford Encyclopedia of Philosophy. http://plato.stanford.edu/archives/spr2011/entries/ethics-computer .
Buytendijk, Frank and Heiser, Jay 2013 Confronting the privacy and ethical risks of Big Data,
Center for International Development, Harvard University 2007 Science, Technology and Innovation: Genetic Divide Project http://www.cid.harvard.edu/archive/biotech/genetic_divide.html
Gillies, A 2012 Internet, Regulation and Censorship, in Ruth Chadwick (Editor in Chief) Encyclopedia of Applied Ethics, the 2nd edition, 752-759.
Heesen. J 2012 Computer and Communication Ethics, in Ruth Chadwick (Editor in Chief) Encyclopedia of Applied Ethics, the 2nd edition, 538-545.
Industry
Kinderlerer, Julian et al 2012. Ethics of Information and Communication Technologies, Opinion of the European Group on Ethics in Science and New Technologies to the European Commission.
Macedo, Stephen 2008 Global Standards of Good Governance, 中国社会科学院哲学研究所:北京国际善治学术研讨会会议资料,第97页。
Mahfood, Sebastian et al. 2005 Cyberethics, Communication Research Trends, (24) 4.
Novet, Jordan 2013 The ethics of big data: A council forms to help researchers avoid pratfalls. http://venturebeat.com/2013/11/18/the-ethics-of-big-data-a-council-forms-to-help-researchers-avoid-pratfalls/
Ozolina Z et al. 2009 Global Governance of Science: Report of the Expert Group on Global Governance of Science to the Science, Economy and Society Directorate, Directorate-General for Research, European Commission.
Rayport Jeffrey 2011 What big data needs: A code of ethical practices, MIT Technology Review, http://www.technologyreview.com/news/424104/what-big-data-needs-a-code-of-ethical-practices/
Riglian, Adam 2012 Big data collection efforts spark an information debate. http://searchcloudapplications.techtarget.com/feature/Big-data-collection-efforts-spark-an-information-ethics-debate
Sembok, Tengku Mohd 2003 Ethics of Information Communication Technology, Paper prepared for the Regional Meeting on Ethics of Science and Technology, 5-7 November 2003, Bangkok UNESCO, Regional Unit for Social & Human Sciences in Asia and the Pacific.
Steiner, Peter 1993 On the Internet, nobody knows you are a dog. The New Yorker July 5. http://en.wikipedia.org/wiki/On_the_Internet,_nobody_knows_you%27re_a_dog
涂子沛2012 《大数据》,广西师范大学出版社。
Wolken, Matt 2013 The ethics of Big Data and privacy.
中国互联网信息中心 2013 中国互联网络发展状况统计报告
http://www.cnnic.net.cn/gywm/xwzx/rdxw/rdxx/201307/t20130717_40663.htm.
(作者惠寄。《科学与社会》2014年第4卷第1期发表本文的精简版。此是完整版。)