新兴领域

【邱仁宗黄雯翟晓梅】大数据技术的伦理问题

摘要：本文探讨了大数据技术的创新、研发和应用中的伦理问题。文章首先指出，大数据技术是双刃剑，这种技术的创新给亿万个人、商业以及社会带来巨大受益，但同时也引起风险。我们需要鉴定风险，仔细地和合适地平衡创新的受益与风险。文章接着探讨了与信息通讯技术及大数据技术有关的数字身份、隐私、可及、安全和安保、数字裂沟等伦理问题，并讨论了解决这些伦理问题的进路。最后，文章建议引入伦理治理概念，指出大数据的顺利推广应用要求我们制订评价在大数据方面所采取行动的伦理框架，即伦理原则，为制订行为准则、管理和立法建立一个伦理学基础。

关键词：大数据，风险，数字身份，隐私，可及，安全，安保，数字裂沟，伦理治理

前言

目前流行的称之为“大数据”这种现象基于传统的数据库技术与新的数据储存和处理技术之间的诸多区别。大数据的数据量太大不能用传统数据库系统（如结构化查询语言，Structured Query Language，简称SQL）来处理和分析。2004年沃尔玛特公司声称拥有世界上最大的数据库，达500TB（1TB=1024GB）；2009年eBay公司储存的信息达8TB；两年后雅虎储存的数据量达170PB（1PB=1048576GB）。数据量大只是大数据技术一个方面。由于可得的信息量（volume）、信息的多样性（variety）以及速度（velocity）呈几何级数增长，增加了要处理的信息的复杂性，这些因素产生了以前没有遇到过的问题。2009年全世界储存的信息总计是0.8ZB，等于8000亿GB（1ZB=1万亿GB），到2020年全球储存的信息将达35ZB（国际数据公司预测）。到2025年人们预测互联网将超过生活在整个地球上的所有人脑的容量。另外输入源和所生成的数据类型随着新技术的产生而迅速扩展。更重要的是，随着输入源数目以及格式的多样性的增加，数据生成、获取、分析、处理以及输出呈几何级数增长。全世界90%的数据是最近两年内产生的。这种大数据革命驱动我们在处理复杂事件、捕获在线数据、研发更佳产品、提供更佳服务，以及做出更佳决策方面的能力发生巨大的进步。（Rayport 2011；Davies 2012 4-5）大数据技术会提出一些我们应该做什么以及我们应该如何做的问题，前者我们称之为实质伦理问题，后者称之为程序伦理问题。本文试图鉴定这些伦理问题以及提出一些解决这些问题的进路。

2012年2月16日《纽约时报》发表一篇文章，报道Target公司有一个分析项目，可确定一位顾客何时怀孕，并将购买与妊娠有关的物品的优惠券送给其中一位少女，该少女父亲得知后非常恼怒，痛骂该公司经理。Target公司是通过鉴定购物模式来确定某一顾客怀孕，然后将优惠券送给她，然而这种挖掘数据的做法引起人们愤怒，因为它泄露了非常私密的信息。（Reglian 2012, Wolken 2013）

美国国土安全局广泛监控、窃取和收集本国公民、外国公民以及外国领导人的巨量信息。单单是每天收集的全世界公民的手机短信信息就近2亿条。2014年1月19日《华盛顿邮报》网站报道，2005年该局将一位来自马来西亚的斯坦福大学女博士生列入禁飞恐怖主义监控名单，使她蒙受不白之冤达9年之久。最近联邦法官裁决，该局应纠正错误，给与赔偿。

向财富500强前50名公司调查其对公众的政策，内容包括：是否未经同意出卖数据；是否利用有目标的广告；顾客对利用他们的信息有多少控制；是否从其他机构购买数据；数据是否是与他人分享的还是汇总的；并陈说政策的理由。结果如下：（1）50家公司中40家表示公司不与第三方服务商（如供应商和运货商）分享数据。余下10家，8家没有回答，2家说公司不与他人分享个人数据，即使是第三方服务提供者也不与之分享。（2）50家公司中34家明确地说，未经同意公司不出卖个人数据。没有一家公司明确地说公司出卖个人数据。（3）50家公司中11家说，公司会从第三方那里购买或用其他方法“获得”个人数据。没有一家公司说公司不购买个人数据。（4）50 家公司中23家说，公司不在第三方网站上做有目标的广告。其余的只有一家说他们排除做有目标的广告，26家什么也没有说。（5）50家公司中有33家说，使用者在例如有目标的广告等事情上有可能控制他或她数据的使用。其中31家说使用者可以选择拒绝（opt- out.），并介绍了选择拒绝的方式。

调查结果说明了如下问题：没有一家明确地说，公司出卖个人数据。反之，超过半数（34/50）的公司说，未经同意不会出卖个人数据。也没有一家公司明确地说公司不会购买个人数据。反之，11/50公司披露他们购买第三方提供的数据。但这些公司是否进行了核查以确定，他们购买的数据是经过数据所有者的同意而扩散的吗？出卖个人数据与购买个人数据之间是否具有道德意义上的区别？

平衡大数据技术的受益与风险

大数据技术提升人们以信息以及创新产品和服务促进商业利益和社会利益的能力，与所有技术一样它本身无所谓“好”“坏”，因此我们说它本身在伦理学上是中性的。然而使用它的个人、公司、机构有价值观念，他们有不同的目的、动机、他们所看重的方面（即价值），以及它被应用后产生的后果对个人、公司、机构以至社会可能有积极或消极的影响。不过，值得注意的是，大数据技术具有一种强制性功能，通过其产生或处理巨量、高速、多样的数据，以及从而产生的产品设计、研发、销售和管理行动（个体化的产品和服务），推动公司或机构进一步、更完全地进入个人的生活，扩展对个人生活的影响，甚至改变像身份、隐私等术语的普通意义，并且改变我们的社会、经济、政治和文化的生活。而且，与所有新技术一样，大数据技术也具有意料以外的后果的风险。

斯诺登对美国政府对本国公民、外国公民及其领导人的大规模监控的揭发，不仅使人们清楚地看到美国政府对本国和外国人民人权肆无忌惮的侵犯，同时也使他们关切信息通讯技术和大数据技术的可能滥用，例如人们警惕商家利用大数据将顾客作为目标，试图描绘他们的轮廓，获得、储存和使用顾客的属性、行为、爱好、关系和地点的大量数据，侵犯他们的私人生活；人们关切政府非法收集有关它们公民的数据而滥用大数据技术；大数据具有公司和社会从未经验过的持久性，从2006年起美国国会图书馆就将所有推特信息归档，Facebook承认删除你的账户不会删除与你的账户相关联的数据，你的个人信息持久存在某处，你又不能加以控制，这意味着你的个人信息被误用或滥用的可能性持续存在；大数据技术可能引起的风险的类型、规模和影响难以事先判定；人们预计到2016年25%利用顾客数据的机构将会由于不适当地理解信息信任问题而遭受声誉损失，20%的公司主要信息官员将会由于未能遵守信息治理纪律而失去工作。（Buytendijk and Heiser 2013）

因此，在伦理学上我们要做的第一件事是鉴定大数据技术可能引起的风险。美国国家科学基金会（NFS）支持研究人员和学术界人士成立了“大数据、伦理学与社会理事会”（Council on Big data, Ethics and Society），NSF工作人员Fen Zhao指出，其任务是促进宏观的对话来帮助更多的人了解大数据可能引起的风险；并促使执行官和工程师思考他们改善产品和增加营业收入的同时避免涉及隐私以及其他棘手问题的灾难。(Novet 2013)

可鉴定出哪些风险呢？

风险1：匿名化和数据屏蔽也许不可能。有用的数据库不可能完全匿名，完全匿名使提供产品和服务成为不可能。数十年来，信息安保研究人员已经知道即使敏感性低的数据，当把它们相关联起来，往往能够产生一组具有高度重要意义的数据，比原始数据集更为重要。这称之为“身份重新标识” （reidentification）。这种重新标识可被人利用进行恶意的“推论攻击”（Inferene attack），即为了不正当地获得某人的材料通过分析数据而实行的一种数据挖据技术，类似我国所说的“人肉搜素”。在美国只需三个身份标识符（triple identifier），即生日、性别和邮政编码，就可通过公共可得数据库搜索出至少87%美国公民。身份重新标识可导致有伤害的结果，如泄露医疗记录、个人习惯、财务状况以及家庭关系这些私密信息，就可能被人利用、假冒、诈骗。

风险2：他人的可能侵入。许多消费者毫不经心地使用社交媒体或互联网服务，无意中允许他人使用信息。例如在维特上公开自己在度假或全家登记入某个酒店，显示你不在家；许多消费者从不读“terms and conditions”（条款和条件）；收到促销消息，就马上提供个人信息。即使消费者同意提供信息后也许没有法律问题，但如果消费者感到他们的信任受到破坏，对公司仍然有声誉的风险。消费者信任你做什么，不一定等于做的事情在法律上都是被允许的。

风险3：很容易将模式错当实际。在美国，大规模枪击事件使人们试图判定哪些人很可能因暴力冲动而付诸行动。在Facebook和其他社交媒体上获得一些人的线索，据此确定他们的行为模式很可能是下一个受害者的凶手。可是有这种行为模式的人不一定在未来真采取行动。又如美国政府已经在挖掘现金交易的数据，以推论恐怖分子以及其他有组织犯罪分子的活动。警察利用先进的预报性分析技术来预测在某些日子或那天的某些时候某些区域犯罪率较高的可能性，街头监控摄像机与分析软件相链接，这些软件就是设计来发现有麻烦的行为模式。这样做，很容易导致非法的“审前盘问”（fishing expeditions），权力机构进行大规模的分析测试，符合某种模式的任何人就成为犯罪嫌疑人。这样做就可能产生违反宪法规定的无罪推定问题。在商业方面也是如此：一个人的行为模式不一定就是他要采取的行为。模式是根据过去行为确定的，不能完全决定未来的实际行为。这里也涉及决定论与自由意志、过去与未来关系等哲学问题。

风险4：数据成为现实本身。在商业方面，也会发生非意料之中的行为影响。基于先进的分析技术，零售商提供顾客个体化的商品服务。顾客面对网上和街头零售商无数的选择，又缺乏比较的能力，顾客很可能欢迎这种商品服务。接受这种商品服务后，公司认为对顾客的需求和状况更了解了，导致更有目标的商品服务，更多的交易。这样形成了一条闭合环路，通过这条环路，是对客户状况的描述以及相连的分析技术驱动顾客的行为，而不是相反。这在商业上是一件有意义的事情，但在伦理学上是有争论的：这是顾客真正的需求，还是技术推动的需求？

风险5：可能有不知道的负面后果。大数据分析技术的特点是使用自动发现技术，呈现有潜在意义的数据群集和组合。,这是处理巨量、高速、多种信息的强有力工具，但也是具有潜在的危险性。例如根据这些数据将顾客加以区分和了解他们的状况，很容易导致基于年龄、性别、族群、健康状况社会背景等的歧视。（Buytendijk and Heiser 2013）

这些鉴定出来的风险是初步的，也许我们可检出大数据技术可能引起的更多的风险。

大数据技术中的伦理问题

我们认为信息通讯技术和大数据技术的一些比较根本性的伦理问题有：是否应该保护个人的数字身份?在大数据时代是否仍然应该保护个人的隐私，为使用者、消费者或顾客保护其个人的信息？是否应该保护个人信息可及的权利？在什么条件下网络或通讯的审查和管制可得到伦理学的辩护？在什么条件下通过网络或通讯对个人实行监控以确保公共安全和安保在伦理学上可得到辩护？是否应该努力缩小或消除数字裂沟？我们还可以提出其他伦理问题，例如是否应该保护网络上的知识产权以及应该如何保护，由于篇幅关系，这个问题以及其他伦理问题只能割爱。

数字身份（Digital Identity）

数字身份是在网络空间领域流行的概念，被定义为一组独一无二地描述一个人（有时指称主体subject或实体entity）的数据，是有关一个人的所有在数字上可得的信息的总和。（Kinderlere et al. 2012）

身份（identity）是界定一个人是谁或是什么的一个特征或属性集，被认可为独一无二地属于那个人。在现实生活中判定身份，使用一套组合的技术。身份有社会身份（同伴、家庭和朋友）、法律身份（出生证、驾驶执照）以及物理身份（DNA、外观）。数字身份是在线使用的身份，所以又称“在线身份”（online identity），是在现实生活中界定一个人的特征子集，是特征和属性数字编码以适合于计算机系统处理的结果。当从事在线活动时数字身份代表那个特定的人，能为电子技术手段可及。与实际生活的身份不同，数字身份可从与那个人的任何特定属性或特征无关的一个简单的用户名/密码组合，到来自官方证书的敏感的和有个人身份标识的信息的组合。数据身份引起一些问题。首先，一个人可有不止一个有效的数据身份，其特征可根据使用的情境、应用的目的或所获服务种类而有不同，例如一个人为了获得某种服务提供的数字身份含有护照号、驾驶执照等信息；而在线交友时可提供完全不同的数字身份。其次，在网络世界中数字身份不是固定而是流动的，它可随时间流逝而变化，因此例如邮寄地址或电话号码需要定期查验。因此，数字身份不一定是唯一的、静态的或永久的。还可能有这样的情况，有人使用的是假身份，或者选择匿名。因此数字身份是非常多样化的。由于这些情况，有人界定数字身份为“在在线环境发展起来的，可通过电子或计算机装置或系统可及、使用、储存、转移或处理的身份。”（ICBCEM 2011）

数字身份要解决可信的身份识别问题，即识别一个人在网上的身份。例如在数字交易中交易双方都要确保他们的签名是有效的，属于签字的那个人；不仅是信用卡或银行账户的使用是有担保的，而且整个网上购物过程必须依赖于这样的信任，即我们提供的是我们自己的信息。除了商业交易外，社交网络也要求他们的使用者提供“可信的”名字。因此在人们活动期间留下的数字痕迹要求双方对他人的隐私、财产或尊严信任、关怀和尊重。虽然商业方面的数字身份现在正在受到管理，但需要解决更为广泛的用以识别身份的身份（identity-as-identification）问题，例如在网络、游戏中使用“假身份”。

数字身份具有重要的商业价值，数据身份对整个经济是至关重要的。无论是全世界在其他国家，还是在中国，网民人数每年都以令人惊异的速度增加。1996年我国网民仅有27万，2008年达到2.63亿，2011年达到4.2亿，2013年6月为5.91亿。（中国互联网研究中心 2013）这种迅速增长的态势说明了个人对网络的迫切需要，同时我们也看到利用数字身份的经济在全世界和我国迅猛发展。从宏观经济视角看，欧洲传统工业从2008年到2011年缩小了3.6％，但利用数据身份的企业则年增长率为15％（电子经济）和100％（web2.0社区）。通过数据身份创造的价值可能是非常巨大的，拥有22％的年增长率，到2020年应用个人数据可为欧洲提供3300亿欧元的年经济效益。个人受益更大，消费者所获的价值在2020年将达6700亿欧元。数据身份的总价值可能为欧盟27国GDP的8％。(BCG 2012)

围绕数字身份存在两个问题。其一是身份盗用（identity theft）的事件层出不穷。由于互联网上私人信息的可得性，身份盗用（identity theft）事件迅速上升。例如2002年700万美国人的身份被盗用，2012年被盗用身份人数达1200万，成为美国发展最为迅速的犯罪行为。公共记录搜索引擎和数据库是网络犯罪的元凶。2011年4月索尼的游戏机网络被侵入，不仅造成一些用户的账户被盗用，而且多达7700万用户的个人可辨识身份的信息被盗，情况是如此严重致使整个服务关闭了24天，索尼因此损失140亿日元，约128万欧元。（Kinderlere et al. 2012；BCG 2012）根据Symantec公司2009年报告，全球电子邮件中垃圾邮件占86%，许多垃圾邮件的目的就是要榨取个人细节，以便进行身份盗用，这种做法称为“网络钓鱼”（phishing）。（Gillies 2012）

其二，在可得数据及处理数据能力的几何级数的增长驱动下，数字身份越来越可追溯。1993年7月5日美国《纽约人》（The New Yorker）杂志发表了一幅漫画，其中一只在键盘上操作的狗对另一只狗说：“在互联网上谁也不知道你是一只狗。”（Steiner 1993）那时

确实如此。但在大数据时代就不然了：人们不仅有可能知道你是一只狗，而且能知道你的品种，你喜欢吃的零食，你的家系，以及你在狗展上是否获过奖。这里提出的问题是：大数据技术能够根据你网络上的数字身份提供的一些信息追溯到你的现实生活中的实际身份，技术上有可能做是否在伦理学上都应该做？如果有人利用大数据技术任意去追溯个人的实际身份，那么人们就会说，大数据不仅是增长的驱动者，还可能是使用者/消费者的祸害者。如果不加以管理，许多人可能会为了保护自己，提供更多的虚假信息，或者干脆退出在线世界或网络空间。

根据有关数字身份的这两个问题，就提出了保护数字身份和数字身份管理的公共政策问题（ICECOM 2011）。有人估计，如果不能很好解决这个问题，则潜在价值生成的2／3（4400亿欧元）将处于风险之中。(BCG 2012) 然而如何以尊重隐私、使人放心以及对使用者友好的方式确保数字身份，管理好这些在线身份，仍然是一项有待于我们应对的挑战。

隐私(Privacy)

随着个人数据使用的增长，消费者对他们个人信息的保密的关切也随之增长。据欧盟对3000位网络用户所作的问卷调查发现，88％在线的人觉得至少有一家公司对他们的隐私造成危险。但这种关切并未产生行为改变。大多数消费者对他们的数据究竟发生了什么没有丝毫概念，仅有30％的人对哪些部门在搜集和利用他们的信息有一个比较全面的理解。

隐私是将他人排除在知悉某人的信息或数据的某些方面之外。隐私概念仅适用于有可能发生人际互动关系的领域，在没有人迹的荒芜小岛，不存在隐私问题。有三种不同形式的隐私：（1）躯体隐私，这是指人身体的阴私部位，不能暴露给一般外人；（2）空间隐私，这是指与非亲密关系的人保持一定的距离；（3）信息隐私，这是指保护和控制与个人有关的信息。有关个人的信息包括：（1）固有特征。这个人来自何处？他或她是谁？出生日期、性别、国籍等；（2）获得性特征。这个人的历史，例如地址、医疗记录和购物史；（3）个人偏好。这个人喜欢什么？包括兴趣、业余爱好、喜欢的品牌和电视节目等。上述信息可联系到有身份标识或可辨识身份的人。

不同类型的数据其可身份追溯性是不同的：（1）匿名数据。收集到的数据没有身份标识符，从未与某个人联系。例如通过邮寄寄回的问卷，没有姓名和地址。（2）匿名化数据。以前可辨认身份的数据已经去身份标识了；任何可以将信息联系到特定个人（例如身份证号码、信用卡号码、甚至手机的系列号）已经消除，第三方处理信息时已不可能重建。（3）假名数据。数据记录不含明晰的身份标识，虽然有一个明确的身份标识符，但不能用来直接将信息联系到某个特定的个人。这能保护个人数据，因为这种身份标识符不能转化为明确的身份鉴定。（4）清晰的个人数据。这是最容易追溯到个人的信息，因为这种数据记录含有明确的身份鉴定。

在网络空间，尤其在大数据时代，隐私的丧失很容易发生。当进行交易和注册登记时，个人要提供私人信息，信用卡信息、身份证号码、电话号码、母亲婚前姓名、地址等被公司和公共机构搜集和利用，可能导致隐私的丧失。诈骗和假冒属于因私人信息直接或间接滥用而引起的恶意活动。另外，往往会发生功能潜变（function creep）的情况，这是指获取信息的原来目的被悄悄地、不知不觉地扩大到包括未获得参与者知情和自愿的同意。功能潜变不管是在商业上，还是在政府的监控上，都有发生。(Zhai and Qiu 2010) 由于下列5种情况，在电子数据库和互联网上的数据隐私难以得到保护：（1）可靠性：在开放的通讯基础设施内数据收集者的可信赖性和胜任能力难以确保。（2）难以管制的扩散：如果数据在外部数据库系统内或互联网上控制其进一步使用是有可能的。然而，一方面，数据有被出售给不法商人的威胁；另一方面，数据一旦扩散到许多不同的文档内，很难消除甚至更改它们。（3）数据挖掘：使用这种技术很可能把数据系统地组合起来建立一个人的详细的、合成的轮廓。（4）身份盗窃：恶意使用偷盗来的数字身份，进行例如信用卡欺诈，甚至用于邪恶的网站败坏被盗人身份。（5）恶意攻击：现行数据管理系统无力f防备黑客的犯罪行为或信息战中的侵略。（Heesen 2012）

隐私应该放弃吗？有一种观点（“后隐私运动”）认为，隐私是控制应被分享的信息的一种手段，在web 2.0或大数据时代隐私已经不能得到合适地辩护，应该主动放弃隐私。然而在web 2.0或大数据时代难以保障隐私并不是放弃个人隐私必要保护的充分理由。个人隐私遭到侵犯引致多方面的损失：消费者（用户）看到他们的个人信息被盗用，可能会退出网络空间或尽可能使用虚假信息；企业和公共机构的信任和声誉也会遭受严重损失，如此等等，理应加以保护。今天是否还有必要保护个人信息的私密性也存在着趋向两极的观点：一种观点认为，为实现大数据的经济潜力，让企业或公共机构去做它们需要做的事，个人可以不予理会；另一种观点则认为要建立强有力的措施来保持私人信息的私密性。

个人信息是数据市场的通货。像任何通货一样它必须是稳定的，值得信任的。这是关键所在。虽然消费者关切他们数据的使用，但他们的行为表明他们愿意甚至迫切让他人分享他的一些个人信息（当他们有适当的受益回报时）。当交易和条件合适时，消费者要“花掉”他们的个人数据。对所有利益攸关者的最大挑战是如何确立数据可信的流动。大多数消费者或用户不知道他们的数据如何被利用，也不能够主动进行管理和控制，而是希望他们的数字身份得到负责任的和公开的对待。

在欧盟的问卷调查中，79％回答说，公司对个人数据的使用应更透明。透明性不仅有利于个人，也有利于公司和公共机构。同时在可能的情况下，数据的非原来用途的使用，应征求消费者或用户的同意。根据欧盟的问卷调查，69%的回答者说，对于不那么敏感的数据，可采取opt-out（指默认用户同意，但用户可选择拒绝），80%的人说，对于敏感数据，则应采取opt-in（指默认用户不同意，要使用必须主动获取他们同意）。(Kinderlerer 2012, BCG 2012)

可信的、可持续的数据流动需要建立一个评价使用数据的框架，这种框架有两个关键的层面：数据收集的方法和数据利用的方式。用户要对让他人分享信息所获价值与所付代价进行权衡。数字身份提供的机会是巨大的，但如果不能以深思熟虑的、平衡的方式处理数据的利用，失去的机会也巨大。

为此企业和公共机构要告诉消费者或用户个人数据如何使用和如何保护隐私。确保可持续的数据流动有三个基本要素：（1）消费者的受益必须超过分享数据需付出的代价；（2）对于数据如何使用必须有透明性；（3）个人隐私能得到保护。（Kinderlerer 2012, BCG 2012）

可及（Access）

网络上信息的可及、对网络信息的审查和滤除、网络的关闭或暂停使用，也引起许多伦理问题。这些问题也与隐私、安全和我们参与社会有关。许多世纪以来，以保护和安全为名，建立了许多机制。今天利用软件滤除一些网域和内容，使得如果没有精细制作的规避措施（翻墙软件）人们无法进入或获得这些网域和内容。互联网的审查和滤除被用来控制或压制信息的发表或可及。网络审查与网络外审查的问题是相同的：人们自由可及信息情况会更好呢，还是应该不让他们获得那些有害的、下流的或违法的材料会更好？小规模的网站审查和滤除指是一些公司，屏蔽一些个人使用的网站限制员工上班进入网络空间，以免影响生产和工作。大规模的则有政府建立大型火墙不让其公民接触国外的在线可得的信息。国家控制信息可及最著名的例子是我国的金盾工程，例如有时在全国性重要会议期间，使得所有人都无法进入Google，使得研究人员大为苦恼。在法国和美国，则政府有屏蔽和滤除种族主义和反犹太人的网站的工程。

人们普遍担心危及公共安全、危及个人生命健康，以及危及青少年身心健康的信息在网络上肆意泛滥，因此负责的公共机构对网络进行管理，是合理的。但单位或公共机构的网络管理人员要认识到，信息可及权利来自于尊重公民或使用者个人的自主、自我决定和知情选择权。个人对与个人有关的事情做出理性的决定，必须基于对相关信息的可及和理解。同时公民的信息可及权利，包括网络信息可及的权利，也是一种初始（prima facie）权利，即设条件不变时应该尊重、保护和实施公民的网络信息可及权利，如果有一项更为重要的公民权利，例如公民人身安全的权利与之相冲突，或有重大的公共利益（例如保障国家或社会的安全）与之相冲突，可以暂停或限制公民的信息可及权利。但暂停或限制公民的信息可及权，必须有充分的理由，对公民的这种权利的侵犯必须是最小程度的，侵犯的范围、程度和时间必须与所得的效用（例如国家安全得到保障）相称。因此，国家层次的审查、滤除、屏蔽行为也提出重要的伦理问题，即在什么条件下审查、滤除、屏蔽某些网站和内容可得到伦理学的辩护？如何评价审查、滤除和屏蔽所得和所失？多大的利弊得失比可让我们采取这种行动？拿屏蔽Google来说，Google已经成为自然科学、社会科学、人文学科研究资料的来源，例如人类基因组研究计划的数据就在发表在Google网站上（我国的“百度”至今无法匹敌），如果完全屏蔽它，会给我们的工作带来多大的损失？这是我们在管理网络时必须考虑的。

一方面是如何确保使用者信息可及的正当权利，另一方面如何防止不当可及（inappropriate access），这包括垃圾邮件、网络色情材料、网上兜售药品等十分严重的问题，引起各国政府的关注。例如在英国，根据信息专员（Information Commissioner）办公室的建议，制订了《隐私和电子通讯条例》，规定公司发送未经请求的电子营销材料的规则，例如要求公司给用户发送未经请求的营销材料必须事先获得同意（consent），或者在每次发送消息时让用户有机会表示反对。如果用户收到未经请求的电子营销材料，且在用户表示拒绝后还这样做，用户可以向信息专员投诉。同时电子邮件的使用者也应自己来采取实际步骤减少垃圾邮件。例如可考虑使用不同的个人或商业email地址；选择难以被人猜测到的email地址；不要公开你的email地址；仔细查验公司隐私政策以及发送营销材料可选择拒绝（opt-out）的措施；不要答复你不熟悉和不信任的发件人；不要点击垃圾邮件上的广告；使用垃圾邮件过滤软件；维护好你的系统等。不当可及中最为严重的是对青少年造成伤害的网上色情和暴力材料的传播。一些国家要求搜索引擎安装滤过软件，防止青少年接触到这些讨厌的材料。例如新加坡政府建立了媒体发展局（Media Development Authority），手中有一份被封锁的网站的黑名单，这些网站在新加坡国内是不可及的。禁止这些网站上的材料是“基于公共利益、公共道德、公共秩序、公共安全、国家和谐的理由或以其他理由为新加坡法律所禁止的”，其中包括禁止色情、鼓吹族群、种族或宗教仇恨、暴力等材料，但也包括禁止有争议的维护同性恋的材料；同时确保具有医学、科学、艺术或教育的材料在网上为使用者可及。

互联网内容的管制也引起一些困难问题：管制者应该是谁？应该使用何种标准来判断哪些材料合适，哪些不合适? 如何实现内容的管制？目前大多数机制业已存在，而且互联网目前仍然是一个基于文本的媒体，它会自动创造它自己的审计痕迹（audit trail）。（Gillies 2012）

安全/安保（Safety/Security）

互联网存在一种悖论：互联网的技术平台实际上是一个受高度管控的环境，然而通过在这个平台上建立的网页、email和社交网络地址表达的内容却往往被认为是完全不受管控的虚拟荒野，不必考虑规则。于是网络犯罪迭起，从制造播散病毒，黑客入侵，诈骗，造谣惑众，身份盗窃，网络贩卖假药、毒品、枪支、人口、器官，教唆杀人和自杀，传播色情材料，到恐怖主义利用网络危害国家利益。根据英国广播标准理事会1999年调查，3/4的人要求加强对互联网的管理。（Gillies 2012）

“安全”（safety）和“安保”（security）是两个概念，安全是防范因客观因素或无意地主观因素发生的伤害、事故，保护使用者和机构的利益；而安保是防范主观恶意引起的伤害、事故，涉及保障社会或国家的安全，防止反社会分子、敌对势力或恐怖主义集团和分子利用网络对影响国计民生或国防的设施进行预谋的、有其政治目的的攻击。某些行业的信息比如金融数据、医疗信息以及政府情报等都可能有保密措施不完善引起的安全和安保问题，大数据的分析和应用会催生出一些新的、需要考虑的安全和安保问题。例如商业上利用大数据追踪顾客，需要有规范，不能仅仅考虑利用大数据分析研发新产品、新服务方式的效益，也要考虑涉及利益攸关者的价值。例如我们前面引述的Target公司的例子，他们急于将新型的个体化服务提供给顾客，而没有考虑到这位少女顾客与她家庭的关系。2001年美国的《拦截和阻断恐怖主义法》（Intercept and Obstruct Terrorism Act）授予美国政府广泛而全面的权力来监控电话和email通讯，以及获取医疗、金融和其他记录。结果造成斯诺登揭发的政府执法部门滥用权力广泛侵犯国内外公民人权的引起全世界人民痛恨的景象。政府执法部门利用大数据监控恐怖主义分子或其他有组织犯罪分子，这是在伦理学上可以得到辩护的。但在什么条件下对一些人的实施监控可在伦理学上得到辩护呢？可设想如下条件：有充分证据证明拟监控对象有危及国家和社会安全的行为，或与恐怖主义或其他严重犯罪集团有不寻常的联系；监控确能达到维护国家和社会安全的效用；监控为维护国家和社会安全所必需（没有其他选择）；监控应具有相称性（即监控程度要适当）；监控要对所涉个人的自由和权利侵犯最小化；监控应合法（必要时专门立法）；监控应透明（让公众知道监控的必要和相关规定）；一旦发现监控出现错误（冤枉好人）应及时平反纠错，给与赔偿。

数字裂沟（Digital Divide）

1997年美国科幻电影Gattaca描述了兄弟二人的故事，其中一人经基因工程改良因而被分配做重要工作，而未经基因改良的则只能从事低等工作，两人似乎分属不同阶层，此后这种现象被成为“基因裂沟”（genetic divide）。所谓的“基因裂沟”实际上是一种“技术裂沟”（technological divide）即先进技术的成果不能为人公平分享，于是造成“富者越富，穷着越穷”的情况。这是一个公正问题。数字裂沟的概念涉及在信息技术及与其有关的服务、通讯和信息可及方面的失衡关系，在全球或各国贫富之间、男女之间、受教育与未受教育之间信息可及的不平等和不公平。与区别或差异的概念相反，裂沟是指某些群体在信息可及方面遭到不合伦理和得不到辩护的排除。除了例如衣食住行、医疗、教育、安全等基本品外，信息也是基本品，因此要求信息的公正分配，以及对信息技术及信息的普遍可及。（Hessen 2012）

信息通信技术是逐渐摆脱贫困的重要手段。例如穷人通过网络技术销售产品增加收入，获得更好的医疗保健，更好的教育和培训，获得工作发展机会，参与政府服务，与家人和朋友联系，获得发展企业的机会，提高农业生产率等等。然而，一方面网络使用在不断普及，但另一方面却加剧了贫富差距，在信息“富有者”和“贫困者”之间形成一道数字裂沟。互联网的普及率数据（1999年末）显示，加拿大达到每一千人中有428.2人的普及率，而全球平均水平仅为46.74人；印尼为0.18人，菲律宾为0.23人，泰国为0.49人。（Sembok 2003）数字裂沟是一个由在信息领域内和领域外的人之间新创造的缺口。信息领域不是一个地理、政治、社会、或语言的空间。它是精神生活的空间，从教育到科学，从文化表达到交流，从贸易到娱乐。在信息领域的边界跨越了南北东西，跨越了工业化国家和发展中国家，政治制度和宗教传统，年轻的和老一代人，甚至同一家庭的成员。与其说数字裂沟发生在国家之间或整个社会之间，不如说发生在个人之间更为准确，即在电脑精通者和电脑文盲之间，掌握大量信息的人和信息匮乏者之间。目前，只有少部分世界人口能够获得信息通讯技术。大部分人仍属于是“弱势群体”。他们生活在这种新的数字现实的阴影下，使得他们没有接触信息通讯技术的机会，但这对他们生活影响深远。数字裂沟造成了对弱势群体的歧视，形成了一种新的社会不公正。如何克服数字裂沟，这是信息社会的时代面临主要挑战之一。（Sembok 2003）我国网民近6亿人，那么其余7亿人呢？在我国是否也存在数字裂沟，如果存在，我们如何努力来缩小或填补这个裂沟，使得这奇妙的信息通讯技术和大数据技术能造福绝大多数人，在实现“小康”社会中发挥最大作用。

如何解决这些伦理问题呢？这些都是信息通讯技术和大数据技术创新提出的新的伦理问题或虽然以前已提出但至今未解决或很好解决的伦理问题，因此仍然是有待于解决的我们应该做什么和应该如何做的问题。在鉴定新技术提出的伦理问题后，我们一般不能依靠现有的规则或新制订的规则，用演绎方法，自上而下地加以解决；反之，需要自下而上地分析这些伦理问题，考虑其特点，对相关利益攸关者的价值给予权衡，以找到解决办法的选项，然后应用伦理学的理论和原则加以论证。因此，我们说伦理学的工作是“鉴定”、“权衡”和“论证”。与科学技术要解决的“能不能”问题不同，伦理学要解决的是“该不该”问题。要解决“该不该”问题时，我们就必须首先考虑我们要选择那些价值。

大数据技术的伦理治理

有关信息通讯和大数据技术的管理问题，我们推荐“伦理治理”这一概念。治理（governance）与管理不同，“管理”（management）是治理的一个方面，是指特定的行政机构内一些在组织、预算和行政方面的具体技巧，而治理的意义是决策和决策实施过程，并包括公司的、当地的、国家的以及国际的多个层次。对治理的分析集中于涉及决策和决策实施的种种行动者及其结构。在治理中政府是一个重要行动者，但还包括其他利益有关者，例如在信息通讯和大数据技术领域，包括科研人员、网络/平台的拥有者和提供者、使用者、政府执法部门、政府非执法部门，以及相关的学术、维权组织。因此治理意味着一项决定不单是依赖权力或市场，而是一个多方面协调的行动，必须体现开放性、参与性、问责性、有效性和连贯性等5项原则。同时由于新的科学技术创新越来越引起公众的伦理关注，伦理学与处于社会之中的科学技术紧密相连，解决这些问题单单靠决策者或科学家或伦理学家都有局限，需要多元部门、多元学科共同参与，共同研讨新的科学技术创新提出的伦理、法律和社会问题，并提出政策、法律法规和管理方面的建议，因此进一步提出“伦理治理”（ethical governance）这一概念。（Macedo 2008, Ozolina et al. 2009）

据此，我们认为对信息通讯和大数据技术的管理应该是多层次的，有科研和从业人员的自我管理，有商业机构或公共机构的管理，也有政府的管理。我们看到在美国一些研究人员和学者成立“大数据、伦理学与社会理事会”，从法律、伦理学和政治角度分析大数据技术，理事会将研讨例如安保、隐私、平等、可及等问题，以帮助避免重复已知的错误和不充分的准备。支持成立理事会的美国国家科学基金会的Fen Zhao女士提到了不要重韜美国Tuskegee梅毒研究的覆辙，说明了他们有较高的伦理意识。麻省的Big Data Initiative也将启动大数据隐私工作组（Big Data Privacy Working Group），邀请来自学术界、工业、政府和非营利组织的利益攸关者来考查大数据对隐私的含义。私营的数字广告联盟（Digital Advertising Alliance）准备制订自己的规则，采纳自己的隐私保护框架以确保顾客信息的安全和安保。(Riglian 2012) 有人所写的文章标题就是：“大数据需要什么：一部伦理实践的准则”，并提出了如下规则：做法要透明，当要收集数据时让使用者知道，而且要实时；设置要简易，给使用者机会来考虑他们需要什么样的隐私水平；设计要纳入隐私，机构要将隐私保护纳入他们要做的每一事情中；价值要交换，服务提供者对你知道得越多，你喜欢他们服务的机会就越大。（Rayport 2011）有人建议在相关的公司和机构设立这样的岗位，如首席隐私官、首席安全官或首席数据官等。一些国家的国会和政府也在考虑政策和立法建议，如美国和欧洲的立法者正在考虑“消费者隐私权利法案”，“不追踪在线法案”等；美国政府正在调查数起“数据掮客”案件。

我们认为，制订行为准则或管理办法需要在对上述伦理问题进行多学科研讨的基础上，这类研讨首先要在价值问题上取得共识，才有利于解决上述伦理问题，并在解决这些问题和制订准则或管理办法上取得共识。控制论创始人维纳（Wiener）基于他对人类生活的理解提出了它认为社会应建立于其上的“伟大公正原则”。他认为一个社会坚持这些原则就会是一个人的发展能力最大化。这些原则包括：自由原则、平等原则和有益于人的原则。（Bynum 2006）我们在2009年国际生物识别技术的伦理学和政策会议以及2013年欧洲安全技术与伦理学会议上的发言和已发表文章基础上提出如下的信息通讯和大数据技术的伦理原则建议。伦理原则是利益攸关者应尽的义务，也是我们应该信守的价值，这些伦理原则构成一个评价我们行动（包括决策、立法）的伦理框架：评价的结果将是，这个行动是应该做的或有义务做的；或者这个行动是不应该做的或应该禁止做的；或者这个行动是允许做的，也允许不做。正如我们在前面说过的那样，其中每一条原则都是一项“初始”（prima facie）义务，如条件不变我们必须履行；如果条件有了改变，初始义务之间发生冲突，有另一条初始义务比它更重要，那么该初始义务就不能成为实际义务，而那个另一条初始义务成为实际义务。

原则1：基本目的。大数据技术（包括更大范围的信息通讯技术）创新、研发和应用的目的是促进人的幸福和提高人生活质量，并仅用于合法、合乎伦理和非歧视性目的。大数据方面的任何行动应根据不伤害人和有益于人的伦理原则给予评价，以此作为努力权衡预期的受益与可能的风险的基础。同时也应合适地平衡个体与公共的利益。在为了公共利益而限制个人的权利和利益时，这种限制应该是必要的、相称的和最低限度的。

原则2：负责研究。大数据技术的研发及其应用应该保持高标准的负责研究，即坚持研究诚信，反对不端和有问题的行为，承诺维护和保护个人的权利和利益。为了在所有的分析和应用中防止身份被窃取，保护个人隐私和确保平等权利，必须承诺最高保准的诚信和数据库的安全。

原则 3：利益冲突。在大数据技术的研发及其应用中专业人员、公司和使用者之间的利益冲突应该作合适的处理。任何情况下人民（尤其是脆弱人群）的利益不能因追求专业人员或公司的利益而受到损害。

原则4：尊重。尊重原则要求尊重人的自主性和自我决定权，必须坚持知情同意或知情选择原则。收集个人信息、将个人信息再使用于另一目的时，必须获得同意。根据不同的情境，可以采用“广同意”（例如同意将个人信息用于一类，而不是某一情况下）的办法，同意也可采取opt-in（选择同意）或opt-out（选择拒绝）两种方式。

原则5：隐私。人的尊严要求我们保护隐私、为个人信息保密，要求我们不仅不要侵犯个人的隐私/保密权，而且要尽力防止不合适地和非法地泄露私人信息。

原则6：公正。公正原则要求有限资源的公平分配，防止因不适当地泄露个人信息而产生污名和歧视。要努力缩小和消除数字裂沟。

原则7：共济。共济原则要求我们维护每个人享有从大数据技术研发及其应用中受益的权利，特别关注社会中的脆弱人群。.

原则8：透明。透明原则要求我们使大数据技术的研发及其应用对公众（纳税人）成为透明的，帮助他们了解什么是大数据技术，能从其应用中得到什么受益和会有什么风险。

原则9：参与。参与原则要求我们采取措施促使公众对大数据技术的了解，并引导所有利益攸关者或其代表在上游就参与大数据技术的研发及其应用的决策过程。（Zhai & Qiu 2010）

参考文献

BCG (The Boston Consult Group) 2012 The Value of our Digital Identity. Published by Liberty Global.

Bynum, Terrell 2008 Computer and Information Ethics, in Edward N. Zalta (ed.). Stanford Encyclopedia of Philosophy. http://plato.stanford.edu/archives/spr2011/entries/ethics-computer .

Buytendijk, Frank and Heiser, Jay 2013 Confronting the privacy and ethical risks of Big Data,

http://www.ft.com/cms/s/0/105e30a4-2549-11e3-b349-00144feab7de.html#axzz2rHWYouN8

Center for International Development, Harvard University 2007 Science, Technology and Innovation: Genetic Divide Project http://www.cid.harvard.edu/archive/biotech/genetic_divide.html

Davis, Kord 2012 Ethics of Big Data - Balancing Risk and Innovation, O'Reilly Media.

Gillies, A 2012 Internet, Regulation and Censorship, in Ruth Chadwick (Editor in Chief) Encyclopedia of Applied Ethics, the 2^nd edition, 752-759.

Heesen. J 2012 Computer and Communication Ethics, in Ruth Chadwick (Editor in Chief) Encyclopedia of Applied Ethics, the 2^nd edition, 538-545.

Industry Canada's Electronic Commerce (ICECOM) Branch, Government of Canada 2011 Protecting and Managing Digital Identity Online. https://www.ic.gc.ca/eic/site/ecic-ceac.nsf/eng/gv00585.html

Kinderlerer, Julian et al 2012. Ethics of Information and Communication Technologies, Opinion of the European Group on Ethics in Science and New Technologies to the European Commission.

Macedo, Stephen 2008 Global Standards of Good Governance, 中国社会科学院哲学研究所：北京国际善治学术研讨会会议资料，第97页。

Mahfood, Sebastian et al. 2005 Cyberethics, Communication Research Trends, (24) 4.

Novet, Jordan 2013 The ethics of big data: A council forms to help researchers avoid pratfalls. http://venturebeat.com/2013/11/18/the-ethics-of-big-data-a-council-forms-to-help-researchers-avoid-pratfalls/

Ozolina Z et al. 2009 Global Governance of Science: Report of the Expert Group on Global Governance of Science to the Science, Economy and Society Directorate, Directorate-General for Research, European Commission. Brussels: European Commission.

Rayport Jeffrey 2011 What big data needs: A code of ethical practices, MIT Technology Review, http://www.technologyreview.com/news/424104/what-big-data-needs-a-code-of-ethical-practices/

Riglian, Adam 2012 Big data collection efforts spark an information debate. http://searchcloudapplications.techtarget.com/feature/Big-data-collection-efforts-spark-an-information-ethics-debate

Sembok, Tengku Mohd 2003 Ethics of Information Communication Technology, Paper prepared for the Regional Meeting on Ethics of Science and Technology, 5-7 November 2003, Bangkok UNESCO, Regional Unit for Social & Human Sciences in Asia and the Pacific.

Steiner, Peter 1993 On the Internet, nobody knows you are a dog. The New Yorker July 5. http://en.wikipedia.org/wiki/On_the_Internet,_nobody_knows_you%27re_a_dog

涂子沛2012 《大数据》，广西师范大学出版社。

Wolken, Matt 2013 The ethics of Big Data and privacy.

http://en.community.dell.com/dell-blogs/direct2dell/b/direct2dell/archive/2013/11/12/the-ethics-of-big-data-and-privacy.aspx

Zhai Xiaomei and Qiu Renzong 2010 The status quo and ethical governance in biometric in mainland China, in Kumar, A and Zhang, D (ed.) Ethics and Policy of Biometrics, Berli/Heiderbergn: Spring-Verlag 127-139.

中国互联网信息中心 2013 中国互联网络发展状况统计报告

http://www.cnnic.net.cn/gywm/xwzx/rdxw/rdxx/201307/t20130717_40663.htm.2013-7-17.

（作者惠寄。《科学与社会》2014年第4卷第1期发表本文的精简版。此是完整版。）

【邱仁宗 黄雯 翟晓梅】大数据技术的伦理问题