作者:曹建峰 腾讯研究院高级研究员
(本文来源于《中国信息安全》2022 年第 11 期,原标题为《发挥合力作用培育健康可持续的数据要素市场》)
随着数字经济的深入发展,数据已被世界各国视为新的战略性资源,与数据相关的战略、规划、立法等不断被推出。2020年4月,我国出台的《关于构建更加完善的要素市场化配置体制机制的意见》明确了数据这一新型生产要素的重要地位。
数据要素市场的培育,需要建立健全基础性的数据法律制度。在这方面,《个人信息保护法》《数据安全法》《数据出境安全评估办法》等法律法规陆续出台,为数据要素开发利用中的个人信息保护、数据安全防护、数据跨境流动等建立了明确的法律规则,更好平衡数据要素开发利用中的发展与安全这一紧张关系。
2022年6月22日,中央全面深化改革委员会审议通过《关于构建数据基础制度更好发挥数据要素作用的意见》,强调要维护国家数据安全,加快构建数据基础制度体系。《意见》提出的数据要素基础制度是从数据产权、流通交易、收益分配、安全治理等方面对数据要素开发利用做出规范,确保数据要素按照一定原则和规则在合理范围健康可持续发展。
在数据要素的产权保护、公平竞争、流通交易、伦理治理等方面,未来需要更好发挥法律、伦理与技术的合力作用,更好激发数据要素对技术等其他要素效率的倍增、乘数作用日益凸显,保障我国数字经济发展行稳致远。
目前,我国在数据保护与安全治理方面建立了较为完善的制度规则,但是,从支持、促进数据要素市场和数字经济健康发展与持续创新的角度出发,
需要明确数据要素的产权保护与公平竞争规则
数据要素的市场化开发利用离不开明晰的数据产权制度。
《民法典》第127条原则上将数据纳入民事权利客体,规定“法律对数据、网络虚拟财产的保护有规定的,依照其规定”。《关于构建数据基础制度更好发挥数据要素作用的意见》提出,“推进公共数据、企业数据、个人数据分类分级确权授权使用,建立数据资源持有权、数据加工使用权、数据产品经营权等分置的产权运行机制”。
这意味着,数据产权制度不仅需要考虑数据的不同类型,而且其中的持有权、使用权等可以由不同的主体分别享有。
强调数据的持有权、使用权而非所有权,意味着从所有权转向个人利益、行业和企业利益、公共利益的平衡,以及福利、风险、权利的平衡,强调对数据的访问、控制和权益平衡。此种路径能够较好兼顾各方利益,盘活数据资源,同时兼容数据的知识产权(例如版权、商业秘密、数据库权)、合同、反不正当竞争等形式的保护,更容易在各方之间形成共识。
从规范数据要素市场健康有序发展的角度看,数据产权制度的核心是企业的数据产权保护,而个人数据则侧重隐私保护,政府公共数据侧重开放共享。
在这方面,2021年7月公布的《深圳数据条例》(以下简称《条例》)在国内率先对企业的数据产权保护做出了规定。《条例》第4条规定,市场主体对其合法处理数据形成的数据产品和服务享有财产权益(即数据财产权益);第58条进一步明确,这一数据财产权益包括使用、收益、处分。可见,数据财产权益的取得以企业的劳动等投入为必要前提,其客体是“数据产品和服务”(即数据集合),而非“单个数据”。从国际对比看,《条例》规定的数据财产权益制度类似于欧盟的“数据库权”制度,“数据库权”旨在保护企业在制作数据库上的时间、金钱、劳动等投入,数据库权人有权阻止他人擅自抓取、利用其数据库中的内容。
此外,《条例》规定的数据财产权益并不天然排斥个人数据,当具有财产权益的数据产品和服务中包含个人数据时,权利人在行使其数据产权时,需要协调好个人数据保护要求。这意味着,当涉及个人数据时,市场主体对其数据产品和服务的财产权益,与个人对其个人数据的人格权益可以共存,并由不同主体享有,就像商业秘密中包含个人隐私或自然人客户信息并不妨碍企业享有商业秘密权一样。这样的制度安排能够较好平衡各方利益与投入,为个人数据的市场化开发利用奠定了法律基础。
数据财产权益制度并不是《条例》凭空创造出来的,而是基于国内司法实践基础。已有多个司法裁判指出,企业对其投入劳动,收集、加工、整理、生成的数据和数据产品享有财产性权益。
例如,在“酷米客”诉“车来了”案中,法院认为存储于App后台的公交实时信息系人工收集、分析、整合并配合GPS精准定位所得,而酷米客App凭借信息的准确度和精确性获得同类软件的竞争优势,因此,该信息具备无形财产属性。
在“淘宝”诉“美景”案中,法院认为“生意参谋”数据产品系淘宝公司耗费人力、物力、财力,经过长期经营积累形成,数据收集、整理、使用具有合法性,经过深度开发与系统整合,信息可供消费者参考、使用,淘宝公司对“生意参谋”大数据产品应享有独立的财产性权益。最高法院则将数据界定为新型权益(产权)。《关于为新时代加快完善社会主义市场经济体制提供司法服务和保障的意见》指出,“加强对数字货币、网络虚拟财产、数据等新型权益的保护,充分发挥司法裁判对产权保护的价值引领作用”。
对于给数据要素市场健康发展造成极大困扰的数据爬虫、数据窃取、数据黑产等恶意行为,《条例》第68条明确禁止两类数据不正当竞争行为,从消极的角度明确了公平竞争规则。被禁止的行为包括:使用非法手段获取他人数据;利用非法收集的他人数据提供替代性产品或服务。这个规定将司法实践在相关数据不正当竞争案例中确立的裁判规则上升为法律规则,有利于规范数据开发利用秩序。总之,积极的产权保护规则和消极的公平竞争规则一道有力地保障数据要素市场的健康有序发展。
建立数据伦理框架,保障负责任的数据活动
当前,数据的开发利用活动也引发了大数据歧视(例如大数据杀熟)、数据与算法滥用等社会伦理问题,各界对数据向善的期待越来越强烈。
国外开始重视数据伦理的理念原则与落地实施。《欧盟数据战略》(A European Strategy for Data)提出,在促进数据的广泛流通与利用的同时,也需要维护较高的隐私、安全与伦理标准。《英国国家数据战略》(UK National Data Strategy)提出了“负责任数据”(Responsible Data)的理念,认为在支持研究与创新的同时,也需要以合法、安全、公平、符合伦理、可持续、可问责的方式开发利用数据,促进数据活动的公平性、透明度与信任。政府、企业及个人都需要在其中发挥好各自的作用。
为此,英国将继续推进数据伦理框架在公共部门的落实,支持产业界打造数据伦理能力,并通过数据伦理社群传播相关知识、资源和案例。美国《联邦数据战略框架》(Federal Data Strategy Framework)提出了涵盖伦理治理、有意识设计、学习文化三个方面的10项原则,其中涉及伦理治理的三项原则分别是:坚持伦理,确保数据向善;落实责任,确保数据利用活动合法合规;促进透明度,确保公众对政府数据活动的信任。
在数据伦理的落地实施方面,欧美开始为政府的数据活动制定伦理框架。
2021年9月,英国政府发布了更新后的《数据伦理框架》(Data Ethics Framework),为政府以适当的、负责任的方式使用数据提供指南。新版框架包含透明、责任、公平三大原则,这些原则适用于数据活动的整个生命周期。新版框架还包含五项具体行动,分别是清晰界定、理解数据项目的目的及其可能带来的社会福祉;卷入多元背景的专家和外部利益相关方;遵守相关的数据保护法律;审查所使用的数据的质量和局限性;持续评估项目以确保其能够实现既定的社会福祉。这些行动需要植入政府数据项目的全流程。
在美国,为了落实美国联邦数据战略中的“伦理治理”原则,2021年9月,为推进落实联邦数据战略,美国联邦政府发布了《数据伦理框架》(Data Ethics Framework),针对政府的数据活动提出了7项伦理要求,包括遵守法律法规、职业准则和伦理标准;恪守诚实信用;实行问责制;保持透明度;紧跟数据科学领域的发展动态;尊重隐私和机密性;尊重公众、个人和社区。这些要求适用于数据的获取(生产或收集)、处理、传播、使用、存储和处置等整个生命周期。在美国政府看来,数据伦理要求政府在收集、管理、使用数据时做出合适的判断并承担责任,以便实现保护民事自由、最小化对个人和社会的风险、最大化社会福祉等目标。
我国《数据安全法》第28条提出数据活动须符合“社会公德和伦理”,第一次在立法层面明确了数据活动的伦理原则要求,但是,当前仍缺乏具体的、可执行的数据伦理框架或指南。借鉴国外的经验,政府部门、企业的数据与算法活动需要加强数据伦理治理,考虑制定更具适应性的数据伦理治理框架指导数据相关项目;建立伦理审查机制,对具有较高风险或影响的数据相关产品、人工智能模型进行伦理评估,及时防范、消除相关伦理风险;培养负责任地利用数据的内部文化,以及数据分析人员的数据伦理意识;践行“伦理嵌入设计”(Ethics by Design,简称EbD)的理念,将伦理价值和要求嵌入数据与人工智能相关产品。此外,数字政府建设和政府公共数据的开放共享等政府数据开发利用活动,也需要遵循一定的“数据伦理框架”,确保数据向善,防范数据滥用。
以技术创新手段促进数据要素合规流通使用
数据要素只有流通起来才能发挥出最大化的价值。
除了数据分享、数据共享、数据服务、数据交易等形式的数据流通方式,在《个人信息保护法》《数据安全法》等法律法规日益强调数据保护与数据安全的背景下,借助技术方式实现数据流通使用将变得越来越重要。
在这方面,业界普遍认同隐私计算是关键技术。
隐私计算是一种由两个或多个参与方联合计算的技术和系统,参与方在不共享、传输各自数据的前提下通过协作对他们的数据进行联合机器学习和联合分析。常见的实现隐私计算的技术路径包括联邦学习、安全多方计算、可信计算等。就目前而言,受到人工智能和大数据应用发展的驱动,联邦学习作为隐私计算领域主要推广和应用的方法,是目前相对最为成熟的技术路径。具体而言,联邦学习在数据不出本地、各参与方无需共享数据的情况下,即可实现联合训练人工智能模型的效果,可被广泛应用于金融、政务、医疗、广告、教育等众多数据应用领域。
联邦学习等隐私计算技术对于数据要素市场和数字经济发展意义重大。
第一,解决企业内部或者机构之间的数据无法互通、数据割裂、数据孤岛等问题,实现数据价值的最大化。第二,更好地支持人工智能模型训练开发,提升人工智能技术的应用效率。第三,保障用户的隐私和数据安全。第四,为政府公共数据的最大化开放共享提供技术解决方案。随着数据安全与治理体系的不断完善,隐私计算将有望成为数据流通、共享必需的基础设施,为多方数据协同应用提供一种合规的解决方案。可以预见,隐私计算作为激发数据要素市场发展活力的关键技术,其应用前景将十分广阔。
为了更好支持、促进、规范隐私计算的发展应用,可以从以下三个方面着手。
第一,进一步推动政府公共数据开放共享,在关键领域建立数据专区,为隐私计算技术发展应用提供所必需的数据源。参考欧盟的经验,欧盟提出在工业(制造)、环保、交通、医疗、金融、能源、农业、政务、教育/就业等九大战略性领域建立泛欧共同数据空间,这些数据空间作为欧盟数据基础设施将能支撑可信执行环境、机密计算(Confidential Computing)等隐私计算技术的发展应用。
第二,通过制定行业标准推动和规范隐私计算技术发展与规模化商用。当前,国内众多隐私计算企业都相继推出自己的隐私计算平台型产品,却没有形成统一的技术标准和规范。因此,有必要通过制定统一的标准来规范、促进隐私计算技术的发展应用。
第三,从法律层面制定隐私计算技术实施指南。到目前为止,并没有法律法规和政策文件对在数据业务中使用隐私计算技术做出明确规定,包括其法律地位、合规性问题、涉及的个人信息保护问题等。为了更好支持隐私计算技术在数字经济相关业务中的落地应用,有必要从法律层面制定隐私计算技术实施指南。
发展合成数据产业,壮大数据要素市场增量
目前的数据要素市场面临数据采集、标注成本高昂、数据质量参差不齐、数据多样性不足、数据隐私保护等多重挑战,无法有效支撑人工智能应用的扩展。随着生成对抗网络(Generative Adversarial Networks)、大模型等人工智能技术的发展,人工智能带来的合成数据有望解决这些问题。
2022年2月,《MIT科技评论》(MIT Technology Review)将人工智能合成数据评选为2022年十大突破性技术之一。实际上,人们不仅可以利用合成数据更加高效、廉价地训练人工智能模型;而且可以先在合成数据构建的虚拟世界训练人工智能算法,然后将其部署到现实世界。
合成数据对人工智能模型开发应用价值巨大。
第一,解决数据敏感、数据匮乏、数据质量等问题,合成数据在医疗、金融、保险等领域具有很大应用价值,例如医疗记录、个人金融记录、人脸等数据都较为敏感,合成数据可以避免用户隐私保护问题。第二,消除算法歧视,因为合成数据可以提升训练数据的多样性,进而打造更公平的人工智能模型。第三,应对模型训练中的边缘案例,提升人工智能模型的准确性、可靠性和安全性。
正因如此,主流科技公司和创业公司都在加速布局合成数据领域,英伟达、亚马逊、微软等科技巨头都开始提供合成数据服务或应用;全球已经涌现了上百家聚焦图像、金融、零售、医疗等不同细分领域的合成数据服务商,提供合成数据服务(Synthetic Data as a Service),推动合成数据市场持续创新。
未来,合成数据在诸多领域都具有巨大的应用价值。2021年6月,Gartner在《忘掉真实数据——合成数据是人工智能的未来》(Forget About Your Real Data — Synthetic Data Is the Future of AI)中预测,到2030年,人工智能模型训练使用的大部分数据将是合成数据。可以说,合成数据作为数据要素市场的新增量,有望成为数据要素市场的重要组成部分。数据要素市场的未来发展将有望在很大程度上依赖于合成数据这一新增量,为此,需要加大投入于合成数据产业,出台相关的扶持与支持政策,抢抓未来发展机遇。
《数字法治》专题由华东政法大学数字法治研究院供稿。专题统筹:秦前松
责任编辑:秦正