数字法治|曹建峰：迈向可信AI，ChatGPT类生成式人工智能的治理挑战及应对 -中国实践- 中国报道网-中国外文局亚太传播中心官方平台

数字法治|曹建峰：迈向可信AI，ChatGPT类生成式人工智能的治理挑战及应对

发布时间：2023-07-19 11:52:05 推广来源：中国报道

作者：曹建峰，对外经济贸易大学数字经济与法律创新研究中心研究员。本文来源于《上海政法学院学报》(法治论丛)2023年第4期。

2022年被认为是生成式人工智能(Generative AI)的拐点，人工智能不仅仅像以前那样做分类或预测，而且开始独立自主地创造连贯性内容，诸如文本、图像、视频、代码等。尽管任何算法都可以产出特定的输出，但生成式AI模型却可以基于其训练数据，对用户的输入(称为“提示词”，英文为Prompts)作出回应，产出图片、文本、音频、视频等连贯的、具有意义的、令人信服的内容。

生成式AI模型，包括ChatGPT、GPT-4等大语言模型(Large Language Models，LLM)和Midjourney、Stable Diffusion等图像生成模型，又被称为基础模型(Foundation Models)，其作为基于种类丰富的海量数据预训练的深度学习算法，展现出强大的、更加泛化的语言理解和内容生成能力，一下子将科幻拉入现实，因此获得了广泛的关注。生成式AI因此被认为是人工智能领域的一次跃迁(从感知、理解世界到生成、创造世界的跃迁)，将成为新的生产力工具和创造力引擎，深刻影响经济和社会。

尤其是生成式AI在文本生成和图像生成上的巨大成功，不仅激起了新的AI发展浪潮，而且重燃了人们对可能实现比肩人类智能水平的通用人工智能(Artificial General Intelligence，AGI)的憧憬。在文本生成方面，美国AI研究机构OpenAI于2022年11月30日推出的对话机器人应用ChatGPT可谓是最典型的代表。ChatGPT是基于大语言模型GPT-3.5和GPT-4，经过微调(Fine Tuning)开发的对话机器人应用。ChatGPT让人惊艳的地方在于它的通用性和多才多艺;ChatGPT所捕获的知识远超任何个人所知道的知识，这使得其可以胜任各种形式的文字任务，诸如写文章、创作诗歌、写代码、做翻译，等等。ChatGPT发布后两个多月时间就获得了1亿用户，是有史以来用户增长最快的消费者应用程序。驱动ChatGPT的大模型GPT-4则在美国通过了法律、医学等领域的职业资格考试且名列前茅。微软公司的研究团队甚至得出结论称GPT-4正在接近人类水平的智能(AGI)，认为GPT-4闪现出了通用人工智能的火花，可以被看作是通用人工智能系统的一个早期版本。深度学习之父Geoffrey Hinton 在接受采访时表示，在GPT-4出现之前，他认为实现AGI可能需要20—50年，但现在可能在20年内就能实现。在图像生成方面，人们惊艳于Midjourney、Dalle-2、Stable Diffusion等生成模型的强大理解和创造能力，可以把用户输入的任何文字描述转化为惟妙惟肖的图像。可以说，在文字、代码、图像等多种内容的生成方面，生成式AI已经足以比肩人类。

ChatGPT的成功，在科技行业引发了新一轮AI发展竞赛，国内外的主流科技公司纷纷加入生成式AI大模型的竞赛中来，竞相训练各自的大型语言模型。在此背景下，生成式AI的应用此起彼伏，其发展变化如此之快，以至于似乎给人们的适应能力提出了真正的挑战。一场真正的AI革命似乎正在加速到来。比尔·盖茨坦言，在他的一生中，见过两个可谓革命性的技术展示，一次是1980年见到的用户图形界面(现代操作系统的先导)，另一次就是2022年看到的OpenAI公司开发的GPT模型。但与此同时，全球各界对生成式AI的近忧远虑日益增多，甚至认为人工智能可能给人类和人类社会带来巨大风险。例如，意大利的数据保护机构出于隐私和个人信息安全担忧而暂时封禁了ChatGPT，并在OpenAI公司采取了回应措施之后才予以解禁。在美国，非营利性研究机构人工智能与数字政策中心(Center for AI and Digital Policy)向美国联邦贸易委员会(FTC)作出投诉，要求对OpenAI公司进行调查，并在必要的防护措施建立之前防止发布新的AI模型。面对生成式AI的风险和挑战，中国、美国、欧盟等已启动制定新的监管规则。

此外，大模型在隐隐透露出通用人工智能(亦称“强人工智能”)的曙光的同时，也引发了人们对AGI安全和控制问题的担忧。例如，2023年3月22日美国非营利性研究机构未来生命研究所(Future of Life Institute)发布公开信，呼吁全世界所有的AI研究机构暂停训练比GPT-4更加强大的AI系统，为期6个月。公开信认为，GPT-4等现代AI系统开始在一般性任务上有能力与人类同台竞争。如果任由AI系统不加约束地发展，就有可能给信息信任(虚假信息充斥信息渠道)、人类工作(机器取代人类工作)、人类主体性(机器在智力和数量上超过人类)甚至人类文明(人类失去对文明的控制)带来灾难性风险。因此，只有当人们自信AI系统的影响是积极的，其风险是可控的时候，才可以开发更加强大的AI系统。总之，面对生成式人工智能的迅猛发展，人们需要加强人工智能治理，积极应对生成式人工智能的短期和中长期挑战以及未来人工智能的潜在安全和社会伦理影响，以更加负责任的方式发展可信的、以人为本的人工智能。

一、生成式人工智能发展现状和趋势

现代人工智能的能力大爆发肇始于2010年前后，海量数据和强大算力的结合，让“深度学习”(Deep Learning)技术如虎添翼，显著地提升了计算机在识别图像、处理音频、玩游戏等方面的能力，但这高度依赖于仔细标注的训练数据。如今，计算机在很多任务上可以完胜人类。但语言一直被认为是人类智能的专属领域，人工智能在这方面的进展始终十分有限。然而，2022年以来，以ChatGPT、GPT-4等为代表的LLM的突破性发展，第一次向人们展示了AI生成内容(AI-Generated Contents, AIGC)可以比肩人类水平。以色列历史学家尤瓦尔·赫拉利甚至认为，通过操纵和生成语言，生成式AI已经侵入了人类文明的操作系统。

大语言模型作为生成式AI的最典型代表，其最近取得的巨大成功(包括生产令人信服的文本内容，以及具有令人吃惊的“涌现能力”)，主要得益于三个要素的组合：巨量数据，可以从数据中学习的算法(现在的大语言模型主要依靠Transformer算法)，以及支持学习算法的强大算力。以ChatGPT为例，其技术原理主要分为两个阶段：首先是底层的大语言模型(如GPT-3和GPT-4)的预训练阶段，即拿巨量的数据来训练模型，让模型进行“自监督”学习，不断优化模型参数(目前大语言模型的参数规模已经达到了千亿、万亿级别)。不同于之前的AI模型，大语言模型不要求事先对数据进行标注，因此可以在更大规模的数据集上进行训练;实际上，大语言模型可以基于整个互联网的文本数据进行训练。GPT-3的训练数据是文本，主要来自互联网上的公开信息，但也包括其他来源的数据。GPT-4则在文本数据之外，加入了大量的图像数据进行训练，因此可以同时处理文本和图像的输入，朝着多模态AI迈进了一大步。大语言模型的核心能力来源于预训练阶段。而且不同于传统的自然语言处理技术(NLP)，借助transformer算法及其“注意力网络”(Attention Network)，现在的大语言模型把各类语言任务和推理任务统一为“生成式”任务，显著提升了AI模型的通用性和泛化能力。

其次是利用额外的标注数据对模型进行微调，这一过程使用的核心算法称为人类反馈的强化学习(Reinforcement Learning from Human Feedback，RLHF)，简单来说就是通过人类专家提供的样例和反馈，来引导模型输出更加符合人的需求和价值的内容。对于ChatGPT的巨大成功来说，RLHF算法绝对功不可没。RLHF算法让模型更加符合人类的价值观和目的意图，从而能够输出有用的、可信的、无害的内容。

就其运行而言，大语言模型实际上做的是“预测下一个字”(Predict the Next word)的任务(被戏称为“文字接龙”游戏)：模型先基于“提示词”产生第一个字，然后把第一个字带入模型产生第二个字，然后把前两个字带入模型产生第三个字，以此方式持续运算直至产生所有的输出。这一过程被称为“自回归”(Autoregression)。因此，大语言模型实际上是以统计的方式而非语法的方式理解语言，在这个意义上，它更像是一个巨大的“文字算盘”，而非像“人类的心灵”。所以现在的大语言模型被认为是大型的统计预测机器。在技术原理上，大语言模型的能力和行为来源于模型的“预训练”和“微调”这两个阶段，其在回答用户的提问时，并不是从一个数据库中或网络上检索、访问既有数据，而是在很大程度上基于语言文字之间相互联系的概率预测出回答。

大语言模型的最重要特征是它的涌现能力(Emergent Abilities)，即当模型规模(就模型参数、权重而言)大到一定程度后出现了超出训练目的(即预测下一个字)的能力或者小模型不具有的能力，诸如翻译、常识推理、算术、编写计算机程序、解决逻辑问题等。按照这一逻辑，只要人们把模型变得更大，模型就能够做各种各样的事情，成为更加实用、更加灵活、更加通用的工具。总之，涌现能力是这些极其巨大的“文字算盘”和其他更小的模型的一个关键区别，就是说大语言模型可以做小模型做不了的事情。OpenAI公司的研究人员统计出了不同大语言模型的137项“涌现”能力。涌现能力意味着大语言模型具有源源不断的、未被开发的潜力。虽然如此，大模型的路径依然存在一些局限性，例如训练成本高昂(GPT-4的训练成本估计超过1亿美元)，训练成本的增长快于模型性能的提升，最终可能让模型训练的成本和效益严重倒挂;此外，可用的训练数据面临制约，GPT-3和GPT-4可能已经把互联网公开信息中几乎所有的高质量文本都拿去训练了，2022年10月发布的一篇研究文章称，很有可能到2026年前，高质量的语言数据就会被用尽。OpenAI公司首席执行官Sam Altman在一个场合甚至称，AI大模型的时代已经结束了，未来人们需要以其他方式让大语言模型变得更好、更实用。

大语言模型等生成式AI技术带来了新的AI发展范式，其应用前景十分广阔。对于大众而言，生成式AI意味着新的创造力工具，将在更大程度上解放个体的创造力和创意生产。生成式AI介入创意工作和消费性内容的生产可能带来三种可能性：AI辅助创意的大爆发;AI垄断创意;人类创造更加优质且高价格的内容。如果未来生成式AI真的垄断了创意工作，AI生成内容取代了人类创造的内容，那么以人类和人类的创造为中心的版权制度将面临灭顶之灾，断言“版权法已死或者将死”也许并非妄言。对于经济社会发展而言，生成式AI意味着新的生产力工具，将带来生产效率的极大提升。比尔·盖茨将人工智能的发展和微处理器、个人电脑、互联网以及智能手机相提并论，认为其将重塑所有的行业。微软公司首席执行官Satya Nadella认为，ChatGPT是知识工作者的“工业革命”，断言人工智能将彻底改变所有类型的软件服务。目前，搜索、办公、在线会议等诸多软件服务都已融入了生成式AI的能力。AI大模型的更大的经济影响在于，其有望像智能手机的操作系统那样，形成一个产业生态。OpenAI公司首席执行官Sam Altman称，多模态的AI大模型有望成为继移动互联网之后的新的技术平台。这意味着，开发人员基于预训练的AI大模型，可以通过模型微调快速开发出垂直领域的模型应用并予以部署使用，人工智能的革命性正在于此。此外，生成式AI的典型代表ChatGPT通过人类语言与用户交互，带来了更简单、更自然的用户交互界面(User Interface)，正在改变人机交互的方式。在这个意义上，ChatGPT类生成式AI应用有望成为比尔·盖茨口中所谓的每个人的“数字化个人助手”。

总结而言，以ChatGPT为代表的生成式AI技术作为近十年来AI领域最具变革性的技术方向，将给经济社会发展带来巨大影响。如果说互联网是信息(知识)传播的成本和效率革命(带来了信息的零成本复制传播)，那么生成式AI则是信息(知识)生产的成本和效率革命(有望带来信息和知识的零成本生产创造)。现代经济本质上是知识和信息经济，因此，长期来看生成式AI的技术海啸将在各行各业引发巨震。正如之前的“互联网+”一样，“AI+”将来有望和各行各业深度结合，在教育、医疗、金融、政务、制造、机器人、元宇宙、广告营销、电子商务、市场和战略咨询等众多领域带来新的应用形式。

二、生成式人工智能的主要安全和伦理挑战

对于生成式AI的影响，乐观者认为，其将给经济社会发展带来新的巨大机遇;悲观者认为，人工智能可能在智慧上超过它的设计者，带来灾难性后果。就目前而言，生成式AI的发展应用正在带来多方面的风险和挑战。一方面是生成式AI的正常开发和商业应用中的风险，包括知识产权(例如，将受版权保护的内容作为训练数据的合法地位问题、模型输出的知识产权保护与侵权问题)、数据隐私(例如，训练数据和模型的输入、输出可能包含个人信息)、责任承担(例如，当模型输出知识产权侵权性的、诽谤性的或者危险性的信息时哪个主体应当承担法律责任)、网络安全等方面的风险。目前，生成式AI已在知识产权侵权和人格侵权方面引发了一些诉讼。另一方面是生成式AI的恶用和滥用风险，借助生成式AI工具，恶意分子可以更容易、更大规模地进行诈骗、色情、身份假冒、骚扰、仇恨言论、虚假信息(如深度伪造)、网络攻击等违法犯罪活动。本文主要探讨生成式AI的安全风险和治理挑战，不触及知识产权、数据隐私、侵权责任等部门法问题。

第一，大语言模型等生成式AI的可靠性、准确性问题，就是说这类模型可能输出错误的、不准确的、不真实的事实。这一问题被业界称为人工智能的“幻觉”(Hallucination)或“事实编造”(Confabulation)问题。通俗来讲就是，ChatGPT类生成式AI模型会一本正经、非常自信地胡说八道，编造错误的、不准确的事实。例如，如果一个生成式AI模型的训练数据并不包含特斯拉的营收数据，当被问到特斯拉的营收是多少时，它可能基于概率产生一个随机的数字(例如136亿美元)。OpenAI公司首席技术官Mira Murati认为，ChatGPT和底层的大型语言模型的最大挑战是它们会编造错误的或者不存在的事实。有研究表明，大部分语言模型只有在25%的时间是真实可信的。

大语言模型之所以会出现“幻觉”问题，一方面是因为它的“文字接龙”游戏旨在输出连贯的而非真实的内容，对于语言表达，它做的是基于训练数据的模仿而非理解。另一方面是因为训练数据的问题，包括训练数据中的自相矛盾等。大语言模型基于整个互联网的公开信息进行训练，这既决定了它的能力，也决定了其局限性，互联网内容存在的问题都可能映射在模型中。“幻觉”问题的存在警示人们要避免轻信生成式AI的输出内容，正如OpenAI公司首席执行官Sam Altman所建议的那样，在所有重要的事情上现在还不能依赖ChatGPT。生成式AI的“幻觉”问题可能给个人和社会带来负面影响，在个人层面，目前已经发生了多起大语言模型输出错误的、虚构的事实对个人进行污蔑、诽谤的案例;在社会层面，在“幻觉”问题被基本解决之前，如果人们过度依赖大语言模型来获取信息和知识，长此以往可能污染人类社会的知识环境，导致错误的信息和知识充斥数字信息生态。

第二，AI大模型的价值对齐问题(Value Alignment Problem)。所谓人工智能的价值对齐(AI Alignment)，就是让人工智能系统的行为符合人类的目标、偏好或伦理原则。价值对齐是AI安全研究的一个核心议题。在理论上，如果一个强大的AI系统所追求的目标和人类的真实目的意图和价值不一致，就有可能给人类带来灾难性后果。英国哲学家Nick Bostrom提出了一个思想实验，设想有一个AI系统被授意制造尽可能多的回形针，作为一个愚忠的“智者”，这个AI系统为了完成这一开放式的目标，可能采取一切必要的措施把地球变成一座巨大的回形针工场，并导致人类的灭亡。就目前而言，大语言模型的价值对齐问题主要表现为，如何在模型层面让人工智能理解人类的价值和伦理原则，尽可能地防止模型的有害输出，从而打造出更加有用同时更加符合人类价值观的AI模型。在这方面，RLHF是一个有效的方法，通过小量的数据就可能实现比较好的效果。简言之，RLHF要求人类专家对模型输出内容的适当性进行评估，并基于人类提供的反馈对模型进行优化。其目标是减少模型在未来生产有害内容的可能性。实际上，RLHF算法不仅是确保AI模型具有正确价值观的关键所在，而且对于生成式AI领域的长期健康可持续发展也十分重要。

另一个思路是利用人工智能监督人工智能，研究人员提出了“宪法性AI”(Constitutional AI)的方法，具体而言就是，一个从属的AI模型评估主模型的输出是否遵循了特定的“宪法性”原则(即原则或规则清单)，评估结果被用于优化主模型。该方法的优势在于不需要人类标注员，但谁来确定所谓的“宪法”却是一个悬而未决的问题。在实践中，AI大模型公司Anthropic已经将“宪法性AI”的方法用在了其大语言模型Claude上，并取得了一定的效果，在无需人类监督的情况下帮助Claude变得更加安全、实用。总之，人工智能的价值对齐问题之所以重要，是因为它关乎人类未来能否实现对超级强大的智能(如AGI)的安全控制。当然，人们是否有办法对超级强大的智能进行价值对齐，是一个被激烈争辩的问题，目前的价值对齐方法可能是无效的。

第三，大语言模型等生成式AI的算法歧视问题。很多既有研究表明，大语言模型会从训练数据中复制有害的社会偏见和刻板印象。因为大语言模型的核心能力来源于训练数据，而训练数据基本都是人类的语言文字表达，且其规模巨大(例如，GPT模型基本上是基于整个互联网的文本数据进行训练)，因此模型捕获、习得训练数据中的偏见和歧视是必然的，例如，学习和复制那些常常被边缘化的群体所受到的贬低和刻板印象。除了训练数据，算法在设计选择、自主学习、用户交互、应用部署等环节也可能产生歧视。此外，人们需要警惕的是，大语言模型的自主学习和持续迭代可能把训练数据中的偏见和歧视固化在模型中并进行放大，陷入歧视性的反馈循环(Feedback Loop)，而且由于模型的不透明性和不可解释性，这将使得减少、消除模型中的算法歧视变得更加困难。

当前，大语言模型、图像生成模型等生成式AI应用已经展现出了性别、年龄、种族、职业、宗教信仰、身体残疾等方面的歧视，例如，GPT-3显示出了基于宗教信仰的偏见和性别歧视，大语言模型Gopher存在职业与性别之间的刻板印象联想，OpenAI公司在对其图像生成模型Dalle-2进行公平性测试时发现，其模型表现出显著的性别和种族歧视。对于AI大模型的算法歧视问题，OpenAI公司首席执行官Sam Altman认为，不可能有哪个模型在所有的领域都是无偏见的。因此，核心问题是如何检测、减少、消除模型的潜在歧视。在技术实践中存在一些检测、消除算法歧视的方法。例如：对训练数据进行记录以识别是否存在代表性不足或多样化不足的问题;对训练数据进行人工或自动化筛选从而帮助训练更加公平的语言模型;开发检测识别模型或数据中的算法歧视的技术工具;推进模型的可解释性和可理解性研究;等等。

第四，大语言模型等生成式AI面临更大的恶用和滥用风险。ChatGPT等强大的AI模型的一个不容忽视的风险是，恶意分子将可能拥有更大的作恶能力，将其滥用来威胁个人和社会利益。生成式AI降低了生产文本、图像、音频、视频等各类内容的门槛和成本，在促进广泛商业应用的同时，也给技术滥用大开方便之门，诸如色情、诈骗、虚假信息、网络攻击等。在生成式AI模型的滥用方面，目前存在两个愈发紧迫的问题。

一是AI生成的虚假信息(Disinformation)。目前，各界对生成式AI模型安全问题的一个核心关切就是，生成式AI模型的滥用或恶用可能将生产、传播假新闻、谣言等虚假信息带到新的境地，给社会舆论带来更大负面影响。一方面，AI虚假信息的范围将是全维度的，覆盖文字、图像、视频等各种形式的内容;另一方面，由于AI大模型的开源化发展，AI虚假信息的生产和传播将变得越来越高效而低成本，意味着虚假信息可以被批量地、大规模地生产、传播。此外，随着生成式AI的持续改进，区别AI生成的内容和人类创造的内容将变得越来越困难，这给识别、打击虚假信息提出挑战。总之，在AIGC和来源于人类和现实世界的内容越来越难以区分的时代，人工智能有意或者无意制造的虚假信息将带来更大的社会影响，所谓的AI时代恐怕会成为人类的后真相时代。

二是AI诈骗等网络攻击。近年来，国内外涉及AI换脸、声音合成的诈骗案件呈多发之势，如2019年不法分子通过合成欧洲某能源公司CEO的声音成功诈骗22万欧元;2021年诈骗团队利用AI换脸技术伪造埃隆·马斯克的虚假视频，半年诈骗价值超过2亿人民币的数字货币;2023年4月，诈骗分子通过AI换脸和声音合成技术伪造实时视频通话，在成功骗取福州市某科技公司法人代表的信任后，让该法人代表在10分钟内转账430万元到其银行账户。这些AI诈骗之所以得逞，在很大程度上是因为生成式AI生成的虚假内容已经达到了足以以假乱真、普通人难以甄别真伪的水平。总之，生成式AI可能将电信诈骗等网络攻击提升到新的精细化水平，可以让网络攻击者“工业化”地组织“鱼叉式网络钓鱼”等网络攻击，进而牟取非法收益。在这个意义上，生成式AI带来的人工智能新时代，可能也是虚假信息和网络攻击的新时代。针对生成式AI建立必要的安全防护措施，防范打击潜在恶用和滥用行为，将成为生成式AI治理的重中之重。

因此，需要通过建立有效的AI治理机制和规则来妥善应对这些安全风险，打造可信的、负责任的、以人为本的生成式AI应用。但是，生成式AI自身的一些特征给有效的AI治理提出了额外的挑战。一是大语言模型本身的可解释性问题。可解释性意味着对模型如何产生其输出的深度理解。但是，大语言模型的输出并不完全是可预测的、可解释的。可以说，现在的大语言模型越来越成为全知全能但却不可知的机器，因为这些所谓的机器学习模型是“黑盒”(Black Box)算法。由于机器学习模型是在自主学习和自我编程，所以它们究竟学到了什么以及为何产生特定输出，常常是人类(包括模型的设计开发人员)所不能知晓和理解的。因此可以说，大语言模型增进了人类知识，而非人类理解。大语言模型的不透明性和不可解释性，给妥善应对解决大模型相关的事实编造、算法歧视、责任承担等问题提出挑战。

二是大语言模型的涌现能力，意味着可能涌现出有风险的行为。对于大语言模型而言，涌现能力的存在意味着它具有更大的潜力。这些越来越大的AI大模型涌现出来的能力甚至超过了其创造者的理解和控制，这意味着各种风险将可能相伴而来。目前技术专家的一个普遍担忧是，现在的AI大模型和将来的AGI可能形成自己的子目标(Sub-goals)，可能导致出现不符合人类利益和价值观的行为。

三是AI大模型生态中基础模型提供者和下游开发者之间的信息不对称问题。大语言模型之所以被称为基础模型，是因为它具有一定程度的通用性和泛化能力，可以适应各种各样的任务。在AI大模型生态中，下游开发者可以基于基础模型开发、部署垂直领域和场景的模型应用。这意味着生成式AI应用的开发部署是多个组织之间的协作。基础模型的原始开发者不可能完全清楚其模型在下游具体场景的使用情况，下游开发者因为没有参与原始模型的开发而可能并不完全清楚原始模型的能力、用途、局限性等情况。这可能增加出现失误和意外行为的可能性，尤其是考虑到下游开发者可能高估生成式AI模型的能力。因此可以说，就那些重要的、可能影响个人权益的应用场景而言，多个主体协作开发、部署生成式AI应用，可能带来更高程度的风险。

三、生成式人工智能治理的域外经验

面对生成式人工智能的迅猛发展及其风险挑战，各界呼吁加强AI治理，并开始探索新的治理举措。例如，面对ChatGPT、GPT-4等生成式AI模型带来的问题和引发的争议，联合国教科文组织(UNESCO)呼吁全球各国毫不迟延地执行其《人工智能伦理问题建议书》(Recommendation on the Ethics of Artificial Intelligence)，打造合乎伦理道德的人工智能。UNESCO认为，《人工智能伦理问题建议书》作为首个全球性的AI伦理框架，为人工智能发展提供了所有必要的保护措施。本文重点论述国外在监管层面和技术实践层面的发展状况。

在监管层面，目前主要存在两种不同的监管路径。一种是以英国和美国为代表的轻监管路径，强调基于具体应用场景和风险大小的行业分散监管，聚焦于监管AI技术的使用而非AI技术本身或整个行业，确保监管的相称性和适应性。例如，对于AI监管，英国不考虑制定新的监管规则，或成立新的监管机构，而是将既有监管适用于AI系统，旨在促进创新和投资，把英国打造成AI超级大国。2023年3月29日，英国政府发布政策文件《一个促创新的人工智能监管路径》(A Pro-innovation Approach to AI Negulation)，在其中提出了其AI监管和治理框架。英国政府认为，考虑到AI技术进化的速度，需要采取敏捷的、迭代性的路径。针对企业提出新的僵硬且严苛的立法要求，可能抑制AI创新，并限制对未来技术突破进展作出快速响应的能力。提议的AI监管框架的基础是5项非法定的原则，包括安全(Safety)、安保(Security)和稳健性(Robustness)，适当的透明度和可解释性，公平性，问责和治理，可质疑性(Contestability)和救济。这些原则并不需要被无差别地执行，而是需要由不同领域的监管机构结合AI应用的具体场景“量体裁衣”，灵活地落实这些原则。总之，英国政府认为，监管并不总是支持创新的最有效方式，需要采取多元化的治理措施，监管之外还包括认证技术(Assurance Techniques)、自愿性的指南、技术标准等。美国采取了和英国类似的路径，强调行业监管和行业自律相结合的治理路径，例如，美国白宫科学和技术政策办公室(White HouseOffice of Science and Technology Policy)发布的《AI权利法案蓝图》(Blueprint for an AI Bill of Rights)在提出5项原则的同时，明确了行业主管部门牵头、应用场景导向的分散化监管思路;美国国家标准技术研究所(National Institute of Standards and Technology，NIST)发布的《AI风险管理框架》为创新主体建立人工智能风险管理机制提供了明确的指引。此外，随着生成式AI的快速发展，美国的立法者和执法部门开始探索立法和监管层面的更进一步的应对措施。

另一种是以欧盟为代表的强监管路径。其思路是像监管药品那样监管人工智能，认为需要成立专门的监管机构，人工智能应用需要经过严格测试以及上市前的审批等。目前，欧盟正在制定一部统一的人工智能法案(AI Act)，以实现对人工智能应用的全面监管。很多专家预测，正像之前的数据隐私立法《一般数据保护条例》(GDPR)对全球科技行业的影响那样，欧盟人工智能法案将“布鲁塞尔效应”延伸到AI领域，而这正是欧盟所希望的，即通过主导监管为全球树立AI治理标准。AI立法之外，欧洲理事会还在酝酿全球第一个“国际AI公约”，正像之前的网络犯罪公约和隐私公约那样，成员国和非成员国都可以加入并批准将来的AI公约。随着生成式AI的发展，欧盟立法者在制定人工智能法案过程中，积极回应生成式AI模型提出的挑战，创设了“通用目的人工智能系统”(General Purpose AI System)这一概念来涵盖像GPT-4这样的基础模型(Foundation Models)。欧盟立法者拟对基础模型提供者提出更严格的义务，包括透明度义务、采取足够的保障措施防止产生违反欧盟法律的内容、记录并公开披露受版权保护的训练数据的使用情况等。此外，欧盟立法者此前拟将通用目的AI系统作为高风险AI对待，但后来调整思路，采取了创新友好型的思路，并未将ChatGPT等基础模型界定为“高风险”，而是设定了透明度、质量等方面的要求。

在技术实践层面，生成式AI的创新主体积极探索技术上的和管理上的安全控制措施，主动防范应对生成式AI模型的潜在安全风险。这些措施包括对数据的干预(例如，对预训练数据进行选择和过滤等，以确保数据质量)、对模型架构的干预、对模型输出的审查、对用户使用行为的监测、对生成内容的事后检测，等等。一般而言，在实践中将AI工具和人类审查人员结合起来应对有害内容，是非常有效的干预机制。

从目前行业实践来看，针对生成式AI模型的安全防护和保障措施主要包括两类。

第一类是模型层面的保障措施或者说内部机制，主要包括价值对齐方法，旨在通过训练教会模型拒绝涉及有害内容的请求，对敏感请求作出更恰当的回应，从而尽可能地减少输出有害内容的可能性。例如，OpenAI公司的AI大模型GPT-4在RLHF训练阶段，通过增加额外的安全奖励信号(Safety Reward Signal)来减少有害的输出(Harmful Outputs)，这一方法产生了很好的效果，显著提升了诱出恶意行为和有害内容的难度。尽管如此，恶意分子依然有可能绕过模型的防护措施，通过所谓的“越狱”方法让模型输出有害内容。总之，RLHF方法通过引入人类专家的参与和评估，不仅帮助提升了模型的性能，而且让模型变得更加安全可靠。但也必须看到，单纯依靠人类反馈来训练AI系统是非常低效的，所以业界也一直在探索更高效的方法，诸如训练一个AI系统来辅助人类评估、训练AI系统来自主进行价值对齐研究等。例如，前文论述的“宪法性AI”的方法就是利用人工智能来监督人工智能，相比于单纯的人类评估和反馈，这一方法可以更高效地对模型进行优化改进。

第二类是非模型层面的保障措施或者说外部机制，旨在通过外部的安全措施来弥补模型自身的缺陷和局限性。一是内容过滤工具，例如OpenAI公司专门训练了一个对有害内容进行过滤的AI模型(即过滤模型)，来识别有害的用户输入和模型输出(即违反其使用政策的内容)，从而实现对模型的输入数据和输出数据的管控。二是对抗测试(Adversarial Testing)或者说红队测试(Red Teaming)，简言之就是在模型发布之前邀请专业人员(红队测试员)对模型发起各种攻击，以发现潜在问题并予以解决。例如，在GPT-4发布之前，OpenAI公司聘请了50多位各领域学者和专家对其模型进行测试，这些红队测试员的任务是向模型提出试探性的或者危险性的问题以测试模型的反应，OpenAI公司希望通过红队测试，帮助发现其模型在不准确信息(幻觉)、有害内容、虚假信息、歧视、语言偏见、涉及传统和非传统武器扩散的信息等方面的问题。三是AI生成内容的检测识别技术，业界通过训练专门的AI模型来识别生成式AI生产的文本、图像、音频、视频等各类合成内容，以确保内容的来源或真实性。此外，模型权限控制(如通过API接口提供模型)、数字水印、用户使用监测(如监测用户的滥用行为)、AI模型的使用政策、第三方评估或审计等诸多技术和管理工具，在应对各种安全风险方面也扮演着重要角色，共同确保以负责任的、安全可信的、合乎伦理道德的方式使用人工智能应用。

这些安全防护措施发生在生成式AI的整个生命周期，不同阶段采取与之相适应的措施。以OpenAI公司为例，在预训练阶段，主要是针对数据，重点是减少训练数据中色情性文本数据的数量。在预训练之后的阶段，主要包括利用RLHF算法改进模型的行为、对模型开展广泛的测试和评估、邀请外部专家进行红队测试等。在模型的部署阶段，主要包括API权限控制、对用户违规行为进行监测和审核、第三方评估、模型漏洞奖励项目、用户反馈渠道、内容来源标准(如水印、元数据)等。总之，通过这些措施可以实现将安全和伦理价值嵌入AI系统的目的，打造安全可信的生成式AI模型及应用。在未来的生成式AI治理中，技术层面的安全防护措施将发挥关键作用。

四、生成式人工智能的治理进路

近年来，我国积极推进互联网领域算法监管，强调安全可控、权益保护、公平公正、公开透明、滥用防范等多元目的，在算法应用分类分级基础上制定监管措施，出台了《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定》等监管规范。相关监管规范提出了算法备案、安全评估、AI生成/合成内容标识等制度要求。今年以来，面对ChatGPT类生成式AI技术的快速发展创新，2023年4月国家网信办发布《生成式人工智能服务管理办法(征求意见稿)》，希望通过制定新的监管规范促进生成式人工智能健康发展和规范应用。

通过梳理既有监管规范可以发现，在AI监管和治理方面，我国已经明确了发展与安全并重、创新与伦理并行的思路，在支持、促进人工智能发展和创新的同时，保障技术应用的安全、可靠、可控。面向未来，对生成式人工智能的有效治理，离不开政府、企业、行业组织、学术团体、用户和消费者、社会公众、媒体等多元主体的共同参与，需要更好发挥出多方共治的合力作用，推进践行“负责任人工智能”(Responsible AI)的理念，打造安全可信的ChatGPT类AI应用。“负责任AI”的理念意味着，人工智能领域的创新主体需要拥抱更加负责任的技术实践，摒弃互联网时代的所谓的“快速行动，打破陈规”的理念，即先快速把产品做出来，事后再通过修补的方式解决产品的社会问题。因为技术越是强大，其风险往往也更大，人工智能技术也是如此。这意味着，人工智能不是乐趣实验，不应该拿整个社会来做实验，以便检验技术创新及其结果。总之，为了避免人工智能时代成为另一个“快速行动，打破陈规”的时代，人们需要构建合理审慎的生成式AI治理框架，更好平衡创新与安全，把生成式AI的风险控制在社会可接受的限度。本文兹从以下三个方面提出生成式AI的治理进路。

首先，在立法和监管方面，当前阶段宜对生成式AI技术、平台和应用采取包容审慎、敏捷灵活的监管思路，对AI技术创新给予更大的包容度和试错空间。当前，生成式AI已经成为全球各国在人工智能领域竞争的核心阵地，其不仅事关技术主权和数字主权，而且关乎未来产业体系甚至国家综合实力。欧盟的AI监管思路调整、英国的AI治理框架均希望通过创新友好型的监管和治理措施，打造、提升其在AI领域的竞争力。而且考虑到AI技术进化的速度持续加快，在技术发展早期针对企业提出僵硬且严格的立法和监管要求，可能阻碍、抑制人工智能创新，并适得其反地限制社会各界对未来技术突破和进展作出快速响应的能力。因此，在生成式AI治理方面，敏捷灵活的监管思路更为适宜。这意味着：第一，基于应用分类和风险分级，针对不同的生成式AI产品、服务和应用采取不同的监管规则，监管应避免一般性地针对AI技术本身或整个行业;第二，不断创新监管工具箱，采取多元化的监管举措，诸如监管指南、监管沙盒、试点、示范应用、安全港、事后追责等更灵活的、易于迭代的监管方式，做好“以监管促创新、促发展”，同时实现安全、权益保障等监管目标。例如，欧盟在AI监管方面的一大创举就是提出了AI监管沙盒(AI Regulatory Sandbox)。监管沙盒作为支持、促进监管者和创新主体之间沟通协作的有效方式，可以提供一个受控的环境来合规地研发、测试、验证创新性的AI应用。从监管沙盒中产生的最佳实践做法和实施指南，将有助于企业尤其是中小微企业和创业公司落实监管规则。

其次，发挥标准认证、科技伦理等软法治理的优势，加强生成式AI治理的标准化建设，发展AI治理社会化服务体系。

一是AI标准认证。《国家标准化发展纲要》指出，标准化在推进国家治理体系和治理能力现代化中发挥着基础性、引领性作用。对于AI领域而言，AI标准不仅是支持、促进人工智能发展进步和广泛应用的重要手段(如技术标准)，而且是推进落实AI治理的有效方式(如治理标准、伦理标准)，因为AI治理标准可以起到“承接立法和监管、对接技术实践”的重要作用。而且AI治理领域的标准相比立法和监管更具敏捷性、灵活性和适应性。进一步而言，AI标准的优势在于可以通过市场化的方式来落地，即AI治理社会化服务(亦称AI伦理服务)，包括认证、检测、评估、审计等。英国是以市场化方式推进AI治理的典型代表，英国发布的《建立有效AI认证生态系统的路线图》希望培育一个世界领先的AI认证行业，通过中立第三方的AI认证服务(包括影响评估、偏见审计和合规审计、认证、合规性评估、性能测试等)来评估、交流AI系统的可信性和合规性。英国希望通过5年时间培育一个世界领先的、数十亿英镑规模的AI认证行业。面对AI大模型的风险，美国政府计划通过一个评估平台让社会大众对领先AI公司的AI模型进行评估，这将允许技术社区和AI专家对AI模型进行评估，以探索相关模型如何遵循相关AI原则和实践。对AI模型进行独立的测试是AI模型的有效评估机制的一个重要组成部分。我国需要加快建立健全人工智能治理社会化服务体系，通过下游的AI治理标准认证和AI伦理服务更好承接、落实上游的立法和监管要求。

二是科技伦理治理。《关于加强科技伦理治理的意见》已经明确了创新主体的科技伦理管理主体责任，包括开展科技伦理风险监测预警、评估、审查等，加强科技伦理培训，以及坚守科技伦理底线等。生成式AI领域的创新主体不能寄希望于以事后补救的方式来应对AI伦理问题，而是需要在从设计到开发再到部署的整个AI生命周期中，积极主动地履行科技伦理管理主体责任(例如建立科技伦理委员会)，以多种方式创新性地推进科技伦理自律，这包括AI风险管理机制、伦理审查评估、伦理嵌入设计(Ethics by Design)、透明度机制(如模型卡片、系统卡片)、AI伦理培训等做法。在这个方面，微软、谷歌、IBM等国外主流科技公司探索出了较为成熟的经验，例如，在美国国会的AI监管听证会上，IBM首席隐私和信任官Christina Montgomery指出，研发、使用人工智能的企业需要建立内部治理程序：(1)委任一名人工智能伦理主管，负责整个组织的负责任、可信人工智能战略;(2)建立人工智能伦理委员会或类似职能，作为统筹协调机构来落实战略。IBM认为，如果科技企业不愿意发布自己的原则，并建立团队和程序来落实，那么在市场上将无立足之地。总之，科技企业的AI伦理治理是实现将伦理要求嵌入技术实践的最重要方式;面向未来，监管部门需要给科技企业落实AI伦理治理提供必要的引导和支持。

三是行业自律。例如，监管部门可以指导行业组织制定生成式AI的伦理指南、自律公约等行业规范，同时将领先企业的优秀实践总结上升为行业层面的最佳实践做法和技术指南，建立负责任地研发、使用生成式AI技术的标准规范，帮助提升整个行业的生成式AI治理水平。

最后，支持创新主体加强技术治理，加大探索以技术方式解决技术带来的问题。强大的数字技术不只意味着更大的竞争优势，也可能意味着更大的伦理和安全风险。而且创新主体有义务和责任确保其AI产品的安全性和可靠性等。因此创新主体需要承担更大的数字责任(Digital Responsibility)，加强技术治理，探索应对生成式AI的伦理和安全风险的技术方案，以技术方式打造更值得信赖的生成式AI应用。实际上，正如前文所述，生成式AI生命周期中的很多安全风险都可以通过模型层面和非模型层面的防护措施来减轻甚至消除，从技术上打造更加安全可信的大语言模型。此外，对于诸如数据隐私、可解释性、公平性、安全、伦理价值等问题，创新性的技术方案和技术众包方式(如算法偏见赏金机制、众包的红队测试等)都是十分有效的应对方式(如果不是最优解的话)。例如，除了自身的技术治理探索，OpenAI公司也在通过红队测试、AI系统漏洞奖励项目等众包方式，发挥社会力量帮助打造更加安全可信、实用可靠的生成式AI模型及应用。未来，政策制定者可以携手行业，将创新主体在技术防护保障措施方面的优秀实践，总结上升为可以向全行业推广的技术指南、最佳实践做法、标杆案例等行业指引和指南，提升全行业的AI治理水平。

总之，就目前而言，要求暂停研发生成式AI模型，或者对生成式AI施加严厉监管，看起来都是过度反应了。实际上，暂停是难以执行的，严厉的监管可能限制生成式AI技术给经济社会发展带来的巨大机遇和价值。当然，为了更好应对诸如隐私、偏见歧视、算法黑箱、知识产权、安全、责任、伦理道德等迫切的问题，针对生成式AI建立恰当的监管和治理框架是必要的。恰当的AI监管和治理框架需要平衡好对AI负面影响的担忧和AI技术造福经济社会发展和民生福祉的能力。这意味着AI监管需要精心设计，精准触达。因为设计优良的监管，对于推动发展、塑造生机勃勃的数字经济和社会可以产生强大的效应;但是设计糟糕的或者限制性的监管则会阻碍创新。正确的规则可以帮助人们信任他们所使用的产品服务，这反过来会推动产品服务的普及以及进一步消费、投资和创新。对于人工智能而言也是如此。

前瞻研究AGI等未来人工智能技术的经济社会和安全影响也变得越来越必要和重要了。毕竟现在的人工智能系统的复杂性可能已经远超人类的想象，担忧人工智能的进一步发展可能给人类和人类社会带来巨大风险和灾难性后果可能也并非杞人忧天。OpenAI公司首席执行官Sam Altman、深度学习之父Geoffrey Hinton、以色列历史学家尤瓦尔·赫拉利等诸多知名专家都对人工智能的未来发展提出了警告。其实早在1960年，控制论先驱维纳就曾写道：“为了有效防止灾难性后果，我们对人造机器的理解必须和机器的能力提升同步发展。由于人类行动的异常缓慢，我们对机器的有效控制可能变得徒劳。等到我们能够对我们的感官传递的信息作出反应，并刹停我们正在驾驶的汽车时，汽车可能早已径直地撞到了墙上。”维纳的告诫为现在不断增多的对AI发展的各种担忧和害怕提供了振聋发聩的注解。相信人类有意愿，也有能力打造人机和谐共生的技术化未来，让未来高度技术化的智能社会持续造福于人类发展。当下的和未来的人工智能治理正是这一意愿和能力的“助推器”。

《数字法治》专题由华东政法大学数字法治研究院特约供稿，专题统筹：秦前松。

责任编辑：楚予

位置:当前位置：首页 >> 数字法治

数字法治|曹建峰：迈向可信AI，ChatGPT类生成式人工智能的治理挑战及应对

推荐新闻

关于我们|联系我们|法律顾问|版权声明

位置:当前位置：首页 >> 数字法治

数字法治|曹建峰​：迈向可信AI，ChatGPT类生成式人工智能的治理挑战及应对

推荐新闻

关于我们|联系我们|法律顾问|版权声明

数字法治|曹建峰：迈向可信AI，ChatGPT类生成式人工智能的治理挑战及应对