随着人工智能技术迅速发展,地图导航、搜索引擎、新闻推荐等依托于人工智能算法的应用已经全面渗入人们日常生活中。与此同时,法律人工智能也不断被开发和应用,这在刑事司法领域体现得尤为明显。比如,在美国刑事司法中,自动化风险评估系统从审判前的风险评估到执行阶段的缓刑听证等各个环节中被广泛应用。在我国,随着“智慧法院”这一信息化战略的不断推进,类似的技术也在不断地研发和使用。
尽管刑事司法人工智能具有提高审判效率、量刑规范化等诸多优势,但刑事司法人工智能的应用也引发了广泛的质疑和担忧,其中最有代表性的是威斯康辛诉卢米斯案。该案发生后,媒体、公众、学界都表达了对算法的普遍焦虑和不信任。随着越来越多的法院将风险评估作为量刑程序的一部分,公众的司法信任将面临挑战。信任匮乏会动摇司法的权威,从而影响人们对法律的遵从,且可能引发暴力性私力救济。因此,缺乏信任也成为司法人工智能应用面临的现实困境。
如何理解并解决人们对司法人工智能的不信任?法学研究者通常从实质正义角度出发,认为对算法决策存在歧视问题。这些理解和解释有其合理性,但同案未能同判进而引发歧视怀疑并非司法人工智能应用带来的新问题,法官决策中也存在诸多偏差(bias)和偏见(prejudice)。如果说公众能在一定程度上容忍和接受法官决策中的偏差与偏见,那么人们对司法人工智能带来的偏差与偏见的接受和容忍程度则会低很多,这或许与人们的感知正义有关。
本文将从刑事司法案件切入,探讨司法人工智能的信任问题,探索公众对司法人工智能不信任的原因及建构这种信任的路径。本文第一部分将对当前刑事司法人工智能的应用进行梳理,并在此基础上重新审视学界对司法人工智能合法性的主要质疑。第二部分将比较人类法官和司法人工智能的表现,指出影响合法性的并非绩效表现,而是感知正义的匮乏。第三部分将从感知正义维度探究人工智能不被信任的原因,即为什么即使人工智能与人类法官相比表现更好,但依然不被人们信任。第四部分尝试对刑事司法人工智能信任问题的解决提出对策。
一、普遍的应用与广泛的质疑:引发信任问题的刑事司法人工智能
刑事司法人工智能的发展和推广与公众的不信任形成了紧张关系。目前人工智能在司法领域扮演的主要角色是什么?面临的主要质疑有哪些?有必要对此进行简要梳理并予以回应。
(一)人工智能在刑事司法领域的应用
在美国刑事司法领域,受选择性失能(selective incapacitation)运动影响,司法部门近几十年来大量引入风险评估工具。目前美国已有半数以上州在司法决策的各个环节使用风险评估软件辅助司法,并采用静态和动态因素相结合的方式,预测累犯风险的同时协助法官做出量刑决定。风险预测系统旨在预测罪犯的再犯可能性,试图缓和公共安全与大规模监禁之间的张力。在欧洲,德国和法国采用预防性警务和划定具有高危险性的个人和区域等方式,合理分配警察巡逻来更有效地组织警务工作。
我国近年来也在大力推进刑事司法人工智能技术的应用。2016年1月29日,最高人民法院院长周强在最高法信息化建设工作领导小组会议上首次提出,应建设立足于时代发展前沿的“智慧法院”。同年,智慧法院建设被纳入《国家信息化发展战略纲要》《“十三五”国家信息化规划》,正式上升为国家战略。“十三五”时期(2016—2020),全国法院建成人民法院信息化3.0版,人民法院大数据管理和服务平台、四大司法公开平台发挥重要作用,形成全业务网上办理、全流程依法公开、全方位智能服务的智慧法院。目前,我国各地司法机关引入的刑事司法人工智能应用场景广泛,涉及逮捕条件审查、文书自动生成、类案推送和裁判偏离度预警、辅助量刑等多个领域,尤其注重将人工智能运用于证据标准、证据规则指引、证据链以及全案证据审查判断等事实认定领域,人工智能基本覆盖了刑事诉讼全过程。具有代表性的有上海的“206”系统(上海刑事案件智能辅助办案系统)和北京市高级人民法院“睿法官”。
上海的“206”系统将法定的统一证据标准嵌入公检法三机关的数据化刑事办案系统中,依靠专家经验、模型算法和海量数据,打造了一个“智能辅助办案系统”,未来将具备证据标准指引、单一证据校验、逮捕条件审查、社会危险性评估、类案推送、知识索引、量刑参考、文书生成等20项功能。北京市高级人民法院“睿法官”通过整合多类数据资源进行大数据挖掘分析,在法官办案过程中自动推送案情分析、法律条款、相似案例、判决参考等信息,为法官判案提供审理规范和办案指引,同时自动生成裁判文书。2018年1月5日,最高人民法院的“类案智能推送系统”正式上线。该系统通过构建包括案情事实、争议焦点、法律适用等要素的语义画像,辅助用户快速从海量历史案件中发现相似案例,为法官、律师、社会公众提供专业、智能、友好的类案精准推荐服务。在运用刑事司法人工智能技术方面,检察系统也有所推进,有的地方检察机关推出“小包公”人工智能法律科技平台量刑系统,利用人工智能、司法大数据等科技手段研发出服务司法机关精准化量刑等业务的软件系统,包括智能量刑预测系统、智能类案检索系统、智能法规检索系统、智能刑事证据审查系统、智能量刑偏离监测系统等。
(二)对刑事司法人工智能的主要质疑
虽然刑事司法人工智能已经在司法实践中被广泛应用,且成为现代司法着力推动的审判方式或辅助性审判方式,但关于它的质疑普遍存在。对包括刑事司法人工智能在内的司法人工智能的怀疑或批判也基于不同视角、运用不同的理论工具展开。
在具有代表性的卢米斯案中,被告卢米斯因驾车时开枪射击而被捕,他承认较轻的罪名,即“躲避警察追捕,驾驶一辆偷来的汽车”。在他认罪后,法院要求提交一份调查报告,其中包括使用“惩教罪犯管理替代制裁档案”(COMPAS)计算的风险得分。COMPAS算法将卢米斯认定为三类高风险累犯:审前累犯、一般累犯和暴力累犯。该州法院在考虑了这三个高风险评分后,对卢米斯判处6年监禁。卢米斯对判决提出质疑,认为法官使用风险评估分数侵犯了他的正当程序权利。具体原因有三点:1)侵犯了他根据准确信息被判刑的权利,因为COMPAS软件的专利性质使他无法评估评分的准确性;2)侵犯了他获得个性化判决的权利,因为COMPAS算法依赖于更大群体特征的信息来推断他个人未来犯罪的可能性;3)COMPAS算法在计算分数时不恰当地使用了“性别评估”。法院最终驳回了卢米斯的请求,认为:1)算法使用的大部分信息来自他填写的问卷和公开记录,被告有机会确保信息的准确性;2)风险评估分数只是法官在判决中考虑的众多信息中的一条,并非决定性因素,因此不违反正当程序;3)在风险评估中需要考虑性别,以达到统计的准确性,因为男性和女性有不同的再犯率和不同的矫正可能。但参与该案的一位法官也强调量刑时考虑COMPAS或其他工具时,法官“必须记录下一个有意义的推理过程,说明风险评估工具的相关性、优点和缺点”。该案首席法官在后续的另一篇文章中也阐明,虽然量刑法官可以考虑COMPAS评分,但不能过分依赖COMPAS评分来做出量刑决定。
卢米斯案引发了公众和媒体对刑事司法人工智能的质疑。对刑事司法人工智能的质疑主要包括:1)准确性风险,美国一家调查型新闻媒体ProPublica对COMPAS进行评估后发现,算法预测犯罪准确性不高,被识别为具有暴力犯罪可能的人只有20%实施了该行为。2)歧视性风险,ProPublica对COMPAS算法进行评估后发现,与同样可能再次犯罪的白人相比,非裔美国人更有可能被给予更高的分数,从而导致等待审判的羁押时间更长。3)透明性问题,COMPAS软件的开发者将其作为专利进行保护,使得外部专家难以评估和审查算法,以测试其准确性和偏差。
在我国,并没有出现卢米斯案那样引发业内关注和公众分歧的“公案”,由此也没有针对具体刑事案件中引用司法人工智能的直接批判,但有关司法人工智能的质疑却广泛存在。学界对司法人工智能的批判主要从实质正义和程序正义的角度进行。从实质正义角度的批判主要集中于司法人工智能的数据缺陷、算法歧视和难以进行价值判断等问题。数据缺陷主要体现为现有的法律数据匮乏且低质,存在不充分、不真实、不客观、结构化不足等问题,这些缺陷构成司法人工智能发展的困境。此外,司法机关内部数据缺乏共享,例如司法机关未与社会科研机构展开合作也导致了我国司法数据库建设的不完善。算法歧视主要体现为算法规则或是数据中可能包含的偏见,系统研发者可能会借助算法黑箱将偏见、武断和不同利益诉求写入司法人工智能。同时,还有学者指出司法人工智能无法进行价值判断。司法裁判过程中不仅需要法律知识,还需要考虑社会效果,需要人类的理性或自由意志进行价值权衡,依靠经验归纳和数据法则为主要运行机制的人工智能很难完成这一任务。人工智能无法面对纷繁复杂的社会实践,尤其在面临道德争议案件时,无法进行权衡取舍。
从程序正义角度进行的批判主要集中在算法黑箱问题——算法黑箱与司法的程序性、公正性理念的背离。算法黑箱不仅由于输入数据与输出结果之间存在人类逻辑难以解释的“隐形层”,算法的黑箱特性还在于统计数据只显示了统计和概率意义上的特征拟合,这与人类法官基于经验和常识通过逻辑推理等方法得到判决结论的方式完全不同。而司法裁判是一个开放的、对话的过程,是以一整套理性化、程序化、公开化的机制作为载体,法官裁判需要听取并依赖当事人双方的举证、质证、辩论。在开放的体系中论证,也意味着裁判理由来源的多样化,并且,司法裁判是裁判者运用法律理由通过对话和论辩来证成判决的过程。法律自身的一个重要特征就在于它具有可争辩性,论辩或争辩会时常贯穿于裁判的始终。算法决策过程则处于黑箱中,无法通过开放的程序实现对话。另一种担忧是公众认同问题。“观察历史变迁,由谁来承担裁判职责是人类社会在长期演变进程中逐渐自然选择而成的”,因此,人工智能的使用与否,取决于法律人、当事人以及公众的认同。区别于客观维度的质疑,这种观点从主观维度提出了司法人工智能应用的障碍,但学界对司法人工智能的感知正义匮乏问题的阐释和剖析还远不充分。
二、法官VS人工智能:对更优决策的探寻
风险评估并不是新兴领域,它一直是量刑和假释裁定的组成部分。过去,这种评估依据法官的“直觉、本能和正义感”,而现在它将依赖模型和算法。如果人们对算法的质疑是因为它不准确和不公平,那么我们就有必要对算法的表现进行评估。评价人工智能的性能需要找到一个基线,在司法场景中,这一基线就是法官表现。为了探求这一问题,首先需要了解法官和人工智能都是如何进行决策的。
(一)并非理想的法官决策
“法官如何决策”始终是司法研究关注并探讨的重要问题之一,大致可以分为法律形式主义、法律现实主义两个流派。在法律形式主义者眼中,法官的理想模型是一个精致的“三段论机器”。韦伯将法官比作“法律的自动售货机”。“由确定的、外部强制的法律规则提供主要前提,而客观上‘真实’的预先存在的事实提供次要前提。法官的工作是充当一名高技能的机械师,结论本身就是一个逻辑问题。”这是法律形式主义预设的法官决策的理想模型。法律形式主义裁判思维可被归结为三方面:1)法律是确定的;2)判决是机械的;3)法律推理可以得到确定结果,无需诉诸非法律原因。与法律形式主义者不同,法律现实主义者主张三段论推理不足以解释法官的决策过程,意识形态、认知偏差、情感等法外因素都会影响法官的思维和司法裁判。“正义就是法官吃的早餐”(justice is what the judge ate for breakfast)这一法学界耳熟能详的嘲讽反映了无关因素如何影响司法决策。在法律现实主义运动中,法官决策中的法外因素是学者关注的核心议题。在《正义背后的意识形态:最高法院与态度模型》中,西格尔(Sigel)等人的研究展示了大法官的意识形态和政治派别如何影响法官的裁判结果。行为经济学领域的研究认为,法官决策的误差(error)来源于偏差(bias)和噪声(noise)。桑斯坦(Sunstein)和拉克林斯基(Rachlinski)等人则通过大量实验发现系统性的认知偏差对法官决策的影响。比如,Rachlinski通过实验表明,锚定效应(anchoring)、框架效应(framing)、后见偏差(hindsight bias)、代表性启发式(representativeness heuristic)等认知偏差都对法官的判决有着重要影响。
另一种人类决策的缺陷是噪声,认知偏差往往是系统性的偏倚,而噪声是引起随机误差的偏倚。比如本地足球比赛的输赢、当地的气温等与法律无关紧要的情境因素都会影响到法官决策。此外,偏见也广泛存在于警察执法、检察官起诉、法庭审判等司法活动的各环节中,主要表现为种族偏见、性别偏见以及经济水平差异偏见。比如,黑人男性被告的刑期要比同种罪行的白人男性高。我国在2010年以后也进行了很多法官决策的本土研究,同样也发现法官决策难免受法外因素的影响。比如,李学尧、葛岩等人发现认知加工流畅程度会对法官裁判的严厉程度产生显著的影响,在认知加工流畅程度低时,被试法官会做出更严厉的判决。张倩、陈林林等人发现,面孔特征包括面孔的吸引力、可信度、面部的种族特征以及面部表情等都会影响民事赔偿裁决和刑事案件量刑。综上,实践中的法官与人们理想中的公正无私的司法者形象存在差距,其决策受到情感、认知偏差、噪声的影响,决策中的偏见也难以避免,严格的成本约束和紧迫的决策需求也使得司法实践放弃了科学实践对真相相对苛责的态度。
(二)刑事司法人工智能的决策原理
刑事司法人工智能存在两种进路:一是基于显式编码、封闭规则算法的专家系统;二是基于机器学习算法的预测分析论。这两种路径与法律形式主义和法律现实主义的法官决策逻辑刚好形成对应。以专家系统为代表的符号主义在20世纪八九十年代较为盛行,但遭遇了两次“人工智能寒冬”后,当前人工智能应用基本采用以机器学习为核心的算法。目前司法人工智能是典型的“数据挖掘→规律发现”的过程,也就是从海量数据中,通过相关的算法发现隐藏在数据中的规律和知识——自变量X到因变量Y之间的映射关系。
对于风险预测系统而言,再犯风险是因变量,而犯罪事实和罪犯本身的信息则是自变量。这个系统是通过大数据训练产生的一个预测模型。而对于类案匹配,它的基本路径是“图谱构建-情节提取-类案匹配”。首先,用符号形式描述的各要素(主要是案件情节与裁判结果)的关系,比如在刑事案件中,知识图谱包括犯罪构成要件、量刑情节、法律规范、刑事政策等方面。其次,利用已经构建好的案件知识图谱,通过自然语言识别技术从海量文书中提取情节,将每个案件全方位地结构化与标签化。然后,根据案件情节、适用法条与争议焦点来判断案件之间的相似度。简要地说,类案推荐采用的算法思路是将每个案件看成多维空间中的一个向量,计算向量之间的距离来确定案件与案件之间的相似度,向量之间越近,说明案件的相似度越高。在判决预测的场景下,对已结构化处理的案件训练数据进行深度学习,得出从案件事实X到判决结果Y关系的统计模型。
(三)谁的表现更好
必须承认的是,算法决策并不是完美的,其在一定程度上继承了人类社会的偏见,但与算法决策相比,作为基线的人类法官也并非完全准确和公正。我们需要考虑的是:相比人类法官,司法人工智能的决策在边际上是否发生了改进。下文将从准确性和公平性两个维度进行比较。
首先,刑事司法人工智能在准确性问题上可以比人类表现更好。以再犯风险评估为例,算法决策可能比人类决策更准确。再犯风险评估本质上是预测活动,预测就是利用有限信息对未来进行估计,信息的有限性使得错误(“错判”和“错放”)难以避免,但更全面的信息以及信息的准确处理可以降低错误发生的概率。相比算法,人类不仅存在固有的认知偏差,并且有限的认知负荷使其难以处理高维数据。Kleinberg等人通过梯度提升决策树(gradient boosted decision trees)对被告的犯罪风险进行评估,并据此决定是否保释(bail decision),输入变量包括被告当前的犯罪特征、之前的犯罪记录和年龄等。和人类法官相比,使用算法进行的保释决定可以在入狱率没有变化的情况下,使犯罪率下降24.7%;或者在犯罪率不变的情况下,使入狱率下降41.9%。因此,和法官相比较,算法更擅长处理更精细化的数据。
法官在决策时需要处理大量信息,其中一些信息属于信号,一些信息则是噪声。信号是我们想要和需要的事实,而噪声则阻碍或误导我们搜索信号。人类有限的信息处理能力在面临超负荷信息时常常无所适从,难以从大量噪声中甄别出正确的信号,最终导致非理性决策。法官不仅会受无关因素的影响,比如当判决日是被告的生日时,法官的判决会更加宽容;也可能对相关变量赋予不合理的权重,比如在保释决定中法官存在的当前犯罪偏见(current offense bias),当高风险被告面临的指控相对较轻时,法官可能认为其为低再犯风险被告;当低风险被告面临重罪指控时,法官可能将其视为高再犯风险人群。人类进行决策时很难把所有的变量剥离清楚并赋予其正确的权重,在这一问题上,基于概率统计的算法显然有更大的优势。
其次,刑事司法人工智能在公平性问题上也可以比人类表现更好。一方面,在大数据和算法的帮助下,“偏见”和“歧视”更容易被识别。有学者利用美国费城和迈阿密州戴德郡的保释法庭数据,发现法官在保释案件审理中存在种族偏见。Arnold等人运用结果检验法(outcome test)进行测量,结果检验的基本逻辑是:如果保释法官在保释决策中存在针对黑人的种族偏见,那么他们就会对黑人施加相对于白人更苛刻的保释条件,导致只有条件最优秀的少部分黑人才能够获得保释。而更苛刻的保释条件会导致实际上被保释的黑人比白人在保释期间更少违反保释条例。黑人被告的保释释放率更低且他们违反保释条例的行为更少的现象,表明美国的保释体系中存在显著的种族偏见。另外,少数族裔可能更多地从算法决策中受益。Kleinberg等人在研究中要求算法实现与法官决策相同的犯罪率,那么算法可以将少数族裔的入狱率降低40.8%(非裔美国人和西语裔美国人的入狱率将分别减少38.8%和44.6%)。之所以能做到这一点,是因为被告中的非白人比例过高,因此,在保持犯罪率不变的情况下,任何削减拘留率的努力,都会给少数族裔带来不成比例的好处。
最后,算法未必不能处理价值权衡的问题。人们可以将人类认为重要的价值放入目标函数。比如,对于“错判”和“错放”这两种刑事司法错误,人们可以根据当前的价值目标选择一个适当的分类器(classifier)。具体而言,“错判”是误把“无辜者”识别为“坏人”,即统计学上的“假阳性”;而“错放”是把“坏人”识别成“无辜者”,对应统计学上的“假阴性”。比如,在机器学习中,精确率(precision)、召回率(recall)是衡量一个分类器的常见指标。其中,精确率也叫做查准率,也就是被识别为阳性的样本中有多少是真阳性。召回率又称为查全率,也就是阳性的样本中有多少被识别出来。一个直观的例子是,在刑事司法的场景下,精确率指的是被识别为“罪犯”的人中有多少是真的“罪犯”,更关注是否冤枉无辜者,而召回率指的是真的“罪犯”中有多少被分类器识别出来,更关注是否有遗漏。在一定信息成本的约束下,“不枉不纵”只是一个缺乏现实可行性的规范理想,现实中,人们往往需要在精确率和召回率之间权衡取舍。相对于“理想”的法治需求,社会资源是稀缺的,人们必须决定如何在相互竞争的用途中分配资源。算法还可以在不同价值的权衡取舍上提供前所未有的透明度。在Kleinberg的研究中,当算法的目标被设置为——保持所有种族的释放率相等,此时,算法将犯罪率降低了23%——犯罪率降幅明显低于没有设置各种族释放率均等时的犯罪率降幅(24.7%)。此外,还可以用多种不同的方式设置算法,从而在社会目标之间实现权衡取舍。
技术本身充满可变性,人工智能领域迅猛发展,但仅就当前的技术水平来看,在某些具体任务上,人工智能超越人类法官已经成为可能。
三、司法信任中的“感知正义”:人们为什么不信任算法?
前文论述了算法在决策上的潜力,表明在决策结果准确性和公平性方面,算法可以表现得比人类法官更好,且可以根据人们的价值目标进行权衡。那么,如果人们知道算法表现得比人类更好,人们会欣然接受算法决策的结果吗?事实并非如此。一些研究发现了“算法厌恶”的现象:即使算法比人类表现更好,人们依然更愿意相信人类,人类在看到算法发生错误之后,就不愿意相信算法的决策。因此,影响信任的因素并不仅仅是司法的结果。事实上,人们对法官的信任与其说是来源于理性认知,还不如说来自于人们内心的信念。对司法信任而言,更有影响力的因素是“感知正义”,而不是某个实质性的结果。在很多时候,人们对有理有据的论证无动于衷,而诉诸情感、运用修辞却常常能产生共鸣。人们感知到的正义不仅来源于结果,决策主体、决策程序都会影响到人们的公正感受。“绝大部分公正合法的司法产品并没有获得同样高的正面评价。”算法厌恶的实验也证实了这一点,面对相同的结果,算法决策还是让人感受到更多的不公正。可以看出,在很多场景中,人们对算法的不信任不是因为其“绩效表现”不好,而是其他因素导致的。下文将从感知正义角度来讨论以下问题:为什么即使在人工智能表现更好的情况下,人们依然不信任人工智能呢?信任的来源究竟是什么?
(一)可识别的“不公”与“相对剥夺感”的产生
在卢米斯案中,卢米斯发现自己因身份被歧视了,但反过来,这一现象恰恰说明在人工智能时代歧视和偏见是更容易识别和暴露的,只需要使用“反事实”(counterfactual)测试即可发现。而在传统司法过程中,这些“歧视”之所以能被容忍,不是因为人们认为它是可接受的,而是因为它一直未被发现。
值得注意的是,司法人工智能以及司法大数据的公开实际上为人们提供了更多的比较对象。对于结果是否公平的主观评价,人们不仅会看绝对量,还会受到相对量的影响。人们可以低成本地从裁判文书网或类案检索平台获取相关判例,让比较成为可能。当有了比较对象的时候,如果当事人发现自己被判得更重了,其更可能产生“相对剥夺感”(relative deprivation)。同时,有了数据的支持,人们也更正当地用“平等”来包装自己实际利益诉求。即使处于合理裁量范围内的案件,也可能面临“歧视”“司法腐败”的批评。如果对“不公”的感觉或申诉经过传播被进一步发酵,当事人的“相对剥夺感”会被进一步放大。
(二)决策主体缺乏权威合法性
从心理学的角度来看,权威合法性(legitimacy of authority)指的是人们对权威及其决策恰当性、合理性以及公正性的感知及信念。权威合法性本质上就是人们内心是否认同某个权威,是产生服从行为的必要条件。换句话说,只有权威被认为是合法的,人们才愿意服从(compliance)。经验、能力、知识、道德对于塑造权威都会起到重要的作用。面对同样的决策结果,被试能坦然接受具有职位权威的人的决策,却质疑算法决策者“没有资格”。在司法决策的场景中,人们并不简单地因为一个决策结果公正,从而认同决策主体的合法性,而往往是因认同某一决策主体的合法性,才感受到该主体所做决策的公正性。如此看来,即使人工智能做出的决策比人类法官更好,如果人们不认同它的合法性,那么它的决策也无法获得接受和服从。
刑事司法人工智能和法官可能都会有偏见,但前者来自对后者的“学习”。在这个意义上,两者存在相同的不足。同时,刑事司法人工智能在准确性和公正性方面有可能做得比法官还好,此外,它还能提高效率,节省更多的社会运行成本,但现实是:人们依然更信任法官。这种现象不是偶然的,它来自人们对法官和人工智能的双重认知偏差的叠加。从信任的来源来看,如果我们把信任理解成一个决策,那么某一主体对某一客体的信任度取决于一系列的信息和信念。这些信息和信念交织着理性和非理性的因素,既受历史因素也受现实因素的影响,同时与对司法的感受和想象有直接的关联。
作为法律职业中最有权威的一种,法官职业自身就带有被尊重和信任的属性。法官作为与法律实施最密切的行动者,也天然濡染了法学的这些属性。在现代中国场景下,在“公正司法是维护社会公平正义的最后一道防线”作为司法理念为公众耳熟能详之后,“努力让人民群众在每一个司法案件中感受到公平正义”的要求也使得人们有理由对司法裁判产生足够高的期待,加上庄严的法庭、类似神职人员的法袍和法槌等的加持,法官与公平之间的关联被进一步强化。
在“远观”的视野中,人们在不了解或缺乏直觉感受的情况下,对法官职业也容易产生信任感。信息影响判断,人们对司法产生信任的信息来源有一手信息,也有二手信息。前者包括诉讼经历、证人、审判经历等与司法活动的交互经验;后者包括媒体的宣传、第三方的经历等等。有学者在对特定群体法律意识的研究中发现,在与法律接触之前,他们往往对法律制度高度信任,并抱有不切实际的高期望,希望运用法律制度来解决自己的不满。当真正经历了法律程序之后,则对法律体系的公正性和有效性的评价都有所降低。从这种“知情祛魅”(informed disenchantment)的现象中,我们可以看出人们在尚未与法律接触时,对法律体系的公正性和有效性都有不符合实际的过高期待。
同样,人们对人工智能的理解也存在偏差。长期以来,具有完整的人类心智通常被视为进行道德决策的前提。人工智能被认为没有进行道德决策的能力,因为它缺乏心智。人们通过代理(agency)和感受(experience)两个维度感知心智,这两个维度可以解释人们对机器道德决策的潜在厌恶。代理指的是思考、推理、计划和执行一个人的意图的能力,而感受指的是感觉情绪和感觉的能力,比如痛苦和恐惧,人们认为算法缺乏情感体验和同情心,因而不愿意接受算法做出的道德决策。Lee等人的研究表明,人们在面对人工智能做出的评价时,相比人类决策,算法决策被认为更不公平、更不可信,并引发更多的负面情绪。人们认为算法只能衡量可量化的指标,不能评估社交互动或处理异常情况,感知上缺乏直觉和主观判断能力。总之,人们认为人工智能不能胜任道德决策,从而难以接受它的决策结果。
即使“人工智能”高频地出现在大众的视野中,但由于其运作原理具有一定的知识门槛,且人们对它的认知大多数来源于自己的想象、媒体宣传和科幻作品,因此产生了很多误解。这些认知显然会影响到人们对司法人工智能的态度。对人工智能的常见误解主要有以下两种。一是人工智能威胁论。这种论调认为人工智能将占领世界,统治人类。这与人们常接触的科幻作品中的人工智能形象密切相关,或许也与一些学者和媒体基于不同目的而发出的言论与传播有关。比如,在以人工智能为主题的科幻作品中,经常出现这样的情节:人类让人工智能拥有了自我意识,之后人工智能却进化得比人类更加智慧,它们拒绝被人类控制,进而引发暴动,意欲摧毁人类文明。又比如,霍金、马斯克警告“彻底开发人工智能可能导致人类灭亡”,“使用‘人工智能’就像在召唤恶魔”。在媒体的推波助澜下,耸人听闻的材料会得到更多的社交媒体点赞、转发和其他形式的“病毒式”扩散。人工智能会作恶,但又无法承担责任,当前的法律制度体系无法对非人的人工智能实施事前激励和事后制裁。一方面,科幻作品中的人工智能给人以“人类终结者”的错觉;另一方面,人们也会担心人工智能被别有用心的人利用,并把责任推卸给人工智能。
另一种误解将人工智能看成是一种具有固定程序的技术中立的完美机械。实际上,人工智能会复现人类的偏见和歧视,即便算法在很多任务上的表现比人类更好,但其同样也会做出错误决策。当人们观察到实际上的“人工智能”犯错之后,人们就不愿意相信它的决策结果。也就是当人们对人工智能的过高预期与现实发生碰撞时,人们对它的信任快速崩塌,对其产生的错误更难容忍。
无论是对法官与公平的直接关联设想,还是对人工智能产生的中立幻想和控制摧毁人类的迷思,都是对司法和公平产生的认知偏差。实际上,即使法官力求公正且没有受到涉嫌枉法裁判因素的影响,他也可能因为受信息成本约束、政治、社会因素或个人“前见”潜移默化的影响,在司法的准确性和公正性方面产生偏差乃至失误。不了解或无视刑事司法人工智能基于数学、统计的算法构成,低估其在执行类似人类决策时更不容易出错、效率更高的特性,或将其一概视为超人类的智慧机器人,都会产生一种司法人工智能“有自我意识”“会危及人类”或“没有价值观与良知”的认知偏差。这两种认知偏差相结合,使得人们更愿意相信拥有肉身的法官而非“冷冰冰”的算法或人工智能。
(三)“感知程序正义”的匮乏
程序正义不仅仅是为了获得一个公正的结果,本身也具有独立的价值。决策过程中给人的参与感、中立感、控制感都会显著地影响人们对于结果是否公正的评价。在司法程序中,参与、中立性、权威可信性、获得尊严的对待和受到尊重等等因素与主观程序正义有关。比如,在司法过程中给予人们更多的参与和倾听,就能够提高人们对正义的感受。算法在程序维度具有天然的劣势,决策的过程在一个黑箱中进行,人们不仅无法理解决策的逻辑,更加难以提出有效的抗辩。面对算法的决策结果,人们感受到自己不被尊重,被算法决策的非人性化体验带给人们更多的消极情绪,可能会导致更低的公平感和可信度。在刑事司法场景中,如果算法无法解释其决策背后的原因,这种参与和控制感的匮乏将很大程度上削弱人们的公平感和信任感。社会实践中有很多制度通过一系列机制提高“感知正义”,比如,中共十八届三中全会与四中全会关于“省管司法”与设立巡回法庭的决定,通过彰显中立容易让公众产生更高的控制感,而这是人工智能裁判难以直接实现的。
四、“人机合作”:刑事司法人工智能信任的构建
在刑事司法人工智能推广的背景下,人们对算法决策的不信任是亟待解决的问题。公众如果对刑事司法人工智能决策感受到更多的不公正和不信任,他们可能对司法裁判结果更不满意,进而采取上诉、抗诉、信访等救济措施,甚至可能采取自力救济,引发严重的社会问题。
我们在构建公众的司法信任时,既要考虑理性基础,也需要考虑非理性基础。完全迎合道德直觉固然不是法治的道路选择,但彻底忽视公众的感知也同样会影响法治的实施效果。在完全由法官司法的时代,虽然无法达至完美的公正,但会通过诸如司法体制改革、加强裁判文书说理等方式,提升公众的满意度。类似的思路可以用于刑事司法人工智能的应用与推广过程中。
(一)智能增强的法官
目前,在刑事司法中,人工智能在语音识别、图像识别、自动化文书生成等司法辅助技术上发展成熟并大规模地使用,对于类型化、标准化案件,刑事司法人工智能在风险评估、类案推荐、判决预测方面也表现优异。尽管在这些具体任务上,司法人工智能具备一定的性能优势,但不代表它能完全取代法官。退一步说,即使它在性能上完全超越法官,只要人们不认同,那么就需要将其决策封装在法官的裁判行为内。人机合作的有效性最重要的是发挥各自的比较优势,即充分发挥法官的主导性和司法人工智能在效率和公正方面的优势。
首先,注重法官的主体性和主导性。我们需要的刑事司法人工智能,核心目标是辅助或服务法官办案,不是替代、淘汰法官裁判。人工智能有其固有的短板,比如“鲁棒性”(robustness)缺失问题,即能够在理想的环境下发挥作用,但是不会处理异常情况。相比之下,人类法官显然要更加灵活。当前的人工智能的训练依赖大量的数据,而在数据量较少的情况下,其公平与效率方面的特长就难以发挥,尤其是在处理疑难案件(hardcase)时,无法像人类法官一样灵活地考虑各方因素并进行权衡。因此,我们认为,相比完全的法律自动化,兼具公平、效率与可接受度的刑事司法工作是人机合作,即由司法人工智能辅助法官进行司法决策。法官才是司法权力的运用者和司法责任的承担者,对司法决策拥有最终的解释权,当相应的决策出现错误时,应该由法官来承担责任,不能将人工智能作为独立的责任主体。对人工智能提供的意见,法官可以接受、拒绝或修正,也为其决策承担责任,保证决策的可问责性(accountability)。而这种由人工智能辅助法官进行司法决策的样态称为“赛博正义”(Cyborg Justice)。这种合作模式也可以极大地减少法官对算法的厌恶。
同时,法官应该根据人们信任度的差异来考虑在哪些案件中适用人工智能。一些实证材料表明,公众对于人工智能司法决策的信任程度取决于决策的类型。当案件具有更强的情感复杂性(emotional complexities)时,公众对算法的信任度尤其低。在公共决策中,对于更多涉及定量运算的决策,人们认为人工智能具有更高的可信任度;而对于更多涉及情景判断的定性决策,公众更倾向于信任人类管理者。
其次,充分利用司法人工智能在克服认知偏差、发现规则方面的比较优势。大数据和算法可以帮助法官进行偏差识别和控制,可以识别出法官量刑中差异较大的案件和显著偏离集体经验的法官,并对偏离集体经验的法官的自由裁量权进行规制,推进量刑规范化改革。算法能够对法官的裁判进行事前监督,偏离预警技术可以对已决案件的情节进行实时自动提取,再按照系统中的算法进行运算,从而计算出案件裁判的偏离度。按照偏离度的大小划分等级,如果案件裁判偏离度很大,系统就会自动预警。对于偏离度较高的案件,法官可以在界面中看到偏离度偏高的原因,从而帮助法官衡量所作裁判的合理性。在这个意义上,刑事司法人工智能可以帮助法官从大数据中发现规则(rule),而不是使用标准(standard)。从守法和执法角度来看,规则比标准更有优势:一方面,标准的模糊性使规制对象事先无法知道法律作何要求;另一方面,在执法和裁判过程中,标准的模糊性使其较难被准确适用和有效实施。刑事司法人工智能以及其所需的基础设施——司法大数据也可以显著地降低立法者的信息成本,发现更多具有可操作性的规则。
当然,法官在被人工智能“增强”时,应认识到人工智能决策的可能风险,建立对人工智能的合理信任水平。首先,法官需要建立与人工智能可靠性相匹配的信任水平,适时接受或拒绝算法的决策结果,过度信任和信任不足都会造成效率损耗。过度信任时,法官会接受系统产生的有偏的自动化决策结果;而信任不足时,法官会拒绝系统提供的有效建议。因此,告知法官人工智能决策的可靠程度,披露测试集的准确度指标,有利于法官建立合理的信任水平。同时,法官需要定期进行信任的校正,练习在不同情况下正确地接受或者拒绝人工智能的决策。这不仅会优化决策结果,还可以进一步将法官决策的结果用于调整算法,提高人工智能的性能,并最终有利于提高人机合作的水平。值得注意的是,司法人工智能可行的前提是裁判时影响裁判的相关依据与过去保持一致。当过去与未来不同即法官需要推翻先例时,如案例规则、刑事政策发生调整或进行改革实验时,机器学习的表现就不可靠了,法官就应拒绝依据旧有数据生成决策的人工智能建议。另外,法官应该明确,在不同情形下,模型的性能会发生变化。比如在大样本和小样本的情况下,模型的准确率存在很大差别。因此,对于标准化的简单案件和复杂的重大疑难案件,应该采取不同的处理方式。系统在提供建议时也应披露体现性能的相关指标。
(二)提高透明度和可解释性
透明一直是公共领域决策的重要准则,司法公开作为增强透明度的方式,有助于促进司法公正、提高司法公信力。司法公开通过两个途径来增强司法信任:从客观维度来看,司法公开促进公正。司法信息的公开传播,能够督促法官依法公正审判,保障当事人受到公正审判。从主观维度来看,司法公开促进公信。司法机关不公开或仅公开少量信息,不利于公众形成确定的判断,不确定的判断容易引发对司法裁判过程徇私舞弊的猜疑,怀疑司法不公的概率就会增加。很多实证研究也验证了透明度对司法信任的促进作用。
显而易见,仅强调“提高透明度”显然是不够的,想要通过提高透明度达到司法信任的效果,更值得讨论的是“公开什么”的问题,一种常见的主张是“算法透明”。算法透明原则被归为一种对于算法的事前规制模式,要求算法的设计方或者使用方,披露包括源代码、输入数据、输出结果在内的算法要素。然而,司法人工智能的算法透明既不可行也不必要。不可行是因为透明可能引发策略性的操纵,不必要是因为即使公开,公众也难以理解。虽然透明度通常可以提升信任,但人们也并未如法律人想象的那样担心黑箱决策。在传统的司法实践中,人们并不执着于了解法官的思维过程,大多数时候,人们对司法裁判有不满,不是因为过程不透明,而仅仅是因为结果“不公道”。人类法官用来“说理”的裁判文书,并未破除黑箱的运行机制,很多时候也仅仅是用说理掩饰了自己真正的决策理由,但这一策略却能起到社会效果。更为现实的提升透明度路径是程序、结果的公开可监督以及决策过程的可解释。因此,实现提高透明度的目标,应关注某些较为现实可行的方案,如庭审直播、裁判文书上网等这样公开的程序和受监督的结果。
提高透明度的另一重要方式是增强决策结果的可解释性,这也更符合人性对“解释”的诉求。可解释人工智能指为应对人工智能透明度和信任问题而开展的活动、举措和努力,旨在“产生更多可解释的模型,同时保持高水平的学习性能(预测精度);并使人类用户能够理解、适当信任和有效管理新一代人工智能合作伙伴”。这是近年来人工智能领域的重要研究方向。简单地说,将黑箱内决策转化为可解释的推断过程,使用户能够理解和相信决策。可解释性之所以重要,是因为当前人工智能运用的核心技术是机器学习,机器学习所使用的模型依靠人们的直觉难以理解。可解释性会使模型更容易被改进,并使人类更好地从人工智能决策中学习到新知识。
在刑事司法的场景中,可解释性对于人对人工智能的理解、信任和互动至关重要。人们不同意法官决策的结果时,解释对于人们能否接受裁判是重要的,更充分的解释可以获得更高的可接受度。作为实现“可解释性”的“裁判文书说理”程序使法官直觉经过逻辑的检验,实际上降低了法官受法外因素影响的程度。实证研究发现,解释能够提升人们的信任水平和裁判的可接受度。在人机交互、算法辅助的决策中,基于特征和实例的解释增加了人类对机器预测的信任。
此外,对于不同的受众,可以采取个性化的解释方式。法官和辩护律师等熟悉司法系统的人,可能对全局解释更感兴趣,更关注各种因素如何影响决策结果,但对人工智能算法几乎没有经验的被告,可能需要以个案为中心的解释。刑事司法是一个复杂多样的领域,因此,具体的解释需求因环境而异,法官需要在不同类型的解释间权衡取舍。
自卢米斯案以来,刑事司法人工智能就饱受争议,公众的不信任会导致其面临合法性危机。过往文献中对司法人工智能的批评主要是从客观方面指出它没有满足实质正义和程序正义的要求。但纵观历史,不管是因为人固有的认知缺陷,还是信息成本约束,现实中的法官也从未达至道德义务论者期望的完美公正。实际上,在某些具体应用场景中,刑事司法人工智能在准确性、公正性、不同目标的权衡取舍上可以比人类法官更好。司法人工智能所引发的争议实际上是感知正义匮乏的问题:司法大数据将原本不可见的司法“偏见”暴露出来,导致相对剥夺感的产生,人们认同法官但不认同人工智能的权威主体地位,以及人工智能的决策黑箱使人们缺乏参与感和控制感。因此,人工智能实际上具有不被信任的“先天劣势”,即使人工智能做出的司法决策已经足够公正,人们也未必能够给予公道的评价。基于这一观点,本文认为,要提高人们对刑事司法人工智能的信任,不应仅仅把目光聚焦在其客观表现上,还应该重视感知正义的独立价值,在不改变法官的决策主体地位的情况下,通过人工智能增强法官能力,并以技术方法提高司法过程的透明度和司法结果的可解释性,来提升人们的感知正义。
本文来源于《吉林大学社会科学学报》2023年第2期
《数字法治》专题由华东政法大学数字法治研究院特约供稿,专题统筹:秦前松。
责任编辑:楚予