近几年来,随着深度学习技术的日益成熟,计算机运算速度的大幅提升,加上互联网时代积累起来的海量数据,人工智能更是蓬勃发展,呈现出深度学习、跨界融合、人机协同等新特征。司法亦加速融合于智能科技之中。司法裁判直接关系到公平正义的实现,其人工智能化实现的程度及方式深受关注。
人工智能的司法裁判场景
人工智能(Artificial Intelligence,简称AI)这一概念正式提出于1956年的达特矛斯会议上。在人工智能的发展过程中,影响最大的技术学派当属符号主义和连接主义。
(一)两大技术流派考察
符号主义,又称为逻辑主义、心理学派或计算机学派,其核心理念为所有与智力相关的工作都可以归结为对符号的操作。符号主义的代表算法是逆演绎算法,代表应用为知识图谱。在1956年首先采用“人工智能”这个术语的,正是符号主义学者。符号主义曾长期一枝独秀,尤其是专家系统的成功开发与应用,为人工智能走向工程应用发挥了重要作用。
连接主义,又称仿生学派,其原理为神经网络与神经网络间的连接机制与学习算法,与概率统计密切相关。连接学派的主算法是反向传播和深度学习,代表应用有语音识别、图像识别、自动驾驶。1986年,鲁梅尔哈特等人提出多层网络中的反向传播(BP)算法。此后, 从模型到算法,从理论分析到工程实现,连接主义势头大振,为神经网络计算机走向市场打下基础。淘宝首页的“千人千面”、今日头条精准推送均运用了连接主义技术。
符号主义技术与连接主义技术各有优劣。符号主义技术在缺乏数据资源时可以根据预先设定的规则准确地计算出结果,但梳理规则费时费力,“有多少人工才有多少智能”,况且能通过逻辑规则定义的概念仅是冰山一角。连接主义技术则可以在具有丰富的高质量数据时,运用深度学习等算法得出结果,但在数据资源匮乏或者质量不高时,则实现效果不尽如人意。
(二)国内外人工智能司法应用与研究
1.国外司法应用与研究
探索人工智能在法律领域中的运用是法学家及科学家的热门话题。美国伊利诺伊理工大学科学家用一种被称为随机森林的机器学习统计模型,对1816年到2015年美国最高法院的判决进行预测,准确率高于70%,该院法学教授丹尼尔·卡茨的团队利用最高法院数据库,为每个投票标注了16个特征,包括法官任期、诉讼发起法庭、口头辩论是否被听到等。该模型先学习了1816年到2015年美国最高法院案例特征与裁决结果之间的关联,然后按年份研究每个案例的特征并预测裁决结果。最后,该算法会学习预测的结果,并升级以后判决的策略。结果显示,对于28000项判决结果及24万张法官投票,新模型算法预测的正确率分别为70.2%和71.9%。
据Gardian等国外媒体报道,伦敦大学学院(UCL)、谢菲尔德大学和宾夕法尼亚大学的科学家的研究表明,人工智能法官模型在测试的584个案件中,通过与欧洲人权法院的审判专家组判决结果相比,平均正确率达到79%。
在保释与假释决定中,美国一些州法庭使用算法来确定被告的“风险程度”:从这个人会再次犯罪的可能性,到被告会如期出庭的可能性等各个因素,进而决定是否对其保释或假释。此外,法律人工智能还被用于法庭量刑。
2.国内司法应用与研究
上海研发的“206系统”设计有26项功能,88项子功能。该系统不仅能够通过制定统一适用的证据标准指引、证据规则指引,嵌入公检法司机关刑事办案系统中,为办案人员收集固定证据提供指引,还能够对证据进行校验、把关、提示、监督。比如,在法庭调查阶段,若证据不充分,系统将提出证据瑕疵,并自动提示合议庭重点关注。
杭州互联网法院网络交易全程智能化审判系统,将起诉、答辩、举证、质证、庭审结构化、要素化、数据化,引导当事人说清诉请和事实,智能生成争议焦点。基于法官的专业积累,学习海量案件,形成电子商务完整的知识图谱,利用专业的算法,自动提取裁判风险点供法官确认,智能生成完整的判决书。
从上述中外司法实例可以看出,以法律知识图谱为核心的符号主义与利用机器进行深度学习的连接主义是被运用最多的技术。通过规则的梳理形成法律知识图谱适用于个案是当前主要的做法,机器学习的运用则是热门。
优缺点分析与融合之道
(一)符号主义的裁判应用分析
符号主义基于符号的逻辑规则展开,采用if…then的语句设计,确定性强,通过规则的梳理形成法律知识图谱适用于个案,在依赖严密逻辑的司法裁判中比较容易被理解与接受。它具有如下优点:一是符合立法与司法的关系,以及法官依法办案的要求。“三段论”作为基本的裁判逻辑,法官在具体的案件中以法律规则作为大前提,案件事实作为小前提,推导出结论,从而保证把抽象的法律应用到个案中。二是能够给占多数的速裁案件提供有力辅助。速裁案件事实清楚,适用的法律规则明确,案件事实是否符合特定情况下的行为模式相对清晰,从而较容易也较准确地得出该案是否适用法律规则中的法律后果。三是技术要求相对简单。法律规则的梳理可以基于法律专家的经验,不需要大量数据的训练,典型的代表为法律专家系统。
该模式最大缺点是封闭性,原因在于这类裁判系统以既有的人工梳理的法律规则为前提,当法律规则变化时,系统不能自动识别并作出相应调整,需要人工再次干预调整,无法自动适用新的规范环境。其次,知识图谱的梳理传统上比较依赖于人工,图谱构建速度与精度不足导致案由覆盖范围十分有限,甚至只能解决一个案由中的某种类型纠纷。再次,知识图谱构建好后,可能需要借助成熟的自然语言处理技术来匹配案件事实与法律规则中的行为。绝大多数研发主体较多地运用了通用的自然语义识别技术,未针对性地根据司法场景进行开发,就容易造成基于知识图谱提取案件情节时产生错误与遗漏。
(二)连接主义的裁判应用分析
连接主义基于概率统计展开,模拟神经网络的工作机制,通过输入输出的闭环训练,具有学习进化的能力,在生动具体的个案裁判中有独特的价值。它具有如下优点:一是具备开放成长性。数据的积累与训练为机器学习提供了充足的素材,数量越大,沉淀越丰富,推送越精确。二是体现不同案不同判的价值。现实生活是丰富的,最厉害的专家也难以穷尽提炼。大量的规则散见于案例中,难以被抽象提炼。此类案例规则可以成为机器学习的对象,推送应用于案件中。三是满足法官裁判的个性化需求。机器学习可以基于法官的反馈情况比如法官使用痕迹进行不断优化,在与法官的长期互动中,能够捕捉并满足法官的偏好,形成针对特定法官的特定推送。四是提供更多的裁判辅助。符号主义的系统中规则缺失时,系统无法提供任何帮助,在连接主义模式中,几乎不存在这种可能性,机器始终会尝试推送最相似的结果供法官参考。
该模式的最大缺点在于机器首先需要大量甚至海量的数据训练,个案中的裁判推理是大量规则的组合,至少需要成千上万的数据学习才能让机器识别特征。其次,机器学习推送的结果具有随机性,再加上法官偏好的多样性,难以保证法律的统一适用与质量控制。最后,机器学习质量受算法影响,算法模型技术难度相对较大,实现成本高。
(三)融合的路径
人们对司法的期待既有稳定性、确定性的一面,也有开放性、个性化的一面。法律需要成文法条来满足秩序的需求,也需要个案解释来满足变动的需求。符号主义恰好对应于前者,连接主义则对应于后者,二者在裁判应用中应取长补短,融合发展。成文法系的国家以法条作为治理的基础,人工智能的裁判应用中应以符号主义为主干,以连接主义为枝叶,形成智慧裁判之树。
1.按法治逻辑构造智慧树之主干
法治是规则之治,理想的依法裁判完全凭借案件事实与法律规则的逻辑关系,不受非法律或非逻辑因素的干扰,从而保证法律的普遍适用。知识工程与知识图谱,将表示学习与符号逻辑相结合,能够产出效果可控、计算机可读的法律推理逻辑,最能保障法律严格贯彻。该模式自然成为智能化裁判的首选方案。司法裁判中的规则分布于以宪法为核心的成文法律、案例、法理之中,经过梳理整合形成具有逻辑层次以语义网络形态存在的主干,即法律的知识图谱。
2.按数据量、要素化程度延伸枝叶
在智能审判化初期,由于数据量少质差,通过成文法则的精细化解析,梳理形成精细化的枝干,可以提高机器学习的效率。具有强要素特征的案件,甚至可能完全使用结构化细分整合的方式形成裁判。当可用的数据积累到通过算法足以识别案件的特征或者要素,深度学习类算法开始发挥自己的优势,发挥实质性作用。司法不能拒绝裁判,在知识图谱空白之处,自然语言处理与搜索推荐技术能够帮助推荐相似案例。
3.知识图谱的学习式构建
人力永远是有限的,人的错误和失误很难避免,而法律规则在不断更新演化中,保证规则的与时俱进,需要以算法的方式在两类模式中架起桥梁,通过机器学习的方式推动知识图谱完善。知识图谱在适用于个案的同时,应该吸收个案中的法律规则,案例经过学习可以丰富知识逻辑树的枝干。现阶段,法律知识图谱构建的自动化水平较低,对人工过度依赖,导致构建速度慢、精度不足、成本高。笔者认为,可以借鉴国际上基于数据驱动的自动知识图谱构建方法,如基于 Wikipedia infoboxes等结构化数据的构建方法、基于开放文档构建(schemaless)、基于fixed ontology/schema的构建方法和基于层次化本体 (ontology) 的构建方法,整合资源设计一套框架来实现法律知识表示和推理,将知识图谱实体、关系、词林、垂直知识图谱、机器学习算法模型等都纳入进来做统一的描述。
智能裁判的实现路径
通过知识图谱、标签技术、结构化电子数据库、搜索引擎的构建和深度学习等算法的应用,实现智能裁判,是法律人和法律技术人员共同追求的目标。如前文分析,融合符号主义和连接主义的模式在当下具有优势。但是,应当承认,通过这个模式走向“强人工智能”也还有很长的路要走,在构建完备可用的法律知识库、积累大量优质的电子化案件数据、探索先进有效的算法、培养优秀的法律人工智能复合型人才等方面需要解决很多问题。
(一)构建完备统一可用的法律知识库
发展智能裁判,法律知识库是基础。法律知识库本身是一种信息库,包含了推理规则以及经验的信息。收集最新最全的法规、权威准确的案例、专业详实的法学文献是必要的,但这还远远不够,因为目前的人工智能技术还无法直接理解、学习、应用这些信息。应当打通法律规范、案例事实、裁判要旨、学术观点等内容之间的逻辑节点,并借助人工智能在语义分析、相似度排序、数据挖掘等技术,构建一套完整的、通用的、统一的、可利用的法律知识库,为法律语言理解、法律人工智能技术迭代打下基础。(葛翔:《司法实践中人工智能运用的实现与前瞻——以上海法院行政案件智能辅助办案系统为参照》)
法律知识库建设中的一个突出问题是规则的冲突。同一假定条件下规定不同的行为模式,不同地区、不同法院同案不同判,不同的标准给智能审判系统的开发造成了困扰与障碍。对此,一是应完善相关法律法规,健全我国法律体系,消除体系内部的规范冲突。二是应打破裁判规则的地域限制。加强上级法院的指导,强化各区域、各法院的司法协同,统一裁判尺度。三是应规范自由裁量权的行使。审判人员应严格遵守法律明确规定的裁量范围。法律本身存在空白或冲突的,通过分析其问题、漏洞,及时更新裁判规则。
(二)积累大量优质的电子化案件数据
发展智能裁判,电子化案件数据是前提。目前司法大数据与人工智能应用的涌现与中国裁判文书网的文书公开是分不开的,但尚不足以较好地支持智能裁判的发展。一是中国裁判文书网上结案文书的数量有限。二是反映的案件信息不全。三是公开的文书的质量良莠不齐。
要实现智能裁判,应当积累数量更多、信息更全、质量更高的电子化数据,为机器学习创造条件。首先,应在全国层面进一步推动案件数据的全程电子化。除了裁判文书的数据,还要积累起诉、立案、举证、质证、庭审和证据等方面的电子化数据。案件的电子数据尽量文本化,仅将书面的案件材料扫描转换成电子版本的做法因后续一般还涉及图文转换,会影响数据的准确度和获取效率。其次,应进一步推动司法公开,加大数据开放、共享。在确保数据安全、合法合规的情况下,将立案、证据、庭审等数据通过一定形式、流程公开或者共享给有关单位。再次,应确立司法数据标准,为法院之间或者法院与有关单位之间的数据流通和数据利用提升质效。
(三)探索先进有效的算法
发展智能裁判,算法是智能化技术的核心。人工智能“看”“听”“读”“懂”和“搜集”“判断”“写作”的背后都需要算法的支撑。
知识图谱的学习式构建、案件信息的挖掘和处理等等,运用了深度学习、特征学习、迁移学习等优秀的算法。通过这些算法,智能裁判系统才能具备自我构建能力,能够随着计算、挖掘次数的增多而不断自动调整算法的参数,使挖掘和预测结果更为准确。(王禄生:《司法大数据与人工智能技术应用的风险及伦理规制》)计算机视觉和语音处理方面,在司法实践中主要是运用了OCR文字识别技术和语音转换技术。总体而言,上述两项运用的效果较好,但也还有不尽如人意之处,比如很难识别手写的文字。自然语言处理方面,机器通过该技术才能对法规、案例、证据、文书等进行精准地“识别”“解析”“搜集”“理解”“判断”“生成”。但是,在裁判时,机器要在“法律条文与现实世界中来回穿梭”,客观上制约着机器对法律语言的理解和处理。笔者认为,自然语言处理应当结合深度学习等算法,让机器尽可能像人类的大脑一样学习、思考,并做出正确的决策。
(四)培养优秀的法律与人工智能复合型人才
发展智能裁判,复合型人才是关键。探索完成上述三方面的工作,需要大量既懂法律、又懂技术的人才。法官与技术专家沟通的成本较高,裁判语言难以转化为技术语言。一方面,有些法官不了解、不认可人工智能,有对人工智能抱过高的不切实际期望的,也有人担忧人工智能的发展会损害人类利益。另一方面,技术专家对法律概念、诉讼流程、判案逻辑的了解有限,难以将技术运用到裁判中。
目前,人工智能技术+法律的复合型人才较少,亟需加强队伍建设。一是可制定与复合型人才相适应的招录政策,吸收一定数量素质较高的具有技术背景的人员。二是可构建培养机制,形成复合型人才培养体系。制定特殊的人才考核和奖励机制,实行专门人才管理制度,升级打造复合型人才库。三是可加强法院与院校、技术公司的合作。三方联合设立法律与人工智能研究院或者开设有关课程,相互派员讲授、学习法律和技术知识,共同参与有关项目。将法官、技术专家、法学专家和法科学生集合成包容并蓄的团队,协同推进各类数据库的建设与核心技术的研发。
总体上看,法律行业应用人工智能技术的水平还在初级阶段。我们应当保持乐观的心态,树立理性务实的发展理念,发挥丰富的想象力,既拥抱技术,也不一味地迷信技术,既讲究技术突破,也注重人文关怀和道德伦理,将符号主义和连接主义相融合,并在知识图谱、数据、算法与人才方面夯实基础,从而推动人工智能与法律行业的有效结合起来,为司法现代化开辟智能新路。