前沿｜周翔：算法可解释性概念的规范展开

2023/7/10 9:44:29　阅读：127　发布者：

以下文章来源于比较法研究，作者周翔

算法可解释性：一个技术概念的规范研究价值

作者：周翔，浙江大学光华法学院特聘副研究员，法学博士。

来源：《比较法研究》2023年第3期。

摘要

算法可解释性，是被现有算法规制理论所忽略的技术概念。由于缺乏对这一概念的引入和诠释，算法风险的准确判断与归纳、规制工具的主次位阶性、设置合理的规制效果目标等方面，均存在不同程度的认识偏差。对这一概念的技术视角分析确有必要，算法解释有两大差异较大的技术类型，算法解释的技术能力划定了可解释的最大边界，当前技术条件不一定满足算法规制的需求，原因是解释技术的开发并不是为算法规制专门设计的。这一论断有助于厘清既有的算法规制理论，在算法风险层面，解释技术直接破解的只是算法黑箱问题；在规制工具层面，一切制度工具应考虑解释技术的可行性；在规制目标层面，要结合解释针对的用户、场景和用途设置预期。

关键词：算法可解释性；算法黑箱；算法歧视；数字法学

一、问题的提出

二、算法可解释的技术视角展开

三、可解释对精准识别算法风险的价值

四、可解释对厘清规制工具关系的价值

五、可解释对合理设置规制目标的价值

六、确立技术和规范二阶思维的普遍意义

结语

一、问题的提出

人类社会正步入数字智能时代，算法所驱动的自动化决策终将成为社会不可或缺的基础设施。网络空间中已高频地使用算法，互联网产业的方法论也从用户检索升级为被动推荐，比如推送广告、分配外卖订单、匹配社交对象等场景，已经全面应用算法推荐工具。算法应用的场景还从线上延伸至线下，医疗诊断、司法裁判等过去依赖人类判断的专业领域，也正在被机器算法渗透。产生的原因可能有两方面，一方面是人类社会越来越离不开算法，另一方面是自动化决策对既有社会秩序构成了风险。对算法予以规制、赋权、治理逐渐成为了法学理论的共识，在可预见的未来，算法领域的法学研究都将围绕在拓展应用和合理规制之间摇摆取舍。

既有的算法规制理论体系，由算法的风险、工具和目标三大部分组成。首先是识别出了自动化决策带来的一系列风险，比如算法黑箱、算法歧视等；其次从目标层面提出算法规制所希望达到的效果，比如算法透明、算法可信等；最后是联接两者的一系列算法规制工具，包括行政监管、赋予私权和企业自查等。算法解释相关概念在既有体系中一般被作为算法的规制工具，但这明显低估了“算法的可解释性”这一概念，正如有学者所言，“法学界此前相关研究提及可解释性者较多，但真正说明何为‘可解释性’者寥寥无几，并且相关认识失之偏颇”。

对于这一概念的忽略，导致算法规制理论的多个方面存在模糊地带，比如在算法风险的识别中，所有的算法问题归结于“算法的不可解释”是不恰当的；就算法规制的工具体系而言，究竟算法的解释技术和其他制度工具间是一种什么关系，尚待进一步澄清；而在规制的目标设置中，算法可解释性究竟如何有助于算法规制的效果实现，也需要结合用户和场景具体分析。严格来讲，算法可解释性是一个计算机科学的术语，暗含着近年来算法领域的技术发展。算法专家经历了从过去单纯强调模型的性能提升，到近来希望兼顾模型可解释性的历程。那么这一原属计算机学科的概念，究竟对当前的规范研究有什么样的价值，作用的限度又在哪？

该问题能否得到及时回应，直接关系到规范研究是否精准锁定问题，能否匹配合适的制度工具，以及出台的制度效果如何。换言之，若没有合适的解释技术，规范层面的多数制度设计都将无从谈起。本文将首先从技术视角出发，介绍算法解释技术的原理和类型、贡献和局限、动力机制等；接着分别从算法的风险识别、规制的工具体系、规制目标的设置三个方面，展开论述算法可解释性这一技术概念对算法规范理论的规范研究价值。

二、算法可解释的技术视角展开

算法的可解释性，本质上是一个实现人类对机器决策监督的技术方案。当前的算法规制理论中有“算法解释”“算法解释权”等各种不同提法，“算法可解释性”和它们既有联系，又有更高的独立价值。算法的可解释性，应将其定位于是人类与自动化决策系统之间的接口（interface），通过该接口把机器的自动化决策纳入人类的监督视野。

（一）可解释的原理：两种差异化的技术类型

关于算法解释的技术，其经典的分类法为内部解释和证明解释，或称之为“全局解释”和“局部解释”，或划分为“透明化”和“事后归因”。三种类型划分方式实则大同小异，通俗的阐释就是两种思路：

第一种技术类型为解释算法的本身，即前述的内部视角。这是一种对模型全局性的解释，旨在实现算法运算过程的透明化，使算法的整体运作逻辑能够为人们所理解。其基本的思想是尽可能说明模型的输入特征和输出结论间的相关性。具体建立相关性的方法比如采用简单的线性回归公式，或者基于规则的方法，或者再造一个模型或一套规则，用于说明该复杂黑箱模型的结构。这一方面已有场景化的应用，比如设计规则抽取器，为神经网络的每一层结构构建对应的决策树并生成中间规则，最后将这些中间规则合并为全局规则，这些全局规则描述了神经网络的内部决策逻辑，为人们提供了窥视算法运作过程的“透明窗口”。

第二种技术类型为解释输出的结果，即前述的证明视角。这是一种事后归因的解释路径，是对输出结果采取具有针对性的个别化、具体化解释，因而相较于全局解释来说，这种类型属于局部解释，即无意于揭示整个算法的黑箱。其基本的思想是在生成模型预测结果的同时，同步设计一个模型生成对该结果的说明。说明的方式可以是一段自然语言描述、输入特征的热力图像、最相近似的案例等。这方面场景化的应用，比如对一张雪地的

“提问”是画面中的人在干什么，“回答”是滑雪，“说明”是他在雪山上并且穿着滑雪服。

以上两种解释方式各有侧重，从原理上两者迥异，内部视角能更好地理解模型网络的决策过程，证明视角则无涉算法构造的本身；从用户体验看，证明视角也许更容易理解，对终端用户可能更为清晰和友好。新近的做法与以上默认采用复杂模型、追求性能预测的思路不同，部分摒弃复杂模型而采用简单模型。这预设了一个前提，像对数回归、线性回归这些简单的算法，天然就具有可解释性而不需要特殊的解释技术，因此在关乎人身权益的医疗和司法等领域，宁可牺牲部分的模型性能，也应采取简单算法。

（二）可解释的贡献：尽量完整还原机器决策

从技术贡献角度进一步分析，算法的可解释性究竟能够为制度设计和法学理论带来什么样的内容？从这个角度看，算法可解释性可以视为一种解释能力的极限状态，即尽力还原自动化决策的内容全貌，还原的程度则取决于算法解释技术的最前沿。以下主要探讨能够还原的自动化决策信息范围，过去的规范论关注到的主要是算法开发结果的可解释性，笔者将其扩大至算法开发的结果和过程两个环节。

其一，开发的结果。当前对算法解释内容的理解集中于这一层面，即对开发的模型结果进行解释。这一层面的解释是对既存模型各方面的说明，是算法经由数据训练得到的模型。就算法开发的结果所作的解释，有几个方面可以反映该相对静止的状态：（1）数据集。开发者可以解释训练和测试所用的数据集来源，如何划分训练集和测试集，如何对数据作预处理，如何清洗相关数据，清洗掉了哪些数据等。（2）输入和输出的标签特征。开发者可以解释采用何种数据形态（要素化数字、自然语言文本、图像、视频都可以作为输入）作为模型的输入输出标签，标签的体系包括哪些信息，如何对数据进行编码，如何对输入标签进行向量空间表达。（3）模型所用的算法。开发者可以解释模型所用的算法，经过数据训练后的输入特征参数。（4）个案预测的结果。开发者可以解释针对个案的判断理由，其中又至少有两种解释方法，要么是就某个案的自变量的权重所作解释；要么是在设计主预测模型的同时设计一款解释器，用规则、概率等方法生成一段文字、图像等形式呈现的对主预测结论的具体解释。

其二，开发的过程。当前对算法解释的内容说明忽略了过程性一面。模型开发是多个环节协作完成的，后文将提到算法引发的黑箱等风险，很多发生于模型开发的过程，缺失该部分信息就很难以规范分析认定是否构成歧视、侵权等问题。模型开发的一般流程包括：首先是需求和任务的定义，一般是用户的需求决定了开发的任务以及模型的输出；其次是数据标签的体系化，模型的输出内容是输入内容经过计算得出的，输入标签是否符合业务的客观实际、是否完整决定了所开发的模型性能；再次是算法模型的设计，真实的模型开发一般很少直接采取通用算法，要想获得良好的模型性能需就需要根据具体的业务场景改造、嵌套既有的算法，形成针对某一具体任务的算法结构；最后是模型训练的过程，这是在已有输入和输出的数据集、初步采取的算法基础上数据和算法的结合过程，包括如何调参、如何测试模型的性能等。所设计的算法、输入特征体系等一般要使该模型在具体的业务场景中比采取通用算法获得更好的性能时才会使用该模型。

在规范研究中算法解释技术被寄予了厚望，被视为化解算法风险的重要工具，甚至人们怀有一种对算法解释能力不切实际的期待。对此，笔者认为，算法解释技术最核心的贡献是“提供了一套还原模型开发、机器决策的过程和结果的事实材料”。这些模型开发的信息若能得到完整记录，将为规范研究进一步的价值判断、制度设计和责任判定提供事实依据。许可或禁止某一行为、免责或追责某一主体等涉及到价值判断的地方，都属于规范研究的范畴。

（三）可解释的局限：难以完全满足规范需求

算法解释技术的开发，对规范研究而言是技术的提供方，两者是供需的关系。但是解释技术有其局限性，不一定能够完全满足算法规制的需求。由于技术开发和规范设计具有不同的目标，因此两者在算法解释是否可行、是否已经到位、是否有必要解释等具体问题上有不同的看法。认识的分歧大致分为三类。

其一，技术视角认为已经解释到位，不代表规范视角理解到位。算法的解释技术和解释所达成的用户效果之间并不一定能划等号，还需综合考虑用户的能力。而是否达成用户的理解是一个十分主观的问题，规范论的观点担心较为抽象的、公式性的全局解释无法提升用户的理解程度。但是在实践中可能会出现的一种相反的情形是，技术上认为可以实现解释的算法模型，规范视角（其实是一种普通用户的视角）却难以理解。举例来说，规范论者一般根据算法解释的程度将算法解释分为系统解释和个案解释，并且认为后者的解释程度更深；然而技术上并不见得如此，这两者基本对应于前述的全局解释和局部解释，全局解释中有算法模型的特征和参数，从技术视角已经基本完全掌握了该模型，所谓局部解释只是个案适用算法模型的例子呈现，技术开发难度反而更小。

其二，对于技术视角认为难以解释的情形，可能在规范视角并未引起重视或承认该客观障碍。真实的应用场景中存在大量的深度学习算法，就连算法专家也不完全掌握模型内部的嵌套结构、子模型的输入输出。因此，这些模型的性能优化在工程中甚至被戏称为“玄学”，开发精确的解释技术特别是围绕已经完成开发的模型作解释更是极具挑战。也正是因为解释技术开发的受挫，才有回归至采用简单模型的所谓“第三条道路”一说。与之对照，规范论研究并未对此详加区别，把“算法的解释”认为一概可行，默认其是制度设计中理所当然存在的工具。

其三，技术视角认为无须过多解释的地方，规范视角却可能认为没有算法不需要解释。换言之，技术视角下认为需要解释的标准，和规范视角有所不同，比如对于线性回归、对数回归这些简单的算法，技术专家一般认为是内部结构简单、无须过多解释的算法类型。但是，对于毫无统计学、计算机科学基础的用户而言，这些算法的透明性不能不证自明。例如，为某位缺乏数理基础的用户提供逻辑回归模型计算权重，以解释自动化决策的过程，但他很可能因为不理解逻辑回归的算法思想，而依然认为该模型属于“黑盒模型”。综上，技术视角将部分算法视为无需特别开发解释器的情形，规范视角则认为不存在例外，一概需要解释。比如技术层面关于第三条道路的讨论，即采用直接简单模型以彻底解决算法解释难的问题时，规范论者不一定能够全盘认可，他们会问道，简单模型难道就无需解释了么？不解释能够让用户理解和信任么？对于这些问题，他们也许基于自身的认知背景会有自己的答案。此种情形下，技术视角所认为不需要解释的算法，规范视角也许仍然希望给出具体的模型细节。

（四）可解释的动力：推动智能产品应用落地

从算法解释的技术开发动力分析，有助于理解为什么解释技术不能完全满足算法规制的规范需要。这是因为，算法解释技术的开发历程，具有自身的演化逻辑。技术视角所考虑的是满足特定场景产品使用的用户需求，而规范视角惯常做的是价值衡量，在私权保障、监管便利性、产业发展之间寻求平衡。两者虽然都是工具理性下的取舍，但根本的利益诉求是有本质差别的。

先从技术视角看，解释技术的发展动力在于如何兼顾模型性能和落地需求。模型性能是指机器的预测和事实真相间的相似度，提升模型性能就在于缩小两者间的差距。典型的分类任务一般采用求精确率和召回率两者平均值的F1数值衡量模型性能，其他文本生成任务中还可以采取文本相似度、人工评分等方式衡量模型性能。算法专家的工作主要是在同一任务中设计性能指标最优秀的模型。近年来，算法技术在诸多领域都得到了广泛的接受和认可，但是在医疗、司法等领域却不被人看好，这些领域由于高度专业化，且关乎个体生命和健康等重要权利的处分，算法技术仅追求模型性能是难以被接受的，这是促使算法专家开始关注和开发一系列算法解释技术的源动力。通过算法解释技术的应用，某些特定领域的用户才更加信任算法技术驱动下的自动化决策。但是归根结底，技术视角不可回避模型性能和可解释性间的“交易关系”（trade-off），很难既要模型性能又要可解释性。最真实的情况是，在特定场景用户允许的情况下，技术专家更倾向于追求模型的性能。

再与规范视角比较看，规范论希望在技术利用和私权保障间寻求平衡点。算法利用的背后代表着商业利益、高新科技发展、社会运转效率提升等方面的利益驱动，而私权保障则更多着眼于个体，特别是制度设计中被视为“弱者”的群体得到了特别的关注。某种程度而言，对算法的规制动力都落脚至保护私权的目标上。因此，迄今为止，算法领域的规范研究更多是站在私权侵犯风险之上的规制方案设计。不足的是，当前在动议采取算法的解释工具时，并没有真正意识到解释技术的以上局限，给予算法解释过多的希望，又缺乏多元化的制度工具配合。

从动力机制的比较中，我们可以看出两者对解释技术有明显定位上的认知差异。技术视角的解释目标本质上是更好地满足算法用户的需求，模型性能和模型可解释性都可以视为广义的模型表现，区别仅仅是不同领域的用户所强调的侧面维度不同。规范视角的目标是在自动化决策日益成为新的生产生活方式时，通过算法解释的工具捍卫人类社会长期坚守的平等、自主等传统价值。而算法专家则并不会特意考虑这些价值观念，就像法学专家也经常忽略所需要的解释工具是否具有技术上的可行性一样，这是两者工作动力差异化的结果。

三、可解释对精准识别算法风险的价值

（一）已识别的算法风险类型

侧重于立法论的规范研究，一般从识别算法自动决策所带来的社会风险着手构建自身的学术体系。对风险的进一步抽象可以发现，算法的风险是由该新生事物的虚拟化、抽象性、理解门槛高所导致的，即算法技术及其产品的内在运行机制不容易被识别，所谓“算法的可解释性”概念指的是该现象的另一面。既有的理论归纳出以下三类典型的风险。

其一，与“算法黑箱”有关的风险。这指的是数据使用和算法运行过程中的不透明性。算法透明性的缺乏导致算法决策的黑箱效应，并最终危及算法决策的可归责性。而算法黑箱，技术上可进一步区分是“开发者有意为之”还是“对技术外行来说的不透明”，抑或是由技术水平客观造成的。算法的解释，被认为有助于打消公众对决策自主性丧失的忧虑。就黑箱问题值得追问的是算法解释技术能实现的最大透明程度是多大？为什么黑箱化有多种类型？其分别应该如何化解？

其二，与“算法歧视”有关的风险。这指的是算法决策中考虑了不应当考虑的因素，造成了不公平的对待。在该语境下，解释的目的在于展开包裹在算法中的决策过程，为数据主体、司法机关等判断是否存在区别对待或造成区别影响提供具有法律意义的信息。从这个角度看，对算法进行解释在解决算法公平性问题中起到提供事实证据的作用。就歧视问题值得追问的是算法解释技术可从哪些方面识别歧视？哪些需要价值判断和规范取舍？还需要其他哪些工具配合？

其三，与“算法权力”有关的风险。这指的是机器对人类决策权力的剥夺，因此早有“人类与算法，谁拥有最终话语权”的反思和发问。算法权力的本质是从单纯的技术工具逐步升级为复杂的自主性体系，从而带来挤压用户意思自治空间等问题。理论上依然将化解“算法权力”风险寄希望于算法的解释，通过赋予个人对算法决策的解释权进而实现对“算法权力”滥用的适度制约。值得进一步思考的是算法剥夺人类决策权问题的本质是什么？算法解释技术的作用限度在哪？

以上三点，构成把自动化决策纳入法治化轨道的主要理由。在本文看来，算法风险层面的研究还可以加强，特别是对于算法风险和可解释性间的关系还没有恰当的阐释：一方面，是对这些梳理出来的算法风险的内部缺乏体系性认识，以前述三类风险为例，他们看似不同，实则具有一定的逻辑关系，比如“算法黑箱造成的透明度缺失共同触发了算法歧视”，本文认为，“算法黑箱”明显是其他算法风险的根源；另一方面，有把全部算法风险归结为算法的不可解释性的嫌疑。从前文的算法可解释技术视角分析来看，所提出的这些算法风险并不能完全由算法的解释技术化解，算法的不可解释性也并不是某些算法风险的主要原因。

（二）解释技术只能消除部分风险

识别算法领域存在的隐患风险，是算法的法治理论构建的基础。著述一般从“算法从几个方面挑战了法律的一些基本原则”，“通过何种途径防范算法应用的风险、消除算法所带来的种种负面影响”等作为起点开始构建自身的学术体系，其中算法的解释被视为防范算法风险最重要的技术。本文以下对应上述几个有代表性的算法风险类型，说明算法的可解释性，主要且直接针对的只有“算法黑箱”这一风险。

算法解释，能够揭示“算法歧视”风险的成因，但无法据此消除歧视。既有的研究发现，算法的风险主要来源于内隐偏见和社会层面的结构性不平等两个方面。这说明算法中的歧视，主要来自于社会既已存在的不公平对待的现象。歧视是一种刻板印象，源自人类的主体交互能力，人们对世界的了解往往是局部性的，而且不可避免地围绕某种身份建构对世界的认知，即“标签化”。以上关于人类认知的研究远早于“算法歧视”问题的提出，算法歧视本质上是社会歧视通过问题建构、数据理解、特征选择、个人信息等方式传导至机器自动化决策中。算法的解释技术，有助于最大程度地揭示算法开发的过程、结果和应用的经过，从而为揭开自动化决策内部群体不平等的面纱提供支持。至于自动化决策中有哪些群体性歧视为传统价值观所难以接受、哪些可以由法律规范予以纠正就不再是技术问题了，而应当结合传统社会歧视的理论体系，作出适合数字智能时代的价值判断。

算法解释，可以说明“算法权力”的运行过程，但无法直接打破既已形成的权力格局。“算法权力”方面的风险隐忧，主要是对利用算法决策者权力膨胀的负面评价，认为这将挤压用户的意思自治空间，人类用户将成为算法支配调控的客体和攫取高额商业利益的工具。算法的解释技术外加相关利用者的义务，可以对私权力行使的过程加以全面留痕，这些算法决策的日志将全面记录权力行使的依据、时空以及影响。这能够反映算法权力风险即权力的增量要大于权利的增量这一失衡的事实真相，算法权力背后是经济模式转型中网络平台替代“管道式”生产模式，互联网企业成为市场重要主体的数字智能时代趋势。互联网平台企业在既有的公权力、私权利格局下异军突起为“私权力”新一极的背景下，制度设计者如何看待和平衡互联网产业发展和私权保障之间的关系，其中需要谨慎地进行价值权衡和位阶排序。

最为主要的是，算法解释能够有力化解“算法黑箱”危机，消除由此带来的焦虑、恐惧等不良情绪，这是算法解释技术所能发挥的最大功效。算法黑箱一直以来被视为是算法歧视、算法权力等风险的源头，比如“算法的黑箱属性在赋予算法使用者算法权力的同时也威胁着算法相对人的合法权益”，“算法设计的效率导向、作为算法运行基础的数据之偏差与算法黑箱造成的透明度缺失共同触发了算法歧视”等。我们通过采取合理的解释手段，至少能实现大部分模型、大多数环节的信息留痕，在技术视角中就能够实现算法的去黑箱化。

由上分析可知，三种风险中算法解释技术主要作用于算法黑箱的风险，通过公开透明化间接有助于算法歧视和算法权力问题的解决，但是否有违群体间公平、是否涉嫌权力格局失衡等属于价值判断，不再是算法可解释性考虑的内容，而是进入到典型的规范研究范畴。有学者曾指出“法律系统对自动决策算法的规范，就应克服科技系统与经济系统的弊端，将风险识别与防范内化于算法的研发和应用之中”。这是一种把算法的技术研发和风险识别结合起来的深刻见解，值得引起规范研究者的重视。

四、可解释对厘清规制工具关系的价值

（一）既有的算法规制工具体系

如何化解所识别的算法风险，是算法规制理论中最为重要，同时也是最为困难的部分。既有的规范研究对此作了体系化的梳理，针对算法黑箱设计的工具有两类，形式的工具包括算法公开、算法备案，实质的工具包括算法审查、算法治理、第三方监管等；针对算法歧视提出了主体赋权、代码监督、行为规范的工具；针对整个算法领域规制一般性地提炼出算法公开、个人数据赋权、反算法歧视。具体到规制工具的最小单元已有谱系式归纳，包括算法标准、算法审查、算法解释、算法查验、算法认证、缺陷检测、风险监测、违规举报奖励、算法应用登记及监管便利条件等。

凡此种种的既有工具论归纳，虽然各有侧重，但是呈现出以下共性：第一，整体沿袭了传统的法律规制方法论，比如从主体上将公私两立，包括行政执法机关、私人用户；从二级部门法角度则涉及行政法的监管、民事的权利；从权利义务角度设置了算法解释权、算法说明义务等；第二，技术的可行性与规范的制度工具没有作区分，对算法的风险进行防范是该规范理论建构的共识，其中的制度设计的方案选择和所采取的技术工具其实是两个层面，前者是在制度上是否予以规范的价值判断，后者是技术上有没有可行的方法。

在算法规制的工具箱中虽然多次提到“算法解释”，在个人赋权中还把“算法解释权”视为算法治理制度的核心，它们和本文围绕的“算法可解释性”有相关性，但是不能直接划等号。正是算法可解释性具有以下特征，使得其有别于算法的规制工具：其一，算法可解释性属于技术范畴，即它首先是一个技术名词，值得规范研究关注的是其能够还原自动化决策事实的最大范围和局限；其二，算法解释技术是算法领域的特殊工具，是其他算法规制工具行之有效的基础。不论是算法审查还是算法解释权的创设都须有实质的内容，算法解释技术为其提供具体的素材；其三，算法可解释性是技术中立的，其他的算法工具多少已经带有价值判断。权利义务的宽严、执法的尺度都是制度创设的结果，而算法可解释性不是制度设计出来的，是由技术发展的前沿所决定的。正是以上几点，使得可以把算法解释作为算法规制的工具，但是算法的可解释性，作为一个技术概念，具有贯穿规范研究始终的独立价值。

（二）解释能力是规制工具的基础

在既有的规范工具中，算法解释是体系中重要的一环。但是这里有必要厘清的是，算法的可解释性和其他算法工具之间的关系和地位。

在监管型工具中，算法的可解释为判断监管对象是否合法合规提供事实依据。监管型工具包括算法备案、算法审查、缺陷检查等，根据主体不同还可进一步区分为自我监管和外部监管：前者主要是自查，所谓缺陷和风险监测的对象是算法解释记录的日志文档；后者主要是外部复核，是在既有算法模型、日志文档、自查结果之上的监督。从正常的监督流程看，算法解释可以视为是日常的日志备案和自查的一部分，然后成为外部监管者判断算法开发和应用者是否履行义务到位的依据。行政机关在审查基础上的算法认证、登记等工具，具有权威确认算法开发过程和结果合法性的功能，它们是对传统执法工具的改造，以适应监管对象的虚拟性和数字化，算法的可解释性有助于“算法”这一监管客体脱虚向实。

在立法型工具中，算法的可解释为规则创设提供可行性和成本利益分配的正当性论据。立法型工具的典型是算法标准，它被称作较之于规则或指令更有效率的“软法”，此外还包括依据我国个人信息保护法解释出的相关主体算法义务等。立法型工具是创设一般规则的立法思路，制度设计要化解算法风险，同时还须平衡相关主体的负担、算法失效、知识产权保护等方面的考量。算法解释除了直接有助于化解算法黑箱风险外，还有助于确定算法公开的范围。算法主体的义务强度、算法失效的可能性、知识产权的保护力度等都与算法公开的范围有关，公开的范围需要论证两个方面，一是算法解释技术的可行性，二是算法解释技术的成本。算法的可解释性因此成为立法型工具创设是否可行、成本风险收益分配是否恰当的关键变量。

在赋权型工具中，算法解释技术创设了算法解释权行使的最大空间。赋权型工具侧重于从私法的角度赋予用户一定的民事权利，以实现算法领域的主体间关系平衡。例如反算法歧视其实是一个工具的组合，其中就包括赋予数据主体算法解释权，与之并列的还包括理解权和知情权等。赋予的解释权在权利的内容、程度、时间和方式等方面虽然还有一些争议，但是算法的可解释性无疑为算法解释权提供了解释权行使的最大可能空间。一些其他的赋权型工具是解释方式的差异，比如算法查验是基于用户自行的查验渠道，算法公开则是算法应用者的主动之举。从技术原理看，算法解释的能力伴随着设计开发完毕即已成型，可以解释的内容总量在算法开发完成后就基本是稳定的。是否公开、告知的方式、解释的时机是权利设计的内容，并且取决于算法赋权的目标。提升信任、给予救济、平衡各参与方利益等不同的赋权目标决定了解释权的内容。

算法解释应当作为一切其他制度工具的前提而存在，但难以成为算法风险化解的唯一力量。算法解释技术起到的功能是基础性的，主要表现为“价值无涉地还原了机器决策的全过程事实，为个案执法、创设制度、赋予权利提供了内容、素材和可行性的依据”。规范论中所创设的其他工具，是算法可解释基础上的进一步作业，是一系列价值判断结果的贯彻手段。

五、可解释对合理设置规制目标的价值

（一）当前所追求的规制目标

　　算法规制理论在完成算法风险的识别工作后，还进一步回答了算法规制的目标问题。这可以从一系列理念原则的确立开始，比如对算法愿景的“公平、可责和透明”（fair, accountability, transparency, FAT）的抽象概括，也可以是在立法实践中的摸索尝试。本文认为，算法的规制有递进关系的三个阶段性目标，分别是透明度、可理解和可信任。

第一层次目标，是提升“算法的透明度”。透明要求包括代码、公式、参数等内部信息，也包括理由、结果等外部信息。算法透明的规制进路强调对算法的穿透式监管，尽可能捋顺隐藏在黑箱中的决策规则和因果关系，从而减少算法造成的法律复杂性。引入算法解释技术，试图解决的是自动化的决策不透明对公民权利的危害，其共识是提高自动化决策算法的透明度。技术上，使得算法变得不够透明的原因，是为了追求模型的预测性能，开发中引入了深度学习等多层嵌套的复杂算法所导致。

第二层次目标，是使得“算法可理解”，即发展算法解释技术的主要目标是让算法为人类所理解。有学者曾指出“相对于透明性，可理解性才是目的”；还有学者认为，只要增强人们对算法决策过程的掌控感，算法厌恶情绪就会得到明显缓解。技术上，人类的理解步伐没有跟上算法的复杂化节奏，其表现为特征的交错和特征数量的增多。人类可理解的“表征”不同于算法所实际利用的特征，表征比如文本分类中某个词语的有无，而特征则更加复杂。因此，增强可理解性就需要简化实际模型中采用的特征，以少量的、简单的方式呈现给用户。

第三层次目标，是赢得用户的“算法信任”。从社会角度，算法规制是解决算法信任危机的需要。法学理论对可信算法作过阐述，三分法为可理解性、可靠性和可控性三方面。从技术角度则可二分为对某个模型的信任和对某个预测的信任，分别对应于上文提到的两种基本的算法解释技术。正是因为用户对算法信任十分的关键，一些强监管、高风险的模型虽然有良好的预测性能，但是仍然无法被专家用户所采用。

就算法的规范预期效果而言，算法的可解释性似乎贯穿于以上梳理的效果三层次，但实则在不同层次间的影响力是有差距的。在不同目标上算法可解释性的技术实现路径和目标设置，未来应当区分不同的用户、场景、用途加以案例化的讨论，实证分析各自目标实现的作用机制，做到不轻视算法解释技术的效果，同时也不妄自夸大其作用。

（二）解释技术差异影响规制目标

所追求的算法规范效果和算法风险其实是正反面关系，算法规制的效果以识别并化解算法风险为目标。在此有必要强调，算法规制的目标因用户、用途以及场景有别，对于不同的情形采取的是不同的解释技术，这将影响规制目标的达成。因此，笼统地讲算法的可解释性，无助于技术产生最大化的正面效果，唯有落实到具体情形，才可能明确算法可解释可预期的效果。

其一是区别不同的用户。知识背景、工作经验、用户预期均可能对算法的理解和信任程度造成干扰。那些有人工智能、大数据知识基础的主体，对算法的理解程度较好；对算法场景有经验的主体，容易形成对模型输出结论的前见，当和模型结论不一致时更容易否定算法的决策。算法开发者、专业用户、普通用户、监管者兼有以上的几种情形。不同的主体对算法解释的理解能力差异很大，此种理解能力差距导致对解释工具的价值理解不同，因此面向不同主体强调算法解释的不同内容，是提升解释效果的必然选择。那些在解释的技术上被视为不彻底的方法，比如规则型解释器、可视化的

解释法，对于缺乏技术背景的用户反而更有可能提升其理解的效果。那些精确反映算法开发过程和结果的方法，比如模型的算法公式、深度学习的优化方法和注意力机制、模型判断的依据权重等，因为理解起来要求具有一定的技术基础，适合于专业用户、算法专家用来判断自动化决策是否正当。

其二是区别不同的场景。根据算法应用场景涉及的私权类型、风险高低、监管程度等，技术视角认为重监管产业、私权侵犯高风险的决策应当匹配更强的可解释性。最近的规范论研究也将风险高低、机器自主性高低作为类型化的根据。之所以要依据场景区别可解释性的含义，实际上还是一种技术层面的取舍，目前的技术发展仍然难以兼顾模型的预测性能和追求自动化决策过程结果的全面留痕，即在两者存在非此即彼关系的假设依然成立的情况下，追求算法解释的程度越高则模型的性能越差。在那些普遍具有高风险、重监管的场景，比如司法、医疗等场景下，算法规制中可以强制要求宁可牺牲模型性能也要强调可解释性，甚至采用前述提及的“第三条路线”，即直接用简单易解释或不需要解释的模型。

其三是区别不同的用途。算法解释的范围还要和用途匹配，为不同用途提供差异化的解释结果。比如区分以下情形：（1）作为日常算法产品推广时，解释要有助于提升用户的信任感。面向商业用户的解释，此时的算法解释不在于让用户完全通晓模型的内容，而是应当有助于提升用户的主观理解力以及由此决定的信任感。（2）作为监管和执法的依据时，解释要达到成功证明开发工作正当合法的效果。诸如《关于加强互联网信息服务算法综合治理的指导意见》《互联网信息服务算法推荐管理规定》等，以及中网联联合105家会员单位及相关企业联合发布了《互联网信息服务算法应用自律公约》等一系列规范赋予了执法的依据，执法的关键是审查算法工具的使用过程是否正当，判断的依据主要是通过算法解释工具所产生的算法过程性和结果性的日志材料。从留痕备查角度，算法的开发者和应用者应当就算法的说明信息做到全面留痕。（3）解释内容作为诉讼的证据使用时，要符合证据法的要求。当算法领域涉及侵权纠纷需要司法介入定分止争时，解释技术需要克服的是备受诟病的算法黑箱问题，算法解释技术要能向裁判者说明其运行依据和规则，否则法律责任的认定将无从谈起。此时的算法解释是案件证据的用途，应当根据证据法中的证明责任、证明标准、证据能力等确定算法解释的主体和内容。

笼统地讲自动化决策应当透明、可理解和可信任是空洞和难以落实的，因为不同的用户、场景和用途下对模型的认知程度、内容的要求都差异巨大，只有在某一具体场景中讨论算法的可解释性时，才可能对照分析当下的解释技术是否可行，并相应设置合理的制度方案和目标。

六、确立技术和规范二阶思维的普遍意义

数字领域已经成为当前法学研究的一大热点，数字法学研究以数字技术及其产物为研究对象，比如本文针对的“算法”就属于典型的研究领域。它们的共性是针对某一新的数字技术或产品展开，研究具有理解和掌握技术原理的门槛，而技术原理又不可以是不证自明的。这里希望以算法解释技术为例，相对一般性地探讨此类研究中技术分析和制度设计两者间的关系和分工，以升华本文的立意。笔者认为，以数字技术及其新生事物为研究对象的规范论，应当养成先技术后规范的二阶思维，即先展开技术原理的可行性分析，后进入价值判断的规范分析。

（一）技术分析的前置意义

技术分析和规范研究分属两个学科且缺乏互动，导致了当下两者的衔接并不顺畅。笔者认为，应当把技术分析置于价值判断前面，先从技术视角分析回答一系列基础性的技术问题，接着再把研究推进至规范研究重要的价值判断中，最终作出合理的制度设计方案。

先作解释技术可行性分析，方便于掌握解释工具的最大可能边界。解释技术发展的最前沿，为规范研究划定了技术可以提供的最大信息量。解释技术为制度设计中的“规制”提供监管手段，为“权利”提供具体的主张内容。从这个角度，技术分析为制度设计提供了可行的工具箱，规范研究接着通过价值判断和取舍，从工具箱中选取合适的解释工具。

先作解释技术的实际效果试验，有助于制度设计时根据不同的时空采取不同的制度方案。在真正的立法起草环节，应该就具体的算法使用者、所在场景和用途开展大规模的解释效果实验，在比较中发现特定时空下最具效果的解释技术。当前的规范论研究虽然要求对算法作出解释，文献也提到过要基于算法规制的场景设计制度，但究竟什么样的场景对应什么样的解释技术还是不清楚的，这一问题只有在技术分析环节做更多的社会实验时才可能有答案。当规范研究的结论被要求有更强的可操作性时，解释的技术细节和实际的效果试验就不再是可有可无的了。

先作解释技术限度的分析，有利于制度设计时寻找其他替代方案。当下一些规范论的研究径直建议采用算法解释的方法化解风险，这在未经解释技术的可行性分析前是很草率的，因为解释技术的原理决定了某些算法风险是难以单靠算法的解释化解的，某些算法的问题是社会经济等因素综合作用的结果。解释技术原理的分析有助于限定算法解释在规范论中的功能，此外，规范研究要实现某些目标也有赖于其他工具的配合。

（二）制度设计的后置任务

制度设计是规范论的重要输出物，特别是在算法领域当前立法还十分欠缺的情况下，大部分的算法规制理论是立法论的研究。既有的算法规范研究，是在理解算法的技术原理后，通过识别有关的国家和私人法益，在法益取舍、技术可行等前提下完成的制度设计任务。在制度设计环节中，有以下几种对算法模型的处置方式：

其一，如果构成个人信息侵权，可选择放弃该模型训练所用的数据集或某个数据项。有研究认为全球算法治理有三种模式，其中之一为欧盟的数据进路。实则算法问题和数据问题本就密不可分，“脏数据进，脏数据出”是人工智能中问题的真实缩影，即模型的生成依赖于训练的数据，而大量的数据涉及个人信息，因此算法规制难以和个人信息保护割裂开来。算法解释中有必要交代用于模型训练的数据获得方式，算法领域的规制有必要从数据的获取是否符合个人信息保护的有关要求开始，这是规范分析的第一个环节。

其二，如果构成某群体性歧视，可要求该特征标签不纳入模型。在获取数据后，从算法模型开发的角度，判断是否利用数据某一特征的标准是能否有利于提升模型的性能，工程中很少考虑使用了某一特征是否有失社会公平，这是规范研究所关心的。因此，算法规范有必要强制开发者把模型的输入特征予以记录，监管者对模型输入的特征是否可能造成特定人群的不公平进行审查。当审查结论认为加入某一输入特征虽然可以提升模型性能，但是对某些群体造成不公平时，可以要求算法开发和使用者禁止把该特征纳入真实应用的模型中。

其三，如果担心算法模型失控，甚至可以直接禁用该模型。规范论呼吁尽快把算法纳入法治化的轨道，理由之一便是算法模型有可能脱离人类的有效监管。最为彻底消除这一风险的方式，是完全杜绝这一领域的自动化决策。从当前智能化发展的情况看这是可以做到的，监管者完全有能力让某一领域决策回归到由人工判断的传统方式。但是，这将阻碍该领域通过自动化决策提高运转效率、及时匹配供需和信息资源。但仍然有必要在制度的备选方案中保留这一最严厉的选项，以便在危害国家和公共安全、在侵犯私人权利十分突出时，算法的规制者保有化解危机的能力。

以上提及的三种处置方式都属于制度设计的备选方案，是典型的规范研究内容。规范研究需要先就私权保障、产业发展以及规制可行性三者的价值分别剖析，接着进行价值权衡取舍、选定位阶，最后完成制度设计。解释技术揭示了自动化决策的真相，提供了宝贵的论据素材，至于机器决策是否侵犯私权、是否造成社会不公平、是否有脱离人类监控之虞等均属于规范研究的议题。

结语

以算法为代表的数字技术正在改变人类社会，法学研究对此亦投入很多的学术资源。但是，要真正有效地把这些新生事物纳入法治化的轨道，研究非从数字技术的原理出发不可。技术和规范的二阶思维，适用于以算法为例的数字法学研究诸多领域，技术原理的分析有助于规范研究精准锁定问题，匹配合适的制度工具，合理设置制度施行的效果预期。

由于缺乏对“算法可解释性”这一概念的引入和诠释，算法风险的准确判断与归纳、规制工具的主次位阶性、设置合理的规制效果目标等方面，均存在不同程度的认识偏差。对算法可解释性的技术视角分析确有必要，算法解释有两大差异较大的技术类型，算法解释的技术能力划定了可解释的最大边界，当前技术条件不一定满足算法规制的需求，原因是解释技术的开发并不是为算法规制专门设计的。这一论断有助于厘清既有的算法规制理论，在算法风险层面，解释技术直接破解的只是算法黑箱问题；在规制工具层面，一切制度工具应考虑解释技术的可行性；在规制目标层面，要结合解释针对的用户、场景和用途设置预期。

转自：“法学学术前沿”微信公众号

如有侵权，请联系本站删除！

上一篇： 新书｜欧树军：《灵境内外：互联网治理简史》
下一篇： 赵精武：不能混同Chat GPT的风险类型与风险程度未来人工智能立法需谨慎论证

投稿问答最小化 关闭

前沿｜周翔：算法可解释性概念的规范展开

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化 关闭

前沿｜周翔：算法可解释性概念的规范展开

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化关闭