投稿问答最小化  关闭

万维书刊APP下载

ChatGPT:生成式AI对弈“苏格拉底之问”

2023/8/18 9:35:59  阅读:41 发布者:

来源:《中国社会科学文摘》2023年第7P44P45

作者单位:复旦大学中文系,摘自《上海师范大学学报》20232期,崔晋摘

生成式AI旨在利用人工智能技术来生成内容。从人工智能的发展历程看,生成式AI是弱人工智能向强人工智能/通用人工智能迈进途中新生出来的技术分支。生成式AI的技术主导框架是20世纪社会思想全面进入信息论、控制论和系统论的思维范式转换之后的新路径开发,它以人机界面的构建为平台端口,将二者间有效而即时的无限交互作为主攻方向,是代表当前生成式AI的热门产品。ChatGPT在正式开放测试之后的3个月内,已经飞速积累起数以亿计的用户,他们在不同语言的场景下对该模型提出应答要求。由人机对话生成的各种回答一次次刷新人们对于AI智能水平的认知视野,也引发了IT界和知识界的震动。

对话型AI在经过多次问答环节后能够产生怎样的内容,在很大程度上既取决于它的技术基础,也取决于“指令”如何构建。在收到具体任务的文本指令后,根据预训练过程中的数据标注进入专门的LLMs,在基于“人类反馈强化学习”的基础上生成应答内容。对话框中最后会出现怎样的语句段落,不仅与大语言模型中的数据链有关,还和文本指令在拟定过程中的微调或修正直接相关。由此也构成了生成式AI在导出内容后的条件反溯。用户本身对于任务主题的理解程度,以及用怎样的文本进行指令驱动,在当前阶段里显得比程序所能应答出的实际内容更为重要。

生成式AI对于“指令”的依赖程度颠覆了一般意义上的“对话”文体,将凝聚西方思想传统的“在场”的对话进行了全面改写。从西方思想史的脉络来看,始于古希腊时期的“对话”是承载哲学思想启蒙的根源。柏拉图对话录中记载的苏格拉底与同时代不同人员的对话几乎覆盖了当时可能认知到的所有知识范围。进行对话的最高宗旨不是为了交换信息,而是通过共同在场的活性思维来探求认知个体对于某一对象的真实认知。对话可能达到的“真”不只是针对认知对象的固有知识,同时也是智慧上的“解蔽”,让对话人经由对话的方式向内反转,认识到自己对某一对象的认知程度,最终实现的是德尔菲神庙的门楣神谕:认识你自己。只能说,ChatGPT在典型的苏格拉底对话中很难找到存身之处,根本分歧在于发起对话的原因不同。苏格拉底是提问方,但是他的问题指向不是要从对方的回答中有所获取,而是让回答者对自己的认知情况形成判断。正是在这个意义上,对话成为在场者的思想的交流。ChatGPT则完全相反。如果没有恰当的、有针对性的指令,无论多大规模的LLMs都是循环在内部存储中的纯粹数据流动。如果指令内容尚未包含在已有的预训练范围内,则有可能出现对话不能启动,或者尽管生成了对话,所答却与所问不相契合,甚至毫无关联、完全荒谬等问题。

ChatCPT在生成回答后的道歉环节已经在应用中成为标准配置。其中的指令输入—快速生成—判断正误—道歉的信息链触发方式,在根本上正在偏离人工智能概率推理算法中的马尔科夫链。根据工作机理的不同,马尔科夫链的仿真推理采样算法“可以被视为在状态空间中——所有可能的完整赋值的空间——的随机走动——每次改变一个变量,但是保证证据变量的值固定不变”。利用马尔科夫链所能达到的稳态分布,升级后的GPT文本生成工具曾经成功地帮助名为BenjaminAI剧本写作软件,完成了第二部科幻短片Zone Out 2018)。整个任务在48小时内完成,指令层次是多重的,包括给定的片名“Zone Out”,生发对话的提示句“他们要严肃地称之为‘亚当’”,道具与行动的设计所基于的描述是,“人物手持镜头,在转动中反射出明亮的光”。再考虑到竞赛单元所在的伦敦科幻电影节的特殊性质,多处指令中的最后一条是“用作备选项的科学观念”,“一种只针对孕妇的基因定制病毒”。从该片在网络上公布的在线放映情况看,升级后的Benjamin不再自我局限于预训练的语料库,它摆脱了初级阶段的剪切、复制和语料粘贴,做到了以人类剧作为模仿对象,通过预测字母与词语的共同出现倾向来生成语句,并利用公共领域的电影片段对短片中的人物表演进行“换脸”的复杂操作。

ChatCPT和名为Benjamin的剧本算法在开放的AI技术系统中共享了GPT3的神经网络卷积平台,拥有共同的人机协同基础,然而二者在结果生成的指令设置方面存在差异,所依据的数据库也完全不同。后者的预训练数据保持在同类型成果的边界以内,可以清晰地回溯路径并辨识出风格迁移的关联元素,且最终成果在生成后达到了一般意义上的文本规模,作为结构独立的人机协同作品而存在,不再自动融入源数据。与此相反,ChatGPT将生成式AI的应用场景带入普遍的用户终端,虽然意外地提早实现了人工智能产业在全球视野中的破壳而出,却是以指令触发方式的容错率为代价,一方面将算力资源最大可能地集中在应用的便利和效率方面,另一方面则是超大扩容大语言模型,降低甚至是裁撤对于数据内容的标注点数量。因此,大幅提高人机协同中的机器产出占比所导致的路径问题在于,“有很多人工智能生成的文本可能很快就会进入文献中”。《科学》杂志的主编霍尔顿·索普分析了ChatGPTLLMs中析取出的应答成果可能造成的误用,指出“有时候ChatGPT会写出一些听起来言之凿凿而实际上既错误又荒谬的回答”。《科学》编辑部将ChatGPT写出的文段定义为“抄袭”。该刊明确表述,未来除了创作者有意识地使用AI工具辅助生成合法的数据集,其他所有借助生成式AI完成的产品,无论是文本、图表、图形还是图像,都是工具性剽窃,是科学类学术期刊“不可接受的”。

除了部分学术期刊有条件地拒用ChatGPT之外,还有不同语类的文学杂志先后对此发出否定性公告。随着ChatGPT技术的滥用,AI生成的稿件数量激增,使专业审稿的编辑行业感受到强烈的冲击。中国科幻杂志《科幻世界》对外宣布“不接受AI创作的科幻小说”,美国科幻杂志《克拉克世界》更是直接关闭了自由投稿通道。我们从中看到的悖论是:生成式AI不仅没有如其所许诺的那样成为人的助力,反而导致负面效应,挟制了人的创制性道路。正如泰格马克在提出阿西洛马人工智能原则时对科幻作家阿西莫夫名言的引用,“生命最大的悲哀莫过于科学汇聚知识的速度快于社会汇聚智慧的速度”,对于ChatGPT造成的当前境地,这句名言或许可以仿写为:技术最大的悲哀莫过于AI生成文本的速度快于人类写出作品的速度。人机协作路径在未来发展的方向上需要反思新的可能性,其中的关键或许正在于技术系统如何做到真正的开源、开放和安全。

越来越多的专业研究者发现,在繁花似锦的表象下,ChatGPT及其前期模型ChatGPT3并没有完全公开它们的基础训练集和大型语言数据库。生成式AI的对话模型在技术系统内部的运作方式也不透明,数据闭环导致了内容生成过程析出大量冗余信息,间或出现知识盲点甚至常识性谬误。这与趋向透明和科学日益开放的进步观念背道而驰,也使得应用者很难发现一场对话在知识谱系上的起源或缺失。事实上,不公布项目开发的源代码意味着系统在技术上的实际封闭,而在系统理论中,“系统的开放是系统自组织演化的前提条件之一”。当对话模型只限于模式化的应用场景,通过互联网提供的平台来构建人机交互界面并虚拟出人机对话的在场感时,使用生成式AI作为辅助的人类个体就背离了作者的定位,而仅仅是在一次次指令设置的调整修改中变为不断降智的临时用户。假设那些不明确的信息源和不能充分判断的生成结果继续自动返回系统本身,“自行独立演化”的后果很可能就是在网络化的知识空间中增加了大量并非由人完成的“突变”。因此,对于构建专家型系统的呼吁和进一步向公众开放生成式AI技术的呼吁变得同等重要。如果对于全人类福祉的考虑能够真正成为生成式AI的未来技术开发重点,也将意味着一个真正开源、开放的系统正在建构当中。

转自:“中国学派”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com