大模型认知的六个角度与三个层次

2023/8/24 15:42:30　阅读：51　发布者：

方院士、蒋老师、刘校长、各位校友下午好！

我本科是学通讯的，属于信息、计算机大领域，研究生学工业经济，1988年答辩的硕士论文，题目是中国工业机器人产业化研究。我的硕士论文，在“高被引”目录中还出现过。因此我持续关注最新的科技动态，显然有哈工大的基因。

我对在刘挺校长这个级别的自然语言处理专家，哈工大计算学部主任之后讲大模型很忐忑，特别是后面还压着方滨兴院士。我只好换个角度，更多的从经济学、产业经济和投资维度去给大家提供一些观察与思考。我汇报的题目叫大模型认知的六个角度与三个层次。

大模型引发的这一波浪潮，是去年11月30日，美国OpenAI 公司发布的一款名为Chat GPT的聊天机器人引发的，今年的3月15日其升级版GPT-4发布，业界普遍认为通用人工智能的“奇点”到来了。7月10号，国家的7部委联合发布《生成式人工智能服务管理暂行办法》。7月18日，联合国安理会第一次辩论人工智能安全与监管。因此2023年被认为是人工智能元年。

第一个角度，技术源流。

大模型，即生成式预训练大语言模型，技术源头显然是信息技术，信息技术中的人工智能大领域，人工智能大领域中的自然语言处理（NLP）。在这个维度上突破，现在普遍认为大模型可能会引领人类走向通用人工智能。

如何理解通用人工智能？看一下这个坐标，它的横轴是环境，分为开放的环境和封闭的环境。比如我们会场就是一个封闭的环境，大楼外边就是一个开放的环境。纵轴是对策，一个方向是静态的，就是固定的策略，固定的解决方案。另外一个就是动态的，见招拆招的解决方法。在第三象限，比如机场的人脸识别，封闭的环境，特定的任务，用一套静态的解决方案来解决，这就是人工智能最早解决的问题。第二象限是一个封闭的环境，但是它是见招拆招，比如说下围棋，前几年人工智能的热点。第四象限，环境是开放的，但是静态解决方案是相对固定的。比如行走机器人，山可以走，平地可以走，雪地可以走，但是它不能飞，不能跳。而第一象限，环境是开放的，解决方案是动态的，见招拆招，这就是通用人工智能将要主攻的方向。

大模型，去年11月30日之前这个词汇很小众。GPT发布之后，突然大热起来了。大是个相对的概念，实际是讲这个模型的参数，就是变量。我们中学学的二元一次方程，X、Y两个变量，模型的变量在大热之前，上亿的变量就叫大模型。而在今天的语境下，主战大模型基本都在千亿左右，1,750亿是中位数。而涌现现象出现的下限大约是在220亿，就是大几百个亿参数才可能出现涌现现象。怎么的要在200多亿参数以上的模型才算是大模型。

大模型可以分成两类，一类叫做通用基础大模型，比如GPT、LLaMA，百度的文心一言等等，都属于通用基础大模型。它的特征，参数量要在千亿往上去，能够解决广泛领域的问题，是个通才，什么都会。

还有一大类模型就是垂直行业应用模型，一个细分领域的应用模型，参数量应该在200亿左右，解决一个特定领域的问题，但是它跟原来的阿尔法狗，下围棋的机器人已经不是一代产品了，它是基于生成式、预训练出来的模型。

大模型的开发运营一般是分成两个阶段，第一个阶段是预训练，这应该是计算机科学的一个重大的进展。一个没有经过预训练的模型，上亿个参数是随机分布的，训练的过程就是通过大量的语料来对模型进行输出结果的校正，与人类对齐，把上亿的参数一个一个的确定下来，这个过程就叫练大模型。第二个阶段才是模型运维服务，这个时候参数就基本确定下来了，模型投入了推理运行服务阶段。

这一轮大模型最大的进步是它的生成能力。以往计算机系统的输出，原则上是小于等于输入，而这一轮生成式人工智能大模型，它的输出大于输入。而且大模型的输出是根据你的每一次的提问，给出一个针对于你的问题的新的回答。是现生成出来的，难就难在这儿，妙就妙在这儿，突破就突破在这儿。

大模型现在看，有三个比较大的突破，三个现象。

第一个现象，涌现。一个复杂的系统，当它的参数量和输入的数据量大到一定程度的时候，系统指标出现了跳跃式增长，这称之为涌现。日常生活中也有这种例子，比如小孩学骑自行车，开始后边两个支撑轮，后来大人扶着，摇摇晃晃，突然某一天他就会了。在中国人话语中有一个词叫“顿悟”，也有这个意思。

第二个现象叫统一。原来人与计算机的交互，文字是一个模态，语言是一个模态，图像是一个模态等等，现在 N个交互模态合为一个。在GPT-4统一了，用一套方法论解决了，这个现象称之为统一。

第三个现象称之为思维链，大模型可以把一个复杂的问题分解成若干个小问题，还会类似数学解题画辅助线，把一个复杂问题给解决了，很类似于人类思维的曲折性与连贯性。

最重要的，大模型开始会创造，它的输出大于给它的输入。涌现、统一、思维链，大模型的创造。这些问题到今天为止，学界没有一个合理的解释，到今天还不可理解。

从技术源流上看，自上世纪50年代人工智能学科基本确立，一直在试图模拟人脑的思维方式、逻辑与习惯。人脑实际上是这个世界中效率最高的计算体系。它的容量1.5升左右，耗能相当于25瓦的灯泡，但是它能够处理的数据量如此之大。如果把人类出现的一些顶级的大师，比如老子、苏格拉底、牛顿、爱因斯坦这样一些巨匠联系起来，人的大脑是真是了不得。

过去几十年人工智能专家们一直在试图研究、模拟人脑的思维的路径，出现了浅层神经网络，深层神经网络，一点一点的向人脑上靠。一系列的技术进步和最新的算法也在支撑着这种进步。跟GPT擂台打的最精彩的是谷歌的BERT，谷歌今天还应该是全球第一的人工智能公司。BERT的方法是完形填空，比如说“深度神经网络”，把第四个字“经”字抠掉，让你猜那是什么。而GPT的方法是单字接龙，由左到右单向扫过来。在几年时间里BERT的成绩远远的好于GPT。GPT-3出来之后，情况发生了改变。现在我们回过头来看，完形填空，因为它能够看左边看右边，看两个方向的信息，他的信息量大，因此在一段时间内成绩好是自然的。或者说是在参数量不够大的情况下，他成绩好是必然的。但是GPT随着模型参数量增大，1.2亿、15亿、1750亿，当模型到了1,750亿的时候，突然成绩就起跳了，涌现出现了。

按我的理解，就是GPT的逻辑更像人说话，更像人大脑的思维流。你看人说话，就是一路顺次说出来。GPT的胜利实际就是模拟人脑的胜利，这个路走对了。

在我们这个星球上，几万种生物，几十亿年演化，唯一出现了一个人类大脑或者人大脑皮层这样的一个计算机器。大模型就是数字世界第一次出现的类大脑皮层。

第二个角度，突破的条件。

我们看到， OpenAI团队并没有发明什么突破性的技术，Transformer是谷歌的，给它开源了，包括指令精调，基于人类反馈的强化学习等等算法，都不是他发明的。他们团队做的就是集成创新。显然是一系列的条件在某个时间点上成熟了，只不过这个点火人是OpenAI团队。

首先是算法的进步。人工智能1950年起步，前40年进展不大。一开始专家们试图把人类的知识、规则交给计算机，就是人教计算机学习。但是计算机只会回答你交给他知识范围内的问题，问他一个没教的事情，他就不会了。到了1990年，就开始进入了机器学习阶段，就是改由人教计算机变成让计算机自学。一开始是浅层神经网络，大概20年左右时间，到了2010年，深层神经网络三个教父级的人物辛顿、杨立坤出现之后，深度神经网络就越来越像人的大脑了，2018年，Transformer出来了，进入了预训练阶段，5年就突破了。

你看，40年、20年、10年、5年，这就是算法技术的倍速增长。基础当然还有模型的参数量，1.2亿、15亿，最后是1,750亿，现在大家一直在猜，GPT-4、GPT-5到底是多大的参数。

第二个就是算料，就是数据。GPT-3大概用了45TB的数据，相当于4,000亿本书，目前人类已有的书籍大约是1万亿本，就是用了40%的已有知识去做预训练，无监督学习，后来用有标注语料，做了一些有监督学习。数据中英文占93%，中文不到0.2%，但是他的中文表达已经非常好，所以说，看来语言不是大模型的核心问题。

第三个条件，算力，过去10年全球算力增长了10万倍，如果没有算力的实质性的突破，GPT的突破是不可能的，这也是为什么OpenAI团队敢于提出1亿参数不行，10亿，10亿不行，100亿，100亿不行，1,000亿，它的能量支撑实际是算力。

当然还有OpenAI团队。这个团队的执着令人叹服，当Transformer开源之后，团队就把全部的家当压了上去。Transformer是三个技术路线，单纯编码、单纯解码、编码加解码，OPENAI的首席科学家苏斯科维只认单纯解码这一条路。谷歌为什么没有胜出？谷歌至少是两棵大树，BERT、GPT，各有3个树杈，这6个方向平均分配力量。很多突破，为什么出现在创新团队？因为他没有牵挂，孤注一掷。我们还是应该很佩服OPENAI的这种执着。如果没有这批人，业界普遍认为这个技术，2030年之后才能攻克。OPENAI团队给这个世界最大的贡献，类似于当年大航海时代的哥伦布，在茫茫暗夜中点亮了一个灯塔，告诉大家那条路是通的。

第三个角度，重大影响。

以往我们都认为自动化，首先替代的是那些重复劳动，体力劳动，但是这一轮的人工智能的突破却瞄着知识劳动者去了。知识生产与科学研发将发生颠覆性的改变。以往人类都认为生产知识，发现这个世界的规律是人的专利，人为万物之灵长，今天大模型告诉我们，他也会，他比我们做的可能还好。

大模型出现之后，科学研发的范式发生了根本的改变。以前科学研发的范式，一般是三段论，第一段，从大量的现象或实验中发现某种规律，第二段，提出猜想、理论或模型，第三段，验证。第一段、第三段以往都需要大量的实验，耗费大量的人力、时间和物资，这些实验被称之为“湿实验”。大模型出现之后，加之大数据的加持，90%的“湿实验”不用做了，代之以计算机上的“干实验”，科学研发的范式发生了根本的颠覆。

放眼全球，从人类的角度看，大模型将会带来技术平权与人类增强。文艺复兴之前的欧洲，人们禁锢在教会统治之下，人们不会思考或者无需思考，有问题，问上帝问教会。400年前文艺复兴开始，笛卡尔喊出了“我思故我在”，高举起了理性的旗帜。人们认识到这个世界不是上帝决定的，探索这个世界的规律是人的责任。理性主义引导着现代文明这几百年的走向。

大模型它实际上是一个“智能超脑”，我们以前说计算机是电脑，大模型是比电脑升了一级的智能超脑，他会思考，会创造，给了我们每一个人一个能力倍增器。工业革命是人类体力的一个大解放，而这一轮大模型人工智能革命是人类脑力的一次大解放，全人类的平均知识水平大幅度提高，全人类知识的鸿沟大幅度缩小。

我和刘挺副校长上次聊天，以前的知识界就像农村的水田似的，用田埂围成一小块，一小块。今天水面迅速抬高，一个一个的田埂都被淹没了。以前叫隔行如隔山，今天海面升起来，山看不见了。

还有数字人要来了，现在预期就是5~10年，就是2028到2033年之间，我们会有很多数字人的伙伴，可能某公司的前台就是数字人，销售除掉一个头是个真人之外，全是数字人，我们家里可能有数字人保姆。现在叫通用智能体，马斯克预言，通用智能体今后跟人类的比例是1:1，地球上80亿人，就有将有80亿的通用智能体。通用智能体的特征，它能够完成多种任务，而且能够自主产生任务，有价值驱动。硅基劳动力全面入场，离我们已经非常近了。

第四个角度，竞争格局。

大国博弈中的人工智能。在大模型这个领域，美国第一，中国第二，这里是中美竞争的“上甘岭”，谁都输不起，美国拉开架势，要把中国挤出第一梯队，我们寸土不让。这件事情堪比上个世纪60年代美苏的核竞赛，两个国家反复谈判，最后达成了中导条约，保证了人类没有使用这种毁灭性的武器。在人工智能领域，中美两国有可能，也有义务为人类未来安装护栏。对于中国而言，发展人工智能是有风险，但是不发展，被挤出第一梯队是最大的风险，后果不堪设想。

根据我们的观察，大模型领域狂飙突进的阶段已经告一段落。原来我们认为OPENAI会训练完GPT-4，干GPT-5，接着GPT-6，与我们的差距会越拉越大。现在看，这个情况短期内缓解了。大概的原因，首先，是这件事情本身没有太高太深的门槛，没有什么是他会，我们绝对不会的技术，它本质上讲是个工程集成创新。其次，就是单纯依靠提高参数数量级的边际效应递减了。OpenAI本质上还是个公司，赔本的买卖他也很慎重。另外，就是国际监管舆论，联合国开会，接着9月份欧洲开会，中国发布监管办法等等。

美国有一批开源的大模型，其中比较优秀的是LLAMA。2月24号发布，然后不明原因的泄露了，源代码、训练数据集、参数都公开了。索性7月份干脆他就开源了。这几个完成了预训练的大模型开源，使得通用大模型已经不再被openAI、谷歌等垄断了，技术平民化、价格白菜化，场景微型化的趋势已经出现。

我们要正视中美之间的差距。人才，全球Top2000人工智能学者中聚集在20个机构，美国有16家，中国只有2家。算法，核心算法和架构基本上由谷歌、MATA、微软、OpenAI等发明和控制。芯片。美国三年前已经看到了今天，他把芯片禁售划在了7纳米上，而现在主战GPU也就是英伟达的 A100，正好就在这条线上。华裔为了做生意，给了我们A800，效率变成了70%。人家用A100算一个月，我们要算两个月。今天人家出了H100，比A100的效率翻倍，原来一个月工作量，现在只用三天，而我们还要用两个月。距离就这样一点一点的被拉开了，而且A800说禁就禁，供货期半年以上。包括智能云服务不得向中国提供，就是要在人工智能领域抑制中国。接着就是算料，中国的数据本来就不足，质量也不高，而且是分散的。因此普遍认为中美在生成式人工智能领域大约有12~24个月的差距。

国内目前已经到了“千模大战“”的阶段。现在基本上取得共识，就通用基础大模型一定要国产化，一定要有中国版的GPT。而能干这个活的，门槛就是1万片GPU，强大的数据能力，百十人团队，国内不会超过十家。更多的公司和院校实际上应该向垂直领域大模型去开发，要百花齐放。

第五个角度，应对策略。

今天的听众都是校友，我主要谈谈个人的应对。面对大模型的冲击，很多人都很焦虑，我们自己，我们的下一代在大模型冲击下何以安身立命？

在今天，学会一门知识，干一辈子的时代已经过去了。科技进步速度与知识的保鲜期成反比，已有知识在社会价值谱系中的位置越来越低，因此我提在大模型时代的“生存三宝”，健康身心、良好状态和核心能力。

前两个好解释，核心能力由五个能力构成，第一个就是提示能力，就是提问能力，大模型你如果对他提一个四平八稳，非常通俗的问题，他的回答也就是七八十分。你如果能够提出角度新颖，层层递进的问题，他的回答也会越来越精彩。因此提示词工程师被称之为大模型时代的魔法师，肯定是个高薪行业。

第二个就是判断能力，大模型给我们很多信息，首先要判断他说的对不对，因为他有的时候会“一本正经的胡说八道”。另外，它只是提供各种各样的可能性，行动的决策是由人来完成，因为计算机不对行动的结果负责任。第三个是创造，今后最重要的创造是能够发现并理解不同系统之间的联系以及它发展的可能性，这就是创造。第四是情商，大模型再聪明，在可以预见的时间内，他应该不具备情商，这是人的独门秘籍，就是理解人，有同理心，能够说服人等等。最后是幸福能力。随着大模型的推进，人类的物质生产能力会越来越强，起码在中国，物质匮乏是小概率事件。随着物质越来越丰富，人的精神被扰动的可能性却大幅的增加。因此认识幸福、创造幸福、理解幸福、把握幸福的能力变得非常重要。

另外一个就是要主动拥抱，用好“超级智脑”，成为超级个体。人工智能时代是一个人人为龙的时代，只要你想，就能飞龙问天。他是各种知识的副驾驶，是各种能力的辅导员，是各个行业的智能加速器，“就缺一个好问题”，你认真的想一想去怎么问他，当然也要防止别被他的一本正经的胡说八道给误导了。

第六个角度，今天是校友会的活动，跟大家聊聊个人在大模型时代的创业机会。

通用基础大模型，个体创业就不要想了，那属于公共基础设施，是国家队、特别大的公司去做的。

可以考虑围绕着垂直行业应用做一些创业。大模型最大的好处就是，由原来的电脑可用，变成了好用，他真的好使，真的能够提供很具体的解决方案，而且他离钱相对的近。我们一直在看各种各样的信息技术，大模型的商业变现速度是比较快的。

垂直应用大模型关键是高质量的数据，本质上应该是To B、G的，因此它难就难在了高质量的数据上，谁能拿到高质量的数据，就可以琢磨怎么用大模型去做些事情。大模型大概是模型+算力+数据+场景。关注如何做到个性化，增加记忆的可能性，如何做到场景化，增加一些所谓具身智能的能力，就是类似手、眼睛的能力。用好开源模型，现在开源模型已经到了白菜价，优化算力的成本，解决高耗能问题，降低数据的成本。

另外一个就是校友的生态，今天正好北京校友会的副会长高峰在现场，他就做了个挺好的IT运维大模型，跟中科院的睿泊公司合作开发，8个模块已经完成4个，IT问诊、智能招聘，很有意思的应用。咱们校友在大模型创业上应该联起手来，这确实是一个巨大的历史性的机会。

讲完了大方向认知的六个角度，再说一说认知的三个层次。

第一个层次，我们首先能够理解这是一个技术，一个颠覆性、创新的技术。

生成式人工智能已经被普遍认为是通用技术，就是广泛应用，并且大幅度提高劳动生产力的技术。GPT用户现在已经过亿了，可以说广泛应用。它在各行各业的提质增效，大幅度提高生产率，这已经能够看出来了。

工业革命是人类体力的一次大解放，而人工智能革命是人类智力的一次大解放，它是知识的高效的生产者与传播者。大模型是智力的载体，以AI为中心的浪潮就应该是智力运营，最底层的技术是各种硬件软件，上面就是AI的具体应用，而大模型就处于两者的中间，扮演树干的角色，大模型应该把智力变成像水、电这样的公共服务，通过云向大量的企业和个人提供服务。

第二个层次，可以把它理解为一个时代。

人工智能不是一个行业，更不是单一的产品，用战略术语来说，它甚至不是一个领域，它是科学研究、教育、制造、物流、运输、国防、执法、政治、广告、艺术、文化等众多行业及人类生活各方面的赋能者。人工智能的特点，特别是他的学习演化和让人大吃一惊的能力，将颠覆和改变所有这些方面。纵观历史人类，并非没有经历过技术变革，然而从根本上改变我们这个社会的社会架构和政治架构的技术却屈指可数，而人工智能有望在人类体验的所有领域带来变革。这段话是基辛格先生说的。

命名时代的技术，首先是能够广泛应用，普遍赋能，对其他要素全面渗透和统合提升。其次是具备跨时代的经济性，大幅度提高生产率，使用者对不使用者形成明显竞争优势，可能引发长周期的经济增长。

现在普遍认为，我们现在正在进入人工智能时代，2023年就是人工智能的元年。由先发国家的点解决方案引领，逐步扩散到大范围的应用解决方案，最后成为全球的系统解决方案。

第三个层次，再高一层，文明。

我们站在文明的角度去看，人类经过几亿年的演化，出现过几个文明级别的技术或发现，语言、火和电。大模型堪比语言、火和电的发现。

语言是人与动物分化的最重要的标志。人类所有的复杂文明系统，神话、宗教、国家、货币、法律本质上都是用语言来编制的，因此语言是人类文明的操作系统。大模型恰恰就是从语言切进去了，他通过语言理解了这个世界，他很可能会生出新的文化，将我们包裹其中。

400年前笛卡尔喊出了“我思故我在”，高扬起了人类理性的旗帜，今天计算机也开始会思考了，那我们是谁？这个问题很值得思考。

大模型的出现是人类生物算力权力的一次让渡。人类是以一些大师，老子、苏格拉底、牛顿、爱因斯坦为灯塔，人类生物算力的顶峰是这样一些人。今天大模型可能超过我们绝大多数人，离那些大师也不远了。

再往前看一步，人工智能革命的本质是把人类大脑分布式的离线运行协同模式，即只能通过效率低下的语言、文字来进行协同，在这个模式下“家书抵万金”，多大的成本，把这样一种低效的协同模式改变成硅基与碳基生命全体实时在线，以光速高效协同的这样一个模式。未来的文明充满想象。

希望今天的讲座能为大家开阔视野，活跃思想，谢谢大家！

（本文是作者2023年8月13日在哈工大计算学部知名校友讲座上的演讲）

转自国富资本熊焰

转自：“科研圈内人”微信公众号

如有侵权，请联系本站删除！

上一篇： 前沿资讯| 张永军教授联合科研团队在《科学》发文呼吁用遥感手段护卫粮食安全
下一篇： 北科大《Nature Communications》：新型磁热开关控制的高性能热磁发电装置

投稿问答最小化 关闭

大模型认知的六个角度与三个层次

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化 关闭

大模型认知的六个角度与三个层次

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化关闭