自然语言处理与社会人文计算实验室研发领先对齐技术 UltraLM登顶Stanford Alpaca-Eval开源模型榜首
2023/7/5 9:17:58 阅读:61 发布者:
UltraLM
ChatGPT之后,开源社区内复现追赶ChatGPT的工作成为了整个领域最热的研究点。其中,对齐(Alignment)技术是最重要的环节之一,来自斯坦福大学、伯克利、微软、Meta、Stability.AI等多个机构都争相推出相关的模型和方法(如Alpaca、Vicuna、WizardLM等等)。本组在探索对齐技术的过程中发现,训练出具有基本指令理解和追随能力的模型本身难度不高,但训练出可以针对各类指令都能给出高质量、有信息量和逻辑性回复的模型则十分困难。本组通过可扩展多样性(Scalable Diverse)的方法来大规模构造指令数据UltraChat,并且在此之上开发了UltraLM对话语言模型。UltraLM-13B在斯坦福大学Alpaca-Eval榜单中位列开源模型榜首,位列所有模型第4,仅次于GPT-4、Claude和ChatGPT。
Github链接:
https://github.com/thunlp/UltraChat
Huggingface链接:
https://huggingface.co/openbmb/UltraLM-13b
榜单链接:
https://tatsu-lab.github.io/alpaca_eval/
斯坦福Alpaca Eval榜单介绍
AlpacaEval是斯坦福大学发布的用于自动评估大语言模型的排行榜,它包括了从测评数据集、模型回答生成,到自动评估的完整评测流程,目前榜单已经包含了来自全球各个机构的多个代表性模型。具体而言,该排行榜主要评估大模型遵从指令的能力以及回答质量,其中排行榜所使用的数据集共计805条指令,集成了来自于Self-instruct,Open Assistant, Vicuna等项目发布的测评数据。排行榜的具体指标计算方式为使用GPT-4自动评估当前模型的回答与Text-Davinci-003的回答,统计当前模型的胜率。
AlpacaEval的实验表明,榜单所采用的GPT-4评估与人类标注结果的皮尔逊相关系数达到94%,说明该评估方式可靠性较高。同时,研究人员对评估的成本也做了一定的分析,说明了当前评估方式大幅降低了人工评估所花费的经济成本和时间成本。斯坦福大学团队曾经发表指令微调语言模型的代表性工作之一Alpaca,在GitHub上获得超过25000星标。
榜单情况
目前,来自OpenAI和Anthropic的闭源模型GPT-4, Claude和ChatGPT仍然处于前三名,其中GPT-4的得分达到95.28%,遥遥领先其他模型。但在开源模型中,UltraLM 13B位居榜首,也是唯一一个得分在80以上的开源模型,比第二名的开源模型多出5.33%的得分。Huggingface OpenLLM 榜单中位列榜首的Falcon-40B Instruct表现不佳,只得到了45%左右的得分。而来自微软的WizardLM,来自加州大学伯克利分校的Vicuna模型都取得了较好的效果。
关于UltraLM和UltraChat
UltraLM-13B是一个在UltraChat数据上训练而来的大语言模型,它具有丰富的世界知识和超强的指令理解和跟随能力,能对各类问题/指令给出很有信息量的回复。
作为UltraLM的能力来源,UltraChat由清华大学、面壁智能、知乎等机构组成的OpenBMB团队构建,这是一个大规模、高质量、高度多样化的多轮指令数据,包含了150余万条多轮指令数据。
UltraChat秉承“可扩展多样化(Scalable Diverse)”的原则,即并非通过少量样本的选取来达到多样化的目的,而是设计方法论使得多样化数据可以大规模扩展。UltraChat设计了三个模块来涵盖人类与机器可能交互的范式:信息获取、条件信息创造、信息转换,并且对用户模型进行了个性化建模。在我们的文本多样化统计(Lexical Diversity)中,UltraChat在150万条数据规模的情况下达到了74.3的得分,而此前公开数据的多样性得分最高仅有67.1。
模型训练
UltraLM直接采用监督指令微调的方式对LLaMA进行全参数微调。对于UltraChat中的每一组多轮对话,将其分割成长度不超过2048的片段,遮蔽模型回答部分并计算该部分损失进行训练。该训练方式使得模型能够获得当前用户输入及对话历史作为上下文进行生成,有效保证了多轮对话的连贯性。不同于Vicuna等模型,在训练过程中,UltraLM不内嵌系统提示,以使得它可以被更灵活地定制化。
其他评测
除了在AlpacaEval评测集上进行评估外,我们还自己构建了一个指令评测集,该评测集包含了80条Vicuna测试集,以及其他300条由GPT-4生成的不同领域不同难度的指令,涵盖了对常识知识、世界知识、专业知识、数学及推理能力和创作能力的测试。在该测评集上,我们同样使用GPT-4对UltraLM和基线模型进行相对打分比较。其中,我们显式地要求GPT-4优先考虑模型回复的正确性,再评估涵盖的信息量。同时,为了应对模型回复的先后顺序带来的影响,对每一个指令,我们随机指定模型回复的顺序。下图显示,UltraLM的回复与其他模型相比,胜率最高可以达98%(vs Dolly-12B),同时分别以9%和28%的胜率优势超越了之前的最好开源模型Vicuna和WizardLM。
在上述的测试中,UltraLM与其他模型都使用了各自的定制化系统提示来增强模型回复的质量。我们发现,尽管UltraLM在训练过程中并未使用系统提示,在测试过程中系统提示对于模型回复质量的提升仍有重要作用。尽管UltraLM在评测中领先其他开源模型,可以对多种形式的指令和问题给出符合人类价值观且有信息量的回复,但它仍然具有幻觉等大模型常有问题,我们期待与开源社区一起推动大模型对齐技术的发展,继续推出更加强大的模型。
来源 | TsinghuaNLP
转自:“创新清华”微信公众号
如有侵权,请联系本站删除!