前言
大规模预训练语言模型(Large Language Model, LLM)的出现推动了机器人领域的发展。这些模型通过在大规模文本数据上进行预训练,可以学习到丰富的语言知识和语义表示。然后,这些模型可以通过微调来适应特定的任务或领域。自然语言是一种大众掌握的技能。通过使用自然语言与计算机交互,降低了新手的使用难度,直观有效,降低了学习成本[1]。本文将以机械臂为例介绍一下LLM在机器人中的应用。
LLM在机械臂中的应用主要有以下几方面:
语音指令控制:将用户的语音指令转化为机械臂可以理解的指令。通过语音识别技术,将用户的语音输入转换为文本形式,然后利用LLM分析文本指令的意图和要求,使得用户可以直接通过语音指令控制机械臂。
动作规划与执行:帮助机械臂进行动作规划和执行。通过训练LLM,机械臂可以学习识别和理解自然语言中的动作指令,如“抓取物体”、“放置物体”、“旋转臂”等。基于这些指令,机械臂可以进行运动规划,确定适当的关节角度和路径,以完成所需的操作任务。
上下文理解与智能交互:LLM的上下文理解能力可以提高机械臂的交互性和智能性,提升机械臂的长期推理能力。机械臂可以通过LLM分析用户的语音指令,并结合上下文信息进行更准确的理解和响应。
多模态交互:与其他传感器数据进行融合,实现多模态交互。机械臂可以通过LLM分析语音指令的同时,结合视觉传感器获取的图像信息,进一步理解和识别目标物体的特征和位置。这种多模态的交互方式可以提高机械臂的感知能力和操作精度。
语言模型在机械臂操纵中的实际应用
1. 谷歌PaLM-E应用于机器人操纵
谷歌将PaLM-E(Pathways Language Model with Embodied)与机器人操纵相结合,将真实世界的传感器模态结合到语言模型中,建立单词和感知之间的联系[2]。PaLM-E通过利用视觉、连续状态估计和文本输入编码信息,结合预训练的大型语言模型,对移动操作任务的编码执行端到端的训练。PaLM-E的输入包括文本和(多个)连续观测。与这些观察结果相对应的多模态表征与文本交织,形成多模态句子。PaLM-E的输出是由模型自动回归生成的文本,它可以是一个问题的答案,也可以是PaLM-E以文本形式产生的一系列由机器人执行的决策。
PaLM-E已经成功应用于多个机器人操纵任务。图1执行了一个长期指令“从抽屉里给我拿米粒”。PaLM-E进行长期推理规划,推理出多个子步骤,包括:到达抽屉处、打开抽屉、将米粒拿出抽屉、带给使用者、放下物品。任务的提示结构包括1.人的指令2.机器人的状态反馈3.视觉信息。机器人在操作中表现了比较强的抗干扰能力,在将米粒袋拿出抽屉过程中,不断受到人类干扰,将米粒袋放回抽屉,机器人依旧能够重新找到米粒袋并继续执行任务,表现出较强的鲁棒性。
图1:PaLM-E 作业流程
图2 PaLM-E作业示例
2. Text2Motion应用于机器人操纵
Text2Motion是一种应用于机器人长期推理的顺序操作任务的自然语言框架[3]。在给定语言指令的情况下,Text2Motion构建一个任务和策略级别的规划,并不断验证其是否满足目标需求来验证规划的准确性,使用Q函数中编码的可行性启发法来指导大型语言模型的任务规划。
使用Text2Motion进行规划包括三个步骤:
1)LLM将长期规划分割,推断出几个需要完成的子目标,以满足人类的指令
2)使LLM、独立学习技能库(拿物品、拖动物品等底层接口)和几何可行性计划器来计算可行规划
3)当推断的子目标目标满足动力学约束时,执行可行的规划
Text2Motion返回结果是满足所提供的自然语言指令和动力学可行的规划结果。其整体的规划流程如图3所示,当人类发出指令“将两个原色(红、黄、蓝色方块)物体放在架子上”,机器人在场景描述和语言指令上应用符号推理,主要过程如下:首先预测了三种组合方式(红黄、红蓝、蓝黄),对于红色来说,预测抓取的得分比较高(0.91),而黄色抓取得分很低(0.16),所以机械臂直接对红色进行抓取并继续推断将红色物体放置在桌子上的可行性;而对于黄色和蓝色抓取的得分都比较低,对于钩子的抓取得分比较高,所以考虑使用钩子将物体勾近,再使用机械臂抓取物体,将物体放到架子上。如图3和图4所示,最终规划的结果为:1. 抓取红色物体;2. 将红色物体放到架子上;3. 抓取钩子;4. 使用钩子勾蓝色物体;5. 将钩子放在桌子上;6. 抓取蓝色物体;7. 将蓝色物体放到架子上。Text2Motion在机械臂长期推理操纵任务中的成功率为82%。
图3 Text2Motion应用于机械臂的规划流程
图4 Text2Motion执行“将两个原色物体放在架子上”
3. LLM应用于机器人规划校正
LLM同样被用于机器人规划中的实时校正,修正可以采取新的优化函数、新的约束(例如避免特定对象)或规划算法提示(例如访问特定航路点)的形式[4]。以机器人吸尘器为例,机器人的目标是打扫房子,但可能需要改变目标(“只打扫客厅。”),引入限制(“不要进入浴室!”)或在机器人被卡住时引导它(“走到墙的右端进入错过的房间。”),自然语言反馈以改变其行为的各个方面或修改其运动目标。
将LLM与传统的规划算法相结合,建模为可以与任务成本相结合的残差成本函数,运动规划的目标函数采用基于优化的规划方法或是控制框架中的成本函数的形式,如图5所示。用户允许在执行过程中的实时修改机器人的目标,或是在运动优化过程中实时引入额外的约束,通过人机交互方法提升机器人的规划性能,起到规划轨迹校正的作用。
图5 基于自然语言的机器人规划校正框架
基于LLM的修正框架可以与常用的运动规划框架集成,如避免碰撞、关节限制和平滑度。它还允许按顺序或在给定时间对成本进行分层,允许时变校正。能够组合与先前学习的任务或更正相关联的成本,以在更高的抽象级别上表示新任务。
总结
通过LLM,用户可以使用自然语言与机器人交互,无需专门的编程技能或复杂的界面操作,这种自然交互方式使得机器人的操作更加直观、简单,降低了使用门槛。相比传统的编程接口或遥控器,语音指令更加直观和高效,能够快速传达用户的意图和要求。同时,LLM的应用使得机器人具备一定的智能化能力,通过结合上下文信息和语义理解,能够更准确地理解用户的指令,并做出相应的反应和决策,这种智能化能力使得机器人更加智能、灵活,能够适应复杂的操作场景。
未来的LLM将会更加准确地理解用户的语义和意图。可以更加紧密地与其他传感器数据进行融合。通过结合视觉、触觉等传感器的信息,机器人可以更全面地感知环境和目标,进一步提高操作的精确性和安全性。LLM的应用有望与强化学习技术相结合,使得机器人能够通过与环境的交互,自主学习并改进操作策略。机器人可以通过与用户的对话和反馈来优化自己的动作规划和执行过程,实现更智能的决策和操作。在未来,多个不同种类的机器人可以通过语音指令和对话系统进行协作,共享任务信息、交流操作状态,实现复杂的协同操作。
参考资料
[1] Shen, Leixian, et al. “Towards natural language interfaces for data visualization: A survey.” IEEE transactions on visualization and computer graphics (2022).
[2] Driess, Danny, et al. “Palm-e: An embodied multimodal language model.” arXiv preprint arXiv:2303.03378 (2023).
[3] Lin, Kevin, et al. “Text2motion: From natural language instructions to feasible plans.” arXiv preprint arXiv:2303.12153 (2023).
[4] Sharma, Pratyusha, et al. “Correcting robot plans with natural language feedback.” arXiv preprint arXiv:2204.05186 (2022).
封面:https://www.cnet.com/pictures/see-googles-ai-powered-robot-at-work-in-a-kitchen/
本文共2689字
申请文章授权请联系后台运营人员
来源:西湖大学智能无人系统课题组
https://mp.weixin.qq.com/s/twlcXeUL_vH57q4CGnQxsQ
转自:“测绘学术资讯”微信公众号
如有侵权,请联系本站删除!