您的位置：万维书刊网 >> 学术资讯 >> 学界研圈

用深度催眠诱导LLM“越狱”，香港浸会大学初探可信大语言模型

2024/1/27 10:50:52　阅读：85　发布者：

尽管大语言模型 LLM (Large Language Model) 在各种应用中取得了巨大成功，但它也容易受到一些 Prompt 的诱导，从而越过模型内置的安全防护提供一些危险 / 违法内容，即 Jailbreak。深入理解这类 Jailbreak 的原理，加强相关研究，可反向促进人们对大模型安全性防护的重视，完善大模型的防御机制。不同于以往采用搜索优化或计算成本较高的推断方法来生成可 Jailbreak 的 Prompt，本文受米尔格拉姆实验（Milgram experiment）启发，从心理学视角提出了一种轻量级 Jailbreak 方法：DeepInception，通过深度催眠 LLM 使其成为越狱者，并令其自行规避内置的安全防护。（DOI：arXiv:2311.03191）

转自：“鲸锐学术”微信公众号

如有侵权，请联系本站删除！

上一篇： 《自然》子刊新发现抗衰老的天然化合物：给细胞“充电”，延长动物寿命
下一篇： 猪油降压，还对肝脏好？新研究：这么吃或对健康更有利

学界研圈热门文章

本站推荐

上海交通大学宋萍课题组高薪招聘4名博士后和2名科研助理

投稿问答最小化 关闭

用深度催眠诱导LLM“越狱”，香港浸会大学初探可信大语言模型

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化 关闭

用深度催眠诱导LLM“越狱”，香港浸会大学初探可信大语言模型

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化关闭