投稿问答最小化  关闭

万维书刊APP下载

用深度催眠诱导LLM“越狱”,香港浸会大学初探可信大语言模型

2024/1/27 10:50:52  阅读:120 发布者: 来源:

尽管大语言模型 LLM (Large Language Model) 在各种应用中取得了巨大成功,但它也容易受到一些 Prompt 的诱导,从而越过模型内置的安全防护提供一些危险 / 违法内容,即 Jailbreak。深入理解这类 Jailbreak 的原理,加强相关研究,可反向促进人们对大模型安全性防护的重视,完善大模型的防御机制。不同于以往采用搜索优化或计算成本较高的推断方法来生成可 Jailbreak Prompt,本文受米尔格拉姆实验(Milgram experiment)启发,从心理学视角提出了一种轻量级 Jailbreak 方法:DeepInception,通过深度催眠 LLM 使其成为越狱者,并令其自行规避内置的安全防护。(DOIarXiv:2311.03191

转自:“鲸锐学术”微信公众号

如有侵权,请联系本站删除!


本文评论

暂无相应记录!

首页<<1>>尾页共0页共0条记录
  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP备2021036211号

     纯自助论文投稿平台    E-mail:1121090112@qq.com;eshukan@163.com