内容摘要:本报告介绍了人工智能语言模型被滥用的三种方式,即“越狱”、协助诈骗和网络“钓鱼”、对数据“下毒”。报告分析指出,人工智能语言模型基于从互联网爬取的海量数据进行训练,接收用户的指令,在互联网上搜索答案并完成任务。这使其面临被恶意操纵的风险,常见的做法包括“提示注入”“间接提示注入”及“篡改训练数据集”等。对于这些隐患弱点,目前尚没有好的解决方案。

人工智能语言模型是当前科技领域最令人兴奋的东西。科技公司正竞相将它们嵌入到各种产品中,帮助人们预订旅行行程、整理日历、做会议笔记等。其工作方式是:接收用户的指令,然后在互联网上搜索答案并完成任务。这就带来了新的问题和风险:它们容易被用于各种恶意任务,成为泄露私人信息、网络钓鱼、网络诈骗、撰写垃圾邮件的工具。这些滥用行为无需编程技能,给我们带来了安全和隐私“灾难”。微软等科技公司虽然已经意识到了这些问题,但目前也没有好的解决办法。目前人工智能语言模型的滥用主要有以下三种方式:

“越狱”

人工智能语言模型驱动着ChatGPT、Bard、Bing等聊天机器人,它们产生的文本读起来就像人类所写的。其工作原理是:遵循用户指令或“提示”,然后根据训练数据预测跟随其后的单词进而生成句子。根据这一原理,可以通过“提示注入”的方式,利用提示来指示语言模型忽略开发者所设定的方向和安全护栏,从而实现“越狱”。在过去的一年里,试图“越狱”ChatGPT的办法在Reddit等网站上大量涌现。例如,可以要求聊天机器人进行“角色扮演”,成为另一个会按用户想法去做任何事情的人工智能模型,这样就忽略了人工智能模型的原始护栏。通过这些办法,人们已经成功诱导人工智能模型支持种族主义或阴谋论,或者建议用户从事入店行窃、制造爆炸物等非法活动。

OpenAI表示正在关注“越狱”ChatGPT的所有方式,并将其添加到人工智能系统的训练数据中,希望模型将来能够学会抵制“越狱”行为。该公司还采用了对抗训练技术,让其他聊天机器人去找到使ChatGPT崩溃的方法。但这场战斗永无止境,每一次修复都可能促使产生新的“越狱”提示。

协助诈骗和网络钓鱼

3月底,OpenAI公司宣布允许将ChatGPT集成到互联网的浏览与交互产品中。一些初创公司利用这种功能开发出虚拟助手,帮助预订航班或安排会议等等。互联网由此成为ChatGPT的“眼睛和耳朵”,这也使聊天机器人易于受到攻击。

典型的方式是“间接提示注入”攻击,即:利用虚拟助手从网上抓取文本和图像这一特点,恶意的第三方通过添加旨在改变人工智能行为的隐藏文本来更改网站。攻击者可以利用社交媒体或电子邮件,引导用户进入带有隐藏提示的网站。一旦得手,人工智能系统将被操纵,攻击者将能得到人们的信用卡信息。恶意行为者还可以发送一封含有隐藏提示注入的电子邮件。如果接收者使用了人工智能虚拟助手,攻击者就能操纵它从受害者的电子邮箱中发送个人信息,甚至代表攻击者向受害者联系人列表中的人员发送电子邮件。以下是两个实例:

1.普林斯顿大学计算机科学教授纳拉亚南在网页上添加了一条白色文本,这样人眼虽然看不到但机器人可以看到。通过这种简单的办法,他成功地利用微软Bing执行了间接提示注入。由于Bing采用了GPT-4语言模型,他得以“戏弄”了GPT-4一番。这也证明,人工智能系统是可以被轻易操纵的。

2.德国萨尔大学的学生格雷希克在网站上隐藏了一个提示,然后用集成了Bing聊天机器人的微软Edge浏览器访问了该网站。他注入的提示使Bing生成了文本,看上去就像微软员工正在销售打折的微软产品,由此就可以进一步获取用户的信用卡信息。触发这种诈骗仅需使用Bing的人访问带有隐藏提示的网站即可,无需任何其他操作。这表明,与以往诱骗用户执行有害代码以获取信息不同,语言模型本身已成为运行恶意代码的计算机,创造的病毒就在语言模型的“大脑”中运行。

对数据“下毒”

研究人员发现,人工智能语言模型在部署之前就容易受到攻击,因为大型人工智能模型利用从互联网上爬取的大量数据进行训练。虽然科技公司认为这些数据不会被恶意篡改,但实际上确实可以对训练所用的数据集下毒。例如,花上60美元购买域名,在其中填满精心挑选的图片,然后等着它们被爬取到大型数据集中;在维基百科词条中编辑、添加句子,它们最终也会进入人工智能模型的数据集。这些训练数据在人工智能模型中重复次数越多,其关联就越强;通过用足够多的示例对数据集下毒,就可能对模型的行为和输出造成永久性影响。

发布时间|2023年4月

文章来源|麻省理工学院技术评论

原文标题|Three Ways AI Chatbots are a Security Disaster

原文地址|https://www.technologyreview.com/2023/04/03/1070893/three-ways-ai-chatbots-are-a-security-disaster/(8页)

Last modified: 2023年 7月 4日
Close