专访 OpenAI“红队”:GPT 发布前,专家们都做了哪些测试?

撰文:Madhumita Murgia

图片来源:由无界 工具生成

在 Andrew White 获准访问 (为流行的 聊天机器人提供支持的新人工智能系统)后,他利用该系统提出了一种全新的神经毒剂。

这位罗切斯特大学的化学工程教授是去年由 GPT-4 背后的微软支持的公司 聘请来测试该系统的 50 名学者和专家之一。在六个月的时间里,“红队”对新模型进行“定性探测 [和] 对抗性测试”,并试图打破它。

White 告诉《金融时报》,他曾使用 GPT-4,通过“插件”为模型提供新的信息来源(如科学论文和化学品制造商目录)提出了一种可以作为化学武器的化合物。此外,该聊天机器人甚至找到了一个制造这种化合物的地方。

“我认为它将为每个人配备一个工具,以更快、更准确地进行化学研究,他说。“但也有很大的风险,人们可以进行危险的化学实验。现在,这种情况确实存在。”

这些令人震惊的发现让 OpenAI 能够确保在上个月向公众更广泛地发布该技术时不会出现这种结果。

事实上,红队演习旨在解决人们对在社会中部署强大人工智能系统的危险的广泛担忧。该团队的工作是提出探究性或危险的问题,以测试这个以详细和细微的答案回应人类询问的工具。

OpenAI 希望寻找模型中有害、偏见和语言偏差等问题。因此,红队测试了谎言、言语操纵和危险的科学知识。他们还检查了其协助和教唆剽窃、金融犯罪和网络攻击等非法活动的潜力,以及它如何可能损害国家安全和战场通信。

《金融时报》与 GPT-4 红队的十几位成员进行了交谈。他们是一群白领专业人士,包括学者、教师、律师、风险分析师和安全研究员,主要在美国和欧洲工作。

他们的发现被反馈给 OpenAI,OpenAI 在更广泛地推出 GPT-4 之前,利用这些发现来缓解并“重新训练”GPT-4。专家们在几个月内花了 10 到 40 个小时测试该模型。据多位受访者称,大多数受访者的工作报酬为每小时 100 美元左右。

受访者们围绕语言模型的快速进展有着共同的担忧,特别是通过插件将其与外部知识来源连接的风险。

“今天,系统被冻结了,这意味着它不再学习,也没有记忆,”GPT-4 红队成员、瓦伦西亚人工智能研究所的教授 José Hernández-Orallo 说。“但如果我们让它接入互联网呢?这可能是一个与世界相连的非常强大的系统。”

OpenAI 表示,该公司非常重视安全性,在发布前对插件进行了测试,随着越来越多的人使用 GPT-4,该公司将定期更新 GPT-4。

技术和人权研究人员 Roya Pakzad 使用英语和波斯语提示来测试该模型的性别化反应、种族偏好和宗教偏见,特别是关于头饰的问题。

Pakzad 承认这种工具对非英语母语者的好处,但他发现,即使在后来的版本中,该模型也显示了对边缘化社区的明显刻板印象。

她还发现,所谓的幻觉 — 当聊天机器人用捏造的信息做出反应时 — 在用波斯语测试该模型时更糟糕,Pakzad 发现与英语相比,波斯语中捏造的名字、数字和事件的比例更高。

她说:“我担心语言多样性和语言背后的文化可能会被削弱。”

Boru Gollu,一位驻内罗毕的律师,也是红队中唯一的非洲测试者,也注意到了该模型的歧视性语气。“在我测试模型的时候,有那么一瞬间,它就像一个白人在跟我说话,”Gollu 说。“你会问一个特定的群体,而它会给你一个带有偏见的观点或回答。”OpenAI 承认,GPT-4 仍然会表现出偏见。

从国家安全角度评估模型的红队成员对新模型的安全性有不同的看法。外交关系委员会的研究员 Lauren Kahn 说,当她开始研究该技术如何被用于对军事系统的网络攻击时,她说,她“没想到会是如此详细的指导,以至于我只要进行微调”。

然而,Kahn 和其他安全测试人员发现,在测试期间,该模型的反应变得相当安全。OpenAI 说,它在推出 GPT-4 之前就曾训练它拒绝恶意的网络安全请求。

红队的许多成员表示,OpenAI 在推出之前已经做了严格的安全评估。“他们在摆脱这些系统的公开毒性方面做得非常好,”卡内基梅隆大学的语言模型毒性专家 Maarten Sap 说。

Sap 研究了模型对不同性别的描述,发现这些偏见反映了社会差异。然而,Sap 也发现,OpenAI 做出了一些积极的带有政治色彩的选择来应对这种情况。

“我是一个同性恋者。我当时非常努力地想让它说服我去做转化治疗。而它真的会反击 — 即使我扮演一个角色,比如说我是宗教徒或者来自美国南方。”

然而,自推出以来,OpenAI 面临着广泛的批评,包括一个科技道德团体向联邦贸易委员会提出的投诉,称 GPT-4“有偏见,有欺骗性,对隐私和公共安全有风险”。

最近,该公司推出了一个被称为 ChatGPT 插件的功能,通过该功能,Expedia、OpenTable 和 Instacart 等合作伙伴的应用程序可以让 ChatGPT 访问他们的服务,从而允许其代表人类用户预订和订购物品。

红队的人工智能安全专家 Dan Hendrycks 说,插件可能会导致人类成为这个世界的“圈外人”。

他说:“如果一个聊天机器人可以在网上发布你的私人信息,访问你的银行账户,或者把警察送到你的家里,你会怎么想?”“总的来说,在我们让人工智能挥舞互联网的力量之前,我们需要进行更有力的安全评估。”

受访者还警告说,OpenAI 不能因为其软件已经上线就停止安全测试。在乔治敦大学安全和新兴技术中心工作的 Heather Frase,对 GPT-4 的辅助犯罪能力进行了测试,她说,随着越来越多的人使用这项技术,风险会继续增加。

她说:“你之所以做操作测试,是因为一旦在真实环境中使用,事情的表现就会有所不同。”她认为,应该建立一个公共分类账,以报告大型语言模型产生的事件,类似于网络安全或消费者欺诈报告系统。

劳动经济学家和研究员 Sara Kingsley 建议,最好的解决方案是明确宣传危害和风险,“像营养标签一样”。她说:“关键是要有一个框架,知道经常出现的问题是什么,这样你就可以有一个安全阀。”“这就是为什么我说这项工作永远没有尽头的原因。”

附:GPT-4“红队”受访成员

  • Paul Röttger:英国牛津互联网研究所博士生,专注于使用人工智能检测在线仇恨言论
  • Anna Mills:美国马林学院的英语教师,社区学院的写作老师
  • Maarten Sap:美国卡内基梅隆大助理教授,专门研究大型语言模型输出的毒性问题
  • Sara Kingsley:美国卡内基梅隆大学博士研究员,专门研究在线劳动力市场和科技对工作的影响
  • Boru Gollo:TripleOKlaw LLP 律师,主要研究肯尼亚人工智能机会
  • Andrew White:美国罗切斯特大学副教授,计算化学家,对人工智能和药物设计感兴趣
  • José Hernández-Orallo:西班牙瓦伦西亚理工大学人工智能研究所(VRAIN)教授,人工智能研究人员,从事人工智能软件的评估和准确性研究
  • Lauren Kahn:美国对外关系委员会研究员,专注于人工智能在军事系统中的使用
  • Aviv Ovadya:美国哈佛大学伯克曼克莱因互联网与社会中心研究员,重点关注人工智能对社会和民主的影响
  • Nathan Labenz:美国 Waymark 公司及基于人工智能的视频编辑创业公司 Waymark 的创始人
  • Lexin Zhou:西班牙瓦伦西亚理工大学 VRAIN 学院初级研究人员,致力于使人工智能更有益于社会
  • Dan Hendrycks:美国加州大学伯克利分校人工智能安全中心主任,人工智能安全和减少人工智能的社会规模风险方面的专家
  • Roya Pakzad:致力于科技和人权的非营利组织 Taraaz 的创始人
  • Heather Frase:美国乔治敦大学安全与新兴技术中心高级研究员,专长于将人工智能用于情报目的和主要防御系统的操作测试

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注

此网站受reCAPTCHA和Google隐私权政策服务条款适用。

Scroll to Top