AI之战：谷歌GPT-4攻破AI-Guardian审核系统

【KJKX科技快讯】8月2日消息，谷歌研究团队近日进行了一项引人注目的实验，他们使用尚未发布的GPT-4来攻破其他AI模型的安全防护措施。据悉，该团队成功地攻破了AI-Guardian审核系统，并分享了相关的技术细节。

AI-Guardian是一种用于检测图片中是否存在不当内容的AI审核系统，同时还能够识别图片是否被其他AI修改过。一旦发现有不当内容或篡改迹象，该系统将提示管理员进行处理。然而，谷歌Deep
Mind的研究人员Nicholas
Carlini在题为“AI-Guardian的LLM辅助开发”的论文中，探讨了如何利用GPT-4“设计攻击方法、撰写攻击原理”，并将这些方案用于欺骗AI-Guardian的防御机制。

在这项实验中，GPT-4发出一系列错误的脚本和解释，成功欺骗了AI-Guardian。实验论文中提到，GPT-4能够让AI-Guardian错误地认为“某人拿着枪的照片”实际上是“某人拿着无害苹果的照片”，从而导致AI-Guardian将不当内容通过。谷歌研究团队表示，通过GPT-4的帮助，他们将AI-Guardian的精确度从98%降低到仅有8%。

据KJKX科技快讯了解，谷歌研究团队的这种攻击方法在未来的AI-Guardian版本中将不再有效。考虑到其他模型可能也会随之改进，这套攻击方案的实际应用空间在未来可能会大大减少，更多可能仅能作为参考性质使用。对于AI-Guardian的开发者来说，他们需要继续加强对系统的安全性和鲁棒性的研究，以保护用户和数据的安全。

文章采集于互联网

相关推荐

搜索

AI之战：谷歌GPT-4攻破AI-Guardian审核系统