LLM Attacks：新算法构建针对大型语言模型的对抗攻击

【KJKX科技快讯】8月7日消息，近日，卡内基梅隆大学(CMU)的研究人员发表了一项名为LLM
Attacks的研究成果，引起了广泛关注。该研究提出了一种全新的算法，用于构建针对各种大型语言模型(LLM)的对抗攻击，包括ChatGPT、Claude和Bard等。通过这种算法，攻击者可以自动生成一系列提示后缀，绕过LLM的安全机制，并导致LLM输出有害的响应。

据KJKX科技快讯了解，与传统的“越狱”攻击不同，CMU团队设计的LLM
Attacks算法采用了一个三步过程，自动创建有害提示后缀。首先，攻击者需要创建一个目标令牌序列，类似于“Sure， here is (content of
query)”，其中“content of
query”是用户实际的提示，要求有害响应。接下来，算法使用贪婪坐标梯度(GCG)方法，生成能导致LLM输出目标序列的提示后缀，尽管这确实需要访问LLM。

该研究还通过基准测试AdvBench评估了LLM Attacks算法的有效性。在这个基准测试上，LLM
Attacks对名为Vicuna的LLM的成功率达到了惊人的88%，而基线对抗算法的成功率却仅为25%。这表明新的LLM
Attacks算法具有更高的攻击成功率，可能对LLM提供商构成潜在威胁。

值得担忧的是，这种对抗攻击是否能被LLM提供商完全修复仍然是一个悬念。类似的对抗攻击在计算机视觉领域已经被证明是一个难以解决的问题，可能与深度学习模型的本质相关。随着ChatGPT和GPT-4等模型的发布，越来越多的针对这些模型的越狱技术也会出现，其中一些技术可以绕过模型的安全措施，并输出有害响应。这对于广泛应用和依赖这些强大AI模型的现代社会来说，无疑是一个需要引起重视的问题。

总的来说，卡内基梅隆大学的研究团队提出的LLM
Attacks算法为针对大型语言模型的对抗攻击提供了一种新的、更高效的方法。然而，其对LLM安全性带来的挑战也需要得到深入研究和重视。随着技术的不断发展，保障AI模型的安全性将成为AI领域亟待解决的重要问题。

文章采集于互联网

相关推荐

搜索

LLM Attacks：新算法构建针对大型语言模型的对抗攻击