中国科学院信工所研究员虎嵩林：大模型的安全风险主要体现在无害性和诚实性两大方面

4月25日，2024中关村论坛在京开幕。本届论坛以“创新：建设更加美好的世界”为主题，邀请全球知名专家学者和企业家，共商创新大计。

在数据安全治理与发展论坛上，中国科学院信工所研究员虎嵩林接受了包括《每日经济新闻》记者在内的媒体采访，并针对当前AI大模型引发的全新安全问题以及企业和行业的应对措施等给出了回应。

促使大模型遵循人类价值观等难题亟待解决

当前生成式人工智能技术作为人工智能演化过程中的重要突破，为引领产业革新和数字化变革奠定了坚实的基础。根据麦肯锡报告，生成式AI每年或将为全球GDP增加2.6万亿美元~4.4万亿美元。

但是生成式人工智能技术在迭代升级的同时也放大了技术安全风险。比如，数据方面，数据会带来价值偏见、隐私泄露、数据污染等问题：训练数据固有偏见导致模型产生偏见内容；海量训练数据扩大了数据安全和隐私保护风险。算法方面，算法模型生成特性及安全漏洞会引发“幻觉”或虚假信息、模型遭受攻击等风险。

对此，虎嵩林认为，生成式人工智能大模型的安全重要性不言而喻。当前，大模型正在成为驱动新质生产力发展的新动能、人类探索未知的新工具。在赋能新时代发展的同时，生成式人工智能也给全球带来了前所未有的安全风险。

大模型不仅可以对话和生成视频、还可以调用工具、链接物理设备、并通过与机器人结合实现具身智能。大模型本身也正在从人类可利用的工具客体向认识、改造自然社会的主体转变。成为数学定理证明、科学研究的合作者，成为独立运营企业的法律主体。

虎嵩林表示，大模型能力的通用性、潜在的主体地位以及应用的深度与广度，也都将进一步放大其危害程度。包括两位图灵奖得主Hinton、Bengio和谷歌DeepMind和OpenAI的CEO在内的产学两界领军人物联名发出的AI风险声明中，更将AI可能带来的“毁灭性”的风险，上升到了与流行病以及核战争相提并论的高度。

2023年底《自然》杂志预测的2024年的重大科学事件中，GPT5的发布以及联合国人工智能高级别咨询机构将发布的AI监管相关报告位列其中，反映了全球对协调人工智能发展与安全的重大关切。毫无疑问，促使大模型遵循人类价值观、服从人类意图，规避各类风险，并保障数字和物理空间的应用安全，实现有用性（Helpful）、无害性（Harmless）和诚实性（Honest）3H多目标的平衡，已经成为亟待解决的世界难题。

大模型的安全风险主要体现在两大方面

“大模型的安全风险主要体现在无害性（Harmless）和诚实性（Honest）两个方面。”虎嵩林表示，其中，有害信息对应前者，包括价值偏见，隐私泄露，还有黄赌毒、涉恐涉暴、仇恨、反讽、歧视、刻板印象等等各种信息污染；不实信息对应后者，包括虚假信息、伪造、欺诈内容等。

更广义地讲，也包括由输出信息所直接导致的各类不安全的指令调用、智能体或者具身智能机器人的恶意行为等等。而所谓“幻觉”，则是一把“双刃剑”，既有可能是导致有害、不实信息的“元凶”，也有可能是科学创新、艺术创意的能力来源。我们谈的幻觉缓解，主要还是针对前者。

虎嵩林进一步指出，生成式大模型特有的预训练、微调、上下文、提示、思维链COT等新的学习范式，使其安全具有了与传统AI安全不同的许多新特点，面临诸多新挑战，确实制约了传统安全方法、经验、工具在大模型安全领域发挥效能。

大模型安全风险的成因既可以是来自各类训练数据的缺陷或算法的局限性等模型内因，也可以是利用这些新型学习范式的恶意使用或蓄意攻击等外因。这使得大模型在数据准备、预训练、微调对齐、推理以及应用阶段都会存在各种潜在的风险。尽管目前我们在安全理论、大模型安全评测、自动化测试、价值观对齐、幻觉缓解等方面都开展了一系列的研究和应用工作，这些领域依然充满了挑战。

至于企业、行业应该从哪些方面进行安全维护这个问题。虎嵩林认为，这个回答的难度比较大。“坦白地说，从理论上，或者说技术上，大模型安全仍然还有很多亟待解决的难题。”

虎嵩林认为，一方面，我们对大模型“智能涌现”的原理还所知甚少，对上下文学习、提示学习、思维链等能力的内在机理仍严重缺乏认知。一些研究工作也证明AI的安全性无法完全保障，对任意一个对齐模型总存在一定长度的提示可以将之攻破等，这都极大地制约我们从原理上认识和防御大模型的安全风险；

“另一方面，我们又需要在现有的技术条件下持续探索，这也是我们设计‘以攻促防、攻防相长’思路，研制Galexy（星河）大模型安全测评平台的原因，也是举办这次大赛（首届生成式人工智能安全大赛）的初衷。”虎嵩林介绍道，我们希望通过“攻、检、防”，不断发现漏洞、自动识别并进行持续化的安全加固，形成一个循环发展的飞轮。

封面图片来源：视觉中国-VCG31N2008743681

中国科学院信工所研究员虎嵩林：大模型的安全风险主要体现在无害性和诚实性两大方面

促使大模型遵循人类价值观等难题亟待解决

大模型的安全风险主要体现在两大方面

版权声明