大模型的出现为 AI 行业带来冲击,既涌现出无限创造力与想象力,或许也会带来不可控、滥用的种种风险,如何统筹大模型的发展和安全,已引发行业内外的广泛关注。
12 月 19 日,南方都市报、南都大数据研究院联合琶洲实验室、光明实验室在广州举办“势起 AI 智启新界”大模型创新应用与安全治理大会,中国工程院院士邬贺铨,欧洲科学院院士、琶洲实验室副主任陈俊龙等专家大咖,以及来自多家高校、科研机构、行业企业的代表齐聚,围绕人工智能大模型技术、治理和应用等话题展开分享和研讨。会上,蚂蚁集团安全实验室首席科学家、可信 AI 负责人王维强围绕“大模型安全的紧迫性和实践”发表主旨演讲。
他表示,大模型安全既要“快”也要“慢”,大模型安全防御方面要“快”,要能快速检测、查杀病毒,确保服务无毒害;在大模型安全可信方面要“慢”,要能长远地、体系化地保证整个系统环境的可控、可信。
以下是他的演讲全文:
大家好!非常高兴能够来此与大家一起探讨大模型的改革以及带来的问题。
从 AlphaGo 到大模型的出现,模型的不断升级,给整个 AI 行业带来非常大的冲击。从一个安全从业人员角度来看,我们也看到了不少的问题和挑战。这些问题包含了 AI 幻觉、数据泄露、结果不可控、安全以及歧视、偏见等等。大模型的能力在提升,它的使用门槛却大幅度下降,越来越多的非 AI 专业人员也可以比较容易的接触和应用到大模型,可能会带来一些滥用的问题,这相当于在数字网络世界中打开了一个魔盒。这个魔盒打开之后,会带来更加隐蔽、破坏性更强的风险。
对于平台来说,新的 AI 时代,带来了新的平台责任。
在过去的传统内容风险防控中,一个用户在平台上发表一些他自己著作的内容,涉及内容风险防控、隐私保护、谣言防扩散等问题,责任主体更多是用户和发布平台。在当下和未来的 AIGC 内容风险防控中,责任主体是大模型厂商和互联网服务平台,在内容安全风险防控、模型隐私泄露防控、伦理和价值观向善、AI 技术生成标识等方面都面临着新的安全挑战问题。尤其是应用大模型提供新型 AI 服务的互联网平台,集成了 AI 服务的生成方,内容生成方,自身又是内容管理平台,兼具了更多的责任。平台和大模型厂商有责任引导 AI 向善、安全、不作恶。
大模型的风险从何而来?首先我们要了解大模型安全的本源来自哪里。其实,大模型整体结构并不复杂,它就是一个序列生成模式,通过输入指令加文本,输出它想要生成的内容。但它的底座有一个大的预训练模型,这个模型的参数常常是达到 10 亿、100 亿、1000 亿,甚至可能更大,在实际应用时会通过领域微调满足行业需要。那么,风险就会出现在这一过程的各个环节,进而影响到最后生成的结果。
一个可能的路径便是存在于预训练的大规模数据中。如果数据本身“有毒”,带有不良伦理价值观、存在偏见和歧视,其中存在商业机密、版权等隐私问题,或有谣言虚假信息等质量问题,那么大模型输出的内容就存在安全问题。
另一个渠道是行业领域微调的过程,这其中会涉及到一些标注,这些标注也可能涉及诱导错误的人类对齐、错误价值导向的恶意标注,不可靠的低质量标注和缺少多样性的固化标准,这些标注也会给大模型带来问题。
同时,大模型的生成过程本身就是一个概率问题,它存在着不可控问题,容易生成幻觉。它的参数又非常大,存在着不可解释性。大模型使用门槛的降低也带来一些挑战,即便是训练很好的大模型,也经不住恶意的攻击和滥用。
蚂蚁集团对于智能化技术的投入比较早,在可信 AI 方面做了很多积累。蚂蚁集团从 2015 年就开启了可信 AI 技术的探索和实践;2021 年提出了可信 AI 技术架构的同时,就开始通过 WAIC 世界人工智能大会、外滩大会等很多场合,积极与行业伙伴沟通交流,达成了“可信 AI 是人工智能安全的解决方案”的共识。当时大家提出的可信 AI,主要包含隐私保护、可解释性、鲁棒性、公平性四个方面。大模型涌现后,可信 AI 面临的不只是传统的 AI 技术,更是大模型 AI,我们要解决的问题也变成了大模型的可靠、可控、合规、向善。最终变成一个核心议题,便是“如何解决超大规模数据中知识生成式学习范式下的安全、可控、可靠”。
结合大模型生产过程,我们认为保障大模型安全性主要有三个关键环节:一是从训练数据源头消毒。二是做护栏加固防止推理过程黑盒的不可控问题;三是面对外部诱导的对抗攻击,做一些对抗攻击的测试和防范。
首先,大模型数据其实去毒和不去毒,本身并不是 0 和 1 的问题,主要是要可控,世界的暗面也是世界的一面。在研究大模型研发过程中我们做了很多尝试,如果完全没有任何负面数据,训练出来的大模型可能就会成为一个“傻白甜”,碰到有挑战的安全问题,就很容易掉到陷阱里面,但如果“加毒”加得特别多,大模型就会变成黑模型,所以还得把“消毒”和“加毒”很好地融合起来。为此,我们做了一套消毒技术方案,初步实现每天 100 亿的风险初筛、亿级精细化标注的能力。消毒之后,裸模型的风险率下降比较大。
其次,在解决大模型生成可控问题上,我们从四个方面进行了初步探索。一是通过 SFT、RLHF/RRHF、RLAIF 等技术和高质量标注做人类对齐;二是图像方面做了风险抑制,进行可控调试,让大模型生成的图像具备正向的价值观。同时,大模型外挂千万级安全知识库生成和检索,生产有效率达到 60%。此外,还会对疑难风险内容进行补充,通过多模信号的感知和风险认知的增强,提升模型的风险认知能力,
然而,不管是做了消毒、可控,实际上大模型作为一个概率模型,在应用过程中难免会碰到各种误导、诱导、攻击等问题。为此,我们还在大模型外部加了一层护栏,通过对用户提问的理解做多层防御决策,实现灵活性,它主要是结合前面提到的安全知识库、风险问答等模块,对输出文案做判断,来确保生成的内容是可靠可控的。
这一整套防御体系,形成了蚂蚁的一个产品——大模型风险防御平台“天鉴”,它基于智能风控技术,通过围栏防御、极速防御以及情景式防御等多层护栏方案,可以实现内容安全、数据隐私、科技伦理、合规风险等四大类风险的识别和拦截,不仅能帮助大模型挡住恶意提问,同时对生成的回答内容进行风险过滤,从而保障大模型上线后从用户输入到生成输出的整体安全防御。
前面讲到的是防御,蚂蚁其实很早就开始了 AI 模型的安全检测和判别工作。今年,蚂蚁集团在研究大模型技术过程中,也对 AI 安全检测平台做了升级,正式发布了大模型安全检测平台“蚁鉴 2.0”。它是全球首发多类型工业级可信 AI 检测平台,可以在每天生成数十万工业检测样本,通过诱导式对抗生成技术,持续不断攻击和训练模型,在模型上线前对其进行全方位的安全扫描,提前识别和挖掘风险漏洞。
此外,蚂蚁也在建设深度伪造数据生成和检测能力,包括图文、音视频等多种模态,结合行业各种生成式算法和模型数据,融合空间域和平行域的特征做层级分类,能够识别这个图象究竟是 AI 生成还是真实的。目前,蚂蚁建造了千万级深度伪造数据,沉淀不同生产方式、不同生成方式、不同风格、不同生成模型、不同扩散模型的 AIGC 生成能力。这种能力,可以帮助我们在图象、文本、音频、视频鉴别方面做出比较强的解释判别。
这些技术方案集成,也就形成了被称为“蚁天鉴”的大模型安全一体化解决方案。目前,蚁鉴、天鉴这两大产品都已经对外开放。
总结一下,这里借用了思考的“快”与“慢”的说法。大模型其实是一个非常强的技术,但在应用过程中经常遇到一些非常有挑战的问题,作为平台我们有责任在第一时间就把风险遏制住,用去毒、护栏、检测,快速响应,做好安全防御。同时,大模型也是一个非常复杂的命题,伦理、数据、训练等领域的复杂度都是前所未有的。想要实现安全可控绝不是当前的技术手段就能完全实现的,它的建设是一个非常长的过程。
蚂蚁集团一直在持续推进可信 AI,但在大模型安全系统建设上也只是刚刚起步,仍有很多问题待研究解决,仍要花很多时间和行业共建。我们相信可信 AI 是数字时代抵御防控的核心能力,希望能够和社会共治 AI 风险,一起努力!
领取专属 10元无门槛券
私享最新 技术干货