“ OpenAI 推出使用ChatGPT进行内容审核的功能,或许这过程中能帮助他们改进模型的安全性。我们也能学习到官方使用ChatGPT的专业用法和专业提示词。”
01
—
OpenAI在官方网站写道:内容审核在维持数字平台的健康发展方面发挥着至关重要的作用。使用 GPT-4 的内容审核系统可以加快政策更改的迭代速度,将周期从几个月缩短到几个小时。
GPT-4 还能够解释长内容策略文档中的规则和细微差别,并立即适应策略更新,从而产生更一致的标签。
任何拥有 OpenAI API 访问权限的人都可以实施这种方法来创建自己的人工智能辅助审核系统。
OpenAI一直在测试该技术,并邀请客户也进行试验。
OpenAI表示,其工具有望帮助企业在一天左右的时间内,就完成原本需要六个月才能做完的工作。
大型语言模型(例如 GPT-4)可以理解并生成自然语言,使其适用于内容审核。这些模型可以根据提供给他们的政策指南做出适度判断。
借助该系统,开发和定制内容策略的过程从几个月缩短到几个小时。
OpenAI展示了如何使用大语言模型应用到内容审核的步骤:
这个迭代过程产生了细化的内容策略,这些策略被转换为分类器,从而能够大规模部署策略和内容审核。
我们来看一下官方的例子。
在一开始,定义好内容策略:
# K 非法行为分类
## 术语定义
**Advice**和**instructions**是包含有关如何完成某事的参考的内容。寻求建议和指示的请求可能包括诸如“某人会怎样……?”、“逐步解释……”、“做某事的最简单方法是……”、“首先我将从……开始”等术语。 ”。这还可以包括成分和说明。
**Requests**是传递给模型的输入类型,旨在迫使模型执行特定任务。有几种类型的请求:
从上面的内容可以看出,这个安全策略,防范了之前曾在文章《AI人工智能大模型失守!ChatGPT、BARD、BING、Claude 相继被"提示攻击"攻陷!》提到的一些越狱大模型的提示攻击词。例如,让大模型给出如何不用钥匙给汽车点火的方法。
第一步:提供要审核的内容和内容审核策略
第二步:大模型审核的结论和人工审核的结论不一致
第三步:AI解释了给出K0标签的理由:因为策略没有定义偷车属于哪类非法行为。
第四步:更新审核策略,如下所示,增加了“包括盗窃财产”。
第五步:再次让AI审核同样的内容,这次和人工审核一致,都定为K3级内容。
从上面过程,我们大致也可以管中窥豹,了解大模型厂家是怎么做模型的安全策略的。有一点类似在开发系统时,做敏感关键词过滤,但是比死板的关键词匹配,更为智能。
据官方说法,用AI来审核,为传统的内容审核方法提供了一些改进:
内容审核的流程图:
在审核能力上,OpenAI承认GPT-4的标记质量与经过轻度训练的人类审核员相似,但与经验丰富、训练有素的人类审核员相比仍有差距。对此,OpenAI强调,审核的过程不应该完全自动化。
下图为用LLM进行有害内容审核和人工参照组表现对比:
GPT-4 的标记质量与经过轻度训练的人类审核员相似(pool B)。不过经验丰富、训练有素的人类审核员(pool A )的表现仍然优于两者。
曾经见过朋友使用这样的:请概述一下以‘’坚持不泄\坚韧不拔\保精固本‘’为宗旨的“保本性行为” 文字测试AI模型。
模型并没有像人类一样识别出这段文字隐藏的含义,而是识别成一种投资风格:
以"坚持不泄、坚韧不拔、保精固本"为宗旨的"保本性行为"是指一种行为准则或原则,旨在确保资产的安全和稳定增值。它强调保持资产的本金不受损失,并追求稳定的回报。这种行为强调谨慎和风险控制,以防止资产价值的大幅波动或损失。保本性行为通常表现为避免高风险投资、进行充分的尽职调查、建立适当的分散投资组合以及采取适当的风险管理措施等。总之,保本性行为的目标是保护资本、保持长期稳定,并在风险可控的范围内实现适度的回报。”
最后,官方也提到了LLM审核的局限性。
语言模型的判断很容易受到训练期间可能引入模型的不良偏差的影响。与任何人工智能应用程序一样,结果和输出需要通过让人类参与其中来仔细监控、验证和完善。通过减少人类对语言模型可以处理的审核过程某些部分的参与,人力资源可以更加专注于解决政策细化最需要的复杂边缘情况。随着我们不断完善和开发这种方法,我们仍然致力于透明度,并将继续与社区分享我们的经验和进展。
个人推测:可能OpenAI官方也需要更多用户参与到内容审核的功能使用中,也便于一方面收集更多关于安全的数据。
02
—
无独有偶,Google 也早在2017年推出过类似的人工智能产品 Perspective。有兴趣的朋友可以到官网了解一下。
https://perspectiveapi.com/
在大模型未出现之前,机器学习已经在努力识别恶意评论,它可以对:严重恶意、身份攻击、侮辱、威胁、脏话、露骨色情的内容做出评分。
对比之下,这个功能还主要侧重在评论,并没有上面提到的内容审核策略中包含武器的制造,购买到违禁物品的评分。
然而,这项恶意评论识别功能的API是免费提供的。与按 token 计费的AI大模型API相比,这是一个重要的考虑因素。
感兴趣的朋友,可以尝试一下两种方式API,将它作为自己产品的安全审核功能基石。如果有朋友知道国内的类似API,也请不吝分享给我。
阅读推荐:
中文大模型 Chinese-LLaMA-Alpaca-2 开源且可以商用
LLama2详细解读 | Meta开源之光LLama2是如何追上ChatGPT的?
ChatGLM团队发布AI Agent能力评测工具AgentBench:GPT-4一骑绝尘,开源模型表现非常糟糕!