音频内容安全产品功能

音频内容安全服务
对点播、直播音频及实时语音进行全场景检测，精准识别涉黄、违规等有害信息，支持自定义黑名单及自动化处理策略，显著降低内容违规风险与人工审核成本。
说明：
音频内容安全根据音频类型分为点播音频内容安全和直播音频内容安全两种服务。
两类音频可识别的风险项一致。
风险识别项
风险定义
示例场景
色情内容识别
识别涉黄违规的低俗音频内容，包含音频中的性暗示、隐晦涉黄、低俗性行为描述等低俗违规语音内容等。
直播间中主播进行露骨的性行为描述或非法色情交易引导。
色情声纹识别
识别音频中的无语义语音内容及其中隐含的不良信息，包含娇喘、呻吟、ASMR 等。
音频中出现带有强烈性暗示的娇喘声、呻吟声或故意制造的低俗擦边 ASMR 音效。
广告内容识别
识别音频中包含的各类违规营销及引流信息，包含商品名称、品牌标识、促销信息、线下导流等。
直播中主播频繁口播微信号、手机号或非法博彩平台的引流短链接。
声纹库识别
识别利用  AI 合成的声音，包含模仿知名人物、政要的声纹特征等。
音频涉及模仿知名人士、公众人物的声音发布具有煽动性、误导性的虚假政策解读。
利用  AI 合成特定明星声音用于虚假商业代言音频使用。
听歌识曲库识别
基于音频片段的音频内容、人声、旋律、节奏、和声等特征进行库内匹配，依赖样本内容的高度一致性。
上传某歌曲的副歌片段，识别与该片段音乐特征完全一致的音频。
自定义识别
识别音频中涉及用户自定义关键词库的内容，包含自定义关键词等有害内容。
在社交语音或游戏连麦中，识别用户预设的第三方产品敏感词。
音频 AI 生成识别服务
产品能力
识别音频中使用大模型工具的生成痕迹，判断音频是否存在  AI 生成风险，帮助业务确认内容的原创性。接口返回包含三种识别等级，相关概念如下：
识别等级
风险定义
Block
合成段数占比 > 30%，判断为音频极有可能是 AI 生成或整体生成痕迹较重，大概率为合成音频。
Review
合成段数占比 10% - 30%，判断为疑似 AI 生成，建议人工二次校验。
Pass
合成段数占比 <10%，判断为无 AI 生成痕迹的常规音频。
﻿

风险识别项	风险定义	示例场景
色情内容识别	识别涉黄违规的低俗音频内容，包含音频中的性暗示、隐晦涉黄、低俗性行为描述等低俗违规语音内容等。	直播间中主播进行露骨的性行为描述或非法色情交易引导。
色情声纹识别	识别音频中的无语义语音内容及其中隐含的不良信息，包含娇喘、呻吟、ASMR 等。	音频中出现带有强烈性暗示的娇喘声、呻吟声或故意制造的低俗擦边 ASMR 音效。
广告内容识别	识别音频中包含的各类违规营销及引流信息，包含商品名称、品牌标识、促销信息、线下导流等。	直播中主播频繁口播微信号、手机号或非法博彩平台的引流短链接。
声纹库识别	识别利用 AI 合成的声音，包含模仿知名人物、政要的声纹特征等。	音频涉及模仿知名人士、公众人物的声音发布具有煽动性、误导性的虚假政策解读。利用 AI 合成特定明星声音用于虚假商业代言音频使用。
听歌识曲库识别	基于音频片段的音频内容、人声、旋律、节奏、和声等特征进行库内匹配，依赖样本内容的高度一致性。	上传某歌曲的副歌片段，识别与该片段音乐特征完全一致的音频。
自定义识别	识别音频中涉及用户自定义关键词库的内容，包含自定义关键词等有害内容。	在社交语音或游戏连麦中，识别用户预设的第三方产品敏感词。

识别等级	风险定义
Block	合成段数占比 > 30%，判断为音频极有可能是 AI 生成或整体生成痕迹较重，大概率为合成音频。
Review	合成段数占比 10% - 30%，判断为疑似 AI 生成，建议人工二次校验。
Pass	合成段数占比 <10%，判断为无 AI 生成痕迹的常规音频。

产品功能

本页目录：

音频内容安全服务

音频 AI 生成识别服务

产品能力