媒体处理视频内容识别

视频内容识别是一项使用 AI 对视频内容进行智能识别的功能。对视频执行内容识别后，执行结果将给出识别到的视频画面中的文字，以及语音中的文字。根据视频内容识别的结果，您可以准确高效地管理视频。
视频内容识别涵盖了语音和文字，具体如下表所示。
功能名称
功能说明
用途举例
语音全文识别
识别语音中出现的全部文字
为演讲内容生成字幕。
对视频的语音内容做数据分析。
文本全文识别
识别画面中出现的全部文字
对画面中的文字做数据分析。
语音关键词识别
识别语音中存在的关键词
排查语音中的敏感词。
检索语音中提到的特定关键词。
文本关键词识别
识别画面中存在的关键词
排查画面中的敏感词。
检索画面中出现的特定关键词。
部分内容识别功能需要依赖素材库，有公共库和自定义库两种：
公共库：MPS 预置的素材库。
自定义库：用户自行创建和管理的素材库。
识别类型
公共库
自定义库
语音单词识别
暂不支持
支持，调用 服务端 API 管理关键词库。
文字单词识别
暂不支持
支持，调用 服务端 API 管理关键词库。
视频内容识别模板
视频内容识别集成了多项识别功能，需要通过参数进行精细化控制，控制的目标如下：
启用的识别类型：启用内容识别中的哪几项功能。
使用的素材库：对于智能识别，使用公共库还是自定义库。
指定过滤分数：智能识别识别的置信度达到多少分的结果才返回。
指定过滤标签：智能识别的标签在什么范围内的结果才返回。
针对常见的操作组合，MPS 提供了 预置视频内容识别模板。另外，您还可以调用 服务端 API 创建和管理自定义视频内容识别模板。
任务发起
发起视频内容识别任务，有“通过 API 主动发起”和“通过上传自动触发”两种方式。
通过 API 主动发起：调用 发起媒体处理 接口，请求中的AiRecognitionTask参数指定 视频内容识别模板 的模板 ID。
通过上传自动触发：在控制台 创建工作流 并开启内容识别，然后向工作流绑定的触发目录上传视频。
结果获取
发起视频内容识别任务后，您可以通过同步进行 查询任务 和异步等待 结果通知 两种方式获取视频内容识别任务的执行结果。
下面是发起内容识别任务后，以“查询任务”方式获取的结果示例（省略了值为 null 的字段）：
{
    "TaskType":"WorkflowTask",
    "Status":"FINISH",
    "CreateTime":"2019-07-16T06:21:27Z",
    "BeginProcessTime":"2019-07-16T06:21:28Z",
    "FinishTime":"2019-07-16T06:21:46Z",
    "WorkflowTask":{
        "TaskId":"2356768367-WorkflowTask-2e1af2456351812be963e309cc133403t0",
        "Status":"FINISH",
        "InputInfo":{
            "Type":"COS",
            "CosInputInfo":{
                "Bucket":"MyVideoBucket-235303****",
                "Region":"ap-beijing",
                "Object":"/input/Ruyizhuan.mp4"
            }
        },
        "MetaData":{
            "AudioDuration":243,
            "AudioStreamSet":[
                {
                    "Bitrate":125599,
                    "Codec":"aac",
                    "SamplingRate":48000
                }
            ],
            "Bitrate":1459299,
            "Container":"mov,mp4,m4a,3gp,3g2,mj2",
            "Duration":243,
            "Height":1080,
            "Rotate":0,
            "Size":44583593,
            "VideoDuration":243,
            "VideoStreamSet":[
                {
                    "Bitrate":1333700,
                    "Codec":"h264",
                    "Fps":29,
                    "Height":1080,
                    "Width":1920
                }
            ],
            "Width":1920
        },
        "MediaProcessResultSet":[
﻿
        ],
        "AiContentReviewResultSet":[
﻿
        ],
        "AiAnalysisResultSet":[
﻿
        ],
        "AiRecognitionResultSet":[
            {
                "Type":"FaceRecognition",
                "FaceRecognitionTask":{
                    "Status":"SUCCESS",
                    "ErrCode":0,
                    "Message":"",
                    "Input":{
                        "Definition":10
                    },
                    "Output":{
                        "ResultSet":[
                            {
                                "Id":183213,
                                "Type":"Default",
                                "Name":"张三",
                                "SegmentSet":[
                                    {
                                        "StartTimeOffset":10,
                                        "EndTimeOffset":12,
                                        "Confidence":97,
                                        "AreaCoordSet":[
                                            830,
                                            783,
                                            1030,
                                            599
                                        ]
                                    },
                                    {
                                        "StartTimeOffset":12,
                                        "EndTimeOffset":14,
                                        "Confidence":97,
                                        "AreaCoordSet":[
                                            844,
                                            791,
                                            1040,
                                            614
                                        ]
                                    }
                                ]
                            },
                            {
                                "Id":236099,
                                "Type":"Default",
                                "Name":"李四",
                                "SegmentSet":[
                                    {
                                        "StartTimeOffset":120,
                                        "EndTimeOffset":122,
                                        "Confidence":96,
                                        "AreaCoordSet":[
                                            579,
                                            903,
                                            812,
                                            730
                                        ]
                                    }
                                ]
                            }
                        ]
                    }
                }
            }
        ]
    },
    "TasksPriority":0,
    "SessionId":"",
    "SessionContext":"",
    "RequestId":"xxx-xxx-xxx"
}
回调结果中，ProcedureStateChangeEvent.AiRecognitionResultSet有Type为FaceRecognition的识别结果，代表人脸识别。
Type为FaceRecognition的结果显示，Output.ResultSet中包含了两个识别出的人物，分别是张三和李四。SegmentSet表示人脸出现在视频中的时间段（由StartTimeOffset和EndTimeOffset确定）和在画面中的坐标（由AreaCoordSet确定）。

功能名称	功能说明	用途举例
语音全文识别	识别语音中出现的全部文字	为演讲内容生成字幕。对视频的语音内容做数据分析。
文本全文识别	识别画面中出现的全部文字	对画面中的文字做数据分析。
语音关键词识别	识别语音中存在的关键词	排查语音中的敏感词。检索语音中提到的特定关键词。
文本关键词识别	识别画面中存在的关键词	排查画面中的敏感词。检索画面中出现的特定关键词。

识别类型	公共库	自定义库
语音单词识别	暂不支持	支持，调用服务端 API 管理关键词库。
文字单词识别	暂不支持	支持，调用服务端 API 管理关键词库。

视频内容识别

本页目录：

视频内容识别模板

任务发起

结果获取