视频内容识别是一项使用 AI 对视频内容进行智能识别的功能。对视频执行内容识别后,执行结果将给出识别到的视频画面中的文字,以及语音中的文字。根据视频内容识别的结果,您可以准确高效地管理视频。
视频内容识别涵盖了语音和文字,具体如下表所示。
功能名称 | 功能说明 | 用途举例 |
语音全文识别 | 识别语音中出现的全部文字 | 为演讲内容生成字幕。 对视频的语音内容做数据分析。 |
文本全文识别 | 识别画面中出现的全部文字 | 对画面中的文字做数据分析。 |
语音关键词识别 | 识别语音中存在的关键词 | 排查语音中的敏感词。 检索语音中提到的特定关键词。 |
文本关键词识别 | 识别画面中存在的关键词 | 排查画面中的敏感词。 检索画面中出现的特定关键词。 |
部分内容识别功能需要依赖素材库,有公共库和自定义库两种:
公共库:MPS 预置的素材库。
自定义库:用户自行创建和管理的素材库。
视频内容识别模板
视频内容识别集成了多项识别功能,需要通过参数进行精细化控制,控制的目标如下:
启用的识别类型:启用内容识别中的哪几项功能。
使用的素材库:对于智能识别,使用公共库还是自定义库。
指定过滤分数:智能识别识别的置信度达到多少分的结果才返回。
指定过滤标签:智能识别的标签在什么范围内的结果才返回。
任务发起
发起视频内容识别任务,有“通过 API 主动发起”和“通过上传自动触发”两种方式。
通过上传自动触发:在控制台 创建工作流 并开启内容识别,然后向工作流绑定的触发目录上传视频。
结果获取
下面是发起内容识别任务后,以“查询任务”方式获取的结果示例(省略了值为 null 的字段):
{"TaskType":"WorkflowTask","Status":"FINISH","CreateTime":"2019-07-16T06:21:27Z","BeginProcessTime":"2019-07-16T06:21:28Z","FinishTime":"2019-07-16T06:21:46Z","WorkflowTask":{"TaskId":"2356768367-WorkflowTask-2e1af2456351812be963e309cc133403t0","Status":"FINISH","InputInfo":{"Type":"COS","CosInputInfo":{"Bucket":"MyVideoBucket-235303****","Region":"ap-beijing","Object":"/input/Ruyizhuan.mp4"}},"MetaData":{"AudioDuration":243,"AudioStreamSet":[{"Bitrate":125599,"Codec":"aac","SamplingRate":48000}],"Bitrate":1459299,"Container":"mov,mp4,m4a,3gp,3g2,mj2","Duration":243,"Height":1080,"Rotate":0,"Size":44583593,"VideoDuration":243,"VideoStreamSet":[{"Bitrate":1333700,"Codec":"h264","Fps":29,"Height":1080,"Width":1920}],"Width":1920},"MediaProcessResultSet":[],"AiContentReviewResultSet":[],"AiAnalysisResultSet":[],"AiRecognitionResultSet":[{"Type":"FaceRecognition","FaceRecognitionTask":{"Status":"SUCCESS","ErrCode":0,"Message":"","Input":{"Definition":10},"Output":{"ResultSet":[{"Id":183213,"Type":"Default","Name":"张三","SegmentSet":[{"StartTimeOffset":10,"EndTimeOffset":12,"Confidence":97,"AreaCoordSet":[830,783,1030,599]},{"StartTimeOffset":12,"EndTimeOffset":14,"Confidence":97,"AreaCoordSet":[844,791,1040,614]}]},{"Id":236099,"Type":"Default","Name":"李四","SegmentSet":[{"StartTimeOffset":120,"EndTimeOffset":122,"Confidence":96,"AreaCoordSet":[579,903,812,730]}]}]}}}]},"TasksPriority":0,"SessionId":"","SessionContext":"","RequestId":"xxx-xxx-xxx"}
回调结果中,
ProcedureStateChangeEvent.AiRecognitionResultSet
有Type
为FaceRecognition
的识别结果,代表人脸识别。Type
为FaceRecognition
的结果显示,Output.ResultSet
中包含了两个识别出的人物,分别是张三
和李四
。SegmentSet
表示人脸出现在视频中的时间段(由StartTimeOffset
和EndTimeOffset
确定)和在画面中的坐标(由AreaCoordSet
确定)。