《基于AI技术的媒资内容管理平台.doc》由会员分享,可在线阅读,更多相关《基于AI技术的媒资内容管理平台.doc(10页珍藏版)》请在三一办公上搜索。
1、基于AI技术的媒资内容管理平台自动编目软件功能定制开发需求书2017年11月文档信息产品名称项目需求确认书产品负责人徐志亮负责人联系方式-51472目 录1.简介42.软件开发需求42.1、需求概述42.1.1、视频抽帧服务52.1.2、音频提取服务52.1.3、图片预处理服务52.1.4、语音识别服务52.1.5、字幕识别服务62.1.6、Demo版制作62.2、系统业务流程62.3、系统架构设计73.用户角色流程分析83.1、任务发起者角色83.2、编目校验角色83.3、用户组管理员83.4、系统管理员角色94.接口需求94.1媒资网对接需求95.服务器需求分析96.数据库存储需求分析10
2、7.网络需求分析118.其他需求129.1性能需求129.2服务器配置需求129.3服务器环境配置129.4测试需求139.5运维保障需求131. 简介1.1. 项目背景随着计算机自动化技术的发展,语音识别、字幕识别、场景分割等技术已经日趋成熟,智能语义分析、智能素材关联、人脸识别技术也在迅速发展,日本NHK等发达国家已实际应用。SMG的自动编目可从语音识别和字幕识别入手,以新闻、戏曲类节目为切人点,在节目素材入库媒资时将语音和字幕自动进行文字化,减少编目人员工作量。之后,以自动场景分割技术为基础,结合智能语义分析,逐步对节目和素材实现全自动的标引,提高整个媒资编目的自动化率,降低媒资运营的人
3、工成本。2. 软件开发需求2.1、需求概述随着计算机自动化技术的发展,语音识别、字幕识别、场景分割等技术已经日趋成熟,智能语义分析、智能素材关联、人脸识别技术也在迅速发展,日本NHK等发达国家已实际应用。SMG的自动编目可从语音识别和字幕识别入手,以新闻、戏曲类节目为切人点,在节目素材入库媒资时将语音和字幕自动进行文字化,减少编目人员工作量。该项目的目标是通过语音识别、字幕识别等技术手段,对媒资系统中的视频进行文字内容和关键词的提取,提取后的内容和关键词按照视频名称和视频时间信息进行存储,最终为用户提供文字内容和关键词的检索服务。2.1.1、视频抽帧服务视频的分辨率和码率范围2类:序号视频分辨
4、率码率备注1720*5761.5M21280*7201.5M目前针对视频OCR识别的时长分析如下(按照每个进程估算):字幕识别用时估算(1小时视频)1920*10801280*720720*576640*480480*360352*2881.3小时1小时0.3小时0.25小时0.20小时0.20小时2.1.2、音频提取服务视频提取音频,从视频文件中提取音频文件。2.1.3、图片预处理服务视频提取图片,从视频文件中提取图片文件,按照每秒提取图片处理,因为考虑到很多图片会重复,如果提取频率太高,就会导致很多图片识别的内容都是重复的,所以造成了识别资源的浪费。如果提取频率太低,就会导致有些有用信息没
5、有识别到,导致识别率的降低。按照电视走马灯的速度,目前测试的结果,每秒1帧是比较合理的。2.1.4、语音识别服务 自动识别音、视频(包括主流格式高、低码格式)中的语音,并将其识别为文本内容,并在页面中展示。 语音识别的结果按照时间的顺序(入点时间,出点时间)在每个视频素材的详情页进行展示,具体见后面的UE设计。2.1.5、字幕识别服务1、场景分割针对把相似的镜头划分到一个场景中,形成一组语义相关、时间相近的镜头集合,记录该场景入、出点。OCR识别根据这个时间点进行识别切分。场景分割识别,是对一个视频进行场景分割,确定每个场景的入场时间和出场时间。2、识别1) 自动提取视频(包括主流高、低码格式
6、)中的字幕,并将其识别为文本内容,并页面中展示。(原需求“并将其识别为文本记录在相应的编目字段中”)2) 记录字幕出现的时间点,将字幕与视频入点相关联,实现在检索选中某条字幕后自动从该入点播放。2.1.6、Demo版制作在项目正式开始之前,需向客户展示软件大致功能以及识别效果,于是制作Demo版。Demo版主要向客户展示了不同类型视频的语音识别效果和OCR识别效果。其中,运用到了简单的视频抽帧服务、音频提取服务、语音识别服务和字幕识别服务。2.2、系统业务流程视音频处理流程:针对高标清视频内容进行视音频处理的流程,对视频进行音频提取,关键帧图片提取,对一个长视频进行分镜头的划分处理等流程,为下
7、一步的语音识别和字幕识别做预处理工作。语音识别:提取后的音频,进行语音识别处理,主要是对音频进行文字转化,语音内容可以根据节目类型进行分类识别,新闻,纪录片,访谈,体育,娱乐等节目类型进行语音识别。字幕识别:针对提取的关键帧图片进行字幕识别,识别文字和对应的时间信息。优化处理(去重、去噪):对于识别后的文字内容进行去重合去干扰,去除错误的识别内容,减少后续语义识别的干扰,提高后续检索的效率。内容归档:按照视频信息、把识别后的内容和关键词,时间信息,按照一定规则进行归档存储,为后续的检索提供数据检索来源。检索访问:提供专门的智能媒资系统检索页面访问,为用户提供全文搜索和关键词搜索,普通搜索和高级
8、搜索功能。根据搜索条件检索到的视频内容按照列表展示,用户可以搜索结果查看搜索结果内容。2.3、系统架构设计智能媒资自动编目系统分别由基础组件层、中间应用层、业务逻辑层构成。基础组件层提供音视频处理、数据库管理、存储管理、接口管理、检索管理、OCR字幕识别库、语音识别接口组成。中间应用层有音频提取模块、视频抽帧模块、语音处理模块、字幕处理模块、OCR算法优化、数据统计模块、用户管理、日志管理等模块。业务逻辑层由语音识别、字幕识别、数据接口服务、统一监控、编目辅助、数据统计分析和后台管理等模块构成。3. 用户角色流程分析3.1、任务发起者角色(1) 筛选页面流程(2) 任务发起流程3.2、编目校验角色编目校验角色3.3、用户组管理员频道管理可以发起任务流程,可以编目校正,可以查看统计图文数据。频道管理员可以维护语义库。3.4、系统管理员角色后台配置页面:(1) 用户组和维护;(2) 语义库维护;分类型(如国家领导人,国内城市名称等)(3) 日志查询;序号 用户名 登入登出时间 操作4. 性能需求首页打开速度 3s 以下,web 登陆速度 5s以下;在系统中执行的操作,95%的都必须在 5秒钟内响应;表单提交成功率达到99%以上;支持100 个并发用户访问,最少支持 1000个在线用户