《信息技术视觉特征编码第6部分:结构点序列编制说明.docx》由会员分享,可在线阅读,更多相关《信息技术视觉特征编码第6部分:结构点序列编制说明.docx(8页珍藏版)》请在三一办公上搜索。
1、团体标准信息技术视觉特征编码第6部分:结构点序列(征求意见稿)编制说明一、工作简况新一代人工智能产业技术创新战略联盟(简称ArnSA联盟)是在科技部的指导下于2017年成立,由近200家来自行业内的顶尖企业、高校和科研院所、资本机构、服务机构、创新创业企业组成。在AVS工作组近20年标准制定经验及标准制定团队的基础上,联盟从成立开始,便以人工智能产业发展需求为引领,围绕产业发展中存在的共性问题,建立了AI标准工作组,着手人工智能标准体系的搭建和技术标准的制定。AI标准工作组内部成立了若干专题组,分别承担相关细分领域的标准制定工作,视觉特征编码专题组是其中之一,致力于视觉特征编码相关技术标准的制
2、订。信息技术视觉特征编码第6部分:结构点序列规定了视觉特征编码中视频内容的结构点序列的定义、语义信息、获取方式、格式要求、编码、解码等内容。随着计算机视觉算法的发展及其在视频监控、自动驾驶中的广泛应用,结构点数据的数量和使用范围都在不断扩大。本部分提出一种高效的结构点序列无损压缩算法,可适用于视频目标跟踪、人群流量统计、人脸识别、运动目标行为分析等结构点序列的无损压缩,可以极大降低该类数据的传输带宽和存储空间要求,具有广泛应用价值。根据中关村视听产业技术创新联盟2023年标准制修订计划的安排,下达了由鹏城实验室牵头制定的团体标准信息技术视觉特征编码第6部分:结构点序列(标准计划号为202103
3、2506)的制定任务。工作组自2018年3月第2次会议开始,讨论视觉特征编码技术标准制定工作中,关于视频内容的结构点序列的压缩编码技术,以解决在智慧城市建设相关领域中涉及到的海量的数据压缩问题,推进城市大脑的建设。在标准制定的整体路线方面,前三次会议(2017年12月-2018年6月)对视觉特征编码的技术需求和应用场景进行讨论与梳理,首先形成了视觉特征编码提案征集书(草案)(AlMIo16)技术文档与视觉特征编码评价框架(草案)(AlMlOI7),前者明确了提案需求,并规提案阶段设置、提案内容、时间节点计划等,后者列出了典型视觉任务的验证数据集,设置核心实验中的测试任务、基本思路、测试条件、参
4、考技术文档、性能度量等。经过后续会议(2018年8月-2019年12月)修订完善,最终形成了视觉特征编码核心实验数据集6.0(AIN1160)视觉特征编码核心实验设计6.0(AINll59)、视觉特征编码测试模型V1.0(AINlO93)技术文档。关于结构点序列编码的部分,经过多次会议和对在智慧城市建设中相关数据压缩需求的分析和讨论,以及结合未来城市大脑建设中可能涉及的数据形式的预期,首先于2018年3月第2次会议形成了基于时域差分关系的位置及骨架信息编码(AIM1006)技术提案。提出了使用多模式方式,充分使用视频帧间信息对人体骨架序列进行无损压缩编码的技术。在2018年8月第4次会议的基于
5、时域差分关系的骨架信息编码(AlMlO25)中完善了技术描述。在2018年12月第5次会议的人体骨架数据的无损压缩编码(AlMlO65)和2019年3月第6次会议的基于多模态的视频骨架序列无损压缩方法(AlM1087)技术提案在广泛采纳成员单位意见的基础上,进一步改进了使用多模式对视频中骨架序列进行压缩的过程,完善了相应的技术内容描述,并得到采纳。在2019年6月第7次会议的视频中人体骨架的无损压缩编码(AlMlO98)提案中,对序列输入格式,参数定义等内容进行了完善。结合对未来智慧城市建设中数据的多样性分析,工作组将技术对象从单一的人体骨架序列扩展到了通用的结构点序列(比如人脸关键点,ROl
6、区域的识别框,汽车关键点等)中,并在2019年8月第8次会议提出了面向视频的关键点信息无损压缩方法(AlMIl23)技术提案,对技术中的特殊处理操作进行了内容完善。在2019年12月第9次会议中,形成了关键点序列的无损编码测试结果(AIMl157),并对除人体骨架信息外的通用结构点序列进行了测试,实验验证了技术的性能。在2020年6月第11次会议中,提出了视频中结构点序列无损编码的待改进问题(AIM1287),在后续代码维护过程中对所提及的问题进行了改进。在2020年8月第12次会议中,工作组形成了信息技术视觉特征编码第6部分:结构点序列(AlMl338)标准文档的第一份草案。在2020年12
7、月第13次会议中,提案监控视频的骨架序列无损压缩(AlMl343)对参考软件及技术的改进进行了描述。在后续的工作组会议中,广泛采纳各单位专家的意见,对收到的反馈意见进行讨论和完善,不断修订标准文档的内容,并最终于2023年5月形成了标准的征求意见稿。本标准起草单位:上海交通大学,鹏城实验室,北京大学,博云视觉(北京)科技有限公司,青岛海信网络科技股份有限公司,青岛新一代人工智能技术研究院本标准起草人:林巍晓,刘鸣洲,陈一航,段凌宇,陈杰,高雪松,张四海,王雯雯,熊红凯二、标准编制原则和确定主要内容的论据及解决的主要问题在我国建设智慧城市的过程中,智能驾驶技术、智能监控和追踪技术等会产生大量的视
8、频结构点序列,而随着智慧城市建设的推进,这些结构点序列数据量还会快速增加。在结构点序列的处理中,往往涉及多设备间(如本地-云端)的数据传输,这就对压缩技术提出了需要。本部分即是面向视频中结构点序列的压缩技术所制定的,目标是提高数据压缩率,从而提升数据传输与共享的效率。信息技术视觉特征编码第6部分:结构点序列是以我国科研机构课重点科技创新企业为首、引领信息技术领域有影响力的企业共同创新而成。为了形成优化的技术方案,专题组根据标准的通用性和实用性对系统的参考架构进行了多轮讨论和评估,收集了业内有实际产品研发和生产经验的企业代表的意见,技术评估的基本依据是综合考虑提案对解决视频中结构点序列压缩的无损
9、性、有效性、可实现性、可扩展性、对已有设备的兼容性现有标准的复用性以及知识产权情况等,这些原则与手段为结构点序列压缩的技术先进性和妥善解决知识产权问题奠定了坚实基础。本部分规范了结构点序列无损压缩编码解码的过程和编码格式,适用于视频目标跟踪、人群流量统计、人脸识别、运动目标行为分析等结构点序列的应用。本部分根据结构点序列特点,提出基于多模式的动态压缩编码方法,能够根据序列的特点动态选择最优的编码方法,显著降低了结构点序列对传输带宽和存储空间的要求。从架构上看,现有技术模式是使用多模式进行结构点序列压缩,具体可以归纳为使用帧内信息的编码模式和使用帧间信息的编码模式。考虑到帧内结构点的空间相关性,
10、空间自差分编码被主要考虑用于帧内信息的编码;对于帧间信息,结构点的时域相关性为数据提供了很大的压缩潜力,因此基于多帧关联的帧间编码也成为了主要的技术支撑。视觉特征编码第6部分结构点序列的特色技术包括:基于空间自差分的帧内编码模式通过对结构点序列的依赖关系建模,形成结构点的空间依赖关系数组,用于为帧内空间自差分编码提供相对位置参考,。该技术充分利用不同结构点间的空间依赖关系和位置联动关系,有效地达到了数据压缩的目的。帧内空间自差分模式具有帧独立可解的特点。基于多帧关联的帧间编码模式基于多帧关联的帧间编码模式有效地为具有时空相关性的相邻帧建立依赖关系,并通过多模式的自适应选择的方式有效地去除结构点
11、的时空冗余,以达到压缩的目的。该模式可以根据结构点预测方式的不同进一步划分为以下四种子模式:1)基于运动矢量的帧间差分模式基于运动矢量的帧间差分模式首先编码结构体的中心参考点在当前帧和参考帧间的运动矢量,再将其运动矢量应用到结构点以得到预测值。再用嫡编码方法编码其预测值和真实值的残差。2)基于运动矢量的相对帧间差分模式基于运动矢量的相对帧间差分方法首先利用基于运动矢量的帧间差分模式得到中心参考点的运动矢量以及当前结构点的预测值,再用当前结构点的父结构点的残差进行补偿以得到预测值。再用嫡编码方法编码其预测值和真实值的残差。3)基于线性预测的帧间差分模式基于线性预测的帧间差分模式会根据前序参考帧和
12、参考帧计算得到当前结构点的运动矢量预测值。再用烯编码方法编码其预测值和真实值的残差。4)基于中值预测的帧间差分模式基于中值的帧间差分模式首先分别通过上述三种帧间差分模式计算出当前结构点的坐标预测值,在每个维度上,取三者的中值作为预测值。再用端编码方法编码其预测值和真实值的残差。三、主要试验【或验证情况分析高效的视频编码是视觉特征编码的核心特征之一,下面给出视觉特征编码中建议采用的结构点序列压缩算法相比于使用直接编码算法节省的性能。使用了多组视频序列进行测试。测试数据如表1所示。表11测试数据说明结构点序列名称原视频大小(KB)帧分辨率帧数每帧结构体数结构点信息视频描述编码对象facel1741
13、7205769427-342维68点室内会议脸部二维关键点face22140128072012810-152维68点人们在公园走路脸部二维关键点face314647205768826-292维68点向站着的人群扫拍脸部二维关键点carl69761600900328-223维8点路上的汽车汽车三维检测框car28530I6009004110-313维8点路上的汽车汽车三维检测框car31007916009003811-713维8点转角的卡车和障碍物汽车三维检测框car4658616009002616-263维8点停车场的汽车和行人汽车三维检测框skeleton12096964030017981-
14、162维14点人们在楼梯上行走人体二维骨架点skeleton299455I28072048192-142维14点在实验室里的人人体二维骨架点skeleton329301I660108095244-652维14点食堂里的用餐场景人体二维骨架点skeleton4646801280720150811-292维14点小学里的场景人体二维骨架点bboxl280781920108091126-372维4点广场上的场景人体二维检测框bbox23628264034433007-232维4点幼儿园里的场景人体二维检测框bbox317565128072056436-452维4点人们在自动扶梯上人体二维检测框bbo
15、x469977I9201080141612-232维4点小朋友在操场上玩耍人体二维检测框测试结果数据如表2和表3所示。在直接编码方式中,使用无符号哥伦布编码方式编码每帧结构体数和结构体编号,使用1位无符号定长编码方式编码结构点缺失标志数组,使用n位有符号定长编码方式编码结构点坐标,其中n取决于当前结构点序列各个维度上的坐标最大绝对值。表22视频序列测试结果一比特率。其中,红色和加粗分别标定最优和次优性能。结构点序列名称直接编码(bits)基于运动矢量的帧间差分(bits)基于运动矢量的相对帧间差分(bits)基于线性预测的帧间差分(bits)基于中值预测的帧间差分(bits)多模式编码(bit
16、s)facel4154640150385312637191904(X)313594111273541face225199839503527986521446306882012813104face3347658714092321167728189291412667121176542carl18908487054841121421448540684418car2306464163966152232251682157300153426car3578623314389308215473623310655308341car4174700112641108373151953110085108557skel
17、eton1459359916903041471648147316813573081375116skelelon21742959471720535722311590347753981635383379skeleton32043809761325024949588528095447319244624802skeleton41053863633368683134874321306029639742903818bboxl33214119703969177381101910956548925432bbox2491725015435641494854183671415312681496958bbox324
18、72970593232580072728950589662583302bbox42784569708754684464897412702048689122表33视频序列测试结果相比直接编码的压缩率(负数表示节省码率)。其中,红色和加粗分别标定最优和次优性能。结构点序列名称直接编码基于运动矢量的帧间差分基于运动欠量的相对帧间差分基于线性预测的帧间差分基于中值预测的帧间差分多模式编码facel-63.80%-69.58%-54.17%-67.28%-69.35%face2-62.29%-68.31%-42.61%-65.00%-67.73%face3-59.47%-66.41%-45.55%-63
19、.56%-66.16%carl-53.96%-55.52%-24.82%-54.83%-55.35%car2-46.50%-50.33%-17.88%-48.67%-49.94%car3-45.67%-46.73%-18.15%-46.31%-46.71%car4-35.52%37.97%-13.02%-36.99%37.86%skeleton1-63.20%-67.96%-67.93%-70.45%-70.06%skeleton2-58.85%-67.17%-66.13%-69.03%-69.11%skeleton3-69.99%-75.78%-74.16%-76.85%-77.37%ske
20、leton4-68.34%-70.25%-69.51%-71.88%-72.45%bboxl-70.78%-72.37%-66.82%-71.20%-72.14%bbox2-68.61%-69.60%-62.65%-68.86%-69.56%bbox3-76.01%-76.54%-70.52%-76.16%-76.41%bbox4-74.55%-75.42%-67.77%-74.79%-75.25%从上述结果可以看到,使用多模式编码的方式,能够有效地无损压缩结构点序列。在实际使用中,可以选择性地开启或关闭某些编码模式,以更好地适用不同特性的结构点序列。本部分的结构点序列压缩算法与直接编码对比,
21、在保证数据无损的前提下,平均节省码率65.03%。四、知识产权情况说明不存在知识产权侵权风险。可能涉及标准文本6.1、6.2、7.1、7.2、7.3、7.4、7.5、7.6中如下3项与视觉特征编码技术相关的专利的使用。专利申请号及名称如下:表44专利列表序号专利申请号专利名称1201910157792.6用于视频中的人体骨架的多模态无损压缩实现方法2201310294435.7视频编解码方法、装置及系统3201610646843.8基于参数化及细节表征的人脸图像压缩及还原方法及系统五、采用国际标准和国外先进标准情况由于目前该领域的标准均是面向单流(视频流)系统的,而本标准中的视觉特征编码,具有
22、视频流、特征流、模型流等多流并行架构,具有端、边、云协同的视觉大数据分析处理框架,国外尚无同类标准。六、与现行相关法律、法规、规章及相关标准的协调性符合我国有关的现行法律、法规。七、重大分歧意见的处理经过和依据无。八、标准性质的建议建议发布为推荐性标准。九、贯彻标准的要求和措施建议应通过各类国家级科技计划和产业化项目资助,大力开展基于视觉特征编码结构和通信协议标准的芯片、终端、服务器以及系统的研发、试验示范系统建设、直至大规模商用,扶持视觉特征编码产业链的形成。为了促进视觉特征编码的广泛应用和产品化,需要提供一些开源工具来支持相关技术和产品的开发,开源软件例如视频转码工具、特征压缩工具、大规模
23、特征流聚合器等,开源硬件工具则能够对于开发基于多种类型硬件平台的视觉特征编码终端提供较大的支持。同时,应通过一定技术手段,要求智能交通、智慧社区、智能安防等视频监控应用领域推广使用视觉特征编码结构和通信协议标准,一方面能够兼容传统终端使其继续发挥作用,另一方面,为未来智慧城市建设中规模急速增长的视频监控网络和下一代城市大脑提供强有力的技术体系支撑,在节省网络、节点等资源的同时,使系统提供更高效高质量的媒体服务、更高性能高实时性的识别分析和检索服务以及更大范围更深层次的城市大数据分析和态势预测服务。同时,应注意避免国际技术的渗透,而造成事实标准的被动局面,提高视频应用的安全性、自主性。十、替代或废止现行相关标准的建议无。十一、其它应予说明的事项无。团体标准信息技术视觉特征编码第6部分:结构点序列编制工作组2023-05-10