智能音箱技术规范_SJT11840-2022.docx

上传人:李司机 文档编号:6835026 上传时间:2024-03-01 格式:DOCX 页数:22 大小:1.01MB
返回 下载 相关 举报
智能音箱技术规范_SJT11840-2022.docx_第1页
第1页 / 共22页
智能音箱技术规范_SJT11840-2022.docx_第2页
第2页 / 共22页
智能音箱技术规范_SJT11840-2022.docx_第3页
第3页 / 共22页
智能音箱技术规范_SJT11840-2022.docx_第4页
第4页 / 共22页
智能音箱技术规范_SJT11840-2022.docx_第5页
第5页 / 共22页
点击查看更多>>
资源描述

《智能音箱技术规范_SJT11840-2022.docx》由会员分享,可在线阅读,更多相关《智能音箱技术规范_SJT11840-2022.docx(22页珍藏版)》请在三一办公上搜索。

1、ICS33.160.99CCSM72中华人民共和国电子行业标准SJ/T118402022智能音箱技术规范Technologyspecificationforsmartspeaker2023-01-01 实施2022-10-20发布中华人民共和国工业和信息化部发布前言IH引言IV范围2规范性引用文件15.1 概述5.2 智能4r-liIj及小受6.1 声6.2 i6.3附录A(术语和定义测试7.17.27.3智能化及音质性系统逻辑结构.12333444666771013圳市三诺数字科技有限公司、青岛 迪芬尼声学科技股份有限公 司、广州笙达电器有限公才:部电子第五研究所、草人:林顺达、球能科胜牡、

2、钟刁江强、王运Kl孙海原长症电子有限瑞森新谱科技第&钟、赵群、毕静王晶、胡科、i京声准*明英、卜云全、黄桅、易、何艳、然、汪S科瑞声科技股份有 讯科技有限公百 步者科技股份 技有限公司 盛电子有 业有限公 公司、安本、杭州车景声科技有限公Q学、中国科学院声学研究所、海德司、/华为终端(东莞)有限公司、北京云知声信勰逋限公司、广州:司、腾讯杵陵,化京)有限公俊、常理、胡永、毕静伟、I温卡徐沾伟、冯陕瞧本文件按照GBzr1.1-2020标准化工作导则第1部分:标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由全国音频、视频及多媒

3、体系统与设备标准化技术委员会(SAC/TC242)提出并归口。本文件起草单位:中国电子技术标准化研究院、中国电子音响行业协会、科大讯飞股份有限公司、歌尔股份有限公司、北京小米科技有限责任公司、北京小米移动软件有限公司、华为终端有限公司、深.州番禺巨大汽车音响设备有限公司、惠州团有限公司、国光电器股份有限公学科技有限公司、工业和信息化技股份有限公司、深圳市北*技有限公司、北京百度网)有限公司、深圳市漫、司、广州爱浪智能科:有限公司、吉林航1/、深圳市新峰龙工亚数码科技有限飞、曾庆法、熊刘轶、赵静、燕、张金国、威志、熊俊、箱尤、宋伟。智能音箱系统是包括智能音箱终端、云端、手机应用以及关联设备和资源

4、的系统。智能音箱是指具有语音交互功能、能够访问网络内容、享受网络服务的音箱设备。智能音箱集成了人工智能处理能力,能够通过语音识别、语音合成、语义理解等技术完成语音交互,成为消费电子领域的热点产品,而现行扬声器(音箱)的国家标准及行业标准未能覆盖智能音箱的技术指标。智能音箱音质层次不齐、语音交互性能良祷不齐、内容合规及信息安全等方面存在较大风险,所以蝇须加强端云一体化标准的制定;同时加强产品质量监管体系建设,引导智能音箱产业健康发展。术文件是对现行扬声器(音箱)等国家标准及行业标准的有益补充,同时促进GB/T12060.5-2011声系统设备第5部分:扬声器主要性能测试方法,GB/T14277-

5、2013声频组合设备通用规范及SJIT115402015有源扬声器通用规范等现行国家标准及行业标准的贯彻执行。智能音箱技术规范1范围本文件界定了智能音箱智能化等级分类,规定了智能音箱的系统架构、声频性能、语音交互、安全性,以及智能音箱智能化技术要求,描述了对应的测试方法。本文件适用于智能音箱产品及其系统的研发、设计和测试,其他采用语音交互技术的智能硬件产品也可参考使用。2规范性引用文件全能力要求3术语2008界定的以及下注3:注1:注2:GB GB GB GBSJ SJ智能音箱可关智能音箱利用云端明 语音交互.智能音.可以对关联设备进行范GB/T 列术语和定3.1 .0072017信息,文件;

6、不注I期的引用文件,其最期技术规范t务接口规范命安全规范20082()IaGB/T 341452017、件。下列文件中体 仅该日期对应白 文件。GB/TGB/T 44GBI121智能音箱具有语音交互:危性引用而构成本文件史*翘队部分:扬声器中,注日期的引用文件, 有的修改单)适用于本识航语音公成、自然语言理解等技术完成3.2智能音箱系统smartspeakersystem由智能音箱终端、云端、手机应用以及关联设备和资源组成的系统。3.3语音交互speechinteractionvoiceinteraction人类和功能单元之间通过语音进行的信息传递和交流活动。来源:GB/T36464.2201

7、8,3.1,有修改3.4语音识别speechrecognition将人类的声音信号转化为文字或者指令的过程。3.5语音合成speechsynthesis将给定的文本转换成与之对应的语音的过程。3.6自然语言理解naturallanguageunderstanding让计算机能够读懂自然语言中蕴含的含义及意图的过程。3.7语音唤醒speechwake-upvoicetrigger处于声频流监听状态的语音交互系统,在检测到特定的特征或事件出现后,切换到命令词识别、连续语音识别等其他处理状态的过程。3.8误唤醒falsewake-up语音交互系统处于声频流监听状态,无声频流或者声频流中没有出现唤醒所

8、需的特征或事件时,语音唤醒系统被唤醒的现象。3.9噪声noise语音采集过程中,对目标语音信号的识别、理解或处理的造成干扰的信号。3.10声纹voiceprint语音中所蕴含的、能表征和标识特定说话人的独有的特性或特征。3.11声纹识别voiceprintrecognition根据待识别语音的声纹特征识别该段语音所对应的说话人的过程.3.12传声器阵歹IJmicrophonearray由具有确定空间拓扑结构的多个传声器组成的,对信号的空间特性进行采样并处理的系统。3.13语音打断speechinterruption语音交互系统在播放声音的过程中,当语音采集设备检测到有效语音输入时,终端从播放声

9、音转到语音识别等其他处理过程。3.14隐私标签privacylabel厂商或者开放平台应用对其定义的涉及用户私f信息的数据进行标识的标签。4系统逻辑结构智能音箱使用语音交互功能时,其系统分为输入、处理和输出三个模块,可选择在本地、云端或融合实现,其中.a)输入版块包括传声器阵列、语音采集、语音唤醒和声纹识别,负责将语音输入转化为语音流,作为处理的输入。其中:1)传声器阵列负责对声频信号进行定向采集;2)语音采集包括对传声器阵列拾取到的声频进行降噪、去混响、回声消除等处理;3)语音唤醒负责声频流监听,并在检测到特定的特征或事件出现后,切换到语音识别状态;4)声纹识别(可选支持)负责对发音人声纹进

10、行获取、分析并输出反馈结果。b)处理模块包括语音识别、自然语言理解、业务逻辑。其中:1)语音识别负责将语音流转换为人类可识别的文本信息并直接输出,或转换为计算机可识别的文本信息并输出到自然语言理解;2)自然语言理解负责对语音识别提供的文本信息做自然语言解析;3)业务逻辑负责根据自然语言理解的结果,映射到相应的业务线,并依此向相关应用下达指令并提供反馈信息。c)输出模块包含语音合成和资源调用。其中:1)2)3)语音合成模块负责将业务逻辑反馈的计算机可识别的文本信息转换为语音流的输出;资源调用负责将业务逻辑反馈的信息与对应的应用资源进行匹配,并对外提供应用与服务的输出;语音合成和资源调用相互关联对

11、应,共同作为输出结果。智能音箱系统逻辑结构见图1。智能网络的应用I根据智育O身齐识别O拓扑5智能I,.y.vy.5.1概主应提供多种基于;同的等级。唤醒失效一语音合成:对应联设备调用输出能等寄朋5.2智能化及臂性能程翻级智能音箱指标;及分类如表2所示。指标级别语音识别字准确率%语音唤醒正确率%交互拒识率%平均响应时间SFfoS评分A级高噪859024.2高噪90小于10(只需W2.0低噪N90低噪95要做低噪)B级高嗓2802853.5高噪85小于15(只需2.5低噪85低噪90要做低噪)1的要求,智表2智能化等级分类智能化级别智能化及音质功能及性能要求I【级A)具备11级所有功能;B)满足全

12、部A级别指标要求(见表1)n级A)具备I级所有功能;B)满足全部B级别指标要求(见表1);C)具备远距离识别功能(不小于5m);D)具备降噪功能;E)支持智能家居控制协议;F)具备其他更智能化功能及性能;G)扬声器性能达到GB/T14277-2013的B类及以上I级A)具备语音交互功能,满足50%B级别指标要求(见表1):B)可连接云端声频媒体库;O至少具备Wi-Fi无线传输功能6技术要求6.1 声学性能要求产品的声性能参数及要求应符合SJ/T11540-2015中表2的要求。6.2 语音交互技术要求6.2.1 概述智能音箱的语音交互技术要求包括语音技术要求及交互技术耍求,智能音箱指标级别分为

13、A级和B级两类,具体见5.2。6.2.2语音技术要求6.2.2,1语音采集智能音箱应能够通过传声器或传声器阵列等具备语音采集能力的硬件设备对语音进行采集。6.2.2.2语音识别语音识别基本要求包括:a)识别引擎应支持连续语音识别;b)在低噪环境中,语音识别字准确率应不小于85%(B级)或90%(A级);c)在高噪环境中,语音识别字准确率应不小于80%(B级)或85%(A级)。6.2.2.3声纹识别智能音箱可具备声纹识别功能,实现对不同身份用户的差异化反馈,如:系统访问权限、系统响应内容等.6.2. 2.4语音打断智能音箱应具备交互过程中的语音打断功能,实现交互速度与自然度的提高。语音打断成功率

14、的计算方法见公式(D。Pi=x100%(1)式中:P1语音打断成功率;N交互内容中需要执行打断操作的次数;Ni被语音交互系统正确响应的次数。在声源距离待测样品1m距高处,语音打断成功率应不小于85%(B级)或90%(A级)。6.2.2.5语音合成应支持汉语普通话,宜支持多音色、混合语种和多语种,宜支持方言,宜支持个性化合成,汉语名词MoS评分应不小于3.5(B级)或4.2(A级)(满分5.0)。主要要求包括:a)宜支持多音色,应支持女声和男声,宜支持其他音色;b)应支持中英文混读,宜支持混合语种;c)宜支持多语种,应支持英语。6.2.2.6语音唤醒智能音箱应具备唤醒功能(语音唤醒或硬件按键唤醒

15、),为了区分音箱发声与否状态下的语音唤醒功能,本文件中“语音打断”指音箱发声状态F的语音唤醒,“语音唤醒”特指音箱不发声状态下的语音唤醒。不同噪声环境中的语音唤醒能力应满足表1要求.误唤醒频度应不大于5次/24小时。表3不同噪声环境下的唤醒能力要求声环境功能区类别环境噪声等效声级dB(八)唤醒正确率%1类低噪290(B级)或295(A级)2类高噪285(B级)或290(A级)其中,唤醒正确率计算方法见公式(2).Pr100%(2)式中:Pr唤醒正确率;正确唤醒次数;Nw总唤醒次数。6.2.3交互技术要求6.2.3.1交互方式智能音箱宜实现多轮语许交互,即通过两轮及两轮以上的对话完成一个任务。6

16、.2.3.2交互拒识率交互拒识率是指在智能音箱在语音交互过程中,交互目的不能够在既定交互轮次内完成,被判定为交互失败的测试比率,其计算方式如公式(3)所示。100%(3)式中:Pf交互拒识率;S交互成功的次数;F交互失败的次数。智能音箱在低噪环境等级下,拒识率应小于15%(B级)或10%(A级).6.2.3.3响应时间响应时间包含响应时间及实时系数,实时系数衡量指标遵照GB/T21023-2007的5.3.响应时间是指智能音箱在语音交互过程中,不同网络环境下的从语音输入结束时刻起到输出结果开始时刻之间的时间,其计算方法如公式(4).TaCiC=。-G式中:Tack响应时间;tr给出结果时刻;I

17、e语音输入结束的时刻。注:如语音交互系统支持识别结果分多次返回,G应为第一部分识别结果返回的时刻.最大响应时间是指智能音箱在语音交互过程中,厂商规定的在不同网络环境下的从语音输入结束时刻起到输出结果开始时刻之间的时间,最大响应时间应符合厂商的产品质量要求。智能音箱宜支持不同类型网络接入方式;在典型应用场景对话交谈中,其平均响应时间应W2.50s(B级)或200s(A级).智能音箱在不同网络接入方式中,网络条件应满足上行带宽不低于100kbit/s、下行带宽不低于50kbit/s,应保持稳定的连通状态。6.2.3.4休眠要求智能音箱上应具备休眠键,并且且不拾音。在休眠状态下,音智能音除正能6.

18、3.4 i7.1测试准备姑Jfc处于休眠状态,并明确告知休眠状态下音箱智能音箱涉6.3.2数据动通信设备;使用加密算法。和互6. 3.3他服务端Lh卜V.量了6. 3.5支持时,7测试方:7.1.2语音测试集要求6.3安全性要求6.3.1通则覆盖、音节覆盖,以及常用7.1.1测试语料舞测试语料应覆盖;性角度进行设计,具体要;语音测试集应符合以下要求:a)语音识别准确率测试应至少由男女各20名发音人进行录制,语音唤醒功能测试应至少由50名发音人录制,具体要求应按GB/T210232007执行;b)声纹识别测试(仅当支持声纹识别时)应至少由50名发音人录制验证,具体要求应按GB/T21023200

19、7执行。附录A给出了一种可行的测试集构建方法。7.1.3环境噪声要求表4语音识别测试环境要求家居环境房间门窗电视机(可选)抽油烟机(可选)空调C可选)待测音箱位置处的环境混响要求S信噪比dB待测音箱位置处的环境噪声声压级dB(八)低噪关关关关混响时间0.3-0.6(200Hz-4000Hz)2045高嗓开开开开混响时间0.3-0.6(200Hz-4000Hz)10557.1.4测试设备要求测试设备要求如下:a)声音.重放设备:由信号发生器、功率放大器和扬声器组成。应满足以下条件:功率放大器和扬声器产生的声源幅度非线性影响值应足够小;声音重放设备产生的本底噪声应足够小。b)声压测试设备:声级计;

20、c)识别时间测试设备:宜采用示波器或高速相机测试识别时间,或者开发自动化软件进行测试。1.1.5 拾音距离要求测试所描述的拾音距离为通常为1m、3m和5m;使用的测试距离应在测试报告中说明。1.1.6 测试布置推荐按照图2布置测试,推荐在A=90且B=150、A=60且B=150下测试,使用的空间布跣应在报告中说明。除测试项目明确规定,通常测试距离为1m,至少应执行Im距离处测试;可以根据需要提供额外的其他角度的测试数据,并在报告中说明。当声源与待测样品的空间布置(包括但不限于角度、高度、摆放位置等)对测试结果有影响时,应改变空间布置重:狂测试,并提供不同布置下的测试结果,其他空间布置的测试结

21、果不影响智能化评级。图2测试布置图7.2 基本功能和性能测试智能音箱的声学性能按照SJZT115402015、GB/T12060.52011、GB/T142772013测试。7.3 语音交互测试7.4 3.1语音识别分别在低噪、高噪测试场景下,如下设置播测音源的音量:距离待测设备Im处,播放唤醒语料或识别语料,在待测设备传声器处测得平均声压级为65dB(八),以此为基准音量。将智能音箱被测系统调至待命状态,在拾音距离内使用回放设备播放语音识别测试语料,记录低噪、高噪环境下智能音箱被测系统的识别结果,并与预期结果进行比对,统计结果并按照6.2.2条要求计算字准确率。有必要时可以在其他信噪比下执行

22、测试,并在报告中说明具体的测试安排。7.3.2语音合成选取20个听音人员,男女各10人,通过对智能音箱被测系统语音唤醒或语音识别命令的反馈,测听合成语音同真人语音在音质、可悔度和自然度等方面的差异,并以平均意见得分(MoS分)量化进行主观测评,记录平均结果。7.3.3交互拒识率交互拒识率测试方法如下:a)将智能音箱被测系统调至待命状态,使用回放设备在拾音距离内播放语音识别测试语料,记录当次语音交互会话是否成功和有效;b)分别在低噪、高噪条件下按上述步骤完成测试,计算各测试场景下的语音交互拒识率。响应时间7. 3.4水呵环境下,按上述步骤完成测试,然后T箱被测系2. . .7. 3.6,使用回放

23、设 确率;试语料,测试成功的语音交系统调计各场景设备播语音交公式(D计算语音打断成功率。括唤语音 a)!测试:分别;醒:测试语料丁记京b)试:4 A正底被测响应时间测试方法如下JZ a)准备智能音箱放语音识另恻诙 果的时刻,用回放设备在拾音距离内播 :成的时刻Ze和返回服务结音交互会话的响应时间;b)分别骏和实时系妫但 最大3要求。频度测试,方识观时间、平均实时系数设定人心 设备的内噪A85 使用定制我语 内噪声素材,进语音打断;设备1m处发声,统一在待测设备的传声器处测量,YS比T5dBA,并以此为音量基准在不同距离,唤醒词或命令词集,在待测设备播放状态7. 3.7声纹识别根据产品使用说明i

24、7. 3.8安全性测试7. 3. 8.1数据加密量70dBA,待测亍语陪打断测试。:态中,使用统一的通过加密有效性测试,判断被测系统是否正确使用了加密技术。使用一台安装无线网卡的电脑,开启无线热点,启动抓包工具(如WireShark),将音箱连接到这个无线网络中。在联网状态下,正常使用音箱,分析抓包工具生成的数据,判断数据是否已加密。7.3.8.2网络端口将音箱联网,在网络设备上,查询音箱的TP地址,使用一台电脑,接入局域网,启动端口扫描工具(如NmaP)对音箱的IP地址进行扫描,根据扫描结果,判断常见服务端口是否已关闭。7.3.8.3设备调试检查音箱端口,将端口同电脑USB端口连接,检查电脑

25、是否弹出发现设备等提示,使用调试工具(如adb)测试向音箱发送调试指令,判断调试模式是否已关闭。A.1输入要求附录A(资料性)语音测试集构建示例智能音箱在语音交互过程中的输入应满足以下要求:a)应支持中文普通话输入,宜支持英语;七次语音输入时长不应超过30s,特殊情况下b)c)空间、待测设备这几个维度组合构建语跳急环境下组织录:r法示艮体类别维度声非平稳噪声(电视噪声等)交通工具自然声音其他噪声类型可处理语音输入为(18030不应超过60s;发音单元的持续认为一次语唤醒的醒语料,6小时集的构成,来源节H三J淡射过2s;若停顿时间超过2s,则A.2测试集构建利从噪声、尽量覆盖各种语音唤的人员,误

26、唤醒下音箱的视节目,物语音误唤醒测试集,录制箱及做备曲唤醒词。参与录制号虐突M阑5网工中引起待测i所以此时选择I八例如,家居环境J包含6小时电到待测设备距离1m3m5m与待测设备角度Oe、45、90,、180、其他信噪比原始(-515)dB.步长5dB回声内容类型音乐、有声节目、听声音Skil1、TTS等噪声表A.1(续)维度类别具体类别信回比原始(-350)dB,步长5dB待测空间空间类型马路家居办公待测空间混响(500Hz)T60=(30030)msT60=(50030)msT60=(80030)ms待测设备设备类型表明被测设备类型,如小米Al音箱位置一面整墙V0.1m.三面开阔lm两面靠

27、墙均V0.1m,两面开阔lm一面离墙0.4m,三面开阔lm两面离墙0.4mr两面开网lm四面离墙均lm高低离地0.4m设备音信例如,Al音箱OdB,30dB,50dB,90dB,100dB设备编号从IO目标声源性别男女儿童口音普通话地区性方言语速正常(0.851.5)s较快(0.650.85)s与待测设备距离1m3m5m与待测设备角度0*、45、*90、180*、其他发声位置站姿:嘴尚地面约(1.5-1.62)m坐姿:嘴离地面约0.8m躺姿:嘴离地面约0.4m语料内容唤醒词提问句注:以上主要考虑家居和办公场景在线测试时,信噪比/信回比通过改变噪声源和纯语音段音量以及待测设备音量和纯语音段音量来

28、获得。离线测试语料中,按信噪比/信回比合成测试语料的方法:采用段信噪比计算方法,即纯语音段能量与混合时间段内的噪声/回声能量对比;实际语料合成时,整段噪声/回声语料设置同一增益来获得目标信噪比/信同比,但一段噪声/回声语料中混合多段唤醒词的时候,由于噪声、回声的能量实时在变化,每段唤醒词的信噪比/信回比不可能完全相同,应允许土1dB的误差。音量设置需根据被测设备的音量范围和实现机制做定制化设计。A.3测试场景设置测试所描述的场景应满足以下条件: 环境:温度(2326)OC,相对湿度(2575)%,大气压(9510L3)kPa; 高度:(1.10.01)m; 半径:距离被测中心(1.50.02)

29、m; 角度:45。一*ls豺嫉氤)距囚唧瀛返隧置参考文献U1TJUTJIJTJTJ12345678LLLLrn.GB/TGB/TGB/TGB/TGB/TSJ/TSJ/TSJ/T5271.29-2006信息技术词汇第29部分:人工智能语音识别与合成12060.16-2017声系统设备第16部分:通过语音传输指数客观评价言语可懂度210242007340832017353122017116882017117122018117132018中文语音合成系统通用技术规范中文语音识别互联网服务接口规范中文语音识别终端服务接口规范智能电视智能化技术评价方法智能电视语音识别测试方法智能电视语音识别通用技术要求

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号