提升小波的语音端点检测算法研究毕业论文.doc

上传人:仙人指路1688 文档编号:3943891 上传时间:2023-03-28 格式:DOC 页数:35 大小:741.50KB
返回 下载 相关 举报
提升小波的语音端点检测算法研究毕业论文.doc_第1页
第1页 / 共35页
提升小波的语音端点检测算法研究毕业论文.doc_第2页
第2页 / 共35页
提升小波的语音端点检测算法研究毕业论文.doc_第3页
第3页 / 共35页
提升小波的语音端点检测算法研究毕业论文.doc_第4页
第4页 / 共35页
提升小波的语音端点检测算法研究毕业论文.doc_第5页
第5页 / 共35页
点击查看更多>>
资源描述

《提升小波的语音端点检测算法研究毕业论文.doc》由会员分享,可在线阅读,更多相关《提升小波的语音端点检测算法研究毕业论文.doc(35页珍藏版)》请在三一办公上搜索。

1、 提升小波的语音端点检测算法研究摘 要 : 以小波变换及多分辨分析为理论基础 ,对语音端点检测中小波系数方差算法和子带 平均能量算法进行了分析和研究 ,利用语音和噪声的频域差别 ,对这两种算法进行了优化 ,并应用 于端点检测系统中 ,有效地改善了小波系数方差算法耗时长 、实时性差的缺点 ,并克服了子带平均 能量算法只对高斯白噪声检测效果好的局限性 ,提高了语音端点检测系统的实用性. 通过 MA TLAB 软件仿真的实验结果表明 ,采用优化算法的系统实现了语音端点检测准确性和快速性的最佳匹配 , 达到了此类检测设备的实用要求.关键词 :端点检测 ; 小波变换 ; 系数方差 ; 子带平均能量1引言

2、22语音端点的一般原理32.1语音端点技术的基本要求32.2语音端点的分类43语音端点53.1语音端点典型算法53.2 水印攻击分析73.3小波域语音端点93.3.1小波变换的语音端点算法93.3.2 实验结果及分析123.4 基于DCT变换的语音端点133.4.1 DCT域语音端点133.4.2 本章算法及实验结果分析174小波变换在数字音频水印中的应用184.1数字音频水印系统的评价标准194.2 DWT域音频水印算法214.3 DCT域音频水印算法224.4实验结果分析235视频水印概述及算法分析255.1 视频水印的分类256 程序附录251引言随着计算机网络和多媒体信息处理技术的发展

3、,使得方便快捷地制作、编辑、复制和传输各种无失真的数字化产品成为可能,如数字化的图像、视频、音频、软件、图形、动画和文本等。这给人们带来很大便利,也同时带来了许多严重的安全问题。例如,数字媒体产品的版权保护、软件产品的盗版、数字文档的非法拷贝、各种数字信息的篡改等。对于上述问题,人们最初的想法是求助于密码学。密码学是保护数字媒体内容最常用的方法。数字内容在发送之前先进行加密,合法的用户可以利用密钥来解密加密文件。对于非法用户来说,没有密钥文件毫无用处。然而,密码系统可以保护内容的传输,却无法跟踪合法消费者怎样处理解密后的内容。此外,加密后的文件因为不可理解而妨碍了数字化信息的传播。由此可知,加

4、密手段存在着一定的缺陷。为此,人们开始寻找新的解决办法来补充密码系统,使内容在解密后,仍可以得到保护。随着对这些问题的深入研究,语音端点(Digital Watermarking)技术产生了,它属于信息隐藏技术(Data Hiding)的范围1-6,最初的目的是作为保护数字版权的补充办法7。由于水印信息置于所保护的内容之中,在正常使用时也不会被去掉,因此水印技术可能满足上述要求。语音端点技术利用多媒体信息中存在的冗余信息及人类感知系统的特性,在不影响原始多媒体信息格式和质量的前提下把额外的信息(即水印)隐藏到多媒体信息中。语音端点是一个多学科高度交叉的新兴研究领域,它涉及了信号处理、密码学、数

5、学理论、通信理论、编码理论、数据压缩和人类听视觉理论等多门学科。语音端点的提出是为了保护版权,然而随着水印技术的发展,人们已经发现了水印更多更广的应用。目前,语音端点技术的应用大体上可以分为版权保护、数字指纹、认证和完整性校验、内容标识和隐藏标识、使用控制、隐蔽通信等几个方面。水印原始信号密钥编码器嵌入水印后信息原始水印待测信息密钥解码器检测结果或提出兵水印图1 水印信号嵌入系统模型图2 水印信号检测系统模型2语音端点的一般原理语音端点技术包含水印的嵌入、提取/检测两个过程。数字作品拥有的特定信息,如数字序列、数字标识、文本或图像等,按某种算法嵌入到数字作品中,在需要时,通过相应的算法提取出该

6、水印,从而能够验证数字作品的合法性。为了给攻击者增加去除水印的难度,目前大多数水印制作方案都采用密码学中的加密体系来加强安全性,在水印的嵌入和提取/检测时采用一种密钥,甚至几种密钥联合使用。语音端点的嵌入过程如图1所示,语音端点的提取/检测过程如图2所示。2.1语音端点技术的基本要求语音端点必须具有隐蔽性、鲁棒性、安全性等基本特性。其中,隐蔽性和鲁棒性是一对相互对立的要求,提高鲁棒性就会降低水印的隐蔽性,提高水印的隐蔽性又会减弱水印的鲁棒性。因此一个好的语音端点算法,必须合理地均衡二者之间的矛盾,在一定范围内寻求一种最佳的平衡。1.安全性:语音端点的信息应是安全的,难以篡改或伪造,同时,应当有

7、较低的误检测率,当原内容发生变化时,语音端点应当发生变化,从而可以检测原始数据的变更;当然语音端点同样对重复添加有强的抵抗性。2.隐蔽性:语音端点应是不可知觉的,而且应不影响被保护数据的正常使用;不会降质。3.鲁棒性:是指在经历多种无意或有意的信号处理过程后,语音端点仍能保持部分完整性并能被准确鉴别。可能的信号处理过程包括信道噪声、滤波、数/模与模/数转换、重采样、剪切、位移、尺度变化以及有损压缩编码等。4.确定性:水印应能为受到保护的数字作品的真伪或归属提供确定、可靠且具有法律效力的证据,这也是发展语音端点技术的基本动力。5.不可检测性:指水印信息与原始载体数据具有一致的特性,且水印信息本身

8、具有不可统计性,使攻击者无法通过信息分析手段判断多媒体数据中是否存在水印。6.自恢复性:水印信息经过一些操作或变换后,可能会使原始载体数据产生较大的破坏,但可以由留下的片断数据恢复出隐藏信号,且恢复过程不需要宿主信号。2.2语音端点的分类语音端点的分类方式很多,下面对现有的各种水印算法按照不同的分类标准得到不同的分类结果。常用的分类思路主要包括如下几种:(1)按特征划分,分为鲁棒型水印和脆弱型水印。鲁棒型水印主要用于数字产品的版权保护,它必须保证对原始版权的准确无误的标识。因为语音端点时刻面临着用户或侵权者无意或恶意的破坏。因此,鲁棒型水印技术必须保证在宿主信号可能发生的各种失真变换下,以及各

9、种恶意攻击下都具备很高的抵抗能力。与此同时,由于要求保证原始信号的感知效果尽可能不被破坏,因此对鲁棒型水印的不可见性也有很高的要求。脆弱型水印主要用于数据的真伪鉴别和完整性鉴定,又称为认证。该水印技术在原始信号中嵌入某种标记信息,通过鉴别这些标记信息的改动,达到对原始数据完整性检验的目的。因此,与鲁棒型水印不同的是,脆弱型水印应随着主信号的变动而做出相应的改变,即体现出脆弱性。但是,脆弱型水印的脆弱性并不是绝对的。对主信号的某些必要性操作,如滤波或压缩,脆弱型水印也应体现出一定的鲁棒性,从而将这些不影响主信号最终可信度的操作与那些蓄意破坏操作区分开来60。另一方面,对脆弱型水印的不可见性和所嵌

10、入数据量的要求与鲁棒型水印是相似的。(2)从水印所嵌入的载体划分,可分为语音端点、音频水印、视频水印、文本水印、软件水印、数据库水印以及用于三维网格模型的网格水印等。随着数字技术的发展,会有更多种类的数字媒体出现,同时也会产生相应的水印技术。(3)从水印检测过程划分,可分为明文水印和盲水印。明文水印在检测过程中需要原始数据,而盲水印的检测不需要原始数据。一般来说,明文水印的鲁棒性比较强,但其应用受到存储成本的限制。目前学术界研究的语音端点大多是盲水印。(4)从水印的嵌入位置划分,可分为时(空)域水印和变换域水印。时(空)域的水印嵌入可以通过直接修改时(空)域信号采样值的幅度实现,这种方法无需对

11、原始信号进行变换,计算简单,效率较高,但鲁棒性较差。变换域语音端点则分别是在DCT、DFT等频域、时/频变换域、小波变换域上嵌入水印。变换域语音端点能较好地利用人类视觉、听觉系统的特性,具有较强的鲁棒性。随着数字信号处理技术的发展,信号变换也不再局限于上述4种。应该说,只要构成一种信号变换,就有可能在其变换空间上隐藏水印。(5)按用途划分。不同的应用需求造就了不同的水印技术。按水印的用途,可以将语音端点划分为证件防伪水印、版权标识水印、篡改提示水印等。证件防伪水印是一类比较特殊的水印,主要用于身份证、护照、毕业证、学位证等证明文档的防伪。考虑到快速检测的要求,用于证件防伪的语音端点算法不能太复

12、杂,而且要能抗打印扫描过程引起的几何失真和像素值失真。版权标识水印是目前研究最多的一类语音端点。数字作品既是商品又是知识作品,这种双重性决定了版权标识水印主要强调隐蔽性和鲁棒性,而对数据量的要求相对较小。篡改提示水印是一种脆弱水印,其目的是标识宿主信号的完整性和真实性。(6)按内容划分,分为有意义水印和无意义水印。有意义水印是指水印本身也是某个数字图像(如商标图像)或数字音频片断的编码;无意义水印则只对应于一个序列号。有意义水印的优势在于,如果由于受到攻击或其他原因致使解码后的水印破损,人们仍然可以通过视觉或听觉确认是否存在水印。但对于无意义水印来说,如果解码后的水印序列有若干码元错误,则只能

13、通过统计决策来确定信号中是否含有水印。(7)按外观上划分,可分为可见水印和不可见水印。更确切地说应该是可察觉水印和不可察觉水印。可见水印最常见的例子是有线电视频道上所特有的半透明标识(Logo),其主要目的在于明确标识版权,防止非法的使用,虽然降低了资料的商用价值,却无损于所有者的使用。而不可见水印将水印隐藏,视觉上不可见(严格的说无法察觉),目的是为了将来起诉非法使用者,作为起诉的证据,以增加起诉非法使用者的成功率,保护原创者和所有者的版权。不可见水印往往出现在商业用的高质量图像上,而且往往配合数据解密技术一同使用。不可见水印根据稳健性可再细分为鲁棒的不可见水印和脆弱的不可见水印。3语音端点

14、本章提出一种以图案作水印、且提取时不需原图的盲语音端点嵌入算法。这个算法是基于变换的一种算法,经过研究知道:在小波变换后,纹理和边缘特征一般集中在高频子带LH1、HL1和HH1中,如把水印信息加在低频系数LL上,则人眼不易察觉,可以加大水印的嵌入量。由于经过一般的图像处理以后,高频上的信息容易丢失,其鲁棒性不够强。但是,一般情况下在嵌入的水印信息的量是较少的,本文为了增强水印的鲁棒性,在嵌入的水印信息量较少的情况下,就把水印信息嵌入到低频系数上,这样水印的鲁棒性将会大大增强。 3.1语音端点典型算法近几年来,语音端点技术研究取得了很大的进步2,7,1025,本文对一些典型的算法进行分析,除特别

15、指明,这些算法主要针对图象数据(某些算法也适合视频和音频数据)。(1)空域算法:该类算法包括文本水印算法、Schyndel算法和Patchwork算法等。其中Schyndel算法10被认为是一篇具有历史价值的文献,它是第一篇在主要会议上发表的关于语音端点的文章,文中阐明了一些关于水印的重要概念和鲁棒水印检测的通用方法(相关性检测方法),此算法首先把一个密钥输入一个m-序列(maximum-length random sequence)发生器来产生水印信号,然后此m-序列被重新排列成2维水印信号,并按象素点逐一插入到原始图象象素值的最低位。由于水印信号被安排在了最低位上,它是不可见的,基于同样的

16、原因,它可以轻易地被移去,因此也是不强壮的;Patchwork2,12提出了一种基于改变图象数据统计特性的水印算法,该算法首先随机选取N对象素点,然后通过增加象素对中一个点的亮度值,而相应降低另一个点的亮度值的调整来隐藏信息。为增加其水印的鲁棒性,文中还把象素对扩展为小块的象素区域(如8x8),通过增加一个区域中的所有象素点的亮度值而相应减少对应区域中所有象素点的亮度值的调整来隐藏信息。但该算法嵌入码低,且对串谋攻击抵抗力弱。(2)变换域算法:文献16提出了一种DCT域语音端点算法,其方法是首先把图象分成8x8的不重叠象素块,在经过分块DCT变换,得到由DCT系数组成的频率块,然后随机选取一些

17、频率块,将水印信号嵌入到由密钥控制选择的一些DCT系数中。该算法是通过对选定的DCT系数进行微小变换以满足特定的关系,来表示一个比特的信息。在水印信号提取时,则选取相同的DCT系数,并根据系数之间的关系抽取比特信息。其思想类似于扩展频谱通讯中的跳频(frequency hopping)技术,特点是数据改变幅度较小,且透明性好,但是其抵抗几何变换等攻击的能力较弱。另外基于DFT和DWT算法与上述算法具有相似的原理。这种以变换域算法为代表的通用算法普遍采用变换技术,以便在频率域实现水印信号叠加,并借鉴扩展频谱通讯等技术对水印信号进行有效的编码,从而提高了透明性和鲁棒性,同时还适当利用滤波技术对水印

18、信号引入的高频噪声进行了消除,从而增加了对低频滤波攻击的抵抗力。(3)压缩域算法13,14 基于JPEG、MPEG标准的压缩域语音端点系统不仅节省了大量的完全解码和重新编码过程,而且在数字电视广播及VOD(Video on Demand)中有很大的实用价值。相应地,水印检测与提取也可直接在压缩域数据中进行。文献13提出了一种针对MPEG-2压缩视频数据流的语音端点方案。虽然MPEG-2数据流语法允许把用户数据加到数据流中,但是这种方案并不适合语音端点技术,因为用户数据可以简单地从数据流中去掉,同时,在MPEG-2编码视频数据流中增加用户数据会加大位率,使之不适用固定带宽的应用,所以关键是如何把

19、水印信号加到数据信号中,即即加入到表示视频帧的数据流中。对于输入的MPEG-2数据流而言,它可分为数据头信息、运动向量(用于运动补偿)和DCT编码信号块3部分,在Hartung方案中只有MPEG-2数据流最后一部分数据被改变,其原理是首先对DCT编码数据块中每一输入的Huffman码进行解码和逆量化,得到当前数据块的一个DCT系数,其次把相应水印信号块的变换系数与之相加,得到水印叠加的DCT系数,再重新进行量化和Huffman编码,最后对新的Huffman码字的位数n1与原来的无水印系数的码字n0进行比较,只在n1不大于n0的时候才传输水印码字,否则传输原码字,这就保证了不增加视频数据流位率。

20、但该方法有一个问题值得考虑,即水印信号的引入是一种引起降质的误差信号,而基于运动补偿的编码方案会将一个误差扩散和累积起来,为解决此问题,该算法采取了漂移补偿的方案来抵消水印信号的引入所引起的视觉变形。(4)NEC算法7,17,19,20 该算法由NEC实验室的COX等人提出,该算法在语音端点算法中占有重要地位,其实现方法是首先以密钥为种子来产生伪随机序列,该序列具有高斯N(0,1)分布,密钥一般由作者的标识码和图象的哈希值组成,其次对图象做DCT变换,最后用伪随机高斯序列来调制(叠加)该图象除直流(DC)分量外的1000个最大的DCT系数。该算法具有较强的鲁棒性、安全性、透明性等。由于采用特殊

21、的密钥,因此可防止IBM攻击,而且该算法还提出了增强水印鲁棒性和抗攻击算法的重要原则即水印信号应该嵌入源数据中对人感觉最重要的部分;水印信号由独立同分布随机实数序列构成,该实数序列应该具有高斯分布N(0,1)分布的特征。随后Podilchuk等5,21利用人类视觉模型对该算法进行了改进,从而提高了该算法的鲁棒性、透明性等。(5)生理模型算法8,21-25 人的生理模型包括人类视觉系统HVS(Human Visual System)和人类听觉系统HAS。该模型不仅被多媒体数据压缩系统所利用,同样可以供语音端点系统所利用。利用视觉模型,文献23, 24实现了一个基于分块DCT框架的语音端点系统;文

22、献22实现了一个基于小波分解框架的语音端点系统;文献25,实现了一个空域语音端点系统。它们的基本思想均是利用从视觉模型导出的JND(Just Noticeable Difference)描述来确定在图象的各个部分所能容忍的语音端点信号的最大强度,从而能避免破坏视觉质量。也就是说,利用视觉模型来确定与图象相关的调制掩模,然后再利用其来插入水印。这一方法同时具有好的透明性和强健性。3.2 水印攻击分析 所谓水印攻击分析,就是对现有的语音端点系统进行攻击,以检验其鲁棒性,通过分析其弱点所在及其易受攻击的原因,以便在以后语音端点系统的设计中加以改进。攻击的目的在于使相应的语音端点系统的检测工具无法正确

23、地恢复水印信号,或不能检测到水印信号的存在。这和传统密码学中的加密算法设计和密码分析是相对应的。下面我们对一些典型的攻击方法进行分析1-9, 26-27。(1) IBM攻击这是针对可逆、非盲(non-oblivious)水印算法而进行的攻击。其原理为设原始图象为I,加入水印WA的图象为IA=I+WA。攻击者首先生成自己的水印WF,然后创建一个伪造的原图IF=IA-WF,也即IA=IF+WF。此后,攻击者可声称他拥有IA的版权。因为攻击者可利用其伪造原图IF从原图I中检测出其水印WF;但原作者也能利用原图从伪造原图IF中检测出其水印WA。这就产生无法分辨与解释的情况。防止这一攻击的有效办法就是研

24、究不可逆水印嵌入算法,如哈希过程。(2) StirMark攻击 Stirmark是英国剑桥大学开发的水印攻击软件,它采用软件方法,实现对水印载体图象进行的各种攻击,从而在水印载体图象中引入一定的误差,我们可以以水印检测器能否从遭受攻击的水印载体中提取/检测出水印信息来评定水印算法抗攻击的能力。如StirMark可对水印载体进行重采样攻击,它可模拟首先把图象用高质量打印机输出,然后再利用高质量扫描仪扫描重新得到其图象这一过程中引入的误差。另外,StirMark还可对水印载体图象进行几何失真攻击,即它可以以几乎注意不到的轻微程度对图象进行拉伸、剪切、旋转等几何操作。StirMark还通过一个传递函

25、数的应用,模拟非线性的A/D转换器的缺陷所带来的误差,这通常见于扫描仪或显示设备。(3) 马赛克攻击 其攻击方法是首先把图象分割成为许多个小图象,然后将每个小图象放在HTML页面上拼凑成一个完整的图象。一般的Web浏览器都可以在组织这些图象时在图象中间不留任何缝隙,并且使其看起来这些图象的整体效果和原图一模一样,从而使得探测器无法从中检测到侵权行为。这种攻击方法主要用于对付在Internet网上开发的自动侵权探测器,该探测器包括一个语音端点系统和一个所谓的Web爬行者。但这一攻击方法的弱点在于,一旦当语音端点系统要求的图象最小尺寸较小时,则需要分割成非常多的小图象,这样将使生成页面的工作会非常

26、繁琐。(4) 串谋攻击 所谓串谋攻击就是利用同一原始多媒体数据集合的不同水印信号版本,来生成一个近似的多媒体数据集合,以此来逼近恢和复原始数据,其目的是使检测系统无法在这一近似的数据集合中检测出水印信号的存在,其最简单的一种实现就是平均法。(5) 跳跃攻击跳跃攻击主要用于对音频信号语音端点系统的攻击,其一般实现方法是在音频信号上加入一个跳跃信号(jitter),即首先将信号数据分成500个采样点为一个单位的数据块,然后在每一数据块中随机复制或删除一个采样点,来得到499或501个采样点的数据块,然后将数据块按原来顺序重新组合起来。实验表明,这种改变对古典音乐信号数据也几乎感觉不到,但是却可以非

27、常有效地阻止水印信号的检测定位,以达到难以提取水印信号的目的。类似的方法也可以用来攻击图象数据的语音端点系统,其实现方法也非常简单,即只要随机地删除一定数量的象素列,然后用另外的象素列补齐即可,该方法虽然简单,但是仍然能有效破坏水印信号存在的检验。3.3小波域语音端点基于小波域的水印算法越来越多,现在人们对小波的热情非常高。在小波域嵌入水印的原因是:可以防止由于JPEG2000有损压缩而造成的水印消除;可以利用信源编码领域对图像失真的可见性研究成果来控制水印的嵌入位置和强度;可以实现在压缩域直 接嵌入水印。此外,利用小波多分辨率分析可以更好地控制水印在宿主中的分布,更好地解决鲁棒性和可见性之间

28、的矛盾。Kundur等人描述了一种基于小波融合的水印嵌入方法。他的方式是在不同的分辨率水平下将水印和图像的小波系数相加。在相加之前,水印的小波系数使用一种人类视觉模型约束进行调制。Xia等人提出一种基于小波变换的分层水印提取过程,分层提取的目的是当水印图像失真不严重时节约计算时间。基本思想是用离散小波变换将接收到的图像和原始图像分解成4个子带(即一层分解),然后计算加在HH 子带中的水印和接收图像与原始图像小波系数之差间的互相关。如果互相关中有一个峰值,则认为检测到水印;否则,考虑同一层上的其他子带,如果仍检测不到水印,则计算下一层DWT (即第二层分解),再检测水印。该过程一直执行到检测到水

29、印或计算到最后一层DWT。目前基于DWT的算法层出不穷。3.3.1小波变换的语音端点算法 (1)嵌入位置的选择将图像进行2级离散小波变换,得到不同层次的小波系数。经过分解之后,边缘细节部分集中在HH、HL、LH子带,这些子带中较大系数往往表示图像的边缘,因此把水印嵌入到其中之后的不可感知性比较好,但是这些子带的系数在量化时被丢掉的概率相对比较大,为此考虑将水印嵌入到低频系数中。图1 三级小波分解图2 图像经离散小波变换的三层多分辨率分解示意图(2)水印的嵌入强度为了在宿主图像中嵌入尽可能大的水印信息量,但又不能使宿主图像产生明显的失真,必须对嵌入强度进行加权。另外考虑到人类视觉特性,嵌入水印强

30、度因子k分别为:0.007。 (3)水印的嵌入第1步:将原始图像I进行一级离散小波变换,选取低频部分的子带进行嵌入操作。第二步:将水印图像在原始图像大小上进行按块排列W:将水印信息进行延拓 第2步:将水印图像W进行一级小波变换,取LL低频子图像得W1:第3步:在得到W1后判断W(I,j)是否为0,若为0则a=-0.1否则为a=0.1;将水印嵌入到原始图像I的一级小波变换后的低频子图像中。水印的嵌入方式为:fi,j=fi,j+a *k if W1(I,j)=0,a=-0.1fi,j= fi,j - a *k if W1(I,j)=1,a=0.1第4步:对嵌入水印的图像进行逆离散小波变换,便得到嵌

31、入水印的图像 I 。(4)水印的提取第1步:将加入水印的图像减去原始图像,然后对其进行二值化处理。 f(i,j) = 255; if f(i,j)0 f (i,j) = 0; if f(i,j)0第2步:对得到的图像进行水印嵌入中第二步的反操作得W2,再对W2进行处理:W3=W2/8,这样就得到了水印图像W3:叠加后求平均 3.3.2 实验结果及分析实验分别采用大小为64*64画面内容MCK二值图像,宿主图像采用512*512的灰度图baboon.bmp。实验结果如下:图像嵌入水印信息后,与原始图像比较起来,很难看出差别,没有带来明显的失真,不可感知性非常好。此算法不具备抵抗攻击性,在受到攻击

32、时将无法提取水印。此算法的性能评价:信噪比为55.4015。 误码率为211 图4 bird.bmp加入水印前后(1)原始图像 (2)水印 (3)加入水印后图像 (4)提取的水印图像3.4 基于DCT变换的语音端点3.4.1 DCT域语音端点离散余弦变换(DCT)是数字信号处理技术中最常用的线性变换之一,存在快速算法。离散余弦变换是实变换,具有很好的能量压缩能力和去相关能力,在数字音频信号压缩和图像压缩等领域得到广泛应用。特别是数字图像的JPEG压缩标准就是建立语音端点的在离散余弦变换基础上的。基于JPEG压缩标准模型的水印嵌入算法可以增强水印抵抗JPEG压缩的能力,因此离散余弦变换在语音端点

33、处理技术中受到普遍重视。在DCT域,不同的DCT系数作为水印载体对水印的稳健性有不同的影响。为了使水印具有较好的稳健性,用来嵌入水印的DCT系数应满足如下条件:(1)在经过常见信号处理和噪声干扰后仍能很好地保留,即这些 DCT系数不应过多地为信号处理和噪声干扰所改变。 第一个要求是为了保证水印在嵌入图像后有较好的稳健性。当加入水印的 DCT系数被改变较小时,水印便更可能被保留,这是显然的。第二个要求是同时针对不可见性和稳健性而提出。较大的感觉容量意味着在主观视觉效果不变的前提下有较大的改变裕度。这也意味着可以嵌入较强的水印信号。根据这二个要求,低频 AC 系数作为嵌入水印的位置的较好选择已被逐

34、渐采用,并得到共识.然而被人们忽视的一个事实是,DC分量比任何 AC 分量更适合嵌入水印信号。 这个事实有二方面的理由:(1)与AC系数相比 DC系数的振幅大得多。 图1 显示了几幅常用的图像(均为256 256 8bits)在经过分块 8 8DCT变换后在不同的空间频率上系数的平均值(平均振幅)。在图像中嵌入水印可视为在强背景下迭加一个弱信号。根据 Weber定律和视觉系统的照度掩蔽(luminance masking)特性,背景亮度越亮(DC系数值越大),嵌入信号的可见性检测门限就越高,即 DC系数(代表图像块的平均亮度)的感觉容量越大。图1表明,DC系数的值通常比最大的AC系数值还要大几

35、十倍。甚至上百倍以上。空间频率越高,系数的平均振幅越小.分析和实验结果表明,与AC系数相比,尽管 DC系数可以被改变的比例不如 AC系数大,但可改变的绝对值却比AC系数大得多。这意味着 DC系数具有比AC系数更大的感觉容量。 (2)根据信号处理理论,嵌入水印的图像最有可能遭遇到的信号处理过程,如数据压缩、低通滤波、次抽样、插值、D/A和A/D转换等,对DC分量的保护比 AC分量要好。实验结果表明,Gaussian噪声干扰对 DC分量和 AC 分量的影响程度大致相同。图2比较了嵌入 DC分量和低频 AC分量的水印在JPEG压缩和 Gaussian噪声干扰下的稳健性能。 纵轴表示从失真的水印图像中

36、抽取的水印 W3 与原始水印:从图2可以看出嵌入 DC分量比低频AC分量的水印在JPEG压缩和 Gaussian噪声干扰下的稳健性能更好。水印的嵌入和提取语音端点的嵌入:水印嵌入就是把水印信号W=w(k)嵌入到原始图像X0(k)=x0(k)中。水印嵌入过程如图1 所示。水印嵌入准则分为:加法准则:x(K)=x0(K)+a*w(k)乘法准则:x(K)=x0(K)*1+ a*w(k)a 为强度因子,为了保证在水印不可见的前提下,尽可能提高嵌入水印的强度。a 的选择必须考虑图像的性质和视觉系统的特性。基于DCT域的语音端点嵌入的具体算法:设X 是M*N 大小的原始图像,W 是水印图像,大小为P*Q,

37、M 和N 分别是P 和Q 的偶数倍。把水印w 加载到图像X 中,算法分以下几步进行:将X 分解为个8*8 大小的方块BX(m,n),同时,将W 也分解为(M/8)*(N/8)个(8P/M)*(8Q/N)大小的方块BW(m,n),1=m= M/8,1=n= N/8;对每一个BX(m,n)进行DCT 变换: =DCT(BX(m,n);对每一个和BW(m,n),si 为从的中频选出的加载的位置,l=i= (8P/M)*(8Q/N),ti 为水印BW(m,n)的位置坐标l=i=(8P/M)*(8Q/N);=a*Bw(m,n)(ti),其中a 是加权系数,用来代替得到加载水印后的图像;对以上得到的每一个

38、进行逆DCT 变换:。并将各方块IDBX(m,n)合并为一个整图。即加载了水印的新图像。水印的提取:在某些水印系统中,水印可以被精确地提取出来,这一过程被称作水印提取。例如在完整性确认的应用中,必须能够精确地提取出嵌入的水印,并且通过水印的完整性来确认多媒体数据的完整性。如果提取出的水印发生了部分的变化,最好还能够通过变化的水印的位置来确定原始数据被篡改的位置。水印在提取时可以需要原始图像的参与,也可以不需要原始图像的参与。图2 是水印提取的框图。虚线部分表示在提取或判断水印信号时原始图像不是必需的。基于DCT域的语音端点提取的具体算法:读取原始图像和黑白水印图像到二维数组I 与J;将原像I

39、分割为互不覆盖的图像块,1=x,y=8,L=1,2M*M/64,对进行DCT 变换,得到;取黑白水印图像中的一个元素J(p,q).嵌入原始图像块的DCT 的低频系数中;对嵌入水印信息后的图像块进行反DCT 变换;得到;合并图像块,得到嵌入黑白水印后的图像。水印检测:水印在检测时可以需要原始图像的参与,也可以不需要原始图像的参与。但将水印技术用于图像的网络发布和传播时,如果检测时需要使用原始图像则是个缺陷,因此,当前大多数的水印检测算法不需要原始图像的参与。图3 分别是水印检测的框图.虚线部分表示在提取或判断水印信号时原始图像不是必需的。水印攻击测试:由于语音端点在实际应用中可能会遭到各种各样的

40、攻击,因此对算法进行攻击测试是衡量一个水印算法优劣的重要手段。首先对嵌入水印后的图像进行JPEG 压缩(一种水印攻击),而后从压缩的图像中提取出水印,看到DCT 域的水印算法抵抗JPEG 压缩攻击的效果是比较好的。3.4.2 本章算法及实验结果分析本实验采用把DCT变换的直流分量作为水印载体嵌入提取对策,提升了语音端点的品质。本实验采用嵌入准则采用乘法准则:x(K)=x0(K)*1+ a*w(k)其中a取0.003。采用图像大小256*256如图6,水印图像大小为32*32如图7。 图8 实验结果从上图中可明显看出:嵌入水印信息后,原图与嵌入水印信息后的图像在视觉效果上没有明显分别,用肉眼几乎

41、分辨不出,这说明这种算法充分利用了人眼的视觉冗余特性,水印的不可见性相当好,图像在嵌入水印前后视觉效果改变不大,不影响图像的正常使用。另外嵌入水印后的图像经过JPEG 压缩后,还能从中提取出比较清晰的水印信息,可见,这种嵌入算法的抗攻击性较好,而且检测和提取易于实现,具有很好的实用性。4小波变换在数字音频水印中的应用随着MP3、MPEG、AC-3等新一代压缩标准的广泛应用,对数字音频作品的知识产权保护显得越来越重要。特别是随着新一代音频压缩标准MPEG4的提出,使得基于小波变换的音频水印技术越来越突显其良好的多分辨率表示、时频局部分析的优势,成为当前的一个重要的课题。目前在语音端点和信息隐藏中

42、,已经出现一些优秀的基于小波变换的算法,并且多数要优于相同条件下基于FFT、DCT等传统变换的算法。4.1数字音频水印系统的评价标准数字音频水印是永久嵌入在音频信号(宿主数据)中的具有可鉴别性的数字信号。一般来说,数字音频水印的主要性能指标包括:不可感知性、稳健性和水印的容量。这三者互相牵制,他们之间相互依存又互为矛盾2。一般来说,水印的容量越大,稳健性越好,但是其不可感知性也越差。要同时获得水印好的稳健性和不可察觉性,就只能减少水印嵌入的信息量。因此在实际运用中要根据需求,在上述三者之间寻求一个平衡。(1)不可感知性不可感知性就是要求水印嵌入后,不影响原始音频的质量,即听觉上不可感知。一般分

43、为主观和客观标准。主观评价标准由于含有保密信息的音频信号最终接收者是人,所以主观评价标准是最终的,也是可靠的。音频水印中常用的主观标准称为平均观点分(Mean Opinion Score,MOS)。测试者根据音质好坏来打分,一般是五分制,得分为5或者越接近5,就意味着2个音频数据之间几乎没有差别。客观评价标准信噪比(SNR)是一个质量评估标准,公式如下:(3)其中,和分别为原始音频信号和含水印的音频信号。早期音频水印算法一般采用信噪比来计算原始音频与加入了水印的音频之间的SNR。国际留声机联盟(IFPI)要求水印音频至少可以提供20 dB或者更高的SNR。由于基于SNR的评价标准没有考虑到人类

44、听觉系统特性,如一个微小的线性伸缩在主观上听觉质量几乎没有任何变化,但SNR会降得很低。ITU-R推荐的BS.1387由于其考虑到了人类听觉系统特性,被认为是很好的客观听觉质量评价标准用于音频水印技术。(2)稳健性稳健性又称鲁棒性用以衡量水印抗攻击的能力,即要求水印本身应能经受得住各种有意无意的攻击。典型的攻击有添加噪声、数据压缩、滤波、重采样、A /D -D /A转换、统计攻击等。文献5中用分级的形式来表示水印的稳健性,从零级到最高级,零级表示无稳健型。实际运用中,常用的衡量水印抗攻击能力的是误码率(Bit Error Rate,BER)。1)位错误率(BER:Bit Error Rate)

45、定义:假设嵌入某载体的保密信息为位,在某种提取策略下,从隐藏有保密信息的载体中或受到某种攻击的隐秘载体中提取了与隐藏时相同长度的保密信息序列,则定义为:即在收到各种攻击后提取得到的水印与原始水印之间不同比特所占的百分率。2) 归一化相关系数 (Normalized Correlation Coefficient)为了消除观测者的经验、身体条件、实验条件和设备等多种主、客观因素的影响,通常采用归一化相关系数对提取的保密信息序列和原始信息序列的相似性进行定理评价,定义为:IFPI也做出了关于音频水印稳健型的定义,要求稳健音频水印满足加性或乘性噪声、MP3压缩、2个连续的D/A和A/D转换、时间拉伸

46、、重采样、重量化、滤波等。(3)水印数据嵌入量水印数据嵌入量,也叫水印带宽,指单位长度的音频中可嵌入的信息量,通常用比特率表示。IFPI要求嵌入水印的数据信道至少要有20 bit/s。对于版权保护通常认为只需要几十比特的水印信息即可。除了上述3个相互依存且矛盾的指标,数字音频水印还应该满足:水印算法必须具备某种同步机制,以对抗时域上的同步攻击;水印应易于提取,嵌入和检测的计算量要低;水印检测不应需要原始音频,即实现盲检测;水印算法应该公开,安全性最好依赖于密钥而不是算法的秘密性。4.2 DWT域音频水印算法小波变换的基本思想是将原始信号经伸缩及平移(将原始信号用一组不同尺度的带通滤波器进行滤波

47、)后,将信号分解为一系列具有不同空间分辨率(不同通道)、不同频率特性和方向特性的子带信号,这些子带信号具有良好的时域、频域等局部特性,这些特征可用来表示原始信号局部特征,进而实现对信号时间、频率的局部化分析。本文介绍一种基于小波变换的水印隐藏和检测算法,小波变换将信号分解到时域和尺度域上,不同的尺度对应不同的频率范围,因此对于语音信号这样的时变信号而言,小波变换是一种很适合的工具. 水印隐藏算法描述如下:选择适当的小波基对原始语音信号进行3级分解,对前L级的差别分量保留,不予处理,对第3级的详细分量进行后面的处理.(L=3)假设需要隐藏的水印信号的长度为N,选择中绝对值最大的前N个值, 水印隐藏算法采用如下公式:=。用小波反变换恢复隐藏了水印的语音信号.语音信号在传输过程中可能经过各种处理,如受到噪声的干扰,经过各种滤波处理,语音的有损压缩,D/A,A/D变换,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公文档 > 其他范文


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号