6语音信号处理说话人识别(2).ppt

资源描述

《6语音信号处理说话人识别(2).ppt》由会员分享，可在线阅读，更多相关《6语音信号处理说话人识别(2).ppt（39页珍藏版）》请在三一办公上搜索。

1、说话人识别,说话人识别（1）,说话人识别（Speaker Recognition）：又称为话者识别，是指通过对说话人语音信号的分析处理，自动确认说话人是否在所记录的话者集合中，以及进一步确认说话人是谁。为什么能识别说话人？人与人间在发音器官上存在着差异，例如在声带和声管形状上的差异；讲话时发音习惯的差异，包括方言、土语、抑扬顿挫、常用词汇及讲话上的怪僻语等；说话人特点以复杂的形式反映在其语音波形中。使得每个人的语音都带有强烈的个人色彩。,说话人识别（2）,说话人识别的分类按其识别任务分:说话人辨认（Speaker Identification）判断某段语音是若干人中的哪一个人所说，是“多选一

2、”问题。又可分为开集和闭集两种。说话人确认（Speaker Verification）确定某段语音是否是指定的某个人所说，是“一对一”的判别问题。说话人分割和标注（Speaker Segmentation and Labeling）将多个说话人的数据分割标定为独立的部分。,说话人识别（3）,说话人识别（4）,说话人识别（5）,根据识别对象的不同，还可将说话人识别分为三类：与文本有关(TextDependent)与文本无关(Text-Independent)文本提示型(Text-Prompted),说话人识别（6）,说话人识别技术有着广阔的应用前景电话信道罪犯缉拿、法庭中电话录音信息的身份确认、

3、电话语音跟踪，为用户提供防盗门开启功能等等。通信领域，说话人识别技术可以应用于诸如声音拨号、电话银行、电话购物、数据库访问、信息服务、语音e-mail、安全控制、计算机远程登陆等领域。呼叫中心应用上，说话人识别技术同样可以提供更加个性化的人机交互界面。,说话人识别（7）,说话人识别的基本原理,说话人识别（8）,几个问题1）语音信号的预处理和特征提取。即提取能够有效表征说话人特征的参数。2）说话人模型的建立和模型参数的训练。3）测试语音与说话人模型的匹配计算。4）识别与判决策略。即根据匹配计算的结果，采用某种判决准则判定说话人是否是所声称的说话人（说话人确认）或说话人到底是谁（说话人辨认）。,说

4、话人识别（9）,性能的评价评价说话人识别系统性能的指标有很多，例如系统的识别率，训练时间的长短和训练语料的数量、识别响应时间、话者集规模、说话方式要求以及价格等。比如说，声控门锁识别响应时间要求很严格，但可获得充足的训练语料。司法鉴定，对识别响应时间的要求可以相对放松，但训练数据的充足性无法保证。说话人辨认系统常用的是识别率，以及错误率（误识率）。,说话人识别（10）,说话人确认系统，则常用两个错误率来表示：错误拒识率(False rejection，简称FR)，错误接收率(False acceptance，简称FA)。,说话人识别（11）,说话人识别的特征提取在理想情况下，这些特征应该具有如

5、下特点：具有很高的区别说话人的能力，能充分体现说话人个体间的差异，而在说话人本身语音发生变化时保持相对稳定；在输入语音受到传输通道和噪声的影响时，能够具有较好的顽健性（robustness）；易于提取和计算，且在特征的各维参数之间应有良好的独立性，在保持识别率的情况下，有尽可能少的特征维数；不易被模仿。,说话人识别（12）,特征参数的评价方法评价特征对识别的贡献有两种方法：通过定义F比和D比，来分别表征单个参数和多维特征矢量在特征空间中的区分能力，以衡量特征参数的有效性；在识别过程中通过增减分量的方法，考察每个特征分量的贡献。,说话人识别（13）,F比和D比如果对同一人的不同次发音，其分布比

6、较集中；而不同说话人的发音分布相距较远，则所选择的这组特征参数就能够有效地描述说话人的个性特征。对单个参数而言，可以取两种分布的方差之比（称为F比）来作为有效性的度量准则。它反映了不同说话人的分散程度与各说话人自身的分散程度之间的对比关系。,说话人识别（14）,F比,设：,为第i个说话人第t次发音得到的特征参数；,为对不同说话人求平均；,为对说话人的不同次语音求平均；,为对第i个说话人的特征均值的估值；,为对所有说话人均值总均值的估值。,采用F比较大的特征一般会得到较好的性能。,说话人识别（15）,D比 F比没有考虑到特征矢量中各维参数之间的相关性。把F比的概念推广到多维，人们定义了D比，用

7、以衡量多维特征矢量在说话人识别系统中的有效性。定义两个协方差矩阵，即说话人间的协方差矩阵和说话人内协方差矩阵，,定义对多维特征矢量的可分性测度散度，即D比为，,D比考虑了特征矢量中各维参量之间的相关性。,说话人识别（16）,增减分量法在给定识别方法后，考察特征矢量中各分量对识别率的影响，可通过在特征矢量中增加或去掉它，考核识别率的变化来确定它的贡献。一种使用平均贡献函数来表征特征参数相对重要性的方法：,已知一K维特征矢量,可以用下式来定义其第i维分量的平均贡献，,其中,是以第i到第j维特征参数为特征时的识别率。,说话人识别（17）,说话人识别系统中常用的特征基于声道的LPCC 特征。基于

8、临界带的MFCC特征。基音轮廓特征。考虑语音动态特性的一阶和二阶差分倒谱特征。其它基于听觉模型的特征等。,说话人识别（18）,与文本有关的识别方法识别时可以同时使用语音信号中的语义特征和说话人特征，所以即使利用比较短的语料，也能从中提取出较稳定的说话人特征。与文本有关的说话人识别方法与语音识别的方法十分相似，最常用的也是基于DTW的方法和基于HMM方法。,说话人识别（19）,与文本无关的识别方法常用的有：基于VQ的方法；基于HMM的方法；基于人工神经网络的方法，以及基于语音识别的方法等。基于VQ的方法把每个待识别说话人的语音看作一个信号源，用一个码本来表征，码本是从该说话人的训练语音序列中

9、提取的特征矢量聚类而成。对于N个人的系统，就需建立N个码本。,说话人识别（20）,识别时，先从测试语音中提取一组矢量判断该矢量与特征空间中的哪个码本的分布最吻合。,设这个码本的码字数分别为。可以如下定义第i个码本的平均量化失真距离,代表第i个码本（对应第i个说话人）中第l个码字矢量。平均量化失真距离最小的那个码本所对应的说话人即为识别结果。,说话人识别（21）,平均量化失真距离应用在与文本有关的说话人识别任务，一般都能取得很好的效果。但是当训练数据不充分，使得识别时出现测试矢量在训练词语中没有出现时，系统就会出现很大的失真。采用失真交叠测度（Distortion-Intersection Me

10、asure，简称DIM）作为新的距离测度方法，在一定程度上可克服这一缺点。,说话人识别（22）,DIM定义如下：,其中,是以码字矢量为形心的聚类近似超球的半径。,是测试矢量集与第i个码本计算失真测度时，满足上式第一个条件的测试矢量的个数，并取,表示第i个说话人的测试矢量序列与一组码本矢量在交叠空间的量化失真。,对在交叠空间之外的测试矢量集所占空间大小的惩罚项。,，,说话人识别（23）,近年来，高斯混合模型（Gaussian Mixture Model，简称GMM）的方法受到了研究者的普遍重视。它的数学模型实质上对应于一个状态的连续HMM。但它不像HMM那样通过状态转移概率约束声学特征类的时序

11、变化，所以GMM比HMM的计算量要小得多。,说话人识别（24）,GMM本质上是一种多维概率密度函数M 阶GMM的概率密度函数如下：,有,M 阶GMM是用M个单高斯分布的线性组合来描述。,说话人识别（25）,GMM参数集,协方差矩阵常取对角阵,则,说话人识别（26）,为说话人建立GMM模型，实际上就是通过训练，估计GMM模型的参数，常用的方法是最大似然的估计方法。,给定训练矢量集，优化的对象是：,由于似然函数和参数集是很复杂的非线性函数关系，不易用通常办法找到极大值点，必须引入隐状态来参与计算，因此这也是一个对“不完全数据”进行最大似然估计的问题。可采用EM算法来估计。,说话人识别（27）,训练

12、数据落在假定的隐状态的概率,则重估公式：,说话人识别（28）,说话人识别（29）,说话人识别（30）,说话人识别（31）,有时简化为,说话人识别（32）,文本提示型的识别方法,说话人识别（33）,说话人识别模型的训练方法常用的方法是高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM)。通用背景模型为使用来自多名说话人的大量语音训练的高斯混合模型，用来描述人类语音的共性特征。其作用在为说话人模型的训练提供人类语音共性特征的先验信息，同时也在说话人识别的打分过程中用于识别打分的归一化处理。通用背景模型通

13、常采用EM 算法进行训练。,说话人识别（34）,说话人模型采用目标说话人的训练语音从通用背景模型中利用最大后验概率（Maximum a Postieri，MAP）算法自适应得到。这种训练方式的优点在于利用通用背景模型作为先验知识，可以在说话人训练数据较少的情况下取得比较好的训练效果。,说话人识别（35）,最大后验概率（Maximum a Postieri，MAP）算法自适应它假定带估计的参数是有先验分布的随机变量。O表示自适应数据，根据贝叶斯准则，可以得到关于u的后验概率密度函数如下：,先验概率密度函数表示观测随机变量O之前的似然度，后验概率密度表示观测随机变量O之后的似然度。,为

14、给定参数产生的条件概率。,MAP估计通过最大化后验概率得到估计量,先验知识,从自适应数据中得到的知识,说话人识别（36）,在HMM框架中，假设每个状态的观察输出概率是服从高斯分布的，并对均值做相应的自适应操作，则待估参数为状态 i 上的均值，它的先验分布为。,一般情况下，上述先验分布可以假设为如下形式：,其中，和是先验分布的均值和一个调整参数，而和为自适应前模型的均值和方差。,这样可使用EM算法进行参数估计，其中的Q函数定义如下：,其中为所有可能的状态序列的集合，为HMM的模型参数,说话人识别（37）,上述方程和正常Q函数的不同点在于引入了的先验知识。,将该Q函数对求偏导，并令其为零，可以得到关于的估计公式。,其中,，,实质是在初始值和自适应数据的均值间线性插值,说话人识别（38）,自适应数据量越大，值越大，自适应后的均值越接近自适应数据样本均值；自适应数据量越少，自适应后的均值越依赖于初始均值。,如果自适应数据无限多，那么这时的MAP估计等价于最大似然估计。在没有自适应数据的情况下，上式的结果等于初始值，相当于没有任何自适应操作。,

展开阅读全文