卷积神经网络ppt课件.ppt_三一办公31ppt.com

资源描述

《卷积神经网络ppt课件.ppt》由会员分享，可在线阅读，更多相关《卷积神经网络ppt课件.ppt（42页珍藏版）》请在三一办公上搜索。

1、卷积神经网络研究及其在基音检测中的应用,答辩人：黄志强指导老师：何立强教授张学良副教授,1,目录,一、选题意义及研究现状二、神经网络与卷积神经网络三、CNN-ACF-DP基音检测方法四、对比实验五、总结与展望,2,基音检测的意义及研究现状,一、选题的意义及研究现状,语音是人类生产生活中使用最多的一种交流媒介，被广泛用于智能人机交互领域。语音信号处理技术中，有一个非常重要的语音参数，基音频率（基频），代表声带振动的频率。从语音中提取基频就叫基音检测,3,基音检测的意义及研究现状,常用的基音检测方法有ACF、AMDF、倒谱法及其变形，2011年Jin方法和2014年PEFAC方法。常用的基

2、音检测方法在低信噪比环境下性能急剧下降。,一、选题的意义及研究现状,4,CNN的发展及研究现状,神经网络是神经科学与计算机科学结合的产物。神经网络的研究几经起落，直到2006年，深度学习提出，深度神经网研究兴起。Hubel和wiesel通过对猫的视觉系统的实验，提出了感受野的概念。基于视觉神经感受野的理论，有学者提出CNN。,一、选题的意义及研究现状,5,CNN的发展及研究现状,深度学习在语音识别、图像识别等领域摧枯拉朽。,一、选题的意义及研究现状,6,国际会议、期刊等涌现大量深度学习的文章，CNN被引入很多领域。,知名高科技公司都在深度学习领域加大投入。,神经网络起源,二、神经网络与卷积神经

3、网络,7,神经网络-训练过程,二、神经网络与卷积神经网络,8,神经网络-训练理念（梯度下降）,各变量满足如下公式：,求vjk的梯度：,求wij的梯度：,二、神经网络与卷积神经网络,9,BP - 梯度下降的规律,一条连接权重的更新量为连接中前层神经元的输出乘以后层神经元的输入和的Err。,对于末层神经元，输出错误定义为：,对于非末层神经元，输出误差如Err(y)由与其相连的后层神经元的输入误差Err(Z)加权求和得到:,一个神经元的输入误差Err(Y)与输出误差Err(y)满足公式,二、神经网络与卷积神经网络,10,BP算法的规律,二、神经网络与卷积神经网络,11,卷积神经网络,卷积神经网络是神

4、经网络的一种变形卷积神经网络与神经网络的主要区别就是CNN采用了卷积和子采样过程。神经生物学中局部感受野的提出（1962）催生了卷积的思想。卷积减少了CNN网络参数，子采样减少了网络参数，权值共享大大减少的CNN网络参数。但是CNN具备深层结构。,二、神经网络与卷积神经网络,12,局部感受野,二、神经网络与卷积神经网络,13,卷积神经网络的一般结构,14,二、神经网络与卷积神经网络,卷积,卷积核kernal在inputX图中从左向右，从上至下每次移动一个位置,对应位置相乘求和并赋值到OutputY中的一个位置。,二、神经网络与卷积神经网络,15,子采样（pooling）,子采样通常有两种形式。

5、均值子采样和最大值子采样，子采样可以看做一种特殊的卷积过程。,二、神经网络与卷积神经网络,16,CNN训练中的三次卷积过程,尾部NN训练的三个过程,特征抽取器完成三次卷积,二、神经网络与卷积神经网络,17,前向卷积过程,二、神经网络与卷积神经网络,18,错误信号传播,二、神经网络与卷积神经网络,19,权重更新,二、神经网络与卷积神经网络,20,编码实现CNN,我们采用了6w张手写数字图片作为训练集，用1w手写数字图片作为测试集。经过100次迭代，在训练集上得到99.51%的准确率，在测试集上得到98.8%的准确率。,二、神经网络与卷积神经网络,21,本文的基音检测模型 CNN-ACF-DP,三

6、、CNN-ACF-DP基音检测方法,22,CNN特征选取,本文的CNN模型的输入是语音的频谱特征,三、CNN-ACF-DP基音检测方法,23,特征选择,三、CNN-ACF-DP基音检测方法,24,CNN输出定义,人的发声基频约为80Hz到460Hz，使用如下公式将该范围内连续的pitch合理地离散化到71个区间。,三、CNN-ACF-DP基音检测方法,25,添加一个无基音状态对应CNN的72个输出。,本文CNN网络结构描述,三、CNN-ACF-DP基音检测方法,26,CNN的基音预测结果,一段带噪语音的真实基频,CNN预测出来的基频分布,三、CNN-ACF-DP基音检测方法,27,ACF过程,

7、三、CNN-ACF-DP基音检测方法,28,K=32,33.200,CNN与ACF融合,我们将CNN的预测结果以乘积的形式附加到ACF特征中。将CNN末层神经元的输出乘以ACF特征中对应的维度并作为对应维度的新值。得到CNN-ACF的167+1=168维特征。,三、CNN-ACF-DP基音检测方法,29,动态规划,在每一帧的167个状态中，我们挑选出3个概率最高的峰值作为该帧基频的候选项。最后我们利用动态规划对连续语音计算出收益最大路径作为最终的基音序列。动态规划的收益定义为：,三、CNN-ACF-DP基音检测方法,30,最大受益的路径：,模型效果,ACF,三、CNN-ACF-DP基音检测

8、方法,31,ACF+CNN,ACF+CNN+DP,对比实验,实验数据：Chinese National Hi-Tech Project 863 NOISEX-92训练数据: (male 50 + female 50)*6 noises 0db,对比试验：三种语音三种方法三种方法：1. Jin (2011) 2. PEFAC (2014) 3. CNN（CNN-ACF-DP）三种语音：1 训练用说话者训练用噪声 2 训练用说话者新噪声 3 随机说话人随机噪声,四、对比实验,对比语音,四、对比实验,33,评价指标,基音检测率(detection rate , DR),错误决策率(voicing

9、decision error , VDE),四、对比实验,实验结果,四、对比实验,35,CNN训练用说话人,CNN训练用噪声,CNN新噪声,四、对比实验,36,CNN训练用说话人的基音检测,对于特定说话人训练的CNN模型，在相同说话人语音混合新噪声的条件下，取得了明显优于Jin方法和PEFAC方法的VDE和DR。说明本文训练的模型对噪声的类型不敏感，对训练集中出现的说话人具有良好的识别能力。,四、对比实验,37,随机说话人随机噪声,四、对比实验,38,工作总结,本文从数学角度分析推导了NN和CNN的工作原理，总结了BP算法中误差传播和权重修改策略。首次提出用切割小图训练共权NN的思想,解释了

10、CNN中卷积过程。基于此思想，实现了CNN算法，用手写数字识别问题进一步说明了该思想的准确性。本文将基音检测视为一个分类问题，将CNN和传统ACF方法融合并结合DP得到CNN-ACF-DP基音检测方法。本文的CNN-ACF-DP方法和Jin、PEFAC进行多角度实验对比。本文的方法完胜Jin方法，在训练用说话人的基音提取问题中也优于PEFAC方法。,五、总结与展望,39,创新点,用切割小图的思想解释卷积，并基于此解释CNN特征抽取部分的训练过程。首次将卷积神经网络运用于基音提取。,五、总结与展望,40,展望,由于作者的学识和时间有限，本文采用使用的训练数据较少，CNN尝试的网络结构及参数也少，我们还有很大的模型的调优空间。未来CNN还可以尝试使用更深层的网络结构，使用更好的语音特征。由于深度网络对数据描述的能力更强,我们预测增加训练数据并经合理的训练可以达到更好的结果。,五、总结与展望,41,致谢与 QA,谢谢各位老师的聆听！Any questions？,42,

展开阅读全文