语言模型训练与调适技术於.ppt

资源描述

《语言模型训练与调适技术於.ppt》由会员分享，可在线阅读，更多相关《语言模型训练与调适技术於.ppt（22页珍藏版）》请在三一办公上搜索。

1、語言模型訓練與調適技術於中文大詞彙連續語音辨識之初步研究,摘要,語言模型(language model,LM)是用來擷取自然語言中的特徵，諸如前後文的資訊(contexture information)、語意資訊(semantic information)、主題資訊(topic information)等，利用這些資訊用來判斷詞句發生的可能性。其用途可在語音辨識、手寫辨識、輸入法(input method editor,IME)、資訊檢索(information retrieval,IR)等。語言模型訓練訓練語料(training corpus)，背景語言模型(background LM)統計

2、式語言模型：N連語言模型(N-gram LM)語意資訊：潛藏語意分析(latent semantic analysis,LSA)主題資訊：主題混合模型(topic mixture model,TMM),摘要,訓練語料與測試語料間的不一致性(mismatch)蒐集時間、領域(domain)、主題(topic)語言模型調適語言模型調適的目的利用與辨識任務相關的資訊來彌補上述的不一致性調適語料(adaptation corpus)內容較訓練語料少同時期(contemporary)、同領域(in-domain),摘要,語言模型調適方法以最大事後機率為基礎詞頻數混合法(count merging)、模型

3、插補法(model interpolation)、動態快取模型法(dynamic caching model)以限制為基礎最大熵值法(maximum entropy,ME)、最小鑑別資訊法(minimum discrimination information,MDI)主要研究成果主題混合模型最大熵值法,大綱,語言模型的訓練語言模型的調適實驗環境設定及實驗結果結論,統計式語言模型,統計式語言模型(statistical language model,SLM)語言模型P產生長度n之詞序列(word sequence)W的機率(量化接受度)參數量非常龐大(|V|i)，必須作簡化N連語言模型三連語言模

4、型,統計式語言模型,三連語言模型的估測最大相似度估測法(maximum likelihood estimation,MLE)語言模型平滑化(smoothing)資料稀疏性(data sparseness)本論文採用Katz 模型平滑化技術N連語言模型所能擷取的資訊被N的值所限定,語意資訊觸發對,觸發對(trigger pair)長距離詞與詞之間的語意相依資訊歷史詞序列hi中包含與詞wi相同語意的詞，如wj，則稱wj觸發wi估測觸發對平均交互資訊(average mutual information,AMI)自我觸發(self-trigger),語意資訊潛藏語意分析,詞與文件矩陣(term-do

5、cument matrix)奇異值分解(singular value decomposition,SVD)詞向量與文件向量無法比較將詞與文件投影到較低維的潛藏語意空間加入新的文件(fold-in),潛藏語意分析,應用於語言模型機率估測更新歷史詞序列所形成的向量餘弦估測(cosine measure)與N連語言模型合併,主題資訊,主題資訊(topic information)語意分類(semantic classification)的應用線性混合模型(linear mixture model)主題分類模型(topic classification model),主題混合模型,主題混合模型(top

6、ic mixture model,TMM)每一個文章皆為一個混合模型主題一連語言模型(topic unigram)主題在各文章中的權重,主題混合模型,應用於語言模型機率估測與N連語言模型結合模型插補法機率調整(probability scaling),語言模型調適的架構,訓練語料背景語言模型N連語言模型調適語料與測試語料同時期或領域相同大小較小不限定為N連語言模型,最大事後機率法,最大事後機率法(maximum a posterior,MAP)詞頻數混合法模型插補法動態快取模型法模型插補法延伸,最大熵值法,每一個資訊來源都會引發一群限制(a set of constraint)，限制的交集區域代表滿足所有限制的機率分佈，其中擁有最大熵值的分佈為最大熵值法的解。,滿足所有限制的機率分佈之集合,IIS演算法,實驗,Set 1：廣播新聞訓練語料:中央社2000年和2001年新聞(一億七千萬中文字 character)調適語料:中央社2002年8月到10月新聞(五千萬中文字)測試語料:2002年9月之廣播新聞，3.7小時Set 2：公視新聞(MATBN)訓練語料:中央社2001年和2002年新聞(一億五千萬中文字)調適語料:公視新聞(MATBN)3528則新聞測試語料:20003年外場記者，1.5小時,基礎實驗,Set 1Set 2,詞頻數混合法,Set 1Set 2,

展开阅读全文