作者:
Shingo Kuroiwa, Satoru Tsuge, Masahiko Kita, and Fuji Ren
摘要:
在本論文中我們提出使用Earth Mover距離(EMD)之文字獨立非參數語者識別系統,並報告以此方法參加中文語料庫協會於2006年國際中文口語處理會議(ISCSLP’2006)中舉辦的語者辨認評比競賽(CCC Speaker Recognition Evaluation 2006)之實驗結果。EMD基本上是為分散式語者識別系統所設計,因此在使用者端,需先求取語者特徵參數並做壓縮量化,再傳遞到伺服器端做樣本比對,所以非常適合使用EMD距離與非參數語者識別系統。實驗結果顯示在一日文語料庫上,EMD的效果比傳統高斯混和模型(GMM)要好,甚至比使用未壓縮量化前的特徵參數的GMM還要好,而在CCC Speaker Recognition Evaluation 2006中,EMD方法可以達到99.3%的語者識別正確率。
關鍵字:
語者識別, Earth Mover距離, 非參數語者模型,向量量化,中文語料庫
作者:
趙怡翔、王新民、張瑞川
摘要:
在對數相似機率比值語者確認方法中,通常很難事先決定如何選擇合適的非標的語者,因此在本論文中嘗試定義新的強健性對數相似機率比值公式,以有效涵蓋與描述所有可能的非標的語者特性。此強健性對數相似機率比值,並進一步被定義為一非線性鑑別函式,並以核心Fisher鑑別函式與支援向量機求取此非線性鑑別函式參數的最佳解。語者確認實驗結果顯示,此方法的效能比傳統對數相似機率比值語者確認方法要好。
關鍵字:
核心Fisher鑑別函式, 對數相似機率比值, 語者確認, 支援向量機
作者:
Nengheng Zheng, Tan Lee, Ning Wang and P. C. Ching
摘要:
本論文描述一個使用來自聲源激發與聲道系統之互補性聲學特徵的語者識別系統。傳統語者辨識系統多採用倒頻譜係數,如梅爾頻率倒頻譜係數與線性預估倒頻譜係數,當成語音的代表特徵。倒頻譜係數旨在描述聲道系統的共振峰結構。本研究提出一種新的特徵集,稱為剩餘訊號小波倍頻程係數,來描述聲源激發訊號。剩餘訊號小波倍頻程係數衍生自線性預估剩餘訊號的小波轉換,具備補捉聲源激發的頻譜時間特性的能力。剩餘訊號小波倍頻程係數與梅爾頻率倒頻譜係數於語者辨識上包含互補資訊,因為它們描述二種生理上有區別性的語音產生成分。我們探討梅爾頻率倒頻譜係數與剩餘訊號小波倍頻程係數在語者識別上的互補性貢獻。一種基於分數階層融合技術的信賴度測量被用來完整地利用這二種互補性特徵於語者識別上。實驗顯示同時使用梅爾頻率倒頻譜係數與剩餘訊號小波倍頻程係數的識別系統明顯勝過僅使用梅爾頻率倒頻譜係數的系統。相較於基於梅爾頻率倒頻譜係數的系統的識別錯誤率6.8%,我們提出的基於信賴度測量的整合系統的錯誤率為4.1%。
關鍵字:
語者識別,聲源特徵,聲道特徵,資訊融合,信賴度測量
作者:
Jun Du, Peng Liu, Frank K. Soong, Jian-Lai Zhou, and Ren-Hua Wang
摘要:
本論文探討鑑別式(Discriminative)隱藏式馬可夫模型訓練,與其在乾淨和雜訊環境(Clean and Noisy Environments)下的成效分析。在鑑別式訓練中,詞序列(String)、詞(Word)、音素(Phone)、及聲學(Acoustic)層次的辨識錯誤將被視為一致的架構。針對聲學層次,一個最小化散度(Minimum Divergence, MD)的鑑別式訓練準則被提出來。本論文使用語者獨立的連續數字資料庫Aurora-2為評估辨識器之效能的實驗語料,針對使用不同錯誤估量與訓練模式的語音辨識器,分別探討它們在各種不同雜訊干擾與訊噪比下的效能。由實驗結果顯示,使用鑑別式聲學模型訓練的系統會優於使用最大化相似度聲學模型訓練的基礎系統。特別值得注意的是,最小化詞錯誤(Minimum Word Error, MWE)與最小化散度訓練在Aurora-2的複合情境訓練模式下分別可得13.71%與17.62%的相對錯誤率降低。此外,當與最大化相似度訓練相較之下,隨著訊噪比增加最小化散度訓練將更為有效。
關鍵字:
強健性、最小化散度、最小詞錯誤、鑑別式訓練
作者:
Toshiyuki Takezawa, Genichiro Kikui, Masahide Mizushima, and Eiichiro Sumita
摘要:
研究口語溝通內容與其應用時,多語語音語料庫是不可或缺的。特別是口語─口語之間的翻譯。為了進行多語口語溝通研究,語音與自然語言所處理的內容需要具一致性的格式與標記,例如剖析系統。本文描述在我們研究所裡進行的多語語音資料庫研發計畫。重點之一是旅遊資訊口語翻譯的語音辨識與自然語言處理。我們進行的是一個整合性的語音與語言資料庫:Spoken Language DataBase (SLDB)。另外旅遊相關用語資料庫也正在進行:Basic Travel Expression Corpus (BTEC)。目的在收集不同情境,不同用語的語料。SLDB與BTEC是兩個內容互補的資料庫。SLDB收集日語句子與翻譯。BTEC收集口語對話的雙語翻譯。BTEC涵蓋廣泛的旅遊情境,多是以句子為主的用語;共約588K。SLDB則是範圍較小的語境,例如飯店情境,共約16K的語句語料。另一個語料庫,Machine-aided Dialogs (MAD),用於發展與收集語料庫。BTEC和SLDB都可以用來配合MAD式的任務。Field Experiment Data (FED)則是評估用的語料。此外我們也以問卷方式測試我們的翻譯系統。結果顯示,半數以上的受試者都反應雙向的內容都可以正確地交流與溝通。
關鍵字:
多語語料庫,口語語言,語音翻譯,對話,傳播溝通
摘要:
本論文探討如何應用最大熵值馬可夫模型(MEMM)架構,學習中文拼音串間的相互關連性,以強化拼音轉文字中文輸入法的效能,尤其傳統MEMM的複雜度與計算量都很大,因此在本論文中,提出以類別為基礎來建構最大熵值馬可夫模型(C-MEMM),從而改善MEMM的效能問題。實驗結果顯示C-MEMM的效能比傳統直接使用語言模型的中文拼音輸入法要好,此外C-MEMM並也可以學習文法與語意限制,進一步加強其效能。
關鍵字:
拼音轉文字,中文拼音輸入法,最大熵值馬可夫模型