作者:
Yu Zhu and Tan Lee
摘要:
本論文探討使用明確的統計式時長模型於廣東話連續數字辨識。廣東話是中文的主要方言之一。廣東話數字的音素組合相當簡單,部份數字只包含單一母音或是鼻音片段,使得廣東話數字串的自動辨識很難達到高正確率,辨識錯誤主要來自於短時長數字的插入或刪除,而傳統的隱藏式馬可夫模型無法有效描述語音時長。我們的方法採用一組訓練自自動標記分段的語音庫的時長統計模型,他們參數化描述各種絕對及相對時長的分佈。時長模型用於評估語音辨識的假設輸出,並輸出機率式時長分數,這些分數可以跟語音辨識的分數結合,如此一來,語音辨識分數高的候選結果如果有不合理的時長配置,將會被剔除。我們修改傳統的維特比搜尋法,以納入狀態階層和字階層的時長特徵於連續數字辨識。實驗結果顯示,絕對狀態時長可以提供最大的正確率提升;使用時長資訊可以大幅減少插入錯誤,刪除錯誤則小幅增加;我們也發現明確時長模型對慢語速語音的效果比快語速語音好。
關鍵字:
明確時長模型化、時長特徵、連續數字辨識、廣東話、隱藏式馬可夫模型
作者:
Tan Lee, Patgi Kam and Frank K. Soong
摘要:
本論文提出數種方法來處理發音變異(Pronunciation Variations)對廣東話(Cantonese)大詞彙連續語音辨識(Large Vocabulary Continuous Speech Recognition, LVCSR)所造成的問題。一般大詞彙連續語音辨識包括三種知識來源:發音詞典(Pronunciation Lexicon)、聲學模型(Acoustic Models)以及語言模型(Language Models)。此外,還需要有解碼演算法(Decoding Algorithm)用來搜尋最有可能詞序列。發音變異可以明確地(Explicitly)藉由修改知識來源或改進解碼方法來處理。發音變異通常被定義成兩種型態,也就是音素轉變(Phone Changes)與聲音轉變(Sound Changes)。音素轉變是指一個音素被發聲成另一個音素;而聲音轉變則是指兩個音素在發聲時是彼此混淆的。音素轉變之處理可藉由建構發音變異詞典(Pronunciation Variation Dictionary)來包括詞彙層次的可能替代發音、或者藉由動態地擴展搜尋空間來包括詞彙的發音變異而達成。另一方面,聲音轉變之處理則是藉由聲學模型調整來達成,亦即高斯混合模型的分享(Sharing)或是調適(Adaptation)。實驗結果顯示使用發音變異詞典以及動態搜尋空間擴展可以相當程度地增進語音辨識效能,但聲學模型調整對於語音辨識效能的提升則是相對地較無效果。
關鍵字:
自動語音辨識、發音變異、廣東話
作者:
闕壯華、王新民、簡仁宗
摘要:
傳統n-gram語言模型只考慮到前鄰近的幾個歷史字串,無法考慮長距離的資訊,再此篇論文中我們利用潛在語意分析擷取出一新的語意資訊並利用最大熵法將其與傳統n-gram加以結合。在最大熵法則中,每個資訊來源將被建立成限制條件,在滿足該限制條件下求出一擁有最大熵值之語言模型。同時我們也利用線性內插整合方法來加以比較。在實驗當中,我們利用TDT2中文與料庫為實驗語料,相較於傳統n-gram模型,最大熵語意語言模型的perplexity降低了17.9%,同時亦比線性內插法提供更好的結合效能。我們同時比較各語言模型在語音辨識的效能影響,相較於bigram模型,最大熵與線性內插語意語言模型分降低了16.9%與8.5%的字元錯誤率。
關鍵字:
語言模型、潛在語意分析、最大熵法則、語音辨識
作者:
Junmei Bai, Hongchen Jiang, Shilei Zhang, Shuwu Zhang and Bo Xu
摘要:
本論文主要探討廣播電視串流中音訊變換偵測(Audio Change Detection)與語者追蹤(Speaker Tracking)的問題。我們提出一個二階段音訊變換偵測的演算法,它包括了可能音訊變換邊界偵測與修正。語者追蹤是基於語者(音訊)變換偵測的結果;在語者追蹤演算法中,為了得到更可靠的語者追蹤結果,本論文使用了維爾濾波器(Wiener Filter)、音高端點偵測(Endpoint Detection of Pitch)與分段式倒頻譜特徵正規化(Segmental Cepstral Feature Normalization),並且演算法可有低運算複雜度。實驗結果顯示使用本演算法可以得到非常令人滿意的結果。
關鍵字:
語者偵測、音頻切割、熵值、混合高斯模型
作者:
Yun Tang, Wenju Liu,Yiyan Zhang and Bo Xu
摘要:
分段模型 (SM) 是一系列以分段分佈取代框架的密度函數 (如 HMM) 來代表觀測序列之內在特徵的方法. 此模式已經證實比 HMM 更加精確. 然而因其計算複雜度頗高, 以致於難以在實際的系統中採用. 限制性平均軌跡分段模式 (CMTSM) 為 SM 的一種類型. 本論文提出一套能夠降低 CMTSM 計算複雜度的架構. 其作法是固定每一片段 (segment) 內的區域 (region) 個數, 以便能共享計算過程中的中間計算結果. 整個研究的重點有二. 其一是比較 SM 與 HMM 的計算複雜度, 以找出 SM 高複雜度的來源. 其二則是提出一套快速 CMTSM 架構, 並以兩個實例解說此一架構. 針對我們的中文數字字串語料進行語者無關的語音辨認測試時, 快速 CMTSM 可達到 95.0% 的字串正確率. 這樣的成效遠高於以 HMM 為主的系統. 同時, SM 的計算複雜度也被有效地維持在等同於 HMM 的水準.
關鍵字:
語音辨認, 分段模式, 中文數字字串辨認
摘要:
本論文提出一種新的強健式基於小波的語音活動偵測法,此法衍生自離散小波轉換與Teager能量運算。我們使用離散小波轉換將語音訊號分解成四個次能帶。利用離散小波轉換的多重解析分析的特性,有聲語音、無聲語音、與暫態成分語音可以被清楚地分辨。然後,為了發展一個稱為語音活動包絡的強健特徵參數,Teager能量運算被應用在每個次能帶的離散小波轉換係數上。我們並進一步利用次能帶訊號自相關函數來探測語音訊號的週期性。實驗結果顯示我們提出的語音活動包絡特徵參數在低訊噪比條件下仍可以擷取語音活動,且其對不同程度的噪音並不敏感。
關鍵字:
語音活動偵測,自相關,小波,Teager能量