作者:
Xiwu Han and Tiejun Zhao
摘要:
自動抽取中文詞彙及其次類劃分(次範疇化)信息, 已達一定的準確率, 且對某些應用而言, 極為有用. 然而, 其正確率尚有改善的空間, 其實用性亦待進一步開發. 本論文倡議的是一種雙重過濾的方法. 實驗顯示, 該法可大幅改善中文抽取系統的效能. 精確度的增進達 76.94%, 召回率的增加則達 83.83%. 這樣的改善, 使所獲取的辭彙更適合後續的人工校閱及 NLP 的應用. 據吾人所知, 截至目前為止, 這樣的成效代表的是中文次類劃分抽取及其他語言類似研究的最佳整體效能.
關鍵字:
過濾法, 中文, SCF, 句式轉換
作者:
Guang-Lu Sun, Chang-Ning Huang, Xiao-Long Wang, and Zhi-Ming Xu
摘要:
本文說明了基於最大亂度馬可夫模型的一個新的中文短語切分方法。我們首先說明兩種不同型式的中文短語切分規範與資料集,分別適用於不同的短語切分模型。接著描述隱藏式馬可夫短語切分模型與最大亂度短語切分模型。根據該二類模型之分析,我們提出了最大亂度馬可夫短語切分模型,以綜合考慮狀態之轉移機率與條件機率。對於兩種不同型式資料集之實驗結果,顯示出本進路可以達到令人印象深刻之正確率,以 F-score 加以表示分別為 91.02% 與 92.68%。基於相同的資料集,與隱藏式馬可夫短語切分模型和最大亂度短語切分模型相比,此一新的短語切分模型達到了較佳之效能。
關鍵字:
中文切分、最大熵馬可夫模型、切分規範、特徵模板、平滑化演算法
作者:
Yan Wu, Xiukun Li and Caesar Lun
摘要:
在本論文裡,我們呈現一個從廣東話到英文的整合式機器翻譯方法。我們的方法依賴一個小的翻譯例句庫裡的例子,結合了例句基礎和規則基礎的方法。例句基礎機器翻譯的一個瓶頸為知識庫中知識的缺乏或冗餘。在我們的方法裡,一個基於翻譯原文句內容詞的彈性比較演算法被用來克服此問題。它從一個小的例句庫裡挑選翻譯例句。此一例句庫裡僅僅保留了不同片語結構的廣東話句子。對相同片語結構的句子則僅僅保留最簡單的。翻譯目標英文句則以規則與雙語辭典建構。此外,我們提供一個機器翻譯斷詞法。此斷詞法的一個特徵是同時考慮原始語言與目標語言。實驗結果顯示此斷詞法能有效的降低翻譯過程的複雜度。
關鍵字:
例句基礎機器翻譯,規則基礎機器翻譯,例句庫
作者:
Bin Ma and Haizhou Li
摘要:
在本論文中我們提出一新穎的音段聲學模型(ASM)前級,與向量空間模型(VSM)後級做自動語言辨認,並比較其與四種典型語言辨認系統的效能差異。音段聲學模型假設所有語言的聲學特性,可以被一通用的音段聲學模型集合所涵蓋,而不需使用遵循傳統語音學定義的音素集合,因此可以以此音段聲學模型用來將輸入之語音解碼成一連串的語音段落,當作平行(PPR)或是通用音素辨認器(UPR)的前級。向量空間模型則統計ASM所切出之語音段落的共同發生頻率,當作自動語言辨認的特徵參數,並在向量空間中鑒別各種不同的語言,以取代傳統使用語言模型的語言辨認方式。在1996, 2003 and 2005 NIST Language Recognition Evaluation (LRE)上的實驗結果顯示,結合ASM與VSM的方法,可以得到比傳統使用平行音素辨認器與語言模型(PRLM)好的效能,尤其是同時使用平行ASM切割與VSM方法,可以得到最好的效能。
關鍵字:
自動語言辨認,音段聲學模型,通用音素辨認器,平行音素辨認器,向量空間模型