中文計算語言學期刊                        [English]
第十一卷 第三期 2006


篇名:
使用Web作為即時語料以處理姓名音譯的問題

作者:
林敏順、陳嘉平、陳信希

摘要:
受限於一般辭典無法完全涵蓋人名的客觀事實,以及人名音譯的變異性,辨識音譯人名一直是挑戰的研究課題。本研究將Web視為一個巨量的語料庫,由Web擷取特定的線索作為活辭典,以修正語音辨識時產生的錯誤,透過語音自動辨識系統產生候選詞彙,送到Google搜尋引擎進行檢索,將前N筆檢索結果的摘要(Snippet)組織成PAT資料結構,然後進行演算求得分數最高的候選詞彙,被視為是正確的音譯人名。本文的作法比僅僅使用ASR系統改進了21.54%,Recall由0.20提升至0.42,MRR則由0.07提升至0.31。如果進一步結合人名本體架構,Recall提升至0.48,MRR提升至0.38。

關鍵字:
姓名音譯,語音自動辨識,具名實體,本體架構,PAT


篇名:
詞錯誤最小化方法於中文大詞彙連續語音辨識之實證研究

作者:
郭人瑋、劉士弘、王新民、陳柏琳

摘要:
本論文為一探討詞錯誤最小化(Word Error Minimization, WEM)方法於中文大詞彙連續語音辨識(LVCSR)的實證研究。首先,最小化音素錯誤訓練(Minimum Phone Error, MPE),一種最為熱門的鑑別式訓練法則之一,將於本論文中被廣泛地探討並應用於中文大詞彙連續語音辨識系統的聲學模型訓練與調適(Acoustic Model Training and Adaptation)上。其次,本論文將過去被用來重新搜尋N-最佳詞序列(N-best List)的詞錯誤最小化準則,經適當地修改後用於中文大詞彙連續語音辨識系統。最後,本論文以公視新聞語料作為一系列實驗的實驗平台。實驗結果顯示經由最小化音素錯誤訓練的語音辨識系統相較於僅使用傳統的最大化相似度(Maximum Likelihood, ML)來訓練聲學模型的基礎語音辨識系統有12%的字錯誤率(Character Error Rate, CER)降低。同時,在非監督式(Unspervised)聲學模型調適的實驗上,以最小化音素錯誤為基礎的鑑別式線性迴歸(MPE-based Linear Regression, MPELR)調適在字錯誤率的降低上優於傳統的最大化相似度線性迴歸(Maximum Likelihood Linear Regression, MLLR)調適。最後,當將詞錯誤最小化解碼方法應用於N-最佳詞序列的重新搜尋上,相較於傳統的最大化事後機率(Maximum a Posteriori, MAP)解碼方法,可獲得些微的辨識率改善。

關鍵字:
廣播新聞、連續語音辨識、鑑別式訓練、大詞彙、最小化音素錯誤訓練、詞錯誤最小化


篇名:
雙語術語辭典的中文詞義擷取與解歧義

作者:
白明弘、陳克健、張俊盛

摘要:
近年來使用詞彙語意知識解決自然語言處理的相關問題,越來越受到研究者的重視。因為語意的處理必須運用詞彙語意知識,所以詞彙語意資料庫的建構工作變得越來越迫切。WordNet是目前最著名的詞彙語意知識資料庫,許多有關詞彙解歧義的研究,都將WordNet視為研究的標準。正因為WordNet的成功,目前有許多研究者正嘗試建構其他語言版本的WordNet。本研究提出一種透過擷取雙語術語辭典的資訊,以建構中文WordNet的方法,我們首先發展詞彙對列(Alignment)的演算法,擷取中英文對譯之詞彙配對,然後解譯詞彙的意義,並將中文詞彙對應到英文WordNet的Synset。在中英文詞彙對列的實驗,我們發展的演算法,其F-Score為98.4%;詞彙解歧義的實驗則涵蓋了36.89%的WordsNet的Synset,所提出的三種解歧義的方法,分別取得80%、83%、87%的正確率。

關鍵字:
詞彙對列,解歧義,WordNet,EM演算法,詞義標示


篇名:
定量式複合詞的歧義探究

作者:
李詩敏、林素朱、戴嘉宏、陳克健

摘要:
本篇論文旨在更進一步探究中文定量式複合詞自動辨識時的歧義問題,同時改盡辨識定量式複合詞及其詞類的規則。中文定量式複合詞可經由規則辨識,定量式複合詞規則幫助解決斷詞歧義問題,定量式複合詞詞類可協助提高詞義辨識及詞類標記。本文根據語料庫語料,經由錯誤辨識及定量式複合詞消歧的分析,共歸納出三種歧義類型,即斷詞歧義、詞義歧義及詞類歧義。定量式複合詞規則可補充字典無法一一列舉的不足,藉由應用解析原理及切割模組,定量式複合詞規有助於消除斷詞歧義;詞義歧義及詞類歧義的問題,可在後置處理時解決。

關鍵字:
歧義,斷詞歧義,詞義歧義,詞類歧義,定量式複合詞


篇名:
日本學生學習中文的聲調錯誤:以雙音節詞為例

作者:
Ke-Jia Chang, Li-Mei Chen, and Nien-Chen Lee

摘要:
對外籍人士而言,聲調是學習中文的最大挑戰。造成外國學生無法區別不同聲調的原因是他們母語的音韻系統。標準日文(東京腔)的重音配置在音節內的基週變化,第一個音節和第二個音節的重音角色必須相反。這個研究探討學中文的日本學生和以中文為母語的人之間聲調生成的差異。本研究觀察的兩位日本學生在讀出中文雙音節詞時,當第一個音節為二聲或是三聲時最常出錯,其中最常出錯的組合是2-1、2-4和3-4。我們也發現兩位學生總是把2-1、2-2、2-3和2-4四種聲調組合發成2-3。主要是因為在日文中,一個雙音節詞只能有一個基週頂峰。

關鍵字:
日本學生學習中文、雙音節詞、聲調錯誤
 


篇名:
機器翻譯評估之效能分析和視覺化

作者:
Jianmin Yao, Yunqian Qu, Qiang Lv, Qiaoming Zhu, and Jing Zhang

摘要:
自動翻譯的評估在機器翻譯系統的研發過程中是極受重視的,但是,如何選擇更好的評估方法,以及更適當的評估工具等進一步的研究則是亟待努力的研究課題。本文嘗試對機器翻譯的評估方法進行更深入的分析,本研究提出困難性、鑑別性、信賴性三個特性,以評量機器翻譯的評估方法,並據以進行相關實驗。本研究並聚焦於評估結果的視覺化呈現,因為這是一種更直觀的方式瞭解翻譯品質,也更容易整合呈現各種不同評估方法的評估結果。

關鍵字:
機器翻譯,效能,分析,視覺化,分群,自然語言處理