中文計算語言學期刊                        [English]
第十二卷 第四期 2007


標題:
以規則方法處理台灣閩南語變調問題

作者:
楊允言 劉杰岳 陳鄭弘堯李盛安高成炎

摘要:
台語羅馬字在過去近兩百年來,累積了數量相當可觀的文本,然而因為台灣的特殊狀況,導致目前能流利閱讀台語羅馬字者並不多,使這些豐富資料的利用價值大大降低。 本文主要處理台語閩南語的變調問題,列出變調規則演算法,實作出台語變調系統。我們採用台語羅馬字書寫的台文語料,以句子為單位,將每一個詞語透過台華對譯辭典找出中文翻譯,再從中研院資訊所詞庫小組的八萬目辭典中取得詞類訊息,接著利用我們訂出的變調規則演算法,標記出每個音節的變調註記。 研究結果顯示,訓練語料得到97.39%的變調正確率,測試語料則有88.98%的變調正確率。我們討論了錯誤的原因,希望持續做改進,以達到更高的正確率。

關鍵字: 台灣閩南語、台語文、變調規則、台語羅馬字

 


標題:
一種整合式合成國語、閩南語、及客語語音之系統結構

作者:
古鴻炎,周彥佐,廖皇量

摘要:
本論文提出一種整合式合成國語、閩南語、及客語語音的系統結構,為了驗證它的可行性,一個初期的整合式合成系統已經被建立。透過整合,一個只用閩南語語句訓練的模型,被用來產生全部三種語言的基週軌跡,音節的音長和音強值則用相同的規則來產生,並且一個實作TIPW法的程式模組,被用來合成這三種語言的語音波形。此外各語言裡的各個音節都只有單次的錄音,也就是沒有作單元選擇的機會。在如此受限的情形下,所合成出的語音信號仍然具有不錯的自然度和信號清晰度。

關鍵字:
語音合成,基週軌跡模型,TIPW,時間軸校正
 


篇名:
閩南語語音處理研究

作者:
郭威志,何鎮仲, 鍾祥睿, 梁振豐,余秀敏,王逸如,陳信宏

摘要:
本論文旨在介紹三項有關閩南語的語音處理研究:第一個研究有關閩南語高品質的文句轉語音系統之建立,本系統以877個閩語基本音節的聲波為合成單元,透過使用遞迴式類神經網路(RNN)為基礎的韻律產生器以及時域基頻同步疊加(PSOLA)合成器,能將以漢羅書寫系統呈現的閩語文本轉為自然的閩南語語音讀出;一項非正式的主觀聽力測驗證實,本系統對正確斷詞及自動斷詞之文字輸入均能產生良好之語音合成品質。第二個研究是有關閩南語語音辨認器的開發,本辨認器的研究基礎是採用以聲母/韻母為基礎的隱藏式馬可夫模式聲學辨認器以及簡單的基本音節雙連音(bigram)語言模式,其基本音節的辨認率可達65.1%。最後,我們要介紹以模式為基礎的聲調標記法,此方法利用統計模式來補償聲調以外的其他所有會影響音節聲調的因素,以利進行聲調的自動標記。實驗結果證實我們的自動標記法、比以向量量化為基礎的傳統方法表現更為良好。

關鍵字:
閩南語文字轉語音系統,語音辨認,以模式為基礎的聲調標記法


篇名:
台灣閩南語兒童語料庫的建置與自動化:兼談相關研究成果

作者:
蔡素娟

摘要:
台灣閩南語兒童語料庫的語料來自台灣嘉義縣閩南語家庭中,幼兒與家人的自然對談。這個語料庫有許多特色:(1)閩南語的語料庫較少見;(2)這是一個口語語料庫;(3)閩南語的書寫系統尚未獲得共識,對文字轉記形成挑戰;(4)本語料庫收錄幼兒的長期語料;(5)本語料庫是世界最大的兒童語料庫;由330小時的錄音轉記而成的文本大約有50萬句,2百萬字。本語料庫的格式採用國際知名的兒童語言資料交換系統CHILDES,將錄音轉記成可機讀的文本,並加註詞類及言談標記。本文的目的除了介紹本語料庫的建置,並且討論口語為本的語料庫建置過程中所遭遇的困難與挑戰。此外,也討論本語料庫所發展的閩南語自動斷詞系統及標準文字檢測程式。本文最後簡要報告以本語料庫為基礎的閩南語音節結構類型及其分佈。

關鍵字:
台灣閩南語、台灣話、口語語料庫、兒童語言習得、CHILDES、自動斷詞系統


篇名:
自動化華語發音學習:方法與系統概觀

作者:
陳江村,張智星,蔡德祿

摘要:
本論文提出了一套自動化華語發音學習的演算法及其雛型展示系統。本系統使用了隱藏式馬可夫模型(Hidden Markov Model)的強制對位來切割每一個音素,並計算對應之聲學模型對數機率,以進行以排名為基準的信心度計算。 接著再把每一單音節的音高資料以高斯混合模型(Gaussian Mixture Model)來進行訓練,以便進行聲調辨識。我們也針對標準語句和測試語句計算了強度和節奏的相似度分數。 以音素、聲調、強度、節奏的四個分數函數,都是以參數化函數來表示,而最後的總分數,則是由音素、聲調、強度、節奏等四個評分函數的線性組合來決定。 由於整體分數牽涉到線性和非線性參數,我們使用了下坡式Simplex搜尋來微調這些參數以逼近人為主觀評分。實驗結果顯示,本系統的計算結果和人為主觀評鑑具有高度一致性。

關鍵字:
電腦為輔助發音學習,電腦輔助語言學習,語音辨識,聲調辨識,語音評分,高斯混合模型,華語文學習,下坡式Simplex搜尋,音素,強度,節奏,強制對位。
 


標題:
以知識為基礎做非監督式的中文指代消解方法

作者:
Grace Ngai and Chi-Shing Wang

摘要:
指代消解是確定文章中名詞短語所對應的實體的過程。英文的指代消解工作已經有大量的研究,當中有基于語言學的方法,也有基于機器學習的方法,但在中文方面, 這類的研究則比較少。導致這一問題的重要原因是中文自然語言處理資源的缺乏。針對這一問題,本文提出了一種以知識為基礎、非監督式的聚類算法用于中文指代消解。這種方法只利用免費和容易獲取的資源,而使系統性能最大化。在TDT3和ACE05的數據集上進行的實驗顯示,本方法在ACE值同指消解結果上分別達到了52.5%和55.2%的正確率,從而驗證了本方法的有效性。使用黃金標準的名詞短語進行的實驗則進一步分別達到了令人滿意的77.0%和76.4%的正確率。本文同時深入分析了導致錯誤發生的原因。

關鍵字:
指代消解,改進K-Means聚類,壓棧式基于轉換的學習,非監督式的學習