中文計算語言學期刊                        [English]
第十三卷 第三期 2008


標題:
廣義知網架構下疑問詞的語義表達及解歧

作者:
黃淑齡、陳克健

摘要:
為了使計算機能夠了解自然語言,我們提出一套語義的知識表達模型,稱為廣義知網。本文以疑問詞為例,說明廣義知網的語義定義及合成機制。文中根據疑問類型將疑問詞分為五類,分別以較細的語義特徵定義它們;再根據疑問句剖析結果,使疑問詞與句中其他成分進行自動語義合成,並進一步處理歧義的問題,提出解歧的規則。廣義知網的目標是使表面結構不同而深層語義相同的句子,能有一致的語義表達式。透過本文的討論,我們證明使用廣義知網系統來表達疑問結構確能達成此一目標。

關鍵字: 語義表達、語義解歧、疑問詞、廣義知網


標題:
A Language Information Retrieval Approach to Writing Assistance

作者:
Jyi-Shane Liu, Pei-Chun Hung, and Ching-Ying Lee

摘要:
We observe that current language resource tools only provide limited help for ESL/EFL writers with insufficient language knowledge. In particular, there is no convenient way for ESL/EFL writers to look for answers to the frequent questions of correct and appropriate language use. We have developed a language information retrieval method to exploit corporal resources and provide effective referential utility for ESL/EFL writing. This method involves the sequential operation of three modules, an expression element module, a retrieval module, and a ranking module. The primary design purpose is to allow flexible and easy transformation from questions to queries and to find relevant examples so that uncertainty of language use can be quickly resolved. We implemented the method and developed a prototype system called SAW (Sentence Assistance for Writing). Simulated language use problems were tested on SAW to evaluate the system’s referential utility. Experimental results indicate that the proposed language information retrieval method is effective in providing help to ESL/EFL writers.

關鍵字:
Language Information Retrieval, Language Resources, ESL/EFL Writing


篇名:
意見問答系統之問題分析與答案區段擷取

作者:
古倫維、梁玉婷、陳信希

摘要:
意見問答系統提供一個方便的平台讓使用者可以接觸埋藏在文件內的知識。一般的使用者不僅對與事實相關的問題有興趣,他們也想知道關於意見方面問題的解答。本論文主要處理意見問答系統中的問題分析與答案區段擷取兩項主要工作。在問題分析方面,我們定義了六個意見問題的類別。接著利用兩個問題類別分類器,也就是一般問題類別分類器與意見問題類別分類器,提出一個雙層的架構,來進行問題分類的工作。我們在論文中提出這兩個問題類別分類器的演算法,在一般問題的分類上,我們所提的演算法能達到87.8%的效能,而在意見問題的分類上,則可達到92.5%的效能。我們自動偵測出問題的重點,以產生檢索系統所需的關鍵字,同時,我們也偵測問題本身的意見傾向,以便保留與問題相關且意見傾向也與問題相同的句子做為可能的答案區段。在答案區段擷取方面,我們介紹了三個主要的元件,它們分別是問題重點偵測、意見區段偵測、還有意見傾向偵測。系統會檢查檢索系統所找出的相關句中的問題重點是否落在意見區段之內,若是,則進一步檢驗該區段之意見傾向是否符合問題的意見傾向。我們提出的所有模型中最好的模型,在偵測相關性時,以句子的最小完整意義區段為單位,並採用部份符合的策略。該模型在意見問答上的F測試結果可達到40.59%。若我們能事先將不相關的句子移除,則該模型在意見問答上的F測試結果則可大幅提高至84.96%。

關鍵字:
見擷取、問答系統、問題類型、擷取答案區段


篇名:
基於HNM之國語音節信號合成方法

作者:
古鴻炎、周彥佐

摘要:
本文研發了一個基於HNM (harmonic-plus-noise model) 的國語音節信號的合成方法,使用此方法時,一種音節只需錄、存一遍發音,就可用以合成出多種韻律特性的該音節語音,並且不易查覺出有信號品質的衰退。在這個方法裡,一個欲合成的音節的音長,首先被分割成它的組成音素的音長,用以建造一個片斷線性的時間對映函數,如此合成音節時間軸上的一個控制點,就可經由對映至原始音節上找出和它對應的兩個分析音框,然後依據這兩個分析音框的HNM參數作內差,就可求得該控制點上的HNM參數數值。 進一步為了作音調高度的調整,一個控制點上的HNM參數必需在音色保持一致性的條件下,再進行另一種內差。之後,將HNM參數帶入我們改寫過的HNM合成公式,來合成出信號樣本。前述基於HNM的合成方法,我們已經製作成程式,將它合成出的國語語音和PSOLA合成法所合成出的,拿去作信號清晰度的聽覺測試,結果顯示我們的HNM合成法明顯地比PSOLA合成法好,也就是合成出的語音較為清晰且沒有迴音。

關鍵字:
語音合成、諧波加雜音模型、語音音色、音高軌跡


篇名:
改善以最小化音素錯誤為基礎的鑑別式聲學模型訓練於中文大辭彙連續語音辨識之研究

作者:
劉士弘, 朱芳輝, 羅永典, 陳柏琳

摘要:
本論文探討改善以最小化音素錯誤為基礎的鑑別式聲學模型於中文大詞彙連續語音辨識之研究。 首先,我們提出一個新的時間音框層次音素正確率函數來取代最小化音素錯誤訓練的原始音素正確率函數。其次,本論文提出一個新的以時間音框層次正規化熵值為基礎的資料選取方法來改進鑑別式訓練,其正規化熵值是由訓練語料所產生之詞圖中高斯分布之事後機率所求得。此資料選取方法可以讓鑑別式訓練更集中在那些離決定邊界較近的訓練樣本所收集的統計值,以達到較佳的鑑別力。所使用的實驗題材是公視新聞語料。由初步的實驗結果來看,結合時間音框層次的資料選取方法和新的音素正確率函數在前幾次的迭代訓練中確實有些微且一致的進步。

關鍵字:
鑑別式訓練、最小化音素錯誤、音素正確率函數、資料選取、大辭彙連續語音辨識
 


標題:
多語語音辨識之聲學模型最佳化

作者:
呂道誠、許鈞南、江永進、呂仁園

摘要:
由於大量的語音訓練語料對於非主流語言來說並不是很容易取得,因此有關於如何在少量的語料上來訓練聲學模型已成為這幾年來一個有趣且重要的議題。在這篇論文裡,我們採用了三階段的方式,來將多語言之聲學模型最佳化。其利用主要語言訓練語料上量的優勢,來幫助非主要語言因訓練語料短缺而產生的辨識率較差的問題。第一階段利用資料驅動的方式透過以訓練好的聲學模型,取得音素獨立之聲學單位群化的規則;再來第二階段,使用階層凝聚群化演算法以及差分貝式資訊法則來將音素相依之聲學單位做群化;最後第三階段,我們採用了模型複雜度選擇的演算法,來平衡主要語言和非主流語言間訓練語料量上的不平均狀況以及高斯混合模型的數目。實驗時所使用的訓量語料的語言和時間比例分別為:華語(60%)、台語(30%)和客語(10%)。在結果上,實驗說明了採用本論文的三階段方法以及比較傳統的決策樹群化法和一般多語言常用的以知識為主的聲學模型訓練法,能夠有效分別減少多語言的音節錯誤率4.5%和13.5%。

關鍵字:
跨語言之聲學音素最佳化、語音辨識、差分貝式資訊法則