中文計算語言學期刊                        [English]
第十二卷 第二期 2007


篇名:
使用生成模型作情感分析

作者:
Yi Hu, Ruzhan Lu, Yuquan Chen, and Jianyong Duan

摘要:
本論文呈現一個基於語言模型的生成模型作情感分析。藉由文件語意趨向偏好(正性)或不偏好(負性)特徵,此方法抓出文件檢索所需的微妙資訊。為進行本研究,基於語言模型的方法被提出來保持被觸發的語言模型環境下關鍵詞與其他普通詞之間的相關連結: 第一,先找出領域中的一批關鍵詞; 第二,從主觀句子建構兩個不同語言模型來代表各關鍵詞分類知識; 最後,一個基於產生測試文件分類函數被定義來作情感分析。與流行的鑑別模型支撐向量機相比,語言模型方法在一個中文數位產品評論資料庫中於三重交叉驗證下表現較佳。此結果將激發人們去尋找更合適的語言模型作情感分析。

關鍵字: 情感分析,主觀句,語言模型,指導學習


篇名:
非時間獨立ngram語言模型與其平滑性之研究

作者:
Jinghui Xiao, Bingquan Liu and Xiaolong Wang

摘要:
目前針對語言模型已有許多的方法被提出,其中又以ngram模型為最主流的方法,所以我們針對該模型加以改進。此篇論文將移除傳統ngram模型時間獨立的假設並且引入文字位置的資訊。我們提出一非時間獨立ngram語言模型,如此出現在語句中不同位置的同一文字將擁有不同的機率。再此論文中我們將針對不同議題加以討論,包括非時間獨立ngram模型的定義、文字位置的表示法等。此外我們也針對模型平滑化提出三種方法以解決資料稀疏的問題。在實驗當中,我們評估各方法在拼音-字元轉換系統中的效果,實驗顯示非時間獨立語言模型能有效的擷取出文字的位置資訊進而改進傳統ngram語言模型,同時此提出的平滑化方法也有效的改進了錯誤率。

關鍵字:
Ngram、時間獨立檢定、拼音-字元轉換、平滑化


篇名:
以分類辭典中之概念關係為基礎的階層式網頁目錄整合模型

作者:
陳英祥、何瑞琦、楊正仁

摘要:
網頁目錄整合, 已是現今網際網路及電子商務之數位內容管理中, 不可分割的一部分. 網頁目錄整合所關心的問題, 是如何把一個原始目錄內的文件, 整合到另一目標目錄去. 許多研究都把焦點放在單層 (一維) 的目錄架構上, 對於階層式網頁目錄整合, 則甚少著墨. 本研究乃居於由原始目錄及目標目錄抽取的概念式分類詞彙所提出的階層式目錄整合 (EHCI) 模式. 為了了解此一階層式目錄整合方式的改善程度, 本論文乃針對真實的目錄進行整合實驗. 實驗結果顯示, EHCI 所用的方法, 對每一階層目錄, 都能一致提高其平均正確率.

關鍵字:
階層式目錄整合, 概念關係, 分類辭典, 支援向量機 (SVMs)


篇名:
MiniJudge: 適用於小型實驗句法的軟體

作者:
麥傑(James Myers)

摘要:
MiniJudge是一個開放原始碼的軟體,他幫助理論句法學者收集與分析說母語者的語言可接受性判斷,此軟體融合了傳統內省方法的便利與快速,將實驗基礎材料以強而有力與統計式的方法加以驗證。這篇論文藉由介紹MiniJudge的運作模式與使用方法,進而讓使用者得知MiniJudge的有效性。

關鍵字:
句法、實驗語言學、JavaScript、R、廣義線性混合效應模組化


篇名:
以自我學習改進剖析效能

作者:
謝佑明、楊敦淇、陳克健

摘要:
有許多方法可以用來改進統計式剖析器的效能。解析結構上的混淆性是這些方法的一項主要任務。在此提出的方法中,剖析器根據擴展特徵之 PCFG 語法產生了一組前 n 個最佳的樹結構,接著基於依存詞對之關聯強度來選出最佳的樹結構。然而,現今並不存在足夠大的結構樹庫以用來產生可以信賴的所有詞對之統計分布。本文的目標在於提供一個自我學習的方法來解決這些問題。詞的關聯強度是以剖析具有十億詞的語料庫,自動地加以取得和習得。即便自動習得的詞強度並不完美,藉此加以建構出的結構評估模型仍然將以詞組為單位的 f-score 由 83.09% 改進到了 86.59%。我們相信上述的迭代式學習過程,可以藉由自動地由網路持續地學習詞相關性資訊來改進剖析效能。

關鍵字:
剖析、詞關聯、知識提取、PCFG、詞類標記、語意
 


篇名:
統計圖等化法應用於強健性語音辨識之比較研究

作者:
林士翔、葉耀明、陳柏琳

摘要:
自動語音辨識(Automatic Speech Recognition, ASR)系統通常會因輸入語音訊號受到不同種類環境雜訊源干擾而使得的辨識效能大幅地下降。過去已有許多方法被提出來改善自動語音辨識系統的強健性(Robustness),統計圖等化法(Histogram Equalization, HEQ)便是其中一種能夠有效地降低訓練環境與測試環境不匹配的方法。本論文探討並比較不同統計圖等化法對提昇自動語音辨識系統強健性的成效。首先,我們介紹查表式統計圖等化法(Table-based Histogram Equalization, THEQ)與分位差統計圖等化法(Quantile-based Histogram Equalization, QHEQ)這兩種常見方法。接者,本論文提出一種改良方法,稱之為多項式統計圖等化法(Polynomial-fit Histogram Equalization, PHEQ),它使用數據擬合(Data-Fitting)方法求得訓練語料之累積密度函數的逆函數來進行統計圖等化。此外,本論文更進一步討探經由對語音特徵參數作時間平滑(Temporal Average)來減輕非穩定性(Non-stationary)噪音所造成的異常尖峰或波谷效應。本論文所有的實驗是利用由歐洲電信標準協會所發行的AURORA-2語料,實驗結果初步地顯示數據擬合統計圖等法能有不錯的效能。當以多項式統計圖等化法加上對語音特微參數作時間平滑結合時,能獲得最佳的辨識效能;相較於使用梅爾倒頻譜係數(Mel-frequency Cepstral Coefficients, MFCC)的基礎系統,它在乾淨語料訓練模式與複合語料訓練模式下分別能獲得68%與40%的相對字錯誤率減少。

關鍵字:
自動語音辨識、強健性、統計圖等化法、數據擬合、時間平滑法