中文計算語言學期刊                        [English]
第十一卷 第四期 2006


篇名:
馬達加斯加語的實類尋找和構詞分析

作者:
Mary Dalrymple, Maria Liakata, and Lisa Mackie

摘要:
作者說明了馬拉加斯語之分詞與構詞分析器 [Beesley and Karttunen 2003],該分析器主要奠基於在 Keenan and Polinsky [1998] 與 Randriamasimanana [1986] 中對於馬拉加斯語的討論。馬拉加斯語中的詞,是由字根藉由如合成、加綴、與疊語等許多操作加以構成。作者分析了名詞與動詞構詞之生成樣式,並且描述了名詞的屬格合成與後綴,以及動詞涉及到合成與加綴之各種衍生過程。本文提供了馬拉加斯語構詞之計算分析,且為 PARGRAM 計畫架構內之馬拉加斯語的計算語法與語彙之基礎。

關鍵字: 馬達加斯加語、南島語言、構詞分析器、有限狀態構詞


篇名:
日語中多重的量化在位關係子句:基於 Skolem 詞之進路

作者:
Rui Otake, and Kei Yoshimoto

摘要:
本文在組合範疇語法 [Steedman 2000] 之架構下對日語中的在位關係子句(IHRC)加以分析。下山 [1999] 主張當 IHRC 出現在一個全稱量化子的範圍內時,此 IHRC 的表現正是 E-type 首語重複的一個例子,並且該 IHRC 之 LF 表示,應該要有一個受到在矩陣子句中之量化子約束的變數。為了佐證該項主張,下山放置了一個函數型式的自由變數於該約束變數作用之所在,且其意義是由與前後文無關的指定函數來加以決定。然而,由於原則上在矩陣子句中的量化子個數並無限制(相應地在 IHRC 中的約束變數也無限制),因此自由變數的語意型式在當 IHRC 出現在多重之量化子的範圍內時,將會具有高度的歧義。本分析假設了在 IHRC 的表示中,具有一般化 Skolem 詞的一個實例 [Steedman 2005],並且該詞之意義會隨著範圍取算子所引入之約束變數的值而改變,不過在當不存在此類算子時該詞則會被表現為一個常數。本文提供了在語意建構時,避免導致自由變數之型式歧義複雜度的一項簡要說明。

關鍵字:
組合範疇語法、一般化 Skolem 詞、在位關係子句、日語、量化


篇名:
QRLex 的資料管理: 線上翻譯義工輔助系統

作者:
Youcef Bey, Kyo Kageura, and Christian Boitet

摘要:
本文提出一個新的系統架構, 來幫忙線上義工, 以他們的個人電腦, 從事翻譯工作, 並能同時透過網站間的通訊, 達到分享資源及工具的目的. 我們首先檢視線上翻譯義工的現狀, 翻譯上的實務, 及其所用工具, 並討論相關議題. 由此推衍出其一般性的需求. 為了處理各種異質性的語言資源, 本研究所採用的方法, 乃依賴一種能優化執行效率, 並能實作各種必要功能的 XML 結構. 此一新架構, 正透過開發中的 ORLex 環境實現中.

關鍵字:
電腦輔助翻譯, 翻譯網頁搜尋, 翻譯記憶體, 翻譯義工輔助, 語言資源


篇名:
利用小型語料庫測試語言學假設: 評估國情咨文演說語料庫中的"People"

作者:
安可思(Kathleen Ahrens)

摘要:
此論文主張以小型語料庫針對特殊語言學領域進行語言學假設檢定,具有一定的效益,特別是修辭學、文體學以及社會語言學此類型的特殊語言學領域。因此,我們建立一個美國總統演講資料庫,假設此語料庫可用於政治高層語言使用的歷時調查,且假設此語料庫可使美國在法律上針對少數民族提出的建議,和那些被統整至總統詞彙庫的建議,這兩者之間的差異得以勾勒出。為了測試此假設,我們檢測1945年至2006年間的國情咨文演說內容。此研究發現,以兩種不同性別的詞彙代表人類、以中性詞表示人類,或其它性別以外的觀點,例如:父母雙親這類的詞彙,美國總統所慣用的用詞明顯不同於二十年前。總結來說,藉由分析國情咨文演說語料中與人(people)相關的詞彙實例,我們可發現它可反應美國總統價值觀,且可系統性揭露美國總統如何使用語言以在選民身上行使權利。

關鍵字:
小型語料庫、政治、語言、中性、歷時分析


篇名:
一個基於混合模型的中文斷詞的實用方法

作者:
Wei Jiang, Yi Guan, and Xiao-Long Wang

摘要:
本文說明了基於混合語言模型之一個語用式中文斷詞進路。中文斷詞是由數個經常遇到不同難處的困難子任務所組成。作者應用了相對應的語言模型解決各個特殊的子任務,以加以利用各個模型。首先,一個基於類別之 trigram 在基本的斷詞中加以採用,並且應用了絕對折損平滑演算法以克服資料貧乏的問題。最大亂度模型(Maximum Entropy Model; ME)也被用來辨識專有名詞。接著,作者提出應用約略集與平均交互資訊…等以抽取出特殊的特徵。最後,一些特徵藉由詞群與同義詞典加以擴展。作者的系統參與了第二屆國際中文斷詞競賽,並且分別在 PKU 與 MSRA 公開測試中達到 96.7 與 97.2 的 F-measure 值。

關鍵字:
斷詞、最大熵模型、粗集合、詞叢集、機器學習