作者:
黃仲淇、張俊盛
摘要:
我們提出一個以來源語言為主的倒置轉移文法模型。此模型也考慮IBM模型中的雙語字詞衍生力,以增加字詞對應的準確度。在我們的模型中,來源語言之二元context-free文法單元會被標記上目標語言的排列順序並且將被用來建造一個文法為主之統計翻譯模型。
我們的模型遵循倒置轉移文法的字詞對應限制並且因為加入雙語字詞衍生力而可以產生一詞對多詞或是多詞對一詞的對應。實驗結果顯示,提出的模型在字詞對應效果上比Wu的Bracketing Transduction Grammar模型還有先進的GIZA++來的優異。
關鍵字:
倒置轉移文法、文法為主之統計翻譯模型、字詞對應
作者:
戴嘉宏、范嘉仁、黃淑齡、陳克健
摘要:
在本文中,我們以定量式複合詞作為例子,演示如何根據廣義知網的語意合成機制來自動產生未知定量式複合詞的語意表達式。首先,我們針對一封閉集合中的定詞和量詞一一給予廣義知網的語意表達式;然後我們制訂語意合成規則來自動產生定量式複合詞可能的語意表達式。若產生多個歧異語意表達式時,我們進一步根據訓練模組所產生的若干候選語意定義式設計解歧規則,並根據這些解歧規則來確認合於上下文語意的定量式複合詞語意及其表達式。實驗結果證明我們的自動合成系統在語意產生和解歧上可達到89%的正確率。
關鍵字:
語意合成、定量式複合詞、語意表達、廣義知網、知網
作者:
Shu-Yen Lin, Cheng-Chao Su, Yu-Da Lai, Li-Chin Yang, and Shu-Kai Hsieh
摘要:
Although some traditional readability formulas have shown high predictive validity in the r = 0.8 range and above (Chall & Dale, 1995), they are generally not based on genuine linguistic processing factors, but on statistical correlations (Crossley et al., 2008). Improvement of readability assessment should focus on finding variables that truly represent the comprehensibility of text as well as the indices that accurately measure the correlations. In this study, we explore the hierarchical relations between lexical items based on the conceptual categories advanced from Prototype Theory (Rosch et al., 1976). According to this theory and its development, basic level words like guitar represent the objects humans interact with most readily. They are acquired by children earlier than their superordinate words like stringed instrument and their subordinate words like acoustic guitar. Accordingly, the readability of a text is presumably associated with the ratio of basic level words it contains. WordNet (Fellbaum, 1998), a network of meaningfully related words, provides the best online open source database for studying such lexical relations. Our study shows that a basic level noun can be identified by its ratio of forming compounds (e.g. chair à armchair) and the length difference in relation to its hyponyms. We compared graded readings for American children and high school English readings for Taiwanese students by several readability formulas and in terms of basic level noun ratios (i.e. the number of basic level noun types divided by the number of noun types in a text ). It is suggested that basic level noun ratios provide a robust and meaningful index of lexical complexity, which is directly associated with text readability.
關鍵字:
Readability, Prototype Theory, WordNet, Basic Level Words, Compounds.
作者:
曾元顯
摘要:
本文提出一套中文新聞自動摘要的方法,以協助人工進行手機新聞簡訊的摘要服務。跟過去自動摘要的問題比較,本文探討的任務相當獨特,因為所需的手機新聞簡訊摘要,必須嚴格遵守長度的規定(最多69字或45字,視手機系統而定)。這在技術上需要某種程度的文句重組,而非只是選句來達到摘要的目的。我們提出的方法,乃針對每一篇新聞,先評估其每個句子的重要性,然後選出最多五個最重要的句子。接著,將每一重要句子與新聞標題進行相似度比較,並找出接合點,各自與標題接合後,構成五個候選句。最後,根據每個候選句的長度與相似度加以排序,提供人工做最後的選擇。我們以40篇的新聞來調整參數並自我測試,另外用75篇新聞做額外測試。在自我測試中,系統建議出來的候選句,有超過75%(69字限制)與80%(45字限制)的最佳候選句被人工判定為「可接受」。但這種情形,在額外測試中,則分別只有70.5%(69字限制)與53.5%(45字限制)。不管哪一種測試或哪一種字數限制,系統建議出來的最佳候選句,被人工判定為「無法接受者」,都接近或低於10%。此結果顯示,本方法不僅有潛力可以降低人工摘要的時間與成本,其特殊的標題與文句融合方式,也有助於與其他媒體(如視訊)的自動摘要結果的整合。
關鍵字:
手機服務、新聞簡訊、自動摘要、中文新聞
摘要:
在語音辨識系統中,語音特徵統計正規化技術可以有效改進雜訊環境下語音特徵的強健性。在本篇論文中,我們提出一套組合式的演算法,藉此更精確地估測這些技術所需使用到的特徵統計值。藉由適當地組合整段語音特徵與語音碼簿兩者,我們所發展出的組合式倒頻譜平均值消去法、組合式倒頻譜平均值與變異數正規化法與組合式統計圖等化法等,其效果皆明顯優於傳統整段式與碼簿式的方法。在Aurora-2資料庫乾淨訓練環境的辨識實驗中,我們所提出的組合式統計圖等化法可達到90.69%的平均辨識精確率,明顯優於整段式統計圖等化法的87.67%與碼簿式統計圖等化法的86.00%。
關鍵字:
語音辨識、抗噪性強健語音特徵、碼簿