中文計算語言學期刊                        [English]
第十三卷 第二期 2008


標題:
Multiple Document Summarization Using Principal Component Analysis Incorporating Semantic Vector Space Model

作者:
Om Vikas, Akhil K Meshram, Girraj Meena, and Amit Gupta

摘要:
Text Summarization is very effective in relevant assessment tasks. The Multiple Document Summarizer presents a novel approach to select sentences from documents according to several heuristic features. Summaries are generated modeling the set of documents as Semantic Vector Space Model (SVSM) and applying Principal Component Analysis (PCA) to extract topic features. Pure Statistical VSM assumes terms to be independent of each other and may result in inconsistent results. Vector space is enhanced semantically by modifying the weight of the word vector governed by Appearance and Disappearance (Action class) words. The knowledge base for Action words is maintained by classifying the words as Appearance or Disappearance with the help of Wordnet. The weights of the action words are modified in accordance with the Object list prepared by the collection of nouns corresponding to the action words. Summary thus generated provides more informative content as semantics of natural language has been taken into consideration.

關鍵字: Principal Component Analysis (PCA), Semantic Vector Space Model (SVSM), Summarization, Topic Feature, Wordnet


標題:
漢語語料庫詞性標注一致性檢查方法研究

作者:
張虎、鄭家恒

摘要:
制約語料庫加工品質的一個重要方面是多標記詞語的詞性標注一致性問題。本文通過對大規模語料庫兼類詞的詞性標注結果的分析,提出了一種基於分類的語料庫詞性標注一致性檢查的方法。首先分析詞性標記序列的特徵並建立兼類詞語境向量模型,其次,運用k最近鄰法,對兼類詞語境向量分類,判定兼類詞詞性標注是否一致,進而得出每篇文章的詞性標注的一致性情況。通過對北大150萬語料進行測試,顯示該方法是可行與有效的。

關鍵字:
兼類詞、一致性檢查、詞性標注、漢語語料庫、分類


篇名:
基於相依性分析建構帶有時間性關係標記的漢語語料庫

作者:
鄭育昌、淺原正幸、松本裕治

摘要:
本論文介紹基於相依性分析來建構帶有時間性關係注釋的漢語語料庫的方法與說明標記注釋之內容。 該語料庫是針對漢語文件中對於事象之間的時間性關係來標記,可用於事象間時間性關係的自動判別之研究。 由於標記文件中所有事象的組合之時間性關係的成本極高且並非所有事象間的時間關係都具有標記價值, 我們藉由語句的相依性分析結果,限定事象間時間性關係的標記目標來提高時間性關係的標記效率。 為驗證本方法對於事象時間性關係的覆蓋率,我們以本方法來標記一個帶有文句之相依性結構資訊的語料庫, 並針對其一部份文件進行事象時間性關係覆蓋率的分析 我們發現針對事象間的相依性來標記事象間的時間性關係,可覆蓋63%的事象間時間性關係。 並且本方法的工作效率遠高於全面進行事象間時間性關係標記。

關鍵字:
時間性物件、時間性理解、時間性關係、事象、事象語意、相依性結構


篇名:
從圖式論看形式圖式對中國學生閱讀理解的作用-----一份實驗報告

作者:
Xiaoyan Zhang

摘要:
本項研究報告了45名非英語專業大學二年級學生對三篇內容相同,形式圖式不同的文章的閱讀過程,旨在探索形式圖式對閱讀理解的作用。45名被試被分為英語水準相當的三組,要求每組被試在閱讀完其中一篇文章之後,首先回憶並記錄所閱讀的內容,然後完成由本篇文章改編的填空題。通過對被試的回憶記錄的定性,定量分析,結果表明被試對結構緊密的文章比結構鬆散的文章回憶數量顯著多,回憶品質顯著高。這進一步驗證了圖式閱讀理論的正確性,表明瞭解掌握形式圖式可以提高書面交流的有效性,英語教師因此應該在寫作教學過程中向學生傳授如何有效應用形式圖式知識的技巧,以便提高學生的寫作效果和寫作能力。

關鍵字:
形式圖式、圖式理論、閱讀理解


篇名:
塞音發音起始時間的跨語言研究

作者:
趙冠儀、陳麗美

摘要:
本研究探討中英文塞音發音起始時間(voice onset time, VOT)跨語言比較,檢測11位中文母語者與4位英語母語人士之字首無聲塞音發音。本篇論文將中英文塞音在所有語言VOT的連續性(VOT continuum)中,找出適當的落點作適當分類。研究結果顯示中英文無聲送氣塞音在VOT的連續性中彼此間達到顯著差異,應該分屬不同類別。此結果同時建議文獻中廣泛使用的三種VOT分類不夠精細,無法分辨中英文在無聲 送氣塞音上的差別。

關鍵字:
發音起始時間、無聲塞音
 


標題:
整合自動語音辨識與文字轉注音之資料導向方法應用於佛經語音標音

作者:
梁敏雄、呂仁園、江永進

摘要:
我們提出了一套方法將自動語音辨識與文字轉注音技術整合來做文字標音,這套方法被用來將中文字轉寫成台語音標。藉由帶有語音資訊的文字,配合一字多音產生的香腸狀搜尋網路,我們可以減少標音的錯誤率。因此,使用一字多音的發音辭典所產生的搜尋網路來作標音,實驗的錯誤率可以達到12.74%。為了更進一步的改善,我們可以藉由發音變異規則來調適發音辭典,其中發音變異規則是可藉由人工校正後的音標推導出來。發音變異規則可分為兩大類: 第一是以知識為基礎的變異規則、第二是以資料導向為基礎的變異規則。藉由整合發音變異規則的方式,錯誤率可以再降低到10.56%。雖然這個技術是專為台語語音所發展的,但他應可容易地應用在其他中文語系的語言或方言上。

關鍵字:
自動音標轉寫、音標辨識、文字轉音標、發音變異、中文文字、台語(閩南)、方言、佛經