International Journal of Computa

中文計算語言學期刊 [English]
第十五卷第一期 2010

Harmony Graph, a Social-Network-Like Structure, and Its Applications to Music Corpus Visualization, Distinguishing and Music Generation
Wei-An Chen, Jihg-Hong Lin, and Shyh-Kang Jeng
[pdf | html]

基於對照表以及語言模型之簡繁字體轉換
李民祥、吳世弘、曾議慶、楊秉哲、谷圳
[pdf | html]

旅遊相關意見偵測及景點意見目標識別
林川傑、趙品銜
[pdf | html]

语音合成中基于交叉验证和最小生成误差的决策树优化
卢恒、凌震华、戴礼荣、王仁华
[pdf | html]

標題:
Harmony Graph, a Social-Network-Like Structure, and Its Applications to Music Corpus Visualization, Distinguishing and Music Generation

作者:
Wei-An Chen, Jihg-Hong Lin, and Shyh-Kang Jeng

摘要:
In this research project, we propose a model, the Harmony Graph, to decompose music into a social-network-like structure according to its harmonies. The whole Harmony Graph network represents the harmony progressions in music. The Harmony Graph is utilized to visualize, distinguish, and generate music for four prepared corpora using social network techniques. We experimented on different characteristics in social network analysis, and we found significant differences among the Harmony Graphs of the four corpora. A new measure called Agglomeration is created to characterize the agglomerating phenomenon that cannot be described sufficiently by existing measures. A corpus-based music composition method is also proposed in this research. By performing random-walk in a Harmony Graph, we generated new music that differs from yet reflects the style of music pieces in the corpus. With the link prediction technique, we also generated music more pleasant aurally than simply using random walks.

關鍵字: Social Network Analysis, Corpus Visualization, Corpus-Based Generation

標題:
基於對照表以及語言模型之簡繁字體轉換

作者:
李民祥、吳世弘、曾議慶、楊秉哲、谷圳

摘要:
中國大陸與台灣的文字同屬於華文字體，但字體上卻分為簡體字與繁體字。中國大陸與台灣近年來在中文書籍及網路上皆有大量的資訊交流。基於閱讀習慣，文字勢必需要執行簡繁轉換後才利於雙方的讀者閱讀。傳統的簡繁轉換擁有簡體一字對繁體多字的歧異問題以及兩岸用語不同的問題。因此，本研究設計一個具有擴展性的簡繁轉換系統，透過人工擷取維基百科新增對照表內容來改善兩岸用語不同的問題，以及使用語言模型改善簡體字一個字對繁體字多個字的歧異問題。此系統可以降低各種中文電子書籍執行簡繁轉換後人工校正的成本。具有彈性的架構使得系統可以持續擴充改進。

關鍵字:
簡繁轉換，語言模型，維基百科，對照表

篇名:
旅遊相關意見偵測及景點意見目標識別

作者:
林川傑、趙品銜

摘要:
本文焦點在於旅遊領域的意見探勘，包括旅遊相關意見之偵測，以及景點意見目標的識別。實驗資料來自部落格、分類為國內旅遊的文章。資料由標記人員標出意見、其意見極性及其意見目標。我們提出了各式策略及機器學習所用特徵，包括旅遊景點關鍵字、同指涉字串、旅遊相關意見詞，以及二階層分類器。我們以機器學習方式建構偵測系統。當需要以上下文判斷結果做為特徵值時，會以「二次訓練」的模式來進行。旅遊相關意見偵測模組的精確率和召回率分別為55.98%和59.30%，景點意見目標識別模組的精確率和召回率則為90.06%和89.91%。整合兩模組後精確率和召回率分別為51.30%和54.21%。

關鍵字:
旅遊意見探勘、旅遊相關意見偵測、景點意見目標識別

篇名:
语音合成中基于交叉验证和最小生成误差的决策树优化

作者:
卢恒、凌震华、戴礼荣、王仁华

摘要:
本篇文章介绍了一种对基于HMM参数语音合成系统模型聚类过程中的决策树进行优化的方法。该方法基于交叉验证以及最小生成误差准则。基于决策树的模型聚类是HMM参数合成方法中的重要步骤。在传统的HMM参数合成方法的模型训练过程中，用最大似然（ML）准则从上下文相关问题集中挑选最优的问题，用最小描述距离（MDL）准则作为决策树分裂的停止条件，防止模型的过训练。然而最小描述距离是基于一种渐进性的假设，但该假设在训练数据量不足的情况下不成立。并且，MDL的训练准则与语音合成中使得合成语音与自然语音最接近的目标不完全符合。因此，本文提出了一种基于交叉验证和最小生成误差（交叉生成误差）准则的决策树优化方法。首先我们利用交叉生成误差准则在整体上对决策树进行优化，挑选最优的MDL因子。接着针对初步优化后的决策树的每一个叶子节点进行进一步的基于交叉生成误差准则的回溯和分裂。客观和主观评测证明了本方法由于传统的语音合成决策树聚类方法。

關鍵字:
语音合成、隐马尔科夫模型、决策树优化、交叉验证、最小生成误差