作者:
Yunming Ye, Hongbo Li, Xiaobai Deng, and Joshua Zhexue Huang
摘要:
查詢介面檢測是獲取Hidden Web資料的基礎,而這一任務面臨的挑戰是查詢介面特徵的高維性,稀疏性及大量特徵值的缺失。為了解決該問題,本文提出了一種多分類器集成的新方法。在該方法中,我們用基於加權的特徵選擇方法來建立各個單分類器,拓展了隨機森林算法。該算法使得每個分類器可以從加權特徵子空間上訓練而得,這樣可以使多決策樹集成分類器充分挖掘和利用查詢介面的有用特徵。我們將該集成分類算法與支援向量機,C4.5決策樹,樸素貝葉斯和原始隨機森林等著名分類算法進行了對比,實驗結果證實該方法在查詢介面檢測中具有明顯優勢。
關鍵字:
查詢介面檢測;隨機森林;Hidden Web;表單分類
作者:
Liang-Chih Yu, Chung-Hsien Wu, Jui-Feng Yeh, and Eduard Hovy
摘要:
詞義標記語料是自然語言處理相關應用相當有用的資源,因此其詞義標記結果的一致性也就顯得相當重要。目前大型的詞義標記研究仍著重於修正標記者所產生的不一致標記結果,尚未針對一致但實際上卻是錯誤的標記結果進行探討。在本研究中,我們以OntoNotes為實驗語料,利用詞義消歧(Word Sense Disambiguation)方法針對語料中一致的標記結果進行測試,當詞義消歧方法與人工標記結果不一致時,該案例將被選取為可疑的錯誤候選(Suspicious Candidates),並交由仲裁者進行判斷以決定此案例是否為錯誤標記。在實驗設計上,本研究以精確度(Precision)、成本效益比(Cost-Effectiveness Precision)與Entropy三方面來分析詞義消歧方法辨識錯誤標記之效果,並提出錯誤標記清除演算法。實驗結果顯示,此演算法對於詞義高度歧異的詞彙有較好的效果,並且可找出OntoNotes中約2%的錯誤標記。此演算法亦可應用於其他詞義標記語料中。
關鍵字:
語料錯誤標記清除、詞義標記、詞義消歧
作者:
楊正仁 陳英祥 洪誠澤 吳秉蓉
摘要:
近年來階層目錄整合在許多研究探討中受到許多重視。在整合過程中,來源目錄中許多的內嵌隱含資訊被挖掘出來,以增進整合的效能表現。然而在過往研究中,尚未探討要如何運用來源目錄中的語意資訊。因此在本論文中,我們提出一個改進的整合方法,稱之為SFE,藉由對來源目錄中的類別專有詞做語意特徵的擴展,來提升目錄整合的效能表現。我們將SFE運用在過往研究所提出的一個階層目錄整合方法上,在對兩個Web階層目錄的整合實驗中,所得到正面的結果初步驗證了SFE的可行性。
關鍵字:
階層目錄整合,語意特徵擴展,類別專有詞,階層索引典資訊
作者:
周仁亮、吳世弘
摘要:
維基百科(Wikipedia)是網路上有最多的使用者參與建構以及使用的百科全書。維基百科是維基媒體基金會(Wikimedia Foundation Inc., Wikimedia)旗下的一項國際性計劃,而維基教科書(Wikibooks)是維基百科的姐妹計劃。維基教科書這項計劃為收集自由的教科書,以及使用者所合作編輯完成的教科書,目的是為了完成一個內容開放的教科書計劃。本篇論文討論自動化建構教科書目錄(Table-of-Content, TOC)的流程。我們利用資訊檢索的技術,探討維基百科中條目與鏈結之間的關係,來自動化形成一個本體論知識雛型。將使用者輸入的關鍵字當作是一個本體論中的概念,並且利用搜尋的方法來找出其他有相關性的概念,構成一個類似於本體論的階層架構。我們期望這個系統可以協助在維基教科書計劃上編輯自由教科書的使用者,能更快地產生有質量的教科書內容。實驗結果表明,本篇論文的方法,可以幫助使用者快速地對於某一個知識領域有概念上的建構,並且可以對該目錄中的細項主題做進一步的擴張。
關鍵字:
維基百科、維基教科書、自動目錄生成