中華民國計算語言學學會
「中文詞庫-廣義知網」申請說明書
廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於2003年與董振東先生展開建構繁體字知網的合作計畫,我們承續知網的語意定義機制,將中央研究院詞庫小組辭典(CKIP Chinese Lexical Knowledge Base)中的九萬多詞條與知網連結。在研究過程中,詞庫小組對知網的定義架構做了一些更動,新增了多層次定義架構與複雜關係表示式,我們以簡單概念取代義原,作為定義複雜概念的元素;並設計了複雜關係的表達架構,使繁體字知網逐漸發展成為一個新的知識表達模型,稱為「廣義知網」。細節請參見多層次概念定義與複雜關係表達-繁體字知網的新增架構一文。此處僅整合廣義知網的優點如下:
- 廣義知網不受有限義原的限制,能夠更精確的表達知識。
- 廣義知網符合人的認知方式,對標注者而言較簡單,他們可以靈活的運用簡單概念進行定義。
- 標注者使用不同的簡單概念定義同一詞彙時,最後仍可轉換為相同或相近的義原,並可利用上下位承襲規範進行整合,有利於知識庫建立的方便性與一致性。
- 廣義知網利用簡單概念定義複雜概念,可以減少訊息的重複登錄,只需把額外的訊息補充說明即可,因此表示式較清楚易懂。當簡單概念出現歧義時,我們的解決方法是以WordNet同義詞集(synset)加以限定,藉著與WordNet同義詞集的連結,將可以限定詞義,解決歧義詞的問題。
- 廣義知網的表示式比較容易轉換為自然語言。
- 複雜關係表示式便於用來定義任何具有多重結合關係的人際概念、時空概念與比較概念。
目前,我們已針對比較詞、疑問詞及情態詞的表達制訂定義規範,也持續分析複合詞、否定詞及其他功能詞,並建立角色的上下位關係及變數指派,因為角色的本體架構也有上下位共性承襲的優點,可以輔助計算機理解概念與概念間的關係。未來,我們仍將朝下位角色繼續擴充,藉由關係的合成產生複雜的下位關係,希望建立更細密完整的知識表達架構,使每個概念都能以框架為基礎(frame-based)來進行定義。 廣義知網的技術報告內有對於角色關係更詳細的說明,請參見E-HowNet Technical Report。
申請文件:
- 由服務單位或就讀學校開立身份證明書,內文需言明本語料僅使用於個人或單位之學術研究,絕不使用於營利商業用途。
- 備妥一式兩份授權使用協議書。(個人授權協議書);(團體授權協議書)
工本費用:
- 國內學術研究機構-個人:NT$20,000元
- 國內學術研究機構-團體(2-10人):NT$100,000元
付款方式:
- 郵政劃撥:帳號:19166251,戶名:社團法人中華民國計算語言學學會
- 支票:請加註『社團法人中華民國計算語言學學會』抬頭
- 信用卡:請填寫信用卡付款單
備妥申請文件後請郵寄至:
中華民國計算語言學學會
115022台北市南港區舊莊街一段3巷34號1樓
|