中華民國計算語言學學會


「語音資料庫」申請說明書





國語語音資料庫 MAT-160

  • 資料庫名稱:國語語音資料庫 MAT-160
  • 語音檔編輯程式:VEDITOR 3.0
  • 申請說明書 (PDF檔)
  • 簡介 (PDF檔)
以上國語語音資料庫,包含語音檔編輯程式,存放在1片光碟上。

國語語音資料庫(MATDB)係行政院國家科學委員會補助計畫執行之研究成果,授權由中華 民國計算語言學學會發行。申請人需向中華民國計算語言學學會提出申請,簽妥授權使用協 議書,並同意確實遵守協議書上之約定條款。



申請文件及費用:

  1. 由服務機關開立身份證明書,內文需言明所申請之國語語音資料庫確實僅用於研究,不作商業用途。
  2. 簽妥之授權使用協議書一式兩份。
  3. 工本費NT$200元
 備妥申請文件後請郵寄至:
115022台北市南港區舊莊街一段3巷34號1樓
社團法人中華民國計算語言學學會 收


付款方式:

  1. 郵政劃撥:帳號:19166251,戶名:社團法人中華民國計算語言學學會
  2. 支票:請加註『社團法人中華民國計算語言學學會』抬頭
  3. 信用卡:請填寫信用卡付款單



國語語音資料庫 MAT-400

  • 資料庫名稱:國語語音資料庫 MAT-400
  • 語音檔編輯程式:VEDITOR 4.0
  • 申請說明書 (PDF檔)
  • 簡介 (PDF檔)
以上國語語音資料庫,包含語音檔編輯程式,存放在1片光碟上。

國語語音資料庫(MATDB)係行政院國家科學委員會補助計畫執行之研究成果,授權由中華 民國計算語言學學會發行。申請人需向中華民國計算語言學學會提出申請,簽妥授權使用協 議書,並同意確實遵守協議書上之約定條款。



申請文件及費用:

  1. 由服務機關開立身份證明書,內文需言明所申請之國語語音資料庫確實僅用於研究,不作商業用途。
  2. 簽妥之授權使用協議書一式兩份。
  3. 工本費NT$400元
 備妥申請文件後請郵寄至:
115022台北市南港區舊莊街一段3巷34號1樓
社團法人中華民國計算語言學學會 收


付款方式:

  1. 郵政劃撥:帳號:19166251,戶名:社團法人中華民國計算語言學學會
  2. 支票:請加註『社團法人中華民國計算語言學學會』抬頭
  3. 信用卡:請填寫信用卡付款單

國語語音資料庫 MAT-2000Edu

  • 資料庫名稱:國語語音資料庫 MAT-2000Edu
  • 語音檔編輯程式:VEDITOR 4.1p
  • 申請說明書 (PDF檔)
  • 簡介 (PDF檔)
以上國語語音資料庫,包含語音檔編輯程式,存放在2片DVD。

國語語音資料庫(MATDB)係行政院國家科學委員會補助計畫執行之研究成果,授權由中華 民國計算語言學學會發行。申請人需向中華民國計算語言學學會提出申請,簽妥授權使用協 議書,並同意確實遵守協議書上之約定條款。



申請文件及費用:

  1. 由服務機關開立身份證明書,內文需言明所申請之國語語音資料庫確實僅用於研究,不作商業用途。
  2. 簽妥之授權使用協議書一式兩份。
  3. 工本費NT$20,000元
 備妥申請文件後請郵寄至:
115022台北市南港區舊莊街一段3巷34號1樓
社團法人中華民國計算語言學學會 收


付款方式:

  1. 郵政劃撥:帳號:19166251,戶名:社團法人中華民國計算語言學學會
  2. 支票:請加註『社團法人中華民國計算語言學學會』抬頭
  3. 信用卡:請填寫信用卡付款單

國語語音資料庫 MAT-2000Com

  • 資料庫名稱:國語語音資料庫 MAT-2000Com
  • 語音檔編輯程式:VEDITOR 4.1p
  • 申請說明書 (PDF檔)
  • 簡介 (PDF檔)
以上國語語音資料庫,包含語音檔編輯程式,存放在2片DVD。

國語語音資料庫(MATDB)係行政院國家科學委員會補助計畫執行之研究成果,授權由中華 民國計算語言學學會發行。申請人需向中華民國計算語言學學會提出申請,簽妥授權使用協 議書,並同意確實遵守協議書上之約定條款。



申請文件及費用:

  1. 簽妥之授權使用協議書一式兩份。
  2. 工本費NT$100,000元
 備妥申請文件後請郵寄至:
115022台北市南港區舊莊街一段3巷34號1樓
社團法人中華民國計算語言學學會 收


付款方式:

  1. 郵政劃撥:帳號:19166251,戶名:社團法人中華民國計算語言學學會
  2. 支票:請加註『社團法人中華民國計算語言學學會』抬頭
  3. 信用卡:請填寫信用卡付款單

國語語音資料庫 MAT-2500ExtV-Edu

  • 資料庫名稱:國語語音資料庫 MAT-2500ExtV-Edu
  • 語音檔編輯程式:VEDITOR, VAT2WAV
  • 申請說明書 (PDF檔)
  • 簡介 (PDF檔)
以上國語語音資料庫,包含語音檔編輯程式,存放在1片DVD。

國語語音資料庫(MATDB)係行政院國家科學委員會補助計畫執行之研究成果,授權由中華 民國計算語言學學會發行。申請人需向中華民國計算語言學學會提出申請,簽妥授權使用協 議書,並同意確實遵守協議書上之約定條款。



申請文件及費用:

  1. 由服務機關開立身份證明書,內文需言明所申請之國語語音資料庫確實僅用於研究,不作商業用途。
  2. 簽妥之授權使用協議書一式兩份。
  3. 工本費NT$10,000元
 備妥申請文件後請郵寄至:
115022台北市南港區舊莊街一段3巷34號1樓
社團法人中華民國計算語言學學會 收


付款方式:

  1. 郵政劃撥:帳號:19166251,戶名:社團法人中華民國計算語言學學會
  2. 支票:請加註『社團法人中華民國計算語言學學會』抬頭
  3. 信用卡:請填寫信用卡付款單

國語語音資料庫 MAT-2500ExtV-Com

  • 資料庫名稱:國語語音資料庫 MAT-2500ExtV-Com
  • 語音檔編輯程式:VEDITOR, VAT2WAV
  • 申請說明書 (PDF檔)
  • 簡介 (PDF檔)
以上國語語音資料庫,包含語音檔編輯程式,存放在1片DVD。

國語語音資料庫(MATDB)係行政院國家科學委員會補助計畫執行之研究成果,授權由中華 民國計算語言學學會發行。申請人需向中華民國計算語言學學會提出申請,簽妥授權使用協 議書,並同意確實遵守協議書上之約定條款。



申請文件及費用:

  1. 簽妥之授權使用協議書一式兩份。
  2. 工本費NT$100,000元
 備妥申請文件後請郵寄至:
115022台北市南港區舊莊街一段3巷34號1樓
社團法人中華民國計算語言學學會 收


付款方式:

  1. 郵政劃撥:帳號:19166251,戶名:社團法人中華民國計算語言學學會
  2. 支票:請加註『社團法人中華民國計算語言學學會』抬頭
  3. 信用卡:請填寫信用卡付款單



麥克風語料庫 TCC-300Edu

  • 資料庫名稱:麥克風語料庫 TCC-300Edu
  • 語音檔編輯程式:VEDITOR 5.0
  • 申請說明書 (PDF檔)
  • 簡介 (PDF檔)
以上麥克風語料庫,包含語音檔編輯程式,存放在1片數位影像光碟(DVD)上。

麥克風語料庫係國立台灣大學李琳山教授、國立成功大學王駿發教授及國立交通大學陳信宏 教授提供,授權由中華民國計算語言學學會發行。申請人需向中華民國計算語言學學會提出 申請,簽妥授權使用協議書,並同意確實遵守協議書上之約定條款。



申請文件及費用:

  1. 由服務機關開立身份證明書,內文需言明所申請之國語語音資料庫確實僅用於研究,不作商業用途。
  2. 簽妥之授權使用協議書一式兩份。
  3. 工本費NT$1,000元
 備妥申請文件後請郵寄至:
115022台北市南港區舊莊街一段3巷34號1樓
社團法人中華民國計算語言學學會 收


付款方式:

  1. 郵政劃撥:帳號:19166251,戶名:社團法人中華民國計算語言學學會
  2. 支票:請加註『社團法人中華民國計算語言學學會』抬頭
  3. 信用卡:請填寫信用卡付款單



麥克風語料庫 TCC-300Com

  • 資料庫名稱:麥克風語料庫 TCC-300Com
  • 語音檔編輯程式:VEDITOR 5.0p
  • 申請說明書 (PDF檔)
  • 簡介 (PDF檔)
以上麥克風語料庫,包含語音檔編輯程式,存放在1片數位影像光碟(DVD)上。

麥克風語料庫係國立台灣大學李琳山教授、國立成功大學王駿發教授及國立交通大學陳信宏 教授提供,授權由中華民國計算語言學學會發行。申請人需向中華民國計算語言學學會提出 申請,簽妥授權使用協議書,並同意確實遵守協議書上之約定條款。



申請文件及費用:

  1. 簽妥之授權使用協議書一式兩份。
  2. 工本費NT$100,000元
 備妥申請文件後請郵寄至:
115022台北市南港區舊莊街一段3巷34號1樓
社團法人中華民國計算語言學學會 收


付款方式:

  1. 郵政劃撥:帳號:19166251,戶名:社團法人中華民國計算語言學學會
  2. 支票:請加註『社團法人中華民國計算語言學學會』抬頭
  3. 信用卡:請填寫信用卡付款單



台灣口音英語語料庫(EAT)

EAT語料庫,依PSTN、MIC16K及GSM三組不同的CHANNEL共存放在三張DVD光碟中, 其中PSTN及GSM語料放在同一張光碟中並且標示為PSTN+GSM、 MIC16K語料,因SAMPLING RATE較高語料量較大, 故依英語系及非英語系分開存放在兩張不同的光碟上,分別標示Mic16K English及Mic16K NonEnglish。

EAT語料庫為中華民國計算語言學學會版權所有 。申請人需向中華民國計算語言學學會提出 申請,簽妥授權使用協議書,並同意確實遵守協議書上之約定條款。 

申請文件及費用:

  1. 由服務單位開立身份證明書,學術研究單位者申請內文需言明所申請之「台灣口音英語語料庫」確實僅用於研究,不作商業用途。
  2. 授權使用協議書(學術單位一般企業)一式兩份。
  3. 工本費
    • 國內非營利研究單位:NT$40,000元
    • 國內一般單位:NT$400,000元
 備妥申請文件後請郵寄至:
115022台北市南港區舊莊街一段3巷34號1樓
社團法人中華民國計算語言學學會 收


付款方式:

  1. 郵政劃撥:帳號:19166251,戶名:社團法人中華民國計算語言學學會
  2. 支票:請加註『社團法人中華民國計算語言學學會』抬頭
  3. 信用卡:請填寫信用卡付款單



台灣口音英語語料庫(EAT-200)

EAT 200 語料,依PSTN,MIC16K及GSM三組不同的CHANNEL共存放在三個資料夾中並且標示為PSTN,GSM, MIC16K 且各性別目錄下的語料,則依提示卡號,每一個提示卡號皆有一個存放目錄,在提示卡號目錄下則存放聲音檔(.wav)及聲音內容標示檔(.lab), 其中.wav為標準的windows wave檔格式,其檔頭大小為56 bytes,而sampling rate依不同channel有不同的sampling rate, 取樣點則皆為16Bits解析度。

EAT-200語料庫為中華民國計算語言學學會版權所有 。申請人需向中華民國計算語言學學會提出 申請,簽妥授權使用協議書,並同意確實遵守協議書上之約定條款。



申請文件及費用:

  1. 由服務單位開立身份證明書,學術研究單位者申請內文需言明所申請之「台灣口音英語語料庫」確實僅用於研究,不作商業用途。
  2. 授權使用協議書(學術單位一般企業)一式兩份。
  3. 工本費
    • 國內非營利研究單位:NT$10,000元
    • 國內一般單位:NT$100,000元
 備妥申請文件後請郵寄至:
115022台北市南港區舊莊街一段3巷34號1樓
社團法人中華民國計算語言學學會 收


付款方式:

  1. 郵政劃撥:帳號:19166251,戶名:社團法人中華民國計算語言學學會
  2. 支票:請加註『社團法人中華民國計算語言學學會』抬頭
  3. 信用卡:請填寫信用卡付款單



中文廣播新聞語料庫 MATBN

民國90年8月至93年7月間,國內從事語音處理研究之相關學校及研究單位聯合執行國科會語料蒐集計畫-『中文自發性語音語料庫之建立』(Spontaneous Mandarin Speech: Corpus and Processing;計畫編號:NSC-90-2213-E-009-109, NSC-91-2219-E-009-039, NSC-92-2213-E-009-021),參與的單位共有國立交通大學電信工程學系、國立台灣大學電機工程學系、國立清華大學電機工程學系、國立成功大學電機工程學系、中央研究院資訊科學研究所、工研院前瞻研究中心及中華電信研究所。該計畫完成一個MATBN中文廣播新聞語料庫,語料來源是198個小時之公共電視晚間新聞,內容包括音檔、人工標記及文字轉寫(transcription)。為讓該項成果與國內外從事中文語音處理研究之單位分享,計畫執行團隊將MATBN語料庫技轉予本學會,授權本學會發行予各界使用。



申請文件及費用:

  1. 由服務單位開立身份證明書,學術研究單位者申請內文需言明所申請之「中文廣播新聞語料庫」確實僅用於學術研究,不作商業用途。
  2. 授權使用協議書(下載)一式兩份。
  3. 工本費:NT$40,000元
 備妥申請文件後請郵寄至:
115022台北市南港區舊莊街一段3巷34號1樓
社團法人中華民國計算語言學學會 收


付款方式:

  1. 郵政劃撥:帳號:19166251,戶名:社團法人中華民國計算語言學學會
  2. 支票:請加註『社團法人中華民國計算語言學學會』抬頭
  3. 信用卡:請填寫信用卡付款單



口語韻律語料庫暨工具平台庫(COSPRO & Toolkit)

  • 資料庫名稱:口語韻律語料庫暨工具平台庫(COSPRO & Toolkit)
  • 簡介(DOC檔)

「中央研究院口語韻律語料庫暨工具平台」(Sinica Continuous Speech Prosody Corpora & Toolkit,簡稱COSPRO & Toolkit),係中研院語言所鄭秋豫教授多年從事語流韻律研究所收集的國語連續語流語料及依研究需要所發展的工具平台 (1994-2005)。基於學術資源共享之理念與促進語音科學研究與技術能有突破性發展之初衷,於2006年即釋出本語料庫與工具平台,原由民間公司—艾爾科技公司(L Labs Inc.)發行,現基於語料管理與學術能見度考量,於今(2011)年2月重新授權予中華民國計算語言學學會發行,僅供國內外學術研究單位使用。申請人需向中華民國計算語言學學會提出申請,簽妥授權使用協議書, 並同意確實遵守協議書上之約定條款。



申請文件及費用:

  1. 由服務機關開立身份證明書,內文需言明所申請之中央研究院口語韻律語料庫暨工具平台僅用於研究,不作商業用途。
  2. 授權使用協議書一式兩份。
  3. 工本費:國內非營利研究機構或單位:NT$1,000元
 備妥申請文件後請郵寄至:
115022台北市南港區舊莊街一段3巷34號1樓
社團法人中華民國計算語言學學會 收


付款方式:

  1. 郵政劃撥:帳號:19166251,戶名:社團法人中華民國計算語言學學會
  2. 支票:請加註『社團法人中華民國計算語言學學會』抬頭
  3. 信用卡:請填寫信用卡付款單



亞洲口音英語跨國語音資料庫—中研院語言所台灣二語英語語料庫(AESOP-ILAS)

  • 資料庫名稱:亞洲口音英語跨國語音資料庫—中研院語言所台灣二語英語語料庫(AESOP-ILAS)
  • 資料庫簡介

AESOP-ILAS語料庫為「亞洲口音英語跨國語音資料庫AESOP(Asian English Speech cOrpus Project)國際聯盟」的台灣二語英語部分,語料蒐集計畫主持人為中研院語言所特聘研究員兼所長鄭秋豫。本語料庫不以音段或某特定或個別語音特徵為目標,而以音節、詞組、片語、短句與多短語語段等各級不同大小的語言層次及單位,強調較全面性、具溝通訊息的韻律現象及語音特徵,以期提供更豐富的語音分析與評量指標。基於學術資源公開共享之理念,於2015年4月釋出,提供國內外學術研究單位使用,可供英語教學、語音研究、語音建模、語音辨識與合成等多方面學術應用。

本資料庫之智慧財產權屬中央研究院,授權中華民國計算語言學學會發行,僅供國內外學術研究單位使用。申請人需向中華民國計算語言學學會提出申請,簽妥授權使用協議書,並同意確實遵守協議書上之約定條款。 

申請文件及費用:

  1. 由服務機關開立身份證明書,內文需言明所申請之亞洲口音英語跨國語音資料庫AESOP僅用於研究,不作商業用途。
  2. 授權使用協議書一式兩份。
  3. 工本費:國內非營利研究機構或單位:NT$1,000元
 備妥申請文件後請郵寄至:
115022台北市南港區舊莊街一段3巷34號1樓
社團法人中華民國計算語言學學會 收


付款方式:

  1. 郵政劃撥:帳號:19166251,戶名:社團法人中華民國計算語言學學會
  2. 支票:請加註『社團法人中華民國計算語言學學會』抬頭
  3. 信用卡:請填寫信用卡付款單



中研院漢語對話語音語料庫(Sinica MCDC8)

中研院漢語對話語音語料庫(Sinica MCDC8)包含八個對話之聲檔與文字轉記檔。文字轉記檔以PRAAT格式儲存,具有人工驗證之段落時間標記。語料庫相關訊息請參考現代漢語語音語料庫研究網頁(http://mmc.sinica.edu.tw/)。中研院漢語對話語音語料庫係由中央研究院補助執行之研究成果,授權由中華民國計算語言學學會發行。申請人需向中華民國計算語言學學會提出申請,簽妥授權使用協議書, 並同意確實遵守協議書上之約定條款。 

申請文件及費用:

  1. 由服務機關開立身份證明書,內文需言明所申請之「中研院漢語對話語音語料庫」僅用於研究,不作商業用途。
  2. 簽妥之授權使用協議書一式三份
  3. 工本費(已申購Sinica MCDC者,另有優惠)
    • 國內學術機構
      • 會員:NT$50,000元
      • 非會員:NT$52,000元
    • 國內一般機構
      • 會員:NT$150,000元
      • 非會員:NT$160,000元
 備妥申請文件後請郵寄至:
115022台北市南港區舊莊街一段3巷34號1樓
社團法人中華民國計算語言學學會 收


付款方式:

  1. 郵政劃撥:帳號:19166251,戶名:社團法人中華民國計算語言學學會
  2. 支票:請加註『社團法人中華民國計算語言學學會』抬頭
  3. 信用卡:請填寫信用卡付款單



中研院具音段標記之中文對話語音資料庫
(Sinica Phone-aligned Chinese Conversational Speech Database)

  • 資料庫名稱:中研院具音段標記之中文對話語音資料庫
    (Sinica Phone-aligned Chinese Conversational Speech Database)
  • 資料庫簡介範例
「中研院具音段標記之中文對話語音資料庫(Sinica Phone-aligned Chinese Conversational Speech Database)」包含3.5小時,16人的帶音段標記之對話語音資料。包含音節與音段時間標記的文字檔案以PRAAT格式儲存 (.TextGrid)。所有標記邊界皆經過人工驗證。此資料庫為Sinica MCDC8的一部分。語料庫相關訊息請參考現代漢語語音語料庫研究網頁(http://mmc.sinica.edu.tw/)。本資料庫原始內容之智財權由中央研究院持有。公開授權資料以.wav與.TextGrid檔案儲存。本資料庫得到中央研究院授權由中華民國計算語言學學會發行。申請人需向學會提出申請,簽妥非營利授權使用協議書,並同意確實遵守協議書上之約定條款。 

申請文件及費用:

  1. 由服務機關開立身份證明書,內文需言明所申請之「中研院具音段標記之中文對話語音資料庫」僅用於研究,不作商業用途。
  2. 簽妥之授權使用協議書一式三份
  3. 工本費
    • 國內學術機構
      • 會員:NT$30,000元
      • 非會員:NT$30,500元
    • 國內一般機構
      • 會員:NT$300,000元
      • 非會員:NT$302,000元
 備妥申請文件後請郵寄至:
115022台北市南港區舊莊街一段3巷34號1樓
社團法人中華民國計算語言學學會 收


付款方式:

  1. 郵政劃撥:帳號:19166251,戶名:社團法人中華民國計算語言學學會
  2. 支票:請加註『社團法人中華民國計算語言學學會』抬頭
  3. 信用卡:請填寫信用卡付款單



北科大教育電台廣播節目語音語料庫(NER-Trs與NER-Pro)

資料庫名稱:北科大教育電台廣播節目語音語料庫(NER-Trs與NER-Pro)

語音語料庫的原始語音資料來源,是由國立教育廣播電臺所提供的節目音檔。依錄音環境,分為兩類,包括電台錄音室內錄製,無任何背景襯樂或非人聲噪音的『核心語料』,總計約1218.34小時、共1907個檔案;與非錄音室內錄製,或有任何背景襯樂,或非人聲噪音的『非核心語料』,總計約3939.93小時、共4751個檔案。兩者音檔合計約5128.87小時、共6658個檔案數。詳細原始語音語料統計資料請參閱表一
此原始語音語料,經由臺北科技大學中英夾雜大字彙語音逐字稿轉寫系統(此系統之內部測試字元錯誤率為9.2%),自動轉寫出音檔逐字稿。再經由兩次人工校正後,整理成可供語音辨認使用之語音語料庫。目前共完成『核心語料』總計約624.71小時、共89908個檔案;『非核心語料』總計約2561.07小時、共400495個檔案;『合計約3185.78小時、共4904031個檔案數』。並以一集約150小時語音語料方式,切分成21集,包括:

  1. NER-Trs-Vol1~17(語音辨認器先自動產生逐字稿)
  2. NER-Pro-Vol1~4(專業聽打員先聽打逐字稿)
    詳細完成之語音語料統計資料請參閱表二

上列語料庫已經由臺北科技大學授權社團法人中華民國計算語言學學會發行,申請人需向學會提出申請,簽妥授權使用協議書,並同意確實遵守協議書上之約定條款。 

申請文件及費用:

  1. 由服務單位開立身份證明書, 申請單位之申請內文需言明所申請之「北科大教育電台廣播節目語音語料庫」確實僅用於學術、教育及公益研究,不作營利及商業用途。

  2. 授權使用協議書(一式兩份):

  3. 工本費:
    • NER-Trs-Vol1~17文本:每集NT$1,000元。
    • NER-Trs-Vol1~17音檔:每集NT$1,000元。
    • NER-Pro-Vol1~4文本:每集NT$2,000元。
    • NER-Pro-Vol1~4音檔:每集NT$2,000元。
 備妥申請文件後請郵寄至:
115022台北市南港區舊莊街一段3巷34號1樓
社團法人中華民國計算語言學學會 收


付款方式:

  1. 郵政劃撥:帳號:19166251,戶名:社團法人中華民國計算語言學學會
  2. 支票:請加註『社團法人中華民國計算語言學學會』抬頭
  3. 信用卡:請填寫信用卡付款單



北科大教育電台廣播節目語音語料庫-教育版(NER-Trs-Vol1)

資料庫名稱:北科大教育電台廣播節目語音語料庫-教育版(NER-Trs-Vol1)

為支援學生學習語音相關技術,將北科大教育電台廣播節目語音語料庫第一子集,即NER-Trs-Vol1,以非商用與教育授權方式,免費公開發行供學生於在學期間使用。
此語料庫第一集(NER-Trs-Vol1)內容大部分是談話性節目,多為自發性語音,只有少部分是新聞報導的朗讀式語音。語料庫分成乾淨語料(Clean,約19.4小時、共5106個檔案),與其他語料(Other,約107.4小時、共15983個檔案)。合計總共約126.8小時、共21089個檔案數。

上列語料庫已經由臺北科技大學授權社團法人中華民國計算語言學學會發行,申請人限全職在學學生,需向學會提出申請,簽妥授權使用協議書,並同意確實遵守協議書上之約定條款。 

申請文件及費用:

  1. 由服務單位開立身份證明書, 申請單位之申請內文需言明所申請之「北科大教育電台廣播節目語音語料庫」確實僅用於學術、教育及公益研究,不作營利及商業用途。並需檢附在學學生證影本,或是由學生之就學單位開立學生身份證明書。

  2. 授權使用協議書(一式兩份):授權書下載

  3. 工本費:
    • NER-Trs-Vol1文本(教育版):免費。
    • NER-Trs-Vol1音檔(教育版):免費。
 備妥申請文件後請郵寄至:
115022台北市南港區舊莊街一段3巷34號1樓
社團法人中華民國計算語言學學會 收


付款方式:

  1. 郵政劃撥:帳號:19166251,戶名:社團法人中華民國計算語言學學會
  2. 支票:請加註『社團法人中華民國計算語言學學會』抬頭
  3. 信用卡:請填寫信用卡付款單



台文語音合成語料庫(TAT)

  • TAT-Vol
    為錄製語料,收集來自台灣各地的腔調,共有200位語者,每位語者錄製半小時,總共錄製100小時的語料,錄製時同時使用六支麥克風以模擬各種情況,因此又可擴充為600小時。
  • TAT-TTS
    為臺北科技大學和李江却台語文教基金會以及意傳科技合作產製之語料庫,主要目標是要建置大規模台灣腔語料庫,作為研發人工智慧之基礎建設,尤其是針對基於深度學習之語音合成研究需巨量資料之要求。

上列語料庫已經由臺北科技大學授權社團法人中華民國計算語言學學會發行,申請人需向學會提出申請,簽妥授權使用協議書,並同意確實遵守協議書上之約定條款。 

申請文件及費用:

  1. 由服務單位開立身份證明書, 申請者若為學術研究機構申請內文需言明所申請之「台文語音合成語料庫(TAT)」確實僅用於學術、教育及公益研究,不作營利及商業用途。

  2. 授權使用協議書(一式兩份):
  3. 工本費:
    • 學術研究授權:
      • TAT-Vol1 NT$40,000元
      • TAT-Vol2 NT$40,000元
      • TAT-TTS-M1 NT$40,000元
      • TAT-TTS-M2 NT$40,000元
      • TAT-TTS-F1 NT$40,000元
      • TAT-TTS-F2 NT$40,000元
    • 商業授權:(暫停授權))
      • TAT-Vol1
      • TAT-Vol2
      • TAT-TTS-M1
      • TAT-TTS-M2
      • TAT-TTS-F1
      • TAT-TTS-F2
 備妥申請文件後請郵寄至:
115022台北市南港區舊莊街一段3巷34號1樓
社團法人中華民國計算語言學學會 收


付款方式:

  1. 郵政劃撥:帳號:19166251,戶名:社團法人中華民國計算語言學學會
  2. 支票:請加註『社團法人中華民國計算語言學學會』抬頭
  3. 信用卡:請填寫信用卡付款單



臺灣客語語音資料庫(HAT)

  • 資料庫名稱:臺灣客語語音資料庫 (Hakka Across Taiwan)
  • 語料庫簡介

在這個AI浪潮急速前進的時代,客家委員會建置了一個指標性的語料庫:「臺灣客語語音資料庫」。此舉不僅能保存豐富多樣的客家 語言,更是推動客語語音AI應用進步的核心力量。語料庫積極蒐集包含四縣腔、海陸腔在內的各種客語語音資源,後續規劃進一步拓展 至大埔腔、饒平腔以及詔安腔等等 致力於建立一個全面而多元的客語腔調語料庫。如今,這些寶貴的語音資料將無償授權予社團法人中華民國計算語言學學會發行 促進語音合成、語音辨識技術的研究,以及媒體內容的創新應用。期許本語料庫建置能為客語的語音AI應用奠定堅實的基礎,並透過各 界不斷努力投入研發,邁向更卓越的客語語音應用技術。有關客語語料各類型內容說明如下:

  • 語音辨識語料
    本語音資料庫為客語朗讀語料(reading speech),是以原生客語文本,收集來自臺灣各地不同腔調的客語語音,並同時以 8支麥克風進行錄製完成。錄製的客語語音,經由兩次人工校正文本後,整理成可供語音辨認技術研究與開發使用之語音語 料庫。
  • 語音合成語料
    本語音資料庫為客語朗讀語料(reading speech),是以原生客語文本,男女各1位發音員每人錄製約30小時。主要目 的是要建置客語語音合成語料庫,作為研發人工智慧之基礎建設,尤其是針對基於深度學習之語音合成研究資料之要求。
  • 媒體語音語料
    蒐集廣播電臺/電視臺提供客語音檔增加自對話,刪除音檔中空白及背景音樂部分,續以校正完成之媒體音檔及逐字稿轉換 至客語語音資料庫格式,產出具metadata之標準化電子語音語料庫格式,音檔標註json檔(Unicode編碼,儲存metadata), 約280小時口語語音資料,可以使小時口語語音資料,可以使人工智慧開發人工智慧開發團隊或廠商,開發出更貼近生活 用語之語音辨識。
  • 平行辭庫
    將華語辭典對譯為客語,建立人工智慧使用之華客語平行辭庫內容收錄教育部國語辭典部分用詞、客語能力中高級認證、 臺灣街道名及知名地標、常見生活詞彙單位、日期、時間、新聞常見用詞共計提供約50,000詞華語翻譯客語漢字、 約50,000詞客語漢字四縣腔拼音、約50,000詞客語漢字海陸腔拼音。

上列語料庫已經由客家委員會授權社團法人中華民國計算語言學學會發行,申請人需向學會提出申請,簽妥授權使用協議書,並同意確實遵守協議書上之約定條款。 

申請文件及費用:

  1. 身份證明文件

  2. 授權使用協議書(一式兩份):
  3. 工本費:
    • 四縣腔(含南四縣)語音辨識語料 NT$1,000元
    • 海陸腔語音辨識語料 NT$1,000元
    • 四縣腔語音合成語料 NT$1,000元
    • 海陸腔語音合成語料 NT$1,000元
    • 四縣腔媒體語料 NT$1,000元
    • 四縣腔客華平行辭庫 NT$1,000元
    • 海陸腔客華平行辭庫 NT$1,000元
 備妥申請文件後請郵寄至:
115022台北市南港區舊莊街一段3巷34號1樓
社團法人中華民國計算語言學學會 收


付款方式:

  1. 郵政劃撥:帳號:19166251,戶名:社團法人中華民國計算語言學學會
  2. 支票:請加註『社團法人中華民國計算語言學學會』抬頭
  3. 信用卡:請填寫信用卡付款單


會址:115022台北市南港區舊莊街一段3巷34號1樓
電話:02-27881638, 傳真:02-26519386,電子信箱:[email protected]