作者:
Nick Campbell
摘要:
近來口語情境中情緒處理的研究很多。本文利用口語對話語料探討四個聲韻特徵在同一發音人與不同對話同伴對話時的差異。聲學參數包括音長,語調,能量與發聲。
關鍵字:
對話語音語料庫,情緒表達,聲韻特徵,語音質量分析
作者:
Chu Yuan, and Aijun Li
摘要:
本論文是一關於由呼吸段生成自然豐富情緒語音的前導研究, 並以一小時的豐富情緒語音為研究資料。主要著重在呼吸段發生時的狀態研究, 以及發話者的情緒狀態的正負價數與活性對聲學特徵參數的影響。以統計分析方式探究呼吸段在不同狀態參數下的長度與強度。以分析的結果合成語音, 並以聽覺實驗驗證。實驗結果發現, 呼吸段可以幫助合成語音在自然度與豐富情緒度上的表現。
關鍵字:
呼吸段, 豐富情緒語音, 情緒, 價數, 活性
作者:
Zhuangluan Su, and Zengfu Wang
摘要:
語音信號的基頻(F0)對於反應情緒資訊扮演很重要的角色,最普遍描述F0的方法就是將F0分成整體趨勢和細部變化來加以描述,對中文而言F0的整體趨勢主要受語者的情緒所影響。在此論文中作者將探討情緒上語調的問題。為了去擷取情緒語調,我們建立一具情緒變異的語料庫,所有語調都以遞迴演算法加以擷取,進而利用主成分分析將所以情緒投影至一低維空間,稱之為特徵語調子空間,並於此子空間中對不同情緒的語調加以模型化。實驗顯示如此的語調模型在中文情緒語料庫中將能有效的反映出不同語調的表現與改進語音合成的效能。
關鍵字:
特徵語調、情緒語音、混合情緒、基頻輪廓、語音合成
作者:
Mingyu You, Chun Chen, Jiajun Bu, Jia Liu, and Jianhua Tao
摘要:
本論文提出一運用於語音之manifolds分析於語音情緒辨識系統上。在使用大量高維度語音參數時,研究人員會面臨到參數維度縮減的問題。本論文提出一種新方法,不像傳統的技術,如主成分分析(PCA)和線性鑑別分析(LDA),稱為Enhanced Lipschitz Embedding (ELE),以在情緒語音語料中發掘出非線性自由度。ELE採取測地距離,在語音語料之所有比例尺上來保留內在幾何。基於測地距離估計,ELE將64維聲學參數嵌入六維空間,而在此空間內,相同情緒狀態之語音資料通常被聚類至一個平面周圍,並且該資料分佈特性是有利於情緒分類。壓縮過的測試資料運用一個訓練好的線性支持向量機(SVM)系統分類為六種情緒狀態(無情緒,生氣,恐懼,快樂,悲傷和驚訝)。考量和人類感知的一致性,ELE在偵測含噪音的情緒語音之內在幾何能力方面亦有所研究。本論文所提出之方法效能和一些參數選擇方法做比較,例如循序向前選擇(SFS),PCA,LDA,Isomap以及局部線性嵌入(LLE)。實驗結果顯示和其他方法比較,分別在語者獨立及語者相關之情緒辨識系統,本論文提出之系統達到9%至26%以及5%至20%的相對改善。同時,本論文提出之系統具有一定的強健性,能在含噪音的情緒語音辨識正確率達到大約10%的改善。
關鍵字:
Enhanced Lipschitz Embedding (ELE),維度縮減,情緒語音分析,情緒辨識。
作者:
吳宗憲、莊則敬
摘要:
本文提出一參數補償之方法於語音訊號之情緒辨識。在此方法中,首先從輸入語音訊號擷取出語調群組(IGs);接著對每一選擇出來之語調群組擷取語音參數。在不同情緒狀態之參數空間之線性映射假定下,本文提出一參數補償方法來描述參數特徵,使其在所有情緒狀態下之參數空間有較好的鑑別性。每一種情緒狀態所關連之補償向量是由最小分類錯誤(MCE)演算法估計出來。最後在情緒狀態決策時,針對每一種情緒狀態,補償後的語調群組為基礎之參數向量被訓練為高思混合模型 (GMMs)以及連續支持向量機 (CSVMs). 在GMMs模型中,求得最大或然率的GMMs之情緒狀態被決定為最後的輸出。在CSVMs模型中是依據CSVM機率值來決定情緒狀態輸出。依據實驗結果,CSVM中的核心函數決定為輻射半徑基底函數。實驗結果比較出以語調群組為基礎之參數補償方法於情緒辨識能達到較好的效能。
關鍵字:
情緒語音辨識,情緒辨識,語調群組,參數補償
摘要:
本論文提出一個基於高斯混合模型的語音情感辨識方法,在辨識階段引進一個補償轉換,以減低語音特性及雜訊的變異的影響。採用的情感特徵參數包括時間序列結構特徵、線性預估倒頻譜係數、梅爾頻率倒頻譜係數和感知線性預估係數。我們探討人類的五種情感,包括快樂、生氣、驚訝、悲傷和中性。實驗結果顯示整合補償轉換的高斯混合模型辨識法優於傳統的高斯混合模型辨識法。本論文提出的方法相當有效且具強健性。
關鍵字:
語音情感辨識、高斯混合模型、情感辨識、補償轉換
摘要:
本論文探討三種朗讀風格(抒情, 評論與說明)對語句重音分配傾向的影響。(語句重音區分為韻律重音與語意重音) 。不同朗讀風格的差異比較分為三個研究範圍:高層級的句法結構, 低層級的片語與雙音節音韻詞。研究發現, 語意重音的配置在不同朗讀風格間顯示出差異, 而韻律重音的配置則無差別。此外, 語音單位越長, 此差異越明顯。大部分語意重音配置的差異出現在高層級的句法結構上, 少部分出現在片語, 雙音節音韻詞層級則完全沒有出現差異。
與過去的研究比較, 說明風格的語意重音配置接近中性風格。也就是說, 句法結構上的”主位+述位,” “謂語+賓語,” “主語+謂語”有結尾重音的傾向, 在“狀語+中心語”的結構上則呈現均勻分配。在低層級的片語上, 說明風格在”狀語+中心語”類型的片語呈現出開頭重音的傾向, 但在” 主語+謂語”與” 謂語+賓語”的片語則呈現結尾重音傾向。評論風格的句法焦點則正常地分配在核心主語與其動作。因此, 大部分的重音被配置在”狀語+主語”結構的主語部分, 以及” 謂語+賓語”結構的謂語部分。相對應地, 在低層級的片語中, “限定詞+名詞中心語”片語的重音大部分落在中心語部分, “主語+謂語”片語的重音則常位在謂語部分。抒情的朗讀風格則是常用來以韻律方式表達個人情感。如詩般的韻律弱化了句法結構的限制, 並且在許多情況下導致語意重音的分配在高層級句法結構下有較均等的分配, 而在音韻邊界附近則呈現較為集中的分配。
關鍵字:
朗讀方式, 語句重音, 分配傾向, 漢語