甫獲中研院院士的莊炳湟教授(Biing Hwang Juang),目前任教於美國喬治亞理工學院,於2006/12/26下午在清大資電館發表演說,演講內容談及語音技術的歷史以及未來的走向。這次的題材主要沿自於國際聲學語音信號處理演討會(ICASSP)所發表的演說,從語音合成談到語音辨識。

一開始闡述人類如何試著利用機械化的器材來模擬發聲的過程,這個機器的主要部份包含風箱、一些卡榫以及簧片,而手必須去捏一個管子,試圖讓管子的形狀能模擬出口腔的形狀,演說中有播放機器產生出來的聲音,基本上只能聽出有說話的聲調,詳細的咬字則難以辨別。到了1920年代,發展出一個類似鋼琴的語音合成器,壓著不同的按鍵能產生不同的音高,詳細的內部構造並沒有顯現出來,而展示的聲音中,已經可以略微辨識出些許的字眼,比較另人感到有趣的地方在於可以利用它來產生出類似唱歌的感覺。而在1950年代之後,語音合成的技術有些許的分野,大致可以分成兩個派別,第一個派別認為發音的過程應該要像人類的發聲過程一樣,要分別描述各個發音器官的變化,再予以組合起來發出聲音;另一派別則是分析聲音的波形,試圖找出有用的參數(LPC),並將這些參數與發音時的頻譜及器官位置做連結。從現在的角度來回顧這些不同派別的做法,後者很明顯地勝出,影響直到今日。

利用參數化來發音的方式,其優點在於分析簡易,能讓許多信號處理的方法應用進來;但缺點就是產生出來的聲音機械感太重,不是非常的自然,若以音素或音節為最小發音單位,人類講話時會平順地將數個單位連結在一起,但參數化的發音卻無法精確地描述這種單位間的轉換過程。雖然1980年代的技術已經演進到聽起來還可以接受的地步,但1990年代電腦儲存裝置容量的持續進展,卻改變了語音合成技術的著眼點。參數化的方式漸漸不吃香,取而代之的是將人聲直接儲存到電腦中,再利用技術把想要的聲音擷取出來,重新組成想要的句子。這種方式自然能保留語音信號當中微小但重要的隨機成份,大大增強合成語音的自然度,然而先前參數化的方式很難做到這一點。不過莊教授以信號處理的觀點來看這個趨勢,認為目前方法的發展空間較小,而以往參數化的發展空間較大,但若以應用的角度來看,目前的方式的確優異,克服了許多以往達不到的流暢程度。

談完語音合成的演變,接下來的話題談到語音辨識,故事從愛迪生留聲機所產生出來的蠟筒開始,為了將刻畫在蠟筒上的資訊轉成文字,有公司開始投入大量的人力,把蠟筒上的留言聽完後,再用打字機將留言以文字的形式呈現,這可以算是最早的語音辨識。為了節省人力成本,1950年代Bell Lab.開始研究如何利用電腦來實現語音辨識,爾後輔以語音學家所提供的知識,以大量的規則來建構一個系統,但語音學家間存在歧異點,有些地方沒有一致性的答案,再加上這種方法無法自動化以及一般化,以至於1970年代推出隱藏式馬可夫模型之後,這些以規則建構的系統就不再受人青睞。美國的語音辨識主要由DARPA所推動,每個時期提出不同的目標,希望各地的學者能一同來解決。如最早期是數字串的辨識,當幾年後錯誤率低到一個程度,就把辨識的目標放在更多詞彙的辨識,甚至不同的說話型態下也能辨識。直到最近,自發性對話的辨識以及理解是一項極需眾人之力來克服的目標,對於大量自發性對話語料的辨識,錯誤率一直局高不下,原因不外乎在日常對話中,大量的語助詞、發音變異以及不按文法的句子大量穿插,系統無法有效地面對這種說話的多變性。聲音轉成文字只是一個最基本的工作,接下來理解句子的意思以及系統如何反應,則是更高層次對話系統所要面對的課題,莊教授打個比方,現在的語音辨識器就好比小學二三年級的學生,字可以大略聽得懂,但句子意涵就未必能全然了解,這個比方也清楚地描述出未來的改進方向,就是如何讓小學生成長為中學生。

一小時的演講其實不長,許多地方並沒有著墨到,題材內容也略於簡略,比較適合一般沒有語音處理背景的聽眾,話雖如此,但也不失為一場豐富的歷史之旅。對於這類外來的思想及技術,沒有對其發展史多做瞭解,是無法體會前人如何看待這些問題,以及前人逐步解決問題的思維模式。這也是國內比較沒著重的地方,若只是一股腦兒的直接以工程的角度跳下去解決問題,較無法宏觀的看出未來的走向,只能落到跟隨別人腳步走的地步。


莊炳湟教授於喬治亞理工學院的鏈結
http://www.ece.gatech.edu/faculty-staff/fac_profiles/bio.php?id=124

banco 發表在 痞客邦 PIXNET 留言(0) 人氣()