HRTF音頻3D定位技術綜述
McLaren 于 2003.11.12 10:41:27 | 源自:www.soomal.com | 版權:編譯 | 平均/總評分:09.78/88
  • 編者按:熱心網友McLaren為我們編譯了這篇文章,雖然有些老,但詳細的闡述了3D定位技術的原理,國內這樣的文章并不多,這也是國內音頻研究最薄弱的地方,推薦仔細閱讀。

1. 序

您一定有過這樣的經驗:在一個炎熱的夏夜,討厭的蚊子在你的耳邊飛舞。此時,沒有比除掉這個禍害更急所的了,對吧?做到這一點,不必睜大了眼去找蚊子,只需依靠敏銳的聽力,一樣可以確定蚊子的方位,在漆黑之中也能給其以精確而致命的打擊。

站在街頭,有時候我們可以看見盲人無需牽引,也可跟隨著路上的人群。對于盲人,想來這樣不太安全;但不論如何,他們的行為是令人驚奇的肢體才能——聆聽,當其被完全利用起來的時候,可以帶給人很大的幫助。

實際上,不僅僅是我們的眼睛可以分辨物體的三維定位,我們的耳朵也能做到。在我們的日常生活中,看和聽相互彌補。因此,如果有一天被剝奪了視覺,聽力會自告奮勇來彌補改善這個缺陷。嘗試著閉上您的眼睛去感覺,您不覺得你的聽力變得比以前更敏銳嗎?

人們開始研究3D圖形有些年頭了,因而所有的相關技術都發展成熟。再現現實和虛幻世界中的物體并不困難,然后在PC上再現。此時,人們不再滿意僅僅是虛擬再現。人們現在關心的是:如何利用仿真科技于音頻領域?換句話說,什么樣的音頻技術能幫助我們感受到三維效果?答案就是——HRTF(Head Related Transfer Function)。

2. HRTF 3D定位音頻和3D環繞的區別

1996年出現了一個新的術語,描述了PC音效卡的新功能——3D sound,根據要求,僅僅通過在音效卡電路中加入IC來實現。這種看上去如魔術般的效果,實際上是另外一種環繞聲的表現,不是真正的3D音頻效果表現。從本質上來說,這種技術利用的不過是一些簡單的時延電路和濾波器。此外,它將左右聲道混頻。因此,人的大腦會感受到音場變的更開闊的效果。這使得人們非常方便的使用先進和專業的水準來編輯和編譯CD音樂。不過,這種技術有其缺點。處理電路混合了從左聲道和右聲道傳來的音源。就是說,原始的聲源已經失真,這種失真是老鳥級的立體聲愛好者所無法忍受的。

標準的環繞聲技術無法展示從上和下方傳來的音源,也無法依靠軟體在虛擬環境中隨意定位聲源,或者實時計算和比較3D游戲的聲音關系。以嚴格的感受來評判,這種技術不能被稱作3Dsound;最多只能算作2.5D,因為它僅相對改進了聆聽揚聲器的方位的局限。(見下圖)

  • 當HRTF3D技術應用之后就有所改觀了。HRTF使用人耳和人腦的頻率振動預知來合成3D音效,通過高速DSP計算,HRTF可實時處理虛擬世界的音源。當聲音晶片計算包含3D聲音的波形時,通過耳機,人腦可感知到真實的定位感受,比如從前方/后方,上方/下方或者是三維空間內任意方位傳來的聲音。

  • 3. HRTF 3D定位音頻技術

    要明白3D定位音頻技術,首先必須明白人腦是如何使用耳朵來確定音源的位置的。讓我們從人耳的結構開始說起:

  • 人耳可分成三個部分:耳廓,耳道和鼓膜。當聲音被外耳察覺,會通過耳道傳遞到耳膜。在這個時候,鼓膜背部會轉換機械能量為生物和電能量,然后通過神經系統傳送到大腦。當我們出生后,我們大腦所有的神經原都記錄有曾經驗過的任何數據,這些神經原具有非常快的分辨不同內容聲波的能力。它讓一只耳朵分析聲波內容,讓兩只耳朵分析聲波的位置。這和人眼看東西一樣,一只眼睛無法看出對象的多面性。

    嘗試閉上您的一只眼,伸出您雙手的食指。有意的拉開距離,然后慢慢的讓您的左手食指去碰右手食指。

  • 您左手的食指碰到了右手的食指了嗎?您認為您可以兩指毫不困難的相觸,但實際上您驚奇的發現它們卻“擦肩”而過了!實際上,一只眼看不會妨礙判斷眼前的是手指,但是這樣看卻是沒有立體空間感的。現在,您可以睜開另一只眼,別累壞了。既然視覺能夠分辨不同位置的對象,那么聽覺也能做到。那么,問題來了:我們耳朵的哪個部分負責處理聲源的定位?

    1. 聲音定位的基本原理

    1) ITD(Inter Aural Time Delay)兩耳時間延遲量差

    聲波在空氣中以每秒345米每秒的速度傳播。我們假設兩耳的距離為20厘米,聲源在左邊。無疑聲波會首先到達左耳,580us(聲波走過二十厘米所需的時間),聲音會到達右耳。如果聲源從我們正前方傳來,那么聲波會同時到達雙耳。至于聲源從其他角度發出,很容易通過三角函數得出結果。因此,人腦通過ITD可以毫不困難分辨不同的方位。

  • 2) IAD(Inter Aural Amplitude Difference)兩耳音量大小差

    我們都會有這樣的經驗:如果聲音被物體擋住,我們聽到的聲音音量會變小。想象一下,如果聲音從我們的正左方傳來,那么我們的左耳覺察到的聲音保留了原始聲音,而我們的右耳察覺到的聲音的音量會減小,因為我們的頭吸收了一部分音量。理論上說,可以對人耳聽到從360度的空間中任意一點傳來的振幅進行測量,其相對關系可以描繪成圖。

  • 2. 聲波的耳廓繞射效應和耳道頻率振動

    僅僅幫助我們的大腦分辨聲源的方向的話,ITD和IAD就夠了。但是,ITD和IAD不能描述聲源從正前方和正后方傳來的區別。在這樣的情況下,兩個數據值幾乎是一樣的。這種情況也會發生在當聲源發聲于我們的正頭頂部和正腳下的時候。因此,只依靠ITD和IAD還不算很好。要解決這個問題,我們的耳廓扮演著關鍵的角色。

    聲波遇到物體的時候會反彈。我們的耳朵是內空的卵圓型;因此,不同波長的聲波相應的在外耳產生不同的效應。按照頻率分析的觀點,當不同的聲源從不同的角度傳來,它們肯定會在鼓膜上產生不同的頻率振動。正是因為耳廓的存在,才造成了從前面和從后面傳來的聲音截然不同。

    鼓膜和耳廓之間是一段2厘米的通道,中空的結構造成的諧振會極大的增益5kHz的訊號,正好是人聽覺的最敏感頻段。因此,我們在別人耳邊小聲說話的時候必須很小心,因為這樣說話我們的聲音很可能被別人聽到。

  • 現在我們進行另外一項試驗。僅封住耳廓,用一串鑰匙在你面前抖動,你會發現您分辨聲音上下位置的能力嚴重削弱了。試著將耳廓貼緊頭部,你又發現你辨別前后左右的感覺和以前大不相同了。不過,我們的大腦很聰明,所以仍然能夠辨別前后左右。所以,上述所有的差異仍然能夠通過依靠視覺和房間反射效應來改善。這是心理學上的“聽音辨位”。比如,蕩我們聽到直升飛機的轟鳴,我們會抬頭尋找音源。因此補上心理預測之后,就最終形成了整個聲音定位的所有要點。

    3. 反射和吸收

    房間或者環境反射效應也是重要的參數。反射物體有其特有的聲波吸收系數;比如,瓦磚和木夾板就有不同的反射值。閉上眼睛您會毫不困難的分辨您是在浴室還是在日本式的臥室里,不是嗎?

    所以,如果我們想測量3D定位音頻效應,最好考慮到所有的因素,如房間的大小,形狀和建筑材料。以此增強聲音的表現質量。

    4. 聲源的心理預測

    其他因素如側反射波,心理預測聲源(比如,我們知道飛機在天上轟鳴,蟋蟀在草叢里歌唱)也是告訴我們聲音方位的有用因素。

    總結起來,我們有三個主要的因素:

    ITD、IAD和耳廓頻率振動。這三個元素是HRTF——頭部相關傳輸函數的參數。其他元素如室內反射和吸收可通過音頻物理學處理。

    如何測量獲得HRTF庫?

    在了解聲音的三個元素之后(ITD,IAD和耳廓效應),我們面臨的問題是:如何測量獲得HRTF庫?

    首先我們提出一個設想,在人耳里放置一個麥克風,認為HRTF參數可通過這個方法進行測量。但是通過耳道的頻率振動會有損失,如果把麥克風放在外耳,測量的參數就不夠準確。因此,人為制造人頭模型是解決這個問題最佳方案。

    實際上,按照測量HRTF庫的要求,人造耳朵的形狀更為重要。有些研究機構使用塑料來做耳朵模子,更高級的使用CAD/CNC來重建電腦模擬耳朵模型,使其更適合人造頭。在人造頭里放入高品質的麥克風,就可以進行測量工作了。這類科技由英國中心研究實驗室開發,稱作“Digital Ear”。Digital Ear可幫助研究人員測量非常精確的HRTF參數,遠比其他可用的商業解決方案要好。

    下圖是從正水準前方測得的聲波圖。從理論上說,正前方聲源,頻率振動對兩耳的效應相同。就是說,紅色和藍色的曲線應該非常接近,甚至是重合。很顯然,CRL的Digital Ear能獲得比其他技術更精確的測量頻率的振動。

  • 在擁有了人造頭之后,下一步開始進行測量工作。測量必須在回聲環境中,雖然回聲會增加從收集的數據中提取聲音特征的難度。封閉的房間是合適的測量環境。在封閉的房間內放置人造頭模型,在房間的四周、天花板和地板鋪滿錐形海綿,在房間內放入可在三維環境中任意移動的聲源,就可以開始測量工作了。一般來說,一套完整的測量參數,包括后期的調整,需要數月的時間來完成。

    當在三維空間內,從不同的位置錄制了20Hz到20kHz波段的不同類型聲波的時候,完整的HRTF原始數據就形成了。原始數據通過精確計算的EQ數學公式生成HRTF參數(因為測量裝置可能不一定能夠達到要求),得到我們想要的——HRTF庫。通常,測量工作采用最高質量的采樣,48kHz。為了適合硬體成本要求,也使用44.1kHz和22kHz。這并不是說選擇的頻率越高,質量就越高。但是,更高的頻率需要更高的數字濾波器。因此,根據成本和質量的關系,權衡首選的頻率。

    如何通過HRTF庫合成3D定位音效

    HRTF合成仿真電路可分為兩個主要部分:數字濾波器和時延。

    • 1 應用程式首先發送經過優選的合成坐標給HRTF,找到適當的參數,然后他會返回參數給數字濾波器。左右聲道的濾波器會計算人容易聽到的頻率曲線——IAD degree和此頻率的耳廓效應合成。
      2 當模擬了頻率段的3D特性之后,剩下的事情就只有ITD了。相比數字濾波,合成ITD就顯得容易的多:只需按照數字延遲電路來重建大概的估計時延,ITD就成功了。
      3 其他的比如反射的時延,椈嬪l收效應,場效應和多普勒效應可通過應用程式接口實現。
  • 聲波直接通過鼓膜傳到內耳,就是虛擬的3D音頻效應,可以欺騙人腦了。如何傳輸呢?當然是通過耳機了。一對頻響出色的耳機是最合適的裝置了;walkman使用的耳塞也能獲得很好的效果。不要考慮花費時間和精力在購買低性能的耳機上了,犧牲3D功能,效果會受到破壞性的削弱。

    根據3D音頻的收聽理論,用兩個揚聲器代替耳機可行嗎?

    在炎熱的夏天,戴著耳機玩游戲不是件愜意的事情。能夠有方案解決這個問題嗎?比如,可以用兩個揚聲器代替耳機嗎?答案是:在某些環境下是可以的。

    對于聽音,使用揚聲器最大的問題就是串話干擾:我們如何用左耳只聽從左邊的揚聲器傳出來的聲音,用右耳只聽從右邊的揚聲器發出的聲音而相互不干擾?下圖顯示,雙耳會明確的聽到從兩個喇叭發出來的聲音。而且,如果聆聽者來回走動,干擾會變的更嚴重。

    不過,如果聆聽者站在兩揚聲器的中間,位于等邊三角形的頂點,如下圖,則不會有干擾。就是說,我們可以同時發送已計算的抵消訊號到聆聽者的耳朵來抵消串音干擾,這樣的電路因此被叫做串音抵消。

  • 安全的串音干擾抵消公式可保證在頻率段內的聲質順滑流暢,低音不會變形失真。必須十分注意,

    l 當使用兩個揚聲器,必須使用串話抵消回路抵消不必要的訊號A。

    l 聆聽者必須坐在揚聲器的焦點位(皇帝位)來抵消訊號A。

    焦點位的局限是什么?有辦法消除這些局限嗎?

    在實際應用中,串話抵消的局限包括:聆聽者必須坐成和兩揚聲器呈三角形,人所在的位置就是我們所知道的焦點(sweet spot)。同時,聆聽者不能隨意轉動腦袋,否則ITD會變得不夠精確。此外,揚聲器的擺放也非常重要:揚聲器必須有和聆聽者耳朵相等的高度,不能在聆聽者近前或者近后有反射材料,比如隔板和棫扔央A否則反射的聲波會干擾大腦的方位辨別能力。當然,揚聲器的質量也非常重要。有頻率失真和左右聲道分離模糊的的揚聲器就不要考慮用于3D聽音了。

    因此,如果沒有嚴格的準備,對于大眾來說享受完美的3D音效是非常困難的。即使是花費大量的資金購買所有必須的裝置,還是有一個最大的局限:聆聽者不能轉動腦袋或者離開焦點位置。

    有問題出現,就會有解決方案。當聆聽者在焦點處徘徊,人腦只能分辨左/右區別,無法察覺前/后的方位變化,因此,只要有增強前/后差別的方法,就可以彌補回來。最簡單的方法就是增加一對環繞揚聲器。就是說,當聲音晶片對環繞聲進行處理時,它發送經過計算的環繞聲數據到環繞揚聲器。換句話說,讓前置揚聲器處理前置的數據,讓環繞揚聲器處理環繞的數據。在這種架構下,焦點比以前更寬,允許聆聽者合理的轉動頭部。同時,具有一般多媒體音效的揚聲器可充分補充環繞的特性。C-Media的CMI-8338/C3DX PCI單晶片提供4聲道綜合回放功能,因此在沒有增加預算的情況下,也可以通過此類聲音晶片達到清晰的3D音效。

  • HRTF3D定位音頻的應用

    不容置疑,最優秀的HRTF 3D定位音頻應用是用于pcgame。因此,數以百計的游戲支援3D定位音效。

    除了游戲之外,HRTF 3D也應用于DVD。DVD提供6聲道輸出功率,當HRTF 3D定位應用后,聆聽者可以得到非常類似于在影院才能得到的效果。

  • 家庭影院THX:使用3D定位音頻后,只要使用兩個喇叭就可以產生環繞音效,其他三個揚聲器已由虛擬揚聲器取代。

    EMI唱片公司,利用CRL的3D定位音頻技術制作了很多錄音,給大家帶來很多特別的聽覺體驗:當聆聽這些錄音,聆聽者可感覺自己站在指揮的位置,在聽一場盛大的管弦樂。此外,EMI也有讓歌手圍著聽眾隨意走動的設計。

    在日本的一個大娛樂公園有座“鬼屋”,也在其娛樂設計中應用了3D音頻定位技術。戴著耳機進入一間黑房子,游客可聽到鬼在到處飄,甚至地板跟著聲音轉動,使得效果非常的令人驚駭。

    美國NASA使用3D定位科技來增強飛行模擬的效果,宇航員可更好的為各種可能的情況作準備。將來宇航員在太空執行相同的任務的時候可以輕松完成。

    現今來自臺灣的主流3D定位音頻源代碼和其成果:CRL 3D音頻

    CRL(Central Research Laboratories),UK是英國EMI唱片公司的子公司,有68年的歷史了。CRL因其長期領導科技前沿而聞名:發明了著名的CAT掃頻儀,獲得諾貝爾獎金。為了開辟音樂產品的新記元,CRL花費6∼7年時間研究3D定位音頻科技,至1995年,技術成熟起來了。在那時,臺灣經濟事務部門,臺北計算機協會,資訊工業學會(III)舉辦了第一屆科技轉化為工程贊助會。在這個工程中,出現了一個被稱作“3D sound”的子學科類別,具備潛能的科技轉換到兩個公司:Crystal River(即后來的Aureal)和CRL。CRL因其卓越的音頻科技和完整的科技轉化計劃而發展壯大,公司也因此受到相關政府,學院和學會的關注。

    在那時,一共有三個研究學會,III,C-Media和Mitac,他們各自帶領其種子工程師到英國接受半個月的訓練,這個訓練有助于建立扎實的基礎,使臺灣能夠開發出高階音頻晶片。一年以后(1996),臺北Computex的技術轉化企業工程的展覽會上,C-Media在眾人的焦點之下成功的放出其第一代3D定位音頻晶片。在那個時期,日本Yamaha公司決定擁有相同的音頻技術。1997年,聲音晶片制造商ESS在選擇Qsound 3D作為低段產品的引擎后,也選擇CRL 3D作為其高階3D音頻產品的引擎。

    CRL利用數字耳技術作為3D音頻研究的基礎;同時,為了完善音頻科技,CRL也同一些高保真錄音公司合作,確保CRL 3D音頻科技符合音樂工業的嚴格的質量要求。也正因如此,CRL證明了其3D音頻科技在專業音頻領域的領先地位。

    總結
    3D定位音頻功能已經變成選擇下一代PCI聲音晶片時必須考慮的因素了。在了解了HRTF 3D定位音頻技術后,我們對其有了一個清晰直觀的認識,從而有分辨HRTF庫的好壞的能力。在主機板集成聲音晶片成為PC工業的主流。更可喜的是,投資報酬率實質性的提高了不少。盡管大牌公司提供高性能的聲音晶片,臺灣人的設計室設計的聲音晶片也展示出其競爭力,比如4聲道的3D定位音頻,數字立體聲接口SPDIF IN/OUT和DLS(動態加載的音色庫)音樂和成器等等。

    請評分
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    210.059.209.***
    210.059.209.***
    發表于2019.10.02 14:20:12
    12
    069.197.***.***
    069.197.***.***
    11
    058.020.***.***
    058.020.***.***
    10
    123.138.***.***
    123.138.***.***
    通過閱讀這篇博文,我理解了HRTF的工作原理,了解到HRTF的三個重要因素:IAD、ITD和耳廓頻率振動。
    發表于2012.09.07 15:09:34
    9
    058.211.179.***
    058.211.179.***
    發表于2012.06.27 14:21:55
    8
    059.052.124.***
    059.052.124.***
    發表于2011.11.26 00:15:46
    7
    059.052.113.***
    059.052.113.***
    發表于2011.11.21 23:34:02
    6
    114.041.121.***
    114.041.121.***
    發表于2011.10.08 00:19:10
    5
    03
    發表于2010.04.04 20:19:23
    4
    發表于2003.11.12 23:22:58
    3
    發表于2003.11.12 16:51:24
    2
    發表于2003.11.12 10:51:17
    1
    提示
    本貼不可匿名回復,回復等級為:1 ,您現在正處在潛水狀態
    回復
    驗證碼
    6601 為防止廣告機貼垃圾,不得已而為之
    表情
    正文
    京ICP備11010137號 京ICP證110276號 京公網安備110114000469號