光碟見證數碼多媒體的30年 開啟有損數字音頻時代的MP3
夏昆岡 于 2009.09.02 11:10:09 | 源自:www.soomal.com | 版權:原創 | 平均/總評分:09.86/69

VCD是第一種被廣泛普及的數字化影音光碟,它采用了一種叫做MPEG-1的編碼技術,這是一種有損壓縮的數字媒體技術,它分作視訊壓縮和音頻壓縮兩部分。今天我們先要回顧的是音頻部分。音頻部分被稱作MPEG Audio Layer,根據編碼復雜程度的不同可分為三層,分別為MPEG Audio Layer 1/2/3。VCD采用的是MPEG Audio Layer 2。而最為人們熟知的MP3是MPEG Audio Layer 3,MP3即MPEG Audio Layer 3的縮寫。MP3與VCD有著密切的關系。

  • MPEG Audio最初并沒有作為單獨的編碼方案使用,但在當時,存儲技術還比較落后,存儲成本也非常高,如何低成本的保存高質量的音頻訊號是攻關重點。1993年由德國Fraunhofer IIS研究院和湯姆生公司合作發展出MP3,MP3可以做到12:1的驚人壓縮比并保持基本可聽的音質(128kbps碼率前提),在當年硬碟天價的日子里,MP3迅速被用戶接受,隨著網路的普及,MP3被數以億計的用戶接受。MP3編碼技術的發布之初其實是非常不完善的,由于缺乏對聲音和人耳聽覺的研究,早期的mp3編碼器幾乎全是以粗暴方式來編碼,音質破壞嚴重。

    VBR:MP3格式的檔案有一個有意思的特征,就是可以邊讀邊放,這也符合串流媒體的最基本特征。也就是說播放器可以不用預讀檔案的全部內容就可以播放,讀到哪里播放到哪里,即使是檔案有部分損壞。雖然mp3可以有檔案頭,但對于mp3格式的檔案卻不是很重要,正因為這種特性,決定了MP3檔案的每一段每一幀都可以單獨的平均數據速率,而無需特別的解碼方案。于是出現了一種叫VBR(Variable bitrate,動態數據速率)的技術,可以讓MP3檔案的每一段甚至每一幀都可以有單獨的bitrate,這樣做的好處就是在保證音質的前提下最大程度的限制了檔案的大小。這種技術的優越性是顯而易見的,但要運用確實是一件難事,因為這要求編碼器知道如何為每一段分配bitrate,這對沒有波形分析的編碼器而言,這種技術如同虛設。正是如此,VBR技術并沒有一出現就顯得光彩奪目。

    聽覺模型的導入:專家們通過長期的聲學研究,發現人耳存在遮蔽效應。聲音訊號實際是一種能量波,在空氣或其他媒介中傳播,人耳對聲音能量的多少即響度或聲壓最直接的反應就是聽到這個聲音的大小,我們稱它為響度,表示響度這種能量的單位為分貝(dB)。即使是同樣響度的聲音,人們也會因為它們頻率不同而感覺到聲音大小不同。人耳最容易聽到的就是4000Hz的頻率,不管頻率是否增高或降低,即使是響度在相同的情況下,大家都會覺得聲音在變小。但響度降到一定程度時,人耳就聽不到了,每一個頻率都有著不同的值。 

  • 可以看到這條曲線基本成一個V字型,當頻率超過 15000Hz時,人耳的會感覺到聲音很小,很多聽覺不是很好的人,根本就聽不到20000Hz的頻率,不管響度有多大。當人耳同時聽到兩個不同頻率、不同響度的聲音時,響度較小的那個也會被忽略,例如:在白天我們很難聽到電腦中散熱風扇的聲音,晚上卻成了噪聲源,根據這種原理,編碼器可以過濾掉很多聽不到的聲音,以簡化資訊復雜度,增加壓縮比,而不明顯的降低音質。這種遮蔽被稱為同時遮蔽效應。但聲音A被聲音B遮蔽,如果A處于B為中心的遮蔽范圍內,遮蔽會更明顯,這個范圍叫臨界頻寬。每一種頻率的臨界頻寬都不一樣,頻率越高的臨界頻寬越寬。

    頻率(Hz)臨界頻寬(Hz)頻率(Hz)臨界頻寬(Hz)
    50801850280
    1501002150320
    3501002500380
    4501103400550
    5701204000700
    7001404800900
    84015058001100
    100016070001300
    117019085001800
    1370210105002500
    1600240135003500

    根據這種效應,專家們設計出人耳聽覺心理模型,這個模型被導入到mp3編碼中后,導致了一場翻天覆地的音質革命。MP3音質也因此逐漸被主流消費者接受,這樣也觸發了后來的一場隨身聽裝置革命。MP3讓瀕臨破產的蘋果咸魚翻身,而當時的隨身聽行業龍頭Sony則從此被迅速的邊緣化。

    MP3對行業的貢獻還不止這些。

    串流媒體時代的先鋒

    不知道大家還是否記得當年VCD廣告最愛說的一個賣點——超強糾錯?所謂超強糾錯就是遇到讀不出的數據段,將直接跳過去,以保證播放的基本流暢。

    這并不是VCD的播放機有多牛,而是VCD采用的MPEG-1的編碼技術,可以在讀取數據前不用預讀檔案資訊,簡單的說,就是可以邊讀邊播放。具備這種特征的媒體都可以稱為串流媒體。脫胎于MPEG-1的MP3也繼承了這個特征。

    因為MP3具有串流媒體特征,因此它可以用于基于網路的數字廣播的搭建。MP3相對后來出現的Windows Media Audio等編碼技術,還是壓縮率太低,并不適合網路廣播,但MP3給后來者的引導作用是積極的并且作用巨大。

    串流媒體,這是一個在1993年就基本確定的概念,但有些“不明真相”的廠商,還在借助這個概念炒作什么串流媒體電視或者串流媒體喇叭,讓人啼笑皆非。

    MP3的衍生方案

    2001年6月14日,湯姆森多媒體公司 (Thomson Multimedia SA)與佛朗赫弗協會(Fraunhofer Institute)于6月14日發布了一種新的音樂格式版本,名稱為mp3PRO,這是一種基于mp3編碼技術的改良方案,從官方公布的特征看來確實相當吸引人。從各方面的資料顯示,mp3PRO并不是一種全新的格式,完全是基于傳統mp3編碼技術的一種改良,本身最大的技術亮點就在于 SBR(Spectral Band Replication 頻段復制),這是一種新的音頻編碼增強算法。它提供了改善低位率情況下音頻和語音編碼的性能的可能。這種方法可在指定的位率下增加音頻的頻寬或改善編碼效率。SBR最大的優勢就是在低數據速率下實現非常高效的編碼,與傳統的編碼技術不同的是,SBR更像是一種后處理技術,因此解碼器的算法的優劣直接影響到音質的好壞。高頻實際上是由解碼器(播放器)產生的,SBR編碼的數據更像是一種產生高頻的命令集,或者稱為指導性的訊號源,這有點駇idi的工作方式。我們可以看到,mp3PRO其實是一種mp3訊號流和SBR訊號流的混合數據流編碼。有關資料顯示,SBR技術可以改善低數據流量下的高頻音質,改善程度約為30%,我們不管這個30%是如何得來的,但可以事先預知這種改善可以讓64kbps的mp3達到128kbps的mp3的音質水準(注:在相同的編碼條件下,數據速率的提升和音質的提升不是成正比的,至少人耳聽覺上是這樣的),這和官方聲稱的64kbps的mp3PRO可以媲美128kbps的 mp3的宣傳基本是吻合的。但這個編碼方案沒有獲得各界的支援,基本早夭了。

    Fraunhofer Institute 后來還發布MP3環繞(多聲道的MP3)以及MP3 HD(高清版的MP3)等等衍生方案,但都沒有像MP3那樣成為一個偉大的時代開啟者。

    請評分
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    是不是DVD的播放需要預讀?不過好像也有超強糾錯的說法!
    發表于2009.09.11 11:24:44
    7
    114.246.***.***
    114.246.***.***
    cirrus logic當年在vcd時候專門注冊了一個公司叫“死搞唄”,做超強糾錯技術,還要往外殼上面貼個c-cube的logo,他們都知道這個是玩票的~
    看現在,不玩了吧,賣掉。繼續做他們的adc/dac
    發表于2009.09.03 13:44:43
    6
    03
    發表于2009.09.02 14:14:03
    5
    你文章太少了,比小說更的還慢
    發表于2009.09.02 13:18:55
    2
    123.112.***.***
    123.112.***.***
    發表于2009.09.02 12:29:52
    1
    提示
    本貼不可匿名回復,回復等級為:1 ,您現在正處在潛水狀態
    回復
    驗證碼
    8878 為防止廣告機貼垃圾,不得已而為之
    表情
    正文
    京ICP備11010137號 京ICP證110276號 京公網安備110114000469號