發表日期 5/7/2022, 11:02:00 PM
現在幾乎所有音樂軟件都普及瞭 FLAC 無損格式,MP3 格式早已成為過去時。但這個記憶中最常見的音頻格式,雖然大小隻有彆人的幾分之一,音質卻並不差,不免讓人好奇它到底使用瞭哪些黑科技。
從愛迪生發明留聲機開始,人類保存和傳播聲音的曆史已經有 140 多年。
但在最近的 20 年裏,一種音頻格式的誕生卻改變瞭人們的音樂體驗。那就是 MP3 。
作為世界上應用最為廣泛的音頻格式,MP3 的誕生第一次讓音樂成為一種人人可以觸及的大眾消費品。
應該有不少小夥伴擁有的第一個音樂播放器,就是 MP3 Player 吧,甚至在當年,大傢都默認 MP3 就是音樂的代名詞。
但同樣是數字音頻, MP3 隻有標準 CD 大小的十二分之一,而對於人耳來說,這兩者的區彆,有,但要比圖片壓縮之類的要難以察覺的多瞭,所以它對音樂做瞭什麼? 又丟掉瞭什麼呢?
今天跟大傢聊聊你最常見到的音頻格式 ――MP3。
MP3 到底丟失瞭什麼?
壓縮前後的區彆是什麼?
如果我們想減少一個文件的體積,最直接的方法就是壓縮。
通常我們理解的壓縮,都是重復壓縮。比如你去超市買 5 瓶可口可樂,小票上不會寫 5 次可樂,隻用寫“ 可口可樂*5 ”就行瞭。這個過程就相當於把文件裏重復的部分用更短的字節編碼。文件本身不會丟失數據,解碼後也不會損耗任何信息,隻是讓文件體積變小瞭。
這是一種無損壓損,實際上 MP3 的最後一步就是這麼乾的,它用一種叫 Huffman Coding 的算法來完成。但如果隻用這種算法,MP3的體積並不會顯著縮小。
因為聲音本身是一種極其混亂,信息熵非常高的數據。所以這種方式不可能讓它縮小到 CD 體積的 10 % 。
那既然無損壓縮這條路走不通瞭,乾脆就丟掉一些信息好瞭。
那 MP3 到底丟瞭哪些聲音呢?
我們要想知道答案,最簡單的方式就是對比。
我們把同一段聲音的 MP3 和它的無損版本並列在兩條軌道上,把其中一軌反相,那如果它倆的聲音是一樣的,就會互相抵消,我們就應該得到一個靜音效果。這也是降噪耳機的工作原理。
但因為 MP3 是有損壓縮,所以實際聽起來會是這樣:
但隻有這樣我們還說不齣 MP3 和無損的區彆。如果一段音樂就是在 MP3 和無損之間不斷切換的,你真的能區分的齣來嗎?我相信你是聽不齣來的。
這就是 MP3 算法的神奇之處,它的壓縮並不是簡單的丟掉聲音數據,而是在丟掉數據的同時,你卻察覺不到。
MP3誕生史
Brandenburg 和 Dieter Seitzer 的故事
70 年代末,有一個叫 迪特・塞策( Dieter Seitzer ) 的德國教授突然冒齣個超前的想法。他想讓大傢可以坐在傢裏,用 ISDN 的電話綫,打電話來點播音樂,就跟點唱機差不多。
ISDN 是當時流行的數字綫路,也叫“ 一綫通 ”,你可以用它打電話、收發傳真之類的,但它的速率隻有128kbps 。
所以當迪特把這個想法申報專利的時候,專利局的工作人員告訴他這事兒沒戲。除非你能讓 ISDN 的網絡速率提高十二倍,那纔夠傳輸 CD 的數據量。
迪特一聽,提網速這事兒估計自己乾不瞭,但如果發明齣一種隻有 CD 1/12 大小 的音頻格式,不就可以搞這個“ 數字點唱機 ”瞭嗎。於是他轉頭把這個發明工作交給瞭自己一個叫 Karlheinz Brandenburg 的學生。
Brandenburg 的碩士論文研究方嚮是一個叫 ATC 的語音壓縮算法,迪特也是看中瞭這點纔找到他的。但 Brandenburg 接到這個任務的時候也很鬱悶。
心想 tnnd 你一個教授都做不齣來,我小小一博士生怎麼做的齣來,但導師交待的任務又不能不完成,所以他就打算用幾年的時間來證明這事兒不可能,然後論文一寫,把博士學位混到手算球!而就在他證明“ 不可能發明一個比 CD 小 12倍 的音頻文件 ”的過程中,他卻發現,哎,這事還真是有可能的。
心理聲學與MP3
讓 Brandenburg 覺得這事兒有戲的關鍵,是一個極其冷門的學科,叫 心理聲學( Psychoacoustics )。
這是一門心理物理學的分支研究,最早源於人們對音樂和樂器的探索,後來成為瞭研究人的生理感官和客觀聲音世界之間關係的學科。聽起來很復雜,其實很好理解,比如人耳的聲音定位,聽力範圍這類研究,都屬於心理聲學的範疇。
在心理聲學裏有一個非常經典的研究,就是等響麯綫。這個麯綫告訴我們,人耳對於不同頻率的聲音,感知相差極大。人類的聽覺範圍在 20-20000Hz 之間,而在這個範圍裏的不同頻率下,我們聽到的響度是不一樣的。
低頻的聲音需要更大的聲壓纔能和中頻較小的聲壓,所形成的聲音大小聽起來相等。
就比如貝斯就需要更大的音量,纔能跟吉他聲聽起來差不多大。這也是為什麼貝斯這類低音樂器的音箱要比其他音箱的體積大得多。
而圖中的最低點齣現在 3000Hz 左右,所以說明人對這個頻率的聲音最敏感,隻需要比較小的聲壓就能聽到。比如我們聽到的大部分的警報聲,基頻都在 1000-3000Hz ,這樣人耳纔能更容易捕捉這些聲音,從而避免危險。
有意思的是,隨著年齡增大,我們對於聲音的接收範圍也在變小,大多數成年人聽不到頻率在 16000Hz 以上的聲音。
沿著這個方嚮,等響麯綫的發現者又研究齣瞭一個更加神奇的事情,讓我們意識到我們的感官和客觀到底差距有多麼巨大。
這個東西,就是 “ 掩蔽 ”( Masking ) 。
聲音掩蔽 Sound Masking
1958 年的某天下午,一個叫 Licklider 的心理學傢去看牙醫,他跟醫生說,我不需要打麻藥。然後掏齣瞭一副耳機,開始聽震耳欲聾的音樂。在巨大的音樂聲中,牙醫幫他搞定瞭三顆齲齒,而他就像被打瞭麻醉劑一樣,竟然沒有感覺到疼。
Licklider 把這項技術命名為 Audiac ,之後他帶著這玩意和牙醫一起巡診拔牙,還幫助瞭不少婦女緩解瞭分娩時的疼痛。
Audiac 用瞭一種強烈的聽覺刺激來抑製疼痛,這就是一種跨感官的 掩蔽效果 。
在聽覺係統中,一種聲音也會被另一種同時發齣的聲音所掩蓋。比如在一個樂隊裏,往往是吉他聲在 C 位,但如果突然有相似頻率的樂器加入,比如小號。那吉他的聲音就會被短暫的淹沒。這一過程叫作 同頻掩蔽 。
我們用一個動畫來舉例子,當一個頻率從低到高的噪音經過一個正弦音的時候,這個聲音會被噪音掩蓋。
聽起來就是這樣:
再比如你上課的時候,想用一聲咳嗽來掩蓋自己放屁的聲音,那你最好要滿足三個條件,一是咳嗽聲的時長大於等於屁聲,二是咳嗽聲的響度要大於等於屁聲。三是要保證二者的頻率接近。這三個條件都滿足,纔是一次齣色的掩蔽。
那這和 MP3 有什麼關係呢?MP3 的算法就是利用瞭人耳的這種特性,將歌麯中不同頻率裏被淹沒的聲音瞬間,給丟掉瞭。這樣就可以在減少文件體積的條件下,最小程度的損失音質。
時間掩蔽 temporal masking
但這還不夠。
當我們聽到一個噪音戛然而止的之後,實際上會有一個 100-200ms 的逐漸減弱的掩蔽效果。在噪音完全停止後的這段時間裏,比他更小的聲音會被掩蔽,我們是完全聽不見的,就像我們的耳朵需要 200ms 的時間迴復知覺一樣。
不光如此,噪音還會掩蔽在它之前的聲音,雖然隻有 50ms,但對於感官來說已經是相當長的一段時間瞭,這意味著我們的大腦需要 50ms 的緩衝纔能報告到意識裏。
而這個前後過程,就叫作 時間掩蔽 。
MP3 壓縮算法的核心,就是利用一個精心迭代瞭許多年的人體聽覺心理學模型,把音樂裏的每一個瞬間對應在 MP3 文件格式裏的 每一幀( FRAME ) ,檢查這個幀內,上述兩種掩蔽作用所發生的頻率和時間段,把那些被掩蓋的,我們聽不到的音頻信息統統丟掉。
這個過程並不單純是精確地,機械式地判斷,它的底色其實是感官上的把控。
在 MP3 算法測試初期,測試人員需要在海量的歌麯中找齣 MP3 壓縮算法的問題。它們要在各種歌麯的 MP3 和無損版本之間對比,而且每聽一首歌他們都要評級,一共有四個等級,分彆是:聽不齣區彆、有一點區彆、有點難聽和非常難聽。特彆是最後兩個選項,可以說是非常主觀的判斷瞭。
這意味著 MP3 算法的發明和改進,實際上把人的主觀評判作為考量的目標之一。我們不能說這種算法是完全主觀的,它也不是絕對客觀的,所以它的效果也不可能在所有歌麯中都是平均的。
Vega和音頻編碼標準之戰
說到這,就不得不提 MP3 發明過程中的一個小故事。在 MP3 壓縮算法測試的最後階段曾遇到過一個大難題,當時 Brandenburg 和他的同事們覺得自己的算法已經非常牛逼瞭,幾乎在所有的雙盲測試中都很難聽齣區彆。
有天他無意中看到雜誌上說大傢喜歡用 Suzanne Vega 的歌麯 Tom's Diner 來測試自己的音箱,而他正好在弗勞恩霍夫實驗室( Fraunhofer )看到瞭這張 CD ,於是他就把這首歌上傳到瞭電腦上。
這首歌非常簡單,是一個純人聲,沒有伴奏的歌麯。但當他通過 MP3 的壓縮算法處理這首歌之後,卻得到這樣一個效果。
在 MP3 較低的比特率下,Vega 的聲音變得沙啞,不自然。於是在之後的一年時間裏,研發團隊又對 MP3 算法做瞭幾韆次的微小調整, Brandenburg 說自己至少聽瞭三韆遍這首歌,可能比地球上任何人聽得次數都多。
最後他們成功壓縮瞭這首 Tom's Diner ,也通過這首歌,真正完善瞭 MP3 的壓縮算法。
許多年之後,Brandenburg 真的遇到瞭 Vega ,而且還現場聽她唱瞭那首Tom's Diner。盡管已經聽瞭無數遍,但他說,這首歌依然很好聽。
Brandenburg 終於在 1989 年發錶瞭他的論文。下一步就是將這項技術推嚮世界。也就是在 90 年代初,業界突然齣現好幾種新興技術,它們正在尋找一種新的音頻編碼標準來使用,這其中包括我們熟悉的“ CD-ROM ”和“ DVD ”。於是他和他的團隊嚮動態影像專傢組( MPEG )提交瞭參賽作品,他們要和另外 13 個團隊競爭新的音頻編碼標準。而最大的競爭對手來自一個名為 MUSICAM 的組織,這個組織的背後是飛利浦,當時飛利浦手握 CD 光盤的專利,可以說是如日中天。
所以盡管他們團隊的技術數據量更小,音質也更強,但最後還是輸給瞭 MUSICAM 。
因為MUSICAM 的算法需要的處理能力更少。在當時處理器普遍不太行的時代,確實更有優勢。
因此在當年,MP3 是一個妥妥的失敗品。連它的發明者也已經開始著手研究新的音頻編碼。MP3 就這樣被扔進瞭曆史的垃圾堆裏。
直到 90 年代中期,兩種革命性技術的誕生,讓 MP3 這顆棄子重新活瞭過來,那就是萬維網和 Windows 95。
一個同樣來自德國的研發團隊,開發瞭一種用於 MP3 的軟件播放器,並且發布在瞭 Windows 係統上。
當時,1 GB 大小的硬盤剛剛開始普及,存儲空間非常珍貴,反而處理器有瞭巨大的提升。所以體積更小的 MP3 慢慢被大傢接受,也意外的成為瞭新的音頻編碼標準。1995年7月14日是 MP3 的生日,Karlheinz Brandenburg 和他在弗勞恩霍夫研究所的同事們( Fraunhofer )決定把這個壓縮算法的文件擴展名,根據行業標準的全稱 MPEG-2 Audio Layer III ,命名為 .MP3。
到瞭 90 年代後期,“ MP3 ”取代“ SEX ”成為搜索引擎上查詢最多的詞。某次 Brandenburg 在香港齣差時,看到櫥窗裏擺著 30 種不同品牌的 MP3 播放器,他心想,“ 好吧,我們終於贏瞭。”
MP3 正在消失
MP3 的誕生比我想象的要復雜的多,它是一個耗時多年,經曆瞭無數迭代纔得到的科研成果。這個成果可以說是重塑瞭人類音樂産業。也正是由 MP3 開始,音樂,成瞭一種人人可以觸及的大眾消費品。
從黑膠、磁帶,再到 CD、MP3,每一次技術革新都在改變人們的音樂體驗,也在改變大傢消費音樂的方式。而 MP3 在這段曆史中格外的與眾不同。推崇它的人認為,MP3 無比偉大,它讓大傢都能便捷地享受音樂;而反對它的人,視它如猛獸,因為它吞噬瞭唱片公司賴以生存的版權,以及唱片業曾經的黃金時代。
今天,數字音樂留瞭下來,但 MP3 已經走到瞭被時代淘汰的邊緣。我們再也不需要把音樂下載到播放器裏,再用播放器來聽音樂,大傢都是用手機在綫聽歌,5G 通訊和幾百G內存,讓音頻壓縮變得更沒必要,音樂平台也漸漸轉嚮瞭FLAC等無損格式。
但我們都記住瞭那個聽 MP3 的時代,和那些陪伴過我們的音樂。
撰文: 楊子 視頻製作 :張詠 & 小爪
動效: 天宇 美編 :煥妍(視頻)& 萱萱(推文)
圖片、資料來源:
不在場 S2E1 MP3 -重輕
Equal-loudness contour
Karlheinz Brandenburg,Dieter Seitzer,Huffmancoding -Wikipedia
How MP3 Got Its Groove -Internet hall of fame
The History of MP3 Technology -ThoughtCo.
The Human Auditory System -ScienceDirect
The Music Industry Strikes Back | System Shock Ep 2 -Bloomberg Quicktake: Originals
How a Suzanne Vega Song Helped Create the MP3 - Great Big Story
Perceptual Coding: How Mp3 Compression Works -WaybackMachine
SOUND THAT KILLS PAIN - Will Stephenson
語音信號處理 -韓紀慶
聲學發展史之――心理聲學(Psychoacoustics) -知乎 子魚
MP3 走到瞭終點,為電話和廣播而生的技術,改變瞭整個音樂産業 -好奇心日報
本文經授權轉載自微信公眾號:差評 作者:差評君
轉載內容僅代錶作者觀點
不代錶中科院高能所立場
編輯:劉玉龍
精彩視頻 不要錯過
[東方時空]吾傢吾國 陳和生
星標關注“中科院高能所”微信公眾號
精彩內容不錯過