無損音樂是不是智商稅?音樂app上的是真·無損嗎?

自從流量不值錢,音樂軟件提供的音質是越來越高了。除了傳統的有損 ...... 哦不,是標準品質,還有無損格式。

到了今天,竟然還有“比無損更無損”的品質。當然,這需要你氪金成為比豪華會員更豪華的會員,才能聽到。

那麼,無損音樂是智商稅嗎?為什麼還有比無損更無損的音質?

為了搞清這些問題,我們不光查了資料,還找到了播客《九段琦談》的主理人於夢琦老師,和 QQ 音樂天琴實驗室音頻負責人趙老師,當面“質問”他們到底是怎麼回事。

其實從嚴格的物理意義上來講,不管氪多少金,你聽到的“無損”音樂都不可能是真正的無損音樂。

我們之前的視頻里說過,自然界里的聲音,都是連續的模擬信號。而以 0 和 1 的形式存儲的數字音樂,都是離散的數字信號。所以在把樂器或歌手的原聲記錄成數字音樂時,就存在一個轉換的過程。

這個轉換的精度,就是製作無損音樂的關鍵。

要把自然界中的模擬信號,轉換成 0 和 1 的數字音樂,就需要從原聲中選取一個個點,記錄下它們的信息。選取的點越密集,轉換越精確。這裡會涉及到三個基礎概念:採樣、量化和編碼。別怕,都很簡單,學會了還能裝 x~

“採樣”是指每隔一段時間,對模擬信號抽取一個觀測值,你可以理解為採樣點的密度。一秒內採樣的次數叫做“採樣頻率”,CD 的採樣頻率是 44.1kHz,也就是每一秒鐘的音樂,就包含了 44100 個採樣點。

而“量化”負責記錄縱軸振幅信息。每段音樂聲音都有強有弱,最強和最弱之間的差值,叫做“動態範圍”,單位就是我們常說的“分貝”(dB)。所謂“量化”,就是把動態範圍劃分成相等的層次,然後把採樣點的音量大小歸入最近的量值。

量化當然是越細越好。量化的精度叫做“位深度”,單位是 bit。比如如果位深度為 2 bit,也就是 ( 2^2 ) ,劃分 4 層, 那每個採樣點的音量大小就最多只有 4 種情況。我們打電話、廣播喇叭里的聲音,位深度比較低,聽起來比較粗糙。而 CD 中的音樂,位深度能達到 16bit,聽起來細膩得多。

經過採樣和量化後,我們就可以獲得每一個離散點的量值。把這些量值用 0 和 1 記錄下來的過程,就是“編碼”。

所以說穿了,音質這件事兒也很簡單:採樣和量化點越密集,音質就越好。

但問題是,不管多精密,採樣和量化畢竟只是記錄一個個點的信息,相比於平滑的原聲一定會有信息丟失,做不到嚴格物理意義上的無損。

但也沒關係~因為你的耳朵本來也不能 100% 接收所有的音頻信息。就算把周杰倫抓來你的地盤給你唱《我的地盤》,你也不可能聽清他的每一個發音細節。

所以“無損音樂”並不需要做到物理意義上的無損。只要你的耳朵分辨不出來原聲和錄製後的音樂,那就是無損。

那麼,採樣要多精確才分辨不出來呢?

通常來說,人類聽覺上限頻率是 20kHz。而根據著名的“奈奎斯特 - 香農採樣定理”,當採樣頻率大於模擬信號最高頻率的兩倍,那就不會丟失任何信息。所以如果採樣頻率達到 40kHz,也就是一秒鐘內包含至少 40000 個採樣點,就足以餵飽你的耳朵了。

這也是 CD 頻率為 44.1kHz、主流視頻的音頻採樣率為 48kHz 的原因——反正超過 40kHz 就夠了,人家還給你留了一點餘量呢~

量化也差不多。人說話的聲音通常在 40 – 60dB,長期聽超過 90dB 的聲音就會損壞聽力。根據這個位深度與動態範圍的公式,CD 的位深度為 16bit,動態範圍理論可以達到 96dB;一些古典樂會使用 24bit 位深度儲存,動態範圍更高,完全足夠包裹你的耳朵了。

一般來說,一首歌的音質達到 CD 級別,那就可以稱為無損音樂了。無損音樂包含的信息多,體積也大。一張 CD 大概 600-700MB 容量,只能給周杰倫十幾首歌的時間。

而 mp3 等有損壓縮的格式,則是通過去除聲音中的部分信息,來實現縮小文件體積的目的。

比如這是《我的地盤》的無損版本,和普通 mp3 版本的對比。可以看出,mp3 格式的文件中,高頻信息大量消失了。但這些高頻信息本就難以被耳朵捕捉到,而且 mp3 的算法設計十分優秀,你可能也聽不大出來區別。

感謝飛傲提供了設備,我們在柴司內部組織了一場盲聽測試。

我們選取了兩首古典樂,兩首流行樂,分別提供了兩個不同的音質選項。第一輪讓大家猜,他們兩次聽到的音樂究竟是不是同一音質。第二次是讓大家分辨,兩次聽到的音樂音質孰高孰低。

結果是,絕大多數朋友的測試準確率,果然就是跟瞎蒙的準確率一樣。其中有 4 位朋友全猜對了,不過其中 3 位承認,就是蒙的。只有一位朋友表示,她真能聽出來高頻上的那一點區別。於是我們拉着她又測了一輪,結果發現 ...... 她還是沒有經得起考驗。

總得來說,我們的測試結果顯示了:大部分人聽不出來高品質 mp3 和無損音樂的區別。但也不是完全沒有任何區別, 畢竟純蒙的話,從概率上說,出現全錯跟全對的概率應該相同,但實際結果是有 4 位同事蒙的全對。也有幾位表示,這首 《Yellow》在聽感上的區別相對明顯。

我們的測試規模比較小。不過 QQ 音樂的趙老師告訴我們,他們曾做過 5 萬人規模的測試,讓大家盲聽選擇更喜歡 SQ(無損音質)還是 HQ 音質(高品質)。結果是,57% 的用戶覺得 SQ 更好聽,43% 覺得 HQ 更好聽。這一定程度上說明了,確實有一些用戶能聽出來區別,但對大部分用戶來說,可能確實區別不大。

但我們非常好奇,普通人聽不出來我們能理解。但花了時間和金錢的燒友們,是不是真能聽出優質 mp3 和無損文件的區別?

柴知道:就您這邊的經驗來看的話,它們在聽音上能帶來比較明顯的區別嗎?

[ 九段琦談 ] 於夢琦:我覺得像你說的 320k 的 mp3 和無損之間的區別,其實也並不是那麼容易分辨的。我原來在我們自己的朋友圈子裡也試過,就是比如我準備三首曲子,然後我都打包成 wav,但有一首是 mp3 轉的,有一首是真的 wav。反正我自己承認流行音樂我根本就聽不出來,古典音樂我能聽出來。

柴知道:那為什麼會有流行音樂聽不出來,古典音樂能聽出來這個問題呢?它們倆之間的區別是什麼?

於夢琦:相對來說,我理解古典音樂的各種聲音會更連貫,而流行音樂人唱歌詞這種咬字的方式,他沒有那麼連貫。比如說模擬(信號)就是一個完美的正弦波,數字(信號)就是台階。如果你本身的響度變化越不連貫,其實你越難暴露數字那種台階的感覺。而如果你本來就是一個連貫的音,比如像弦樂的很多聲音,那它是比較容易有這種區別的。

但無論如何,mp3 版本確實少掉了一些人耳能聽見的信息,這是再好的設備也無法彌補的。在硬盤和流量都已經不值錢的今天,如果是對音質要求高的發燒友,那聽無損音樂確實有可能聽出更多細節,並不能說是智商稅。

無損音樂比普通音樂細節多,這很好理解。但剛才說過,人耳的聽覺範圍有限,能達到 CD 音質的就已經是無損音樂了。那音樂平台上為什麼會有比無損音樂更無損,買了豪華會員還要再升級成超級會員才能聽的音質選項,有意義嗎?

怎麼講呢,純從理論上來說,也不是完全沒有意義。

雖然包括我們在內,無數人都講過,人耳最高只能識別 20kHz 頻率的聲音,但這是指單音的上限:也就是說,在只播放單個固定頻率的聲音時,你最多只能聽到 20kHz。

但這並不意味着你在聽音樂時,就完全無法感知到頻率超過 20kHz 的聲波。比如 2000 年的這項研究發現,如果單獨播放高於 22kHz 的聲音,受試者們毫無反應。但在聽含有高於 22kHz 頻率信息的音樂時,受試者們的腦電波卻會更加活躍,他們也更喜歡含有高頻信息的音樂版本。

所以,雖然我們並不能夠“聽”到 20kHz 以上的超高頻聲音,但可能還是可以通過某種方式感知到它們的存在。

許多音樂軟件上那些“比無損更無損”的音樂旁邊,都會打上一個“ Hi-Res ”小金標。這最初是索尼提出一種音頻標準,意思是比常規 CD 和無損音樂更保真的音樂,通常代表能到到 96kHz 採樣率、24bit 位深度的歌曲。

當然,理論上更好,不代表你就能聽出來。要聽出 Hi-Res 跟普通無損的差異,那對水平的要求就更高了。

於夢琦:Hi-Res 是我覺得商業作用大於實際作用的認證方式。如果客觀的說,我覺得它保證了一些底線。但它完全不能表現上限。它只能確保底線比如說。

實事求是地說,從“無損”到“ Hi-Res ”提升的幅度,肯定比不上從普通 mp3 到無損的提升那麼大。

相比於在普通無損的基礎上繼續提升音質,大家更關心的可能是另外一個問題:就算花了錢,你聽到的無損,就一定是真 · 無損了嗎?

確實不一定。

一個很簡單的例子:比如很多老歌,在當初錄製的時候,就沒有採用那麼高的規格,從源頭上就達不到“無損”的標準。如果要把它們變成“無損音樂”,那就只能通過後期手段強行提升規格。

比如我們可以通過一些技術處理,把周璇的這首老歌,強行拉成接近無損的規格——但這就跟把 480P 的視頻強行輸出成 4k 一樣,並沒有增加信息量,只是浪費了更多的流量。

實際上,這也是音樂軟件們要面對的問題。QQ 音樂的趙老師告訴我們,他們無損音樂的來源,絕大多數都是官方給到的原始文件。但在大批量的無損音樂中,偶爾會有一些音源,其實並不符合無損標準。

[ QQ 音樂 ] 趙老師:他給過來之後呢,那個無損文件我們需要做一個檢測。但是我們發現,可能就有一些歌曲是非官方過來的,有一些不一定是滿足無損的條件的,它是轉成無損的。這個時候我們會把它們拒掉,讓他們重新提供真的無損。但是這個工具它不是保證率是 100% 的,會有一些錯誤率。但是我們工具從 2012 年到現在已經發展很多年了,工具也越來越趨於完善了,基本上漏網之魚很少了。我們的標準提得比較高,其他平台可能是 CD 品質就可以了。我們是比 CD 高兩個檔都有的。

所以有時候,聽感敏銳的燒友可能會發現,某些音樂雖然標着“無損”,但聽感也很一般。

音樂平台上的無損音質,和更稀有的 Hi-Res 音質,都是直接通過原始文件轉製得到的。而這些更高規格的“母帶”音質選項,那就涉及到 AI 的參與了。

趙老師:現在呢,人工智能的技術發展特別得快,所以我們就嘗試通過一些技術,能夠將這個歌曲更高的一些信息內容恢復出來。所以我們做了一個臻品母帶。那我們拿到的所有的它的音源沒有這樣一個品質的歌曲,我們都想辦法將它這部分的信息恢復出來。所以說這是我們通過算法去做的。

至於你是選擇聽原始的音質,還是聽 AI 處理過的音質,那就看你自己的選擇了。

如果你拿到了真 · 無損音樂,也要用專業的設備收聽,才能發揮出它的效果。如果你對此有興趣,那可以跳轉到我們做過的這期視頻。能不能聽得出來,那就看個人的造化了。

但無論能不能聽出來區別,都不耽誤你去燒更貴的設備,囤規格更高的無損音樂。

於夢琦:我以前曾經當過那種不聽音樂的發燒友,就是我可能永遠只有十首歌,然後我不停地換設備,然後永遠聽這十首歌。我有挺長一段時間是一個這樣的發燒友,就是一方面覺得自己不對,一方面又停不下來。但是後來慢慢的越來越偏向音樂這邊多一點兒,所以我現在就是一個偏音樂多一點兒的發燒友。

其實在任何領域入過坑的玩家都知道,玩設備的樂趣,很多時候就在於玩設備本身,而不在於最終的實際效果。

就像花花十幾萬塊買電腦的人,不一定真拿它剪視頻打遊戲,只是為了獲得“跑分又高了一點”的快感;花幾十萬買相機的人,不一定真能拍出好照片,只是為了看“德味”是不是又重了一點點;花幾百萬買車的人,一輩子都沒達到速度的極限,只是為了看響應速度是不是又快了 1 毫秒。

歸根結底,折騰的樂趣,就在於折騰本身。

好了,感謝你能看到這裡。為了把無損音樂講清楚,我們已經做了兩期視頻,也聯繫了廠商、燒友,和音樂平台做了採訪。在這個過程中,我們做的很開心,也希望能讓你感受到樂趣。

下期再見!