无损音乐是不是智商税?音乐app上的是真·无损吗?

自从流量不值钱,音乐软件提供的音质是越来越高了。除了传统的有损 ...... 哦不,是标准品质,还有无损格式。

到了今天,竟然还有“比无损更无损”的品质。当然,这需要你氪金成为比豪华会员更豪华的会员,才能听到。

那么,无损音乐是智商税吗?为什么还有比无损更无损的音质?

为了搞清这些问题,我们不光查了资料,还找到了播客《九段琦谈》的主理人于梦琦老师,和 QQ 音乐天琴实验室音频负责人赵老师,当面“质问”他们到底是怎么回事。

其实从严格的物理意义上来讲,不管氪多少金,你听到的“无损”音乐都不可能是真正的无损音乐。

我们之前的视频里说过,自然界里的声音,都是连续的模拟信号。而以 0 和 1 的形式存储的数字音乐,都是离散的数字信号。所以在把乐器或歌手的原声记录成数字音乐时,就存在一个转换的过程。

这个转换的精度,就是制作无损音乐的关键。

要把自然界中的模拟信号,转换成 0 和 1 的数字音乐,就需要从原声中选取一个个点,记录下它们的信息。选取的点越密集,转换越精确。这里会涉及到三个基础概念:采样、量化和编码。别怕,都很简单,学会了还能装 x~

“采样”是指每隔一段时间,对模拟信号抽取一个观测值,你可以理解为采样点的密度。一秒内采样的次数叫做“采样频率”,CD 的采样频率是 44.1kHz,也就是每一秒钟的音乐,就包含了 44100 个采样点。

而“量化”负责记录纵轴振幅信息。每段音乐声音都有强有弱,最强和最弱之间的差值,叫做“动态范围”,单位就是我们常说的“分贝”(dB)。所谓“量化”,就是把动态范围划分成相等的层次,然后把采样点的音量大小归入最近的量值。

量化当然是越细越好。量化的精度叫做“位深度”,单位是 bit。比如如果位深度为 2 bit,也就是 ( 2^2 ) ,划分 4 层, 那每个采样点的音量大小就最多只有 4 种情况。我们打电话、广播喇叭里的声音,位深度比较低,听起来比较粗糙。而 CD 中的音乐,位深度能达到 16bit,听起来细腻得多。

经过采样和量化后,我们就可以获得每一个离散点的量值。把这些量值用 0 和 1 记录下来的过程,就是“编码”。

所以说穿了,音质这件事儿也很简单:采样和量化点越密集,音质就越好。

但问题是,不管多精密,采样和量化毕竟只是记录一个个点的信息,相比于平滑的原声一定会有信息丢失,做不到严格物理意义上的无损。

但也没关系~因为你的耳朵本来也不能 100% 接收所有的音频信息。就算把周杰伦抓来你的地盘给你唱《我的地盘》,你也不可能听清他的每一个发音细节。

所以“无损音乐”并不需要做到物理意义上的无损。只要你的耳朵分辨不出来原声和录制后的音乐,那就是无损。

那么,采样要多精确才分辨不出来呢?

通常来说,人类听觉上限频率是 20kHz。而根据著名的“奈奎斯特 - 香农采样定理”,当采样频率大于模拟信号最高频率的两倍,那就不会丢失任何信息。所以如果采样频率达到 40kHz,也就是一秒钟内包含至少 40000 个采样点,就足以喂饱你的耳朵了。

这也是 CD 频率为 44.1kHz、主流视频的音频采样率为 48kHz 的原因——反正超过 40kHz 就够了,人家还给你留了一点余量呢~

量化也差不多。人说话的声音通常在 40 – 60dB,长期听超过 90dB 的声音就会损坏听力。根据这个位深度与动态范围的公式,CD 的位深度为 16bit,动态范围理论可以达到 96dB;一些古典乐会使用 24bit 位深度储存,动态范围更高,完全足够包裹你的耳朵了。

一般来说,一首歌的音质达到 CD 级别,那就可以称为无损音乐了。无损音乐包含的信息多,体积也大。一张 CD 大概 600-700MB 容量,只能给周杰伦十几首歌的时间。

而 mp3 等有损压缩的格式,则是通过去除声音中的部分信息,来实现缩小文件体积的目的。

比如这是《我的地盘》的无损版本,和普通 mp3 版本的对比。可以看出,mp3 格式的文件中,高频信息大量消失了。但这些高频信息本就难以被耳朵捕捉到,而且 mp3 的算法设计十分优秀,你可能也听不大出来区别。

感谢飞傲提供了设备,我们在柴司内部组织了一场盲听测试。

我们选取了两首古典乐,两首流行乐,分别提供了两个不同的音质选项。第一轮让大家猜,他们两次听到的音乐究竟是不是同一音质。第二次是让大家分辨,两次听到的音乐音质孰高孰低。

结果是,绝大多数朋友的测试准确率,果然就是跟瞎蒙的准确率一样。其中有 4 位朋友全猜对了,不过其中 3 位承认,就是蒙的。只有一位朋友表示,她真能听出来高频上的那一点区别。于是我们拉着她又测了一轮,结果发现 ...... 她还是没有经得起考验。

总得来说,我们的测试结果显示了:大部分人听不出来高品质 mp3 和无损音乐的区别。但也不是完全没有任何区别, 毕竟纯蒙的话,从概率上说,出现全错跟全对的概率应该相同,但实际结果是有 4 位同事蒙的全对。也有几位表示,这首 《Yellow》在听感上的区别相对明显。

我们的测试规模比较小。不过 QQ 音乐的赵老师告诉我们,他们曾做过 5 万人规模的测试,让大家盲听选择更喜欢 SQ(无损音质)还是 HQ 音质(高品质)。结果是,57% 的用户觉得 SQ 更好听,43% 觉得 HQ 更好听。这一定程度上说明了,确实有一些用户能听出来区别,但对大部分用户来说,可能确实区别不大。

但我们非常好奇,普通人听不出来我们能理解。但花了时间和金钱的烧友们,是不是真能听出优质 mp3 和无损文件的区别?

柴知道:就您这边的经验来看的话,它们在听音上能带来比较明显的区别吗?

[ 九段琦谈 ] 于梦琦:我觉得像你说的 320k 的 mp3 和无损之间的区别,其实也并不是那么容易分辨的。我原来在我们自己的朋友圈子里也试过,就是比如我准备三首曲子,然后我都打包成 wav,但有一首是 mp3 转的,有一首是真的 wav。反正我自己承认流行音乐我根本就听不出来,古典音乐我能听出来。

柴知道:那为什么会有流行音乐听不出来,古典音乐能听出来这个问题呢?它们俩之间的区别是什么?

于梦琦:相对来说,我理解古典音乐的各种声音会更连贯,而流行音乐人唱歌词这种咬字的方式,他没有那么连贯。比如说模拟(信号)就是一个完美的正弦波,数字(信号)就是台阶。如果你本身的响度变化越不连贯,其实你越难暴露数字那种台阶的感觉。而如果你本来就是一个连贯的音,比如像弦乐的很多声音,那它是比较容易有这种区别的。

但无论如何,mp3 版本确实少掉了一些人耳能听见的信息,这是再好的设备也无法弥补的。在硬盘和流量都已经不值钱的今天,如果是对音质要求高的发烧友,那听无损音乐确实有可能听出更多细节,并不能说是智商税。

无损音乐比普通音乐细节多,这很好理解。但刚才说过,人耳的听觉范围有限,能达到 CD 音质的就已经是无损音乐了。那音乐平台上为什么会有比无损音乐更无损,买了豪华会员还要再升级成超级会员才能听的音质选项,有意义吗?

怎么讲呢,纯从理论上来说,也不是完全没有意义。

虽然包括我们在内,无数人都讲过,人耳最高只能识别 20kHz 频率的声音,但这是指单音的上限:也就是说,在只播放单个固定频率的声音时,你最多只能听到 20kHz。

但这并不意味着你在听音乐时,就完全无法感知到频率超过 20kHz 的声波。比如 2000 年的这项研究发现,如果单独播放高于 22kHz 的声音,受试者们毫无反应。但在听含有高于 22kHz 频率信息的音乐时,受试者们的脑电波却会更加活跃,他们也更喜欢含有高频信息的音乐版本。

所以,虽然我们并不能够“听”到 20kHz 以上的超高频声音,但可能还是可以通过某种方式感知到它们的存在。

许多音乐软件上那些“比无损更无损”的音乐旁边,都会打上一个“ Hi-Res ”小金标。这最初是索尼提出一种音频标准,意思是比常规 CD 和无损音乐更保真的音乐,通常代表能到到 96kHz 采样率、24bit 位深度的歌曲。

当然,理论上更好,不代表你就能听出来。要听出 Hi-Res 跟普通无损的差异,那对水平的要求就更高了。

于梦琦:Hi-Res 是我觉得商业作用大于实际作用的认证方式。如果客观的说,我觉得它保证了一些底线。但它完全不能表现上限。它只能确保底线比如说。

实事求是地说,从“无损”到“ Hi-Res ”提升的幅度,肯定比不上从普通 mp3 到无损的提升那么大。

相比于在普通无损的基础上继续提升音质,大家更关心的可能是另外一个问题:就算花了钱,你听到的无损,就一定是真 · 无损了吗?

确实不一定。

一个很简单的例子:比如很多老歌,在当初录制的时候,就没有采用那么高的规格,从源头上就达不到“无损”的标准。如果要把它们变成“无损音乐”,那就只能通过后期手段强行提升规格。

比如我们可以通过一些技术处理,把周璇的这首老歌,强行拉成接近无损的规格——但这就跟把 480P 的视频强行输出成 4k 一样,并没有增加信息量,只是浪费了更多的流量。

实际上,这也是音乐软件们要面对的问题。QQ 音乐的赵老师告诉我们,他们无损音乐的来源,绝大多数都是官方给到的原始文件。但在大批量的无损音乐中,偶尔会有一些音源,其实并不符合无损标准。

[ QQ 音乐 ] 赵老师:他给过来之后呢,那个无损文件我们需要做一个检测。但是我们发现,可能就有一些歌曲是非官方过来的,有一些不一定是满足无损的条件的,它是转成无损的。这个时候我们会把它们拒掉,让他们重新提供真的无损。但是这个工具它不是保证率是 100% 的,会有一些错误率。但是我们工具从 2012 年到现在已经发展很多年了,工具也越来越趋于完善了,基本上漏网之鱼很少了。我们的标准提得比较高,其他平台可能是 CD 品质就可以了。我们是比 CD 高两个档都有的。

所以有时候,听感敏锐的烧友可能会发现,某些音乐虽然标着“无损”,但听感也很一般。

音乐平台上的无损音质,和更稀有的 Hi-Res 音质,都是直接通过原始文件转制得到的。而这些更高规格的“母带”音质选项,那就涉及到 AI 的参与了。

赵老师:现在呢,人工智能的技术发展特别得快,所以我们就尝试通过一些技术,能够将这个歌曲更高的一些信息内容恢复出来。所以我们做了一个臻品母带。那我们拿到的所有的它的音源没有这样一个品质的歌曲,我们都想办法将它这部分的信息恢复出来。所以说这是我们通过算法去做的。

至于你是选择听原始的音质,还是听 AI 处理过的音质,那就看你自己的选择了。

如果你拿到了真 · 无损音乐,也要用专业的设备收听,才能发挥出它的效果。如果你对此有兴趣,那可以跳转到我们做过的这期视频。能不能听得出来,那就看个人的造化了。

但无论能不能听出来区别,都不耽误你去烧更贵的设备,囤规格更高的无损音乐。

于梦琦:我以前曾经当过那种不听音乐的发烧友,就是我可能永远只有十首歌,然后我不停地换设备,然后永远听这十首歌。我有挺长一段时间是一个这样的发烧友,就是一方面觉得自己不对,一方面又停不下来。但是后来慢慢的越来越偏向音乐这边多一点儿,所以我现在就是一个偏音乐多一点儿的发烧友。

其实在任何领域入过坑的玩家都知道,玩设备的乐趣,很多时候就在于玩设备本身,而不在于最终的实际效果。

就像花花十几万块买电脑的人,不一定真拿它剪视频打游戏,只是为了获得“跑分又高了一点”的快感;花几十万买相机的人,不一定真能拍出好照片,只是为了看“德味”是不是又重了一点点;花几百万买车的人,一辈子都没达到速度的极限,只是为了看响应速度是不是又快了 1 毫秒。

归根结底,折腾的乐趣,就在于折腾本身。

好了,感谢你能看到这里。为了把无损音乐讲清楚,我们已经做了两期视频,也联系了厂商、烧友,和音乐平台做了采访。在这个过程中,我们做的很开心,也希望能让你感受到乐趣。

下期再见!