跳到主要内容

真实信息量

· 阅读需 5 分钟

一段文字、一首曲子、一幅画,真实信息量到底有多少?

从前,除了文件尺寸,我们很难找到别的客观标准来衡量信息量的大小。生成式 AI 的面世揭示了许多数据真实的信息量。比如,记录一个复杂的数学证明可能只需要几 KB 大小的文本文件,却要动用上 T 参数的模型才能正确生成。歌曲音频一般几个 MB,视频动辄几百 MB(非压缩格式的话尺寸更大),但音画生成模型的尺寸相比好的语言模型反而要小很多。如果比较目前开放权重的视频模型和音频模型,两者的规模其实非常接近,远没有它们各自生成的内容(视频和音频)在文件大小上的差距那么大。

目前几大前沿开放模型的尺寸
模型名称类型参数量
ACE-Step音乐🎵3.5B
flux.1 [dev]图像📷12B
Wan2.2视频🎥14B
DeepSeek-R1-0528文字📜685B

这说明,虽然近年来通讯技术一路飞速发展,传输的数据总量呈爆炸式增长,但是这些通讯载体所承载的真实信息量可能没增长得那么快,甚至还有可能在倒退。人类骄傲地宣称「我们身处在一个信息爆炸的时代」,是不是把成千上万 TB 的 Tiktok 视频都算进去了呢?不知道两百年后的历史学家在看到这些视频「史料」的时候,会对我们这个时代作何感想。

外表与内涵的尺寸对比

要生成听起来顺畅的文字,只要 270M 参数就可以了。但是要内在逻辑一致,情感准确丰富,情节跌宕起伏,悬疑环环相扣的文学作品,到现在连 1T+ 的模型也搞不定。可见华丽辞藻的外表相对内在的价值可以说是一文不值。这不是我主观的判断,而是模型尺寸给出的定量结论。

再来看看音乐领域。虽然已经有能够登顶 Spotify 排行榜的音乐生成模型,但为什么没有生成 MIDI (电子乐谱)的模型呢?花里胡哨的媒介(wav)相比朴素的载体(midi),尺寸上要差好几个数量级。但这种尺寸上的增加,非但不会增加实际的信息含量,甚至其作用是偷偷掩盖很多疏漏,把粪土伪装成「黄金」。按业界猜测,生成 Spotify 榜首曲的模型估计只有 10B 左右的参数。想象一下,能生成贝多芬《第五交响曲》第一乐章的模型,估计需要多大呢?如果是 MIDI 这种记录演奏指令而非音频波形的格式的话,只需要 89KB 就搞定了。但是这 89KB 所承载的音乐结构和意图信息量,远远大于几个 MB 的垃圾曲音频文件。

去装饰化

现在许多 AI 编程测评都是「这个新模型做的网页比那个模型更漂亮」。恕我直言,这种测评方式实在是肤浅。且不论「漂亮」的定义随着时代和文化飘忽不定——要不要去关注这个「漂亮」,这本身都变成了一个值得质疑的事情。浮夸华丽的外表,其实暗含了更低的信噪比,干扰了人们对于价值的判断。 在 AI 时代,人们尤其应该学会逆着潮流,努力「去装饰化」,让自己的判断免受华丽载体的干扰:

  1. 在语言生成模型的提示词中加入「用极精炼的语言,给出简洁的结果」。 否则洋洋洒洒、格式华丽的输出会给人一种「肯定很专业、很详尽」的错觉。
  2. 鉴赏艺术作品,先问「作者想表达什么思想?」 甚至先「有罪推论」成 AI 作品,想想提示词可能是什么。
  3. 练习写作、作曲、绘画这几种不同媒介的基本创作能力。 因为有创作经验的人,才能真正有深度地评价别人的创作。

论及礼物的精致,世上怕少有能与日本相提并论的境界。 我曾收到过日本友人的新年礼盒,如电脑屏幕般大小,含蓄而庄重。轻解那细腻如诗的缎带,剥落流转金光的外衣,启开厚实而温润的盒盖,盒中静静安卧两枚小匣,典雅如画,华美如珍宝初现。1

打开一看,两块肥皂。2

Footnotes

  1. 这一段是 AI 写的。

  2. 这句是我写的。