Skip to content

RAE

· 4 min

概述#

RAE 的看点, 就是能否直接在像 DINO 这样的 VFM (Video Foundation model) 上训出一个 Diffusion 来. 之前我们都是在 VAE 的 latent space 上训 Diffusion, 而 RAE 验证了在 VFM 的 feature space 上训 Diffusion 的可行性. 虽然最终的 FID 指标看起来还行, 但是重建的效果不太理想. 这类结构仍然需要进一步探索.

Method#

一些观察#

一些观点#

  1. 目前比较强的理解模型都丢高频信息. DINO 等等 encoder 可能仍然不够强大.
  2. 取 Patch 的行为破坏了 low-level 能力. 如果能在 raw pixel 上做会更好, 但是太贵了而且目前似乎没有较为统一的范式.
  3. gFID 很小只能说明, 模型本身学到了 ImageNet 1k 模式的一个超集, 它比 in1k 更懂它自己. 其次 FID 指标本身已经失效, 因为 Inception v3 本身就是在 ImageNet 上训的, 提取的是 ImageNet 上的特征. 那么计算 FID 的时候, 就是在考察模型有没有理解 in 上的图片特征. 这对于当今强大的 foundation model 是十分荒谬的, 因为这就像让一个学生给老师打分一样, 分数肯定会很高, 但是有多少实际参考价值就难说了.

我们关心什么#

问题#

计划#

Citation#

本文大量参考了知乎以及小红书上的相关讨论. 十分建议有兴趣的进一步了解 :3

如何评价谢赛宁团队发表的新作 RAE
RAE 搜索