Designing Bert for Convolutional Networks

Thu, 28 Aug 2025 20:47:43 +0800

SparK：Designing Bert for Convolutional Networkss: Sparse and Hierarchical Masked Modeling (ICLR 2023 Spotlight)

论文介绍：https://www.bilibili.com/video/BV11s4y1M7qL/

Bert算法是遮住数据的一部分，用模型去进行预测，达到一个自监督学习的效果。迁移到图像领域中的视觉Transformer的工作比如MAE，但是直接将Transformer替换为卷积网络则出现问题。如下图，zero-outing表示直接替换：

可以看到只有0.1个点的提升，是完全无效的。下面是作者的分析。

为什么失败？

问题1：Pixel Intensity Distribution Shift

Transformer在处理patches时，只要保证是随机删去一些patches，可以保证删除的patches和图像的像素分布是一致的。而卷积神经网络则不能删去一些像素，只能是将一些像素“涂黑”来模拟丢失这部分像素的信息。

像素分布。横轴是像素强度，纵轴是像素出现的频率

Masked Image Modeling on PaperMoon's blog

​Designing Bert for Convolutional Networks

为什么失败？

问题1：Pixel Intensity Distribution Shift

Designing Bert for Convolutional Networks