如何评价 CVPR 2025 的审稿结果?
Frequency Dynamic Convolution for Dense Image Prediction
论文:https://arxiv.org/abs/2503.18783 (Typo fixing...)
代码:https://github.com/Linwei-Chen/FDConv
一句话亮点: 仅用1/20额外参数量超越CondConv/DY-Conv!北理工&东京大学团队提出频率动态卷积(FDConv),通过傅里叶域参数解耦+空间-频率双维度调制,让动态卷积的权重真正实现「高频抓细节,低频降噪声」,在检测/分割任务中全面刷新SOTA!
为什么关注FDConv?
传统动态卷积(如CondConv、DY-Conv)虽然通过多权重融合提升了模型适应性,但存在两大痛点:
- 参数爆炸:增加4-8倍参数(如CondConv需+90M参数)
- 频率同质化:多个权重在频域响应高度相似(见下图 )
FDConv的破局之道:
✅ 傅里叶解耦权重:将参数分配到不相交的频域区间,1倍参数量生成64个频域互补的卷积核
✅ 空间-频率双调制:KSM实现像素级权重微调,FBM动态强化关键频段
✅ 即插即用:ConvNet/Transformer一键替换,代码10行适配
方法精要:让卷积学会「分频段思考」
1️⃣ 傅里叶解耦权重(FDW)
核心思想:在频域划分参数「势力范围」
- 将卷积核参数映射到傅里叶域
- 按频率高低分割为互不重叠的组(如低频组只保留中心区域)
- 逆傅里叶变换回空间域,得到频域特性互补的多个权重
2️⃣ 核空间调制(KSM)
动态细节控制:
- 轻量1D卷积捕获局部通道关系 → 生成稠密调制矩阵
- 全局FC提取高层语义 → 输出通道/空间维度调制因子
- 融合实现像素级权重校准
3️⃣ 频段动态调制(FBM)
空间自适应滤波:
- 将特征图分解为4个频段(如0-1/16, 1/16-1/8等)
- 预测空间调制图,强化目标区域的关键频率(如边界强化高频)
- 数学等效:先滤波再卷积 → 避免理想低通滤波的无限支撑难题
实验结果:小参数,大能量
Task | Method | Metrics (Improvement) | Params Cost |
---|---|---|---|
Object Detection | Faster R-CNN | AP↑2.2% | +3.6M |
Instance Segmentation | Mask R-CNN | APmask↑2.2% | +3.6M |
Semantic Segmentation | UPerNet | mIoU↑3.1% | +3.6M |
- 仅用CondConv 4%的额外参数量,AP超越2.3%
10行代码快速上手
from fdconv import FDConv
# 替换ResNet中的3x3卷积
class ResBlock(nn.Module):
def __init__(self, in_channels):
super().__init__()
self.conv1 = FDConv(in_channels, 64, kernel_size=3, n_freq_groups=64)
self.conv2 = FDConv(64, 64, kernel_size=3, n_freq_groups=64)
# 或在Swin Transformer中替换MLP
self.mlp = nn.Sequential(
FDConv(dim, dim*4, kernel_size=1), # 1x1卷积等效线性层
nn.GELU(),
FDConv(dim*4, dim, kernel_size=1), # 1x1卷积等效线性层
)
立即Star项目,体验「小参数撬动大性能」的魔法!也欢迎在Issue区提出您的奇思妙想,共同探索频率调制的无限可能✨
https://github.com/Linwei-Chen/FDConv
服务器搬家中 !预计下个月重新安置 !立刻整理开源!动一动小手star 住即可最快速度接到通知!
作者寄语
FDConv的提出,不仅为动态卷积开辟了频域设计的新方向,更证明了参数效率与模型性能可以兼得。我们期待这项工作能够:
- 助力边缘设备部署:让小模型也能拥有动态感知能力
- 启发频域网络设计:探索更多频域先验与动态计算的结合点
- 推动通用视觉架构:Transformer/ConvNet的频域动态化仍有巨大空间