近日,我院陈颖频副教授在图像超分辨重建的网络设计研究领域取得重要进展,该成果以“Image super-resolution reconstruction network based on enhanced Swin-Transformer via alternating aggregation of local-global features”为题发表于国际权威期刊《IEEE Transactions on Emerging Topics in Computational Intelligence》(中科院2区,JCR Q1区期刊,IF=6.5)。
图像超分辨重建旨在将低分辨率图像通过设计的神经网络重建出具有更丰富纹理细节的高分辨率图像,是图像处理领域的重要研究方向。该技术已广泛应用于老旧照片重建、低分辨视频图像重建等,为图像的下游任务提供高质量的数据来源。
尽管各类图像重建方法层出不穷,但开发能高质量重建图像纹理细节且不产生失真伪影的神经网络仍面临挑战。有鉴于此,该工作在Swin Transformer网络框架中引入移位卷积算子(如图1(c)所示)以提取局部细节并增强空间与通道信息交互,同时设计一种新颖的窗口多尺度自注意力机制(如图1(d)所示)以增强网络的全局感受野和多尺度特征感知能力,并将两种结构堆叠为具有交替串联结构(如图1(a)-(b)所示)的特征融合结构。此外,本文还设计了一个低参数的残差通道注意力块(Low-parametric Residual Channel Attention Block,LRCAB)进一步去除通道冗余信息(如图1(d)和图3所示)。

图1. 提出网络示意图
如图2所示,块稀疏全局感知模块(Block Sparse Global-awareness Module,BSGM)通过镂空结构扫描图像的全局信息,再对不同的稀疏分块做信息重组,然后将张量第1轴上的特征亏送到一个密集连接层,实现了图像不同空间区域特征块的全局信息交互,进一步增强了Transformer网络的全局感受野。

图2. BSGM模块示意图
如图3所示,低参数的残差通道注意力块在传统的压缩-激励通道注意力基础上增加了一个非对称的低参数卷积网络,首先以1*1卷积核聚合通道信息,然后经过一个ReLU激活层,再以3*3的卷积网络聚合空间信息,这种非对称的低参数结构有效增强了张量通道上与空间上信息的交互,在此基础上结合压缩-激励通道注意力网络进一步去除通道冗余信息。

图3 低参数的残差通道注意力块
综上所述,本文主要创新点有如下几点:
1. 空间通道信息的破壁:引入移位1*1卷积和低参数残差通道注意力块打破空间与通道信息的壁垒,使领域空间信息在通道上得以实现信息交互;
2. 镂空扫描的全局感知策略:我们利用全局感知策略对处理token进行镂空式分组,以MLP网络实现全局信息融合,然后将处理张量复原到原始张量空间位置,以此进一步提高了Swin Transformer网络的全局感受野;
3. 局部与全局信息的融合:我们创造性提出一种具有局部-全局交替嵌套结构的网络架构,避免从一种极端走向另一种极端,我们保留Transformer网络的全局上下文融合与长程建模的优点,又发挥了来自卷积算子的局部感知优势;
4. 推理速度与精度的平衡:我们设计了一种具有轻量化参数的通道注意力机制,进一步提高了网络的推理速度。
实验结果表明,提出网络在众多超分辨图像重建方法中取得了先进性能。如图4所示,本文提出方法在低分辨率图像的细节恢复能力超过所有对比方法。从图4放大区域可观察到,低分辨图像的纹理已被破坏,而比对方法中,只有ELAN-light(ECCV 2022)和本文提出方法能正确地重建放大区域的纹理,并且产生的伪影较少。

图4 提出方法与其他方法的超分辨重建可视化
闽南师范大学为该工作唯一通讯单位,我院2021级硕士研究生黄育明为论文第一作者,我院2021级本科生宋彬辉为论文第五作者,陈颖频副教授为唯一通讯作者和共同第一作者。研究得到了国家自然科学基金 (62001199),福建省自然科学基金 (2023J01155, 2024J01820, 2024J01821),漳州市自然科学基金 (ZZ2024J40),研究生教学改革研究项目(YJG202526)资助。
论文链接:https://arxiv.org/pdf/2401.00241
(图/文:陈颖频)