红外 + 可见光融合黑科技!CGDBN 模型突破复杂环境感知

发布时间: 2026-01-08 11:02:38

红外与可见光图像融合在复杂环境感知(弱光导航、恶劣天气、模糊目标检测)场景中具有关键作用。两类图像存在天然互补性:
红外图像:基于热辐射,可在黑暗、雾、烟雾中稳定检测目标,但空间分辨率低、纹理细节不足、含噪声;
可见光图像:光照充足时提供高分辨率纹理和清晰结构边界,但弱光或热对比度为主要判别信号时性能显著下降。
现有融合方法:

方法类别
代表技术
主要缺陷
传统方法
小波变换、NSCT、稀疏表示
依赖手工规则、适应性差;无法建模跨模态语义关系;缺乏模态特异性处理
CNN-based方法
U-Net、DFA-Net、GAN
局部感受野限制全局依赖建模;对称处理红外与可见光,忽略模态差异;缺乏自适应融合机制
Transformer-based方法
SwinFusion、CMTFusion
标准 Transformer 破坏空间关系;跨模态交互单向 / 简化;融合规则固定,无内容适应性
核心设计:四大模块 + 非对称架构

CGDBN 的整体架构是「双分支 + 端到端」,但最妙的是 “非对称设计”—— 针对红外的热辐射特性和可见光的纹理优势,给两者定制化处理流程(仅红外分支加了专属 “热特征提取模块”),最大化发挥互补性。

下面拆解四个 “王牌模块”,看看它们各自解决什么问题:

目标模态特征提取机制(TMFEM)

作用:专门处理红外分支,提取热特征(温度对比度、热目标信号),解决红外特征提取的两大痛点;
核心设计:
空洞卷积( dilation rate=2):扩大感受野,适配不同尺寸热目标,不损失分辨率;
热注意力机制:通过全局平均池化 + 通道变换生成像素级注意力权重,抑制噪声,聚焦热重要区域;
残差连接:保留原始红外特征,确保热目标边界完整性。

简化线性注意力块(SLAB)

作用:解决 Transformer 全局建模的高计算复杂度问题,同时弥补 CNN 的长距离依赖建模不足;
核心创新:
渐进式重参数化 BatchNorm(PRepBN):训练时从 LayerNorm 平滑过渡到 RepBN,避免训练崩溃,推理时与线性层融合,降低延迟;
简化线性注意力(SLA):以 ReLU 为核函数,结合深度卷积,计算复杂度降至 O (NC²),兼顾局部特征捕捉与全局依赖;
双残差结构:融合注意力输出与原始特征,提升训练稳定性。

跨模态交互机制(CMIM)

作用:实现红外与可见光分支的双向特征引导,解决跨模态对齐与信息互补问题;
三大注意力机制(双向交互):
通道注意力:筛选引导模态中与目标模态相关的特征通道,选择性传递信息;
空间注意力:基于引导模态的空间模式,生成目标模态的空间权重图,确保跨模态空间对齐;
纹理注意力:提取引导模态的高频细节与边缘信息,传递至目标模态,增强融合图像纹理保真度;
交互逻辑:可见光为红外提供纹理细节引导,红外为可见光提供热目标区域引导,形成 mutual promotion。

密度自适应多模态融合(DAMF)

作用:基于局部内容分析动态调整模态贡献权重,替代固定融合规则,解决模态特征差异导致的融合失衡;
四阶段处理:
密度估计:通过卷积网络评估各模态的局部特征显著性与信息丰富度;
自适应权重生成:软 max 归一化 + 模态偏置(可见光缩放因子 1.2,强调结构信息);
特征精炼:红外分支聚焦热目标提取,可见光分支聚焦纹理细节保留;
加权融合:结合精炼特征与自适应权重,实现空间自适应融合。

损失函数设计

采用多组件损失函数,平衡结构完整性与纹理细节:
结构相似性损失(SSIM Loss):保留感知质量与跨模态结构关系;
空间频率损失(SF Loss):维持图像纹理丰富度与细节信息;
总损失:加权组合上述损失,超参数经实验优化(w₁=0.85, w₂=0.9, w₃=0.0005, w₄=0.0015)。

实验结果

在三大主流数据集(AVMS、M3FD、TNO)上做了测试
数据集:

数据集
数据内容
AVMS(训练 + 验证 + 测试)
600 对无人机拍摄图像,覆盖多场景、多光照、多天气
M3FD(泛化测试)
4200 对同步拍摄的街景图像,含 6 类目标
TNO(泛化测试)
军事 / 监控场景的多波段图像,含复杂背景与目标

测试结果:

数据集
CGDBN 的 PSNR(图像质量核心指标)
最优基线 PSNR
AVMS
16.2497
15.2526
M3FD
16.5044
15.7564
TNO
17.3956
16.6022
CGDBN 还有哪些可优化的地方

小目标特征捕捉不足:TMFEM 中的空洞卷积与热注意力限制了小目标特征提取;
低对比度图像处理:目标与背景差异小时,DAMF 难以生成合理权重,导致融合不充分;
MSE 指标稳定性差:部分场景下 MSE 波动较大,像素级误差控制有待优化。

 

CGDBN 通过非对称处理与四大核心模块,有效解决了红外 - 可见光融合的三大核心挑战;
实验验证模型在信号保真(PSNR)、感知质量(SSIM)等关键指标上显著优于现有方法,适用于无人机低空数据融合等实际场景;
非对称设计与跨模态双向交互是提升融合性能的关键创新。

AIoT万物智联,智能安全帽生产厂家,执法记录仪生产厂家,为大型国企央企提供移动视频类产品的ODM/OEM服务,单北斗定位智能安全帽智能头盔、智能头箍头盔记录仪独立北斗定位执法记录仪智能视频分析/边缘计算AI盒子车载视频监控/车载DVR/NVR、布控球智能眼镜智能手电、智能电子工牌、无人机4G补传系统等统一接入大型统一视频平台~融合通信可视指挥调度平台VMS/smarteye 。

什么是智能安全帽,如何选购智能安全帽,智能安全帽的主要功能,https://www.besovideo.com/detail?t=1&i=109

目前支持的AI智能算法、视频智能分析算法有哪些,https://www.besovideo.com/detail?t=1&i=297

视频演示1~单独北斗定位智能安全帽助力光伏新能源,  视频演示2~石油石化

海康、大华等5000路固定点摄像头走国标GB28181接入统一视频平台smarteye,支持eHome,ISUP, SIP,萤石云,CMSV6等

海康等IP摄像头走国标GB28181接入smarteye平台, https://www.besovideo.com/detail?t=1&i=244

国网+南网电力施工作业现场安全生产风险管控应用方案,https://www.besovideo.com/detail?t=1&i=50

轻危大型厂矿可视化监管系统方案(有内部作业视频数据安全保密的需求),https://www.besovideo.com/detail?t=1&i=258

小微型4G/WiFi执法记录仪、胸牌记录仪大全~智慧养老护工、银行机场客服、外勤、上门安装维修等,https://www.besovideo.com/detail?t=2&i=1784

单警执法记录仪列表,https://www.besovideo.com/detail?t=1&i=345

4G/5G执法记录仪前端人脸识别、人脸比对使用说明,https://www.besovideo.com/detail?t=1&i=365

防抖执法记录仪、智能安全帽、头盔记录仪大全,https://www.besovideo.com/detail?t=2&i=1692

可拆卸智能安全帽、绑带式、粘贴式、贴合式、分体式智能头盔记录仪、智能头箍记录仪大全,https://www.besovideo.com/detail?t=2&i=1697

定位安全帽大全,人员定位考勤、电子围栏脱岗检查 all in smarteye,https://www.besovideo.com/detail?t=2&i=1843

支持南方电网WAPI无线网络的4G/5G执法记录仪、智能布控球、智能安全帽产品,https://www.besovideo.com/detail?t=1&i=404

各种布控球分类列表大全,https://www.besovideo.com/detail?t=1&i=339

北斗双频高精度定位智能工卡电子工牌大全,https://www.besovideo.com/detail?t=2&i=1689

多年来给各个行业客户定制的各种智能安全帽-头盔摄像头等,万物智联~各类智能安全帽/头盔摄像头统一接入优视多源融合统一视频可视指挥调度平台SmartEye,https://www.besovideo.com/detail?t=1&i=20

 

无人机4G/5G图传到远程指挥中心统一视频平台smarteye或者海康等国标大平台, https://www.besovideo.com/detail?t=2&i=1775