ICCV 2025 | 多模态融合!武大提出TemCoCo:视觉-语义交互+时间协作模块,实现视觉语义协同的多模态视频高质量融合 https://mp.weixin.qq.com/s/sMmQ3IO7u6gzJ3ErTWvyCg
多模态视频融合:
将不同模态(如可见光、红外)的视频序列融合,结合各模态优势(可见光保留细节纹理,红外突出目标),生成更全面的场景表征,支撑自动驾驶、安防监控等下游任务。
静态帧融合 vs 视频融合:
静态帧融合仅处理单帧图像,忽略帧间时间依赖性;视频融合需同时保证空间保真度(单帧质量)和时间一致性(帧间无跳变、无 artifacts)。