视觉与机器人
多模态信息融合
面向图像、视频、多传感器和跨模态感知的信息融合,包括 Image Fusion、红外可见光、遥感、医学影像、LiDAR/雷达/相机和音视频融合。
SpatialSV: Internalizing Interpretable 3D Spatial Awareness in MLLMs via Task-Oriented Visual Supervision
SpatialSV: 通过任务导向的视觉监督在多模态大语言模型中内化可解释的3D空间感知
专题命中 音视频/视觉语言融合 :将2D视觉特征提升为3D表示,多模态融合
AI总结 提出SpatialSV框架,通过任务导向的视觉监督将MLLM的2D特征提升为显式3D表示(深度图、相机姿态、点云),实现可解释的3D空间感知内化,无需外部工具,并在半监督设置中展现强泛化能力。
Comments Accepted by IJCAI 2026
SUP-MCRL: Subject-aware Unified Pseudo-feature Coded Multimodal Contrastive Representation Learning for EEG Visual Decoding
SUP-MCRL:面向EEG视觉解码的感知主体统一伪特征编码多模态对比表示学习
专题命中 音视频/视觉语言融合 :多模态对比学习融合EEG和视觉特征,用于视觉解码。
AI总结 提出SUP-MCRL框架,通过语义感知视觉编码器、统一EEG增强器和原型渐进增强器,解决多模态对比学习中语义一致性和主体选择性问题,在THINGS-EEG零样本任务上达到66.0%/91.9%的Top-1/Top-5准确率。
Holo-World: Unified Camera, Object and Weather Control for Video World Model
Holo-World: 视频世界模型的统一相机、物体和天气控制
专题命中 音视频/视觉语言融合 :视频世界模型,联合控制相机、物体和天气
AI总结 提出Holo-World,一种从单张图像联合控制相机、物体运动和天气的统一视频世界模型,通过场景适配器和解耦CFG实现世界保持与天气迁移。
Comments Project Page: \url{https://xiangchenyin.github.io/Holo-World} Code: \url{https://github.com/XiangchenYin/Holo-World}
MakeupMirror: Improving Facial Attribute Preservation in Diffusion Models for Makeup Transfer
MakeupMirror:在用于化妆迁移的扩散模型中改进面部属性保持
专题命中 音视频/视觉语言融合 :化妆迁移,涉及图像与文本条件融合
AI总结 提出MakeupMirror扩散模型,通过ControlNet几何条件、区域特定迁移控制、肤色调制和Langevin采样器,在保持面部特征和肤色的同时实现高质量化妆迁移,相比Stable-Makeup提升面部识别相似度60%、降低肤色差异50%。