Semantic Satellite Communications for Synchronized Audiovisual Reconstruction
面向同步视听重建的语义卫星通信
专题命中 音视频/视觉语言融合 :提出视听语义传输系统,实现跨模态生成与同步重建
AI总结 提出自适应多模态语义传输系统,通过双流生成架构和动态关键帧更新机制,在带宽受限的卫星场景下实现高质量同步视听重建,显著降低带宽消耗并提升鲁棒性。
视觉与机器人
面向图像、视频、多传感器和跨模态感知的信息融合,包括 Image Fusion、红外可见光、遥感、医学影像、LiDAR/雷达/相机和音视频融合。
面向同步视听重建的语义卫星通信
专题命中 音视频/视觉语言融合 :提出视听语义传输系统,实现跨模态生成与同步重建
AI总结 提出自适应多模态语义传输系统,通过双流生成架构和动态关键帧更新机制,在带宽受限的卫星场景下实现高质量同步视听重建,显著降低带宽消耗并提升鲁棒性。
协作多模态编码用于高质量3D生成
发表机构 * S-Lab, Nanyang Technological University, Singapore(南洋理工大学S实验室) ; Shanghai Artificial Intelligence Laboratory(上海人工智能实验室)
专题命中 音视频/视觉语言融合 :协作多模态编码融合RGB、RGBD和点云特征。
AI总结 提出TriMM,首个前馈式3D原生生成模型,通过协作多模态编码融合RGB、RGBD和点云特征,结合辅助2D/3D监督和三平面潜在扩散模型,实现高质量3D资产生成。
组合对象检索:通过组合表达式进行对象级检索
发表机构 * Key Laboratory of New Generation Artificial Intelligence Technology and Its Interdisciplinary Applications, Southeast University, Ministry of Education, Jiangsu, China(新一代人工智能技术及跨学科应用国家重点实验室,东南大学,教育部,江苏,中国) ; Mohamed bin Zayed University of Artificial Intelligence (MBZUAI), Abu Dhabi, UAE(穆罕默德·本·扎耶德人工智能大学(MBZUAI),阿布扎赫德,阿联酋)
专题命中 音视频/视觉语言融合 :组合对象检索结合视觉与文本,属于视觉语言融合
AI总结 提出组合对象检索(COR)任务,通过组合参考对象、掩码和检索文本进行对象级检索,并构建COR125K基准和CORE模型,显著优于现有方法。
TASC:面向关系遥操作的任务感知共享控制
发表机构 * KU Leuven, Dept. Mechanical Engineering, Research unit Robotics, Automation and Mechatronics(KU莱顿机械工程系,机器人、自动化与机电一体化研究单位) ; KU Leuven, Dept. Electrical Engineering, Research unit Processing Speech and Images(KU莱顿电气工程系,语音与图像处理研究单位)
专题命中 音视频/视觉语言融合 :利用视觉语言模型推断意图,属于视觉语言融合
AI总结 提出TASC框架,通过视觉构建开放词汇交互图推断任务级用户意图,并基于空间约束提供共享控制辅助,提升关系遥操作效率与泛化能力。
Comments Accepted to IROS 2026
从视频中学习几何表示以实现空间智能多模态大语言模型
发表机构 * University of California, Davis(加州大学戴维斯分校)
专题命中 音视频/视觉语言融合 :从视频学习3D几何表示,增强多模态大语言模型空间智能
AI总结 提出GeoVR框架,通过从2D视频序列中蒸馏3D几何知识(包括相机姿态、深度图、尺度因子和多尺度3D特征),重塑多模态大语言模型的内部表示以赋予其空间智能,在空间推理基准上达到最先进性能。