arXivDaily arXiv每日学术速递 周一至周五更新

AI 大模型

多模态大模型

跨文本、图像、视频、音频等模态的大模型与学习方法。

今日/当前日期收录 33 信号源:cs.CV, cs.CL, cs.AI, cs.MM, eess.AS

1. 音视频多模态 1 篇

2603.09234 2026-06-18 eess.AS 版本更新 专题 70

StuPASE: Towards Low-Hallucination Studio-Quality Generative Speech Enhancement

StuPASE:迈向低幻觉、工作室质量的生成式语音增强

Xiaobin Rong, Jun Gao, Zheng Wang, Mansur Yesilbursa, Kamil Wojcicki, Jing Lu

专题命中 音视频多模态 :生成式语音增强,属于音频处理

AI总结 提出StuPASE,基于PASE框架,通过使用干目标微调和流匹配模块替代GAN,在保持低幻觉的同时实现工作室级语音质量,优于现有方法。

Comments Accepted to Interspeech 2026

2. 图文多模态 1 篇

2601.14968 2026-06-18 cs.LG cs.AI 版本更新 专题 70

InstructTime++: Time Series Classification with Multimodal Language Modeling via Implicit Feature Enhancement

InstructTime++: 通过隐式特征增强的多模态语言建模进行时间序列分类

Mingyue Cheng, Xiaoyu Tao, Huajian Zhang, Qi Liu, Zhiding Liu, Yucong Luo, Yiheng Chen, Enhong Chen

专题命中 图文多模态 :融合数值序列、文本特征和指令的多模态输入

AI总结 提出将时间序列分类转化为多模态生成任务,通过离散化模块和对齐投影层弥合模态差距,并利用隐式特征建模提升语言模型性能。

3. 其他多模态 1 篇

2606.19140 2026-06-18 cs.LG 新提交 专题 55

ChronoSurv: A Clinical Pathway-Guided Graph Framework for Multimodal Survival Analysis

ChronoSurv:一种临床路径引导的多模态生存分析图框架

Hugo Miccinilli, Theo Di Piazza

专题命中 其他多模态 :处理多模态临床数据,但非大模型

AI总结 提出ChronoSurv,一种基于有向图的多模态生存分析框架,通过层次化拓扑和异质消息传递建模临床轨迹,在头颈癌数据集上取得最优判别性能与可靠校准。

Comments Accepted at MICCAI 2026. Submitted version due to embargo