AI 大模型
多模态大模型
跨文本、图像、视频、音频等模态的大模型与学习方法。
ThinkDeception: A Progressive Reinforcement Learning Framework for Interpretable Multimodal Deception Detection
ThinkDeception: 一种用于可解释多模态欺骗检测的渐进式强化学习框架
专题命中 图文多模态 :引入多模态大模型进行可解释欺骗检测,结合视觉和音频。
AI总结 提出ThinkDeception框架,将多模态大语言模型引入欺骗检测,通过逐步推理和视觉-音频一致性组相对策略优化(VAC-GRPO)实现可解释的认知推理,在主流基准上达到新SOTA。
Comments 10pages,4figures
SAMA: Semantic Anchor-aligned Augmentation for Unified Low-Resource Multimodal Information Extraction
SAMA:面向统一低资源多模态信息抽取的语义锚定对齐增强
专题命中 图文多模态 :多模态信息抽取,利用多专家MLLM增强数据。
AI总结 提出语义锚定对齐增强框架SAMA,通过构建结构化语义锚引导多专家多模态大模型生成高保真文本,并利用锚保留扩散机制合成图像,结合双约束过滤模块,在低资源多模态信息抽取任务中显著提升性能。
Comments Accepted by IEEE Transactions on Multimedia
Qwen-RobotWorld Technical Report: Unifying Embodied World Modeling through Language-Conditioned Video Generation
Qwen-RobotWorld技术报告:通过语言条件视频生成统一具身世界模型
专题命中 图文多模态 :融合视觉与语言的多模态世界模型
AI总结 提出Qwen-RobotWorld,一种以自然语言为统一动作接口的语言条件视频世界模型,通过双流MMDiT、大规模具身世界知识语料和渐进式课程训练,在机器人操作、自动驾驶等任务中实现物理一致的未来视觉轨迹预测,在多个基准上取得最优结果。
LandslideAgent with Multimodal LandslideBench: A Domain-Rule-Augmented Agent for Autonomous Landslide Identification and Analysis
LandslideAgent与多模态LandslideBench:一种面向自主滑坡识别与分析的领域规则增强型智能体
专题命中 图文多模态 :多模态数据集包含图像、掩码和文本描述
AI总结 提出指令驱动智能体框架,包含多模态数据集LandslideBench、滑坡专用视觉语言模型LandslideVLM及领域规则增强智能体LandslideAgent,实现自主滑坡识别与分析。