Self-Prophetic Decoding to Unlock Visual Search in LVLMs
自预言解码以解锁LVLM中的视觉搜索
AI总结 提出SeProD框架,通过自预言解码利用预训练模型的内在单步能力,以无训练、即插即用的方式增强LVLM在多步视觉搜索中的连贯推理,在4个基准的12个分割上一致提升性能。
Comments Accepted at ICML 2026
自预言解码以解锁LVLM中的视觉搜索
AI总结 提出SeProD框架,通过自预言解码利用预训练模型的内在单步能力,以无训练、即插即用的方式增强LVLM在多步视觉搜索中的连贯推理,在4个基准的12个分割上一致提升性能。
Comments Accepted at ICML 2026
反向探测:临床文本中大语言模型的监督式词级不确定性量化
AI总结 提出反向探测框架,利用预标注摘要从模型内部激活中提取词级不确定性信号,在临床文本中实现高效、可解释的不确定性量化。
BIRDNet: 挖掘和编码布尔蕴含知识图作为可解释深度神经网络
AI总结 提出BIRDNet,通过挖掘特征间的布尔蕴含关系并编码为稀疏可解释神经网络,在保持高精度的同时大幅减少参数,并在转录组和蛋白质组数据中恢复已知生物学特征。
Comments 5 pages; 1 figure, 4 tables
开放手术中机器人辅助的模仿学习:针对缝合跟随的多策略评估
AI总结 本研究首次评估通用模仿学习在开放手术中用于外科医生-机器人协作辅助的可行性,以缝合跟随(每次缝合时助手执行的抓取-拉动-释放动作)为任务,通过比较四种策略(ACT、Diffusion Policy、SmolVLA、π₀)在28个训练模型上的表现,发现π₀在数据效率、背景鲁棒性和轨迹平滑性上最优,并在机器人缝合试验中达到92%的缝合完成率。
SeeGroup: 通过自确定分组的透明表面多层深度估计
AI总结 提出SeeGroup方法,通过将多层深度建模为点过程并采用置换不变损失,实现自适应分组,显著提升透明表面多层深度估计精度。
效用感知的多模态对比学习用于产品图像生成
AI总结 提出一种效用感知的多模态对比学习框架,通过引入效用感知InfoNCE损失优化产品图像生成,使图像在语义对齐的同时提升市场需求。
MemTrace:大型语言模型记忆系统中的错误追踪与归因
AI总结 提出MemTrace框架,通过构建可执行的记忆演化图实现细粒度错误追踪,并利用自动归因方法定位根因,进而优化提示词提升下游任务性能。
Comments Ongoing work
AlphaTransit: 学习设计城市级公交线路
AI总结 针对公交线路设计中的延迟反馈问题,提出AlphaTransit框架,将蒙特卡洛树搜索与神经策略-价值网络结合,在布卢明顿基准上实现最高服务率。
VLA如何以不同方式失败:黑盒动作监控揭示架构特定的失败特征
AI总结 本文通过黑盒动作监控发现,视觉-语言-动作(VLA)架构在电机指令层面以根本不同且可预测的方式失败,并证明架构匹配的监控器选择至关重要。
Comments Accepted at IEEE ICRA 2026 Workshop "From Data to Decisions: VLA Pipelines for Real Robots", Vienna, June 2026. Non-archival workshop. 5 pages, 2 figures, 22 references
通过能量校准的多适配器表示干预
AI总结 提出MARI方法,通过竞争性多适配器机制和基于能量的门控模块,自适应地确定干预方向和强度,在保持通用能力的同时提升对齐性能。
Comments Accepted by ICML 2026
LiveBrowseComp: 搜索智能体是在搜索,还是仅仅在验证它们已知的信息?
AI总结 本文通过诊断方法发现基于LLM的搜索智能体存在内在知识依赖(IKD),即依赖模型内部知识而非外部证据,并引入LiveBrowseComp基准来评估超越内在知识覆盖的深度搜索能力。
OpenURMA:统一总线协议的开源洁净室实现
AI总结 针对RDMA在数据中心网络接口的瓶颈,OpenURMA基于华为UB协议规范,通过RTL、SystemC和gem5三层实现,展示了UB在64字节远程取操作中相比RoCEv2 RC实现4.37倍延迟降低和2.80倍吞吐提升。
IPO-Mine:用于长多模态IPO文档的章节结构化分析的工具包和数据集
AI总结 本文提出IPO-Mine工具包和数据集,通过标准化解析IPO文件为章节结构化文本和图像,构建大规模多模态数据集,并建立图表评估任务,揭示多模态模型在长文档分析中的对齐挑战。
Comments 12 pages
思维即压缩:你的推理模型其实是一个上下文压缩器
AI总结 本文提出思维即压缩(TaC)范式,利用推理模型自身的思维痕迹作为压缩上下文,并通过奖励驱动优化(TaC-C)实现可控压缩,在长上下文QA任务上显著优于现有方法。
Comments Under Review
迈向可靠的多语言LLM作为评判者:一项实证研究
AI总结 本研究通过分析指令翻译、单语与多语言监督及模型规模等策略,探讨了在有无领域内数据情况下开发多语言LLM评判者的方法,并揭示了领域内数据可用时微调小模型可媲美专有模型、零样本大模型在域外更有效等关键权衡。
超越二元道德判断:在AI中建模伦理多元主义
AI总结 提出将道德推理建模为规范性伦理理论分布(伦理多元主义)的框架,通过规范-语义双流架构和堆叠集成学习实现,在450个案例上达到88.89%的准确率。
理解上下文持续学习中的泛化与遗忘
AI总结 提出首个上下文持续学习理论框架,分析预训练Transformer在单提示中处理多序列任务时的泛化与遗忘行为,揭示注意力机制导致的干扰和偏差。
Comments accepted by ICML 2026
具有任意归约顺序和不精确激活实现的浮点神经网络的表达能力
AI总结 本文研究在广义浮点执行语义下(包括任意归约顺序和具有有界ulp误差的不精确激活实现),浮点神经网络能否精确表示浮点域上的任意函数,并引入通用可区分性框架,证明第一层区分每对不同输入的能力是通用可表示性的必要条件,同时在温和条件下证明适当形式的可区分性也是充分条件,从而为Sigmoid、tanh、ReLU等实际激活函数建立了通用可表示性结果。
TRACER: 基于内部强化信用与轮次级遗憾匹配的多LLM协作推理
AI总结 提出TRACER框架,通过控制器-遗憾层和生成-信用层分别学习发言时机与内容,解决多智能体强化学习中的稀疏奖励、搭便车和固定协议振荡问题,实现数学收敛的协作推理。
Comments 25 pages, 3 figures
OSP-Next: 结合稀疏序列并行、HiF8量化和强化学习的高效高质量视频生成
AI总结 提出OSP-Next文本到视频生成模型,通过混合全稀疏注意力架构、稀疏序列并行(SSP)、HiF8量化和混合GRPO后训练,在保持高质量的同时显著提升效率,在NVIDIA H200和Ascend 950PR上实现1.5倍以上加速。
婴儿哭声的跨模态表征:胸表加速度计在提取声学发声功能测量中的验证
AI总结 本研究验证了胸表加速度计在婴儿哭声分析中的有效性,发现其能可靠捕获基频和抖动等声学特征,为噪声鲁棒且保护隐私的临床研究提供替代方案。
基于增量奇异值分解的历史感知自适应降阶模型
AI总结 针对降阶模型在线动态偏离离线训练区域导致精度下降的问题,提出基于增量奇异值分解(iSVD)的投影自适应降阶框架,通过偶尔的全阶算子评估提供校正快照以在线更新基,并在三个非线性问题上验证其优于现有方法。
Comments 50 pages, 27 figures, Preprint submitted to Elsevier
VeriTrip: 面向非结构化网络语料的旅行规划智能体可验证基准
AI总结 提出VeriTrip基准,通过多模态检索库和可验证知识库,评估智能体在非结构化网络语料中基于证据推理的旅行规划能力,揭示检索-推理权衡问题。
Comments 10 pages, 4 figures
最优岭回归正则化再探讨
AI总结 针对有限数据样本的线性岭回归,提出一种迭代算法从生成参数计算最优正则化强度,并证明其在有限噪声水平下的收敛性,实验表明结合样本参数估计可在多种设置下实现接近最优的泛化性能。
DREAM-R: 基于强化学习的精炼草稿、精确验证与完全并行执行的多模态推测推理
AI总结 提出DREAM-R框架,通过强化学习优化草稿生成、阈值验证机制和完全并行执行,加速多模态模型的推理密集型任务,同时保持准确性。
强化学习的最优数据获取:大偏差视角
AI总结 针对强化学习中数据获取效率问题,提出基于大偏差理论的统一框架,通过策略选择错误概率的指数衰减率作为效率指标,推导变分特征并设计自适应数据获取策略,证明其近鲁棒最优性。
Sense Representations Are Inducible Interfaces
AI总结 提出ACROS方法,通过门控残差加法在冻结的预训练解码器LM中诱导显式词义通路,实现零样本词义消歧、低KL词义引导和跨语言适应,保持基础LM质量。
基于LLM的直观灵活能力规划辅助系统
AI总结 提出一种混合辅助系统,将基于能力的形式化SMT规划与LLM自然语言交互层结合,通过人机协同实现规划解释与知识模型自适应,提升工业自动化中能力规划的可访问性和灵活性。
用于合成数据生成的激活引导:多样性在下游安全检测中的作用
AI总结 研究激活引导(AS)生成高质量训练数据用于下游安全检测分类器,发现多样性是关键但被忽视的轴,且AS在窄参数范围内优于提示生成。
时间图学习在预测生物系统动力学中的应用
AI总结 本研究提出基于伪时间分辨基因调控网络的时间图神经网络框架,用于预测细胞状态演变,在三个任务上优于scGPT等基础模型。