Efficient Post-training of LLMs for Code Generation With Offline Reinforcement Learning
基于离线强化学习的代码生成LLM高效后训练
AI总结 本文探索使用离线强化学习利用现有代码数据集对代码生成LLM进行后训练,实验表明该方法能有效提升模型性能,尤其适用于小模型和复杂编码问题。
基于离线强化学习的代码生成LLM高效后训练
AI总结 本文探索使用离线强化学习利用现有代码数据集对代码生成LLM进行后训练,实验表明该方法能有效提升模型性能,尤其适用于小模型和复杂编码问题。
衡量AGI进展:一个认知框架
AI总结 本文提出一个基于认知分类学的框架,通过10个关键认知能力评估系统性能,以量化AGI进展。
Comments 32 pages, 2 figures
EgoRelight: 基于自我中心的人体捕捉与光照恢复实现可重光照和逼真化身渲染
AI总结 提出EgoRelight框架,通过头戴显示器上的立体下视相机提取深度图驱动网格化身,并利用神经外观模型分别合成视角相关镜面反射和视角无关漫反射,结合测试时逆渲染恢复HDR环境图,实现从单一HMD进行全身性能捕捉、逼真可重光照外观合成和环境光照估计。
HRBench:混合推理大语言模型中思维模式切换策略的基准测试与理解
AI总结 提出HRBench统一评估框架,系统研究混合推理LLM中基于提示、外部路由和推测执行三类切换策略在四种训练机制下的效率-效果权衡,揭示策略选择随模型规模和任务领域的变化规律。
Comments Under review
用于阿尔茨海默病预测的纵向磁共振成像自适应时间门控
AI总结 提出TAF-Net混合CNN-Transformer架构,通过自适应时间门控融合纵向3D MRI的时空表示,在MCI-to-AD转化预测中仅用结构MRI即达到最优性能,接近需多模态数据的方法。
ADWIN: 用于视野感知在线策略蒸馏的自适应窗口
AI总结 提出ADWIN框架,通过自适应窗口动态调整在线策略蒸馏中的轨迹长度,在保持或提升准确率的同时,将训练成本降低最多4.1倍。
Sketch2Motion: 文本驱动的二维草图到三维动画的扩散引导骨架优化
AI总结 提出Sketch2Motion框架,结合扩散模型和骨架优化,将二维草图转化为三维动画,无需配对运动数据,支持多种角色类型。
边界约束稀疏表示用于电阻抗成像
AI总结 提出一种边界约束稀疏表示框架,通过隐式复合参数化从低维潜变量生成电导率,无需显式正则化即可改善电阻抗成像中的电导率估计。
你活不止一次:迈向分层技能元进化
AI总结 本文提出HiSME,一种轻量级分层技能元进化方法,通过从智能体任务执行轨迹中学习元技能,联合优化技能和技能进化策略,以持续提升部署的智能体系统在不同下游场景中的性能。
FABSVer: 更快的训练与更好的自验证用于大语言模型数学推理
AI总结 提出FABSVer方法,通过融合解生成与自验证为单次前向传播,并引入动态参考模型更新(DRMU)突破奖励瓶颈,在三个模型规模上实现更优的自验证与推理性能,训练时间仅为现有方法的51%-71%。
机制性解释样本难度在RLVR中对大语言模型的作用
AI总结 本文通过难度维度和单样本分析,发现样本难度对RLVR有非单调影响,中等难度问题提供最稳定的推理改进,并基于此提出难度自适应策略。
Comments 30 pages, 11 figures
CLANE: 基于事件相机在神经形态硬件上的动作持续学习
AI总结 提出CLANE系统,在Intel Loihi 2神经形态芯片上实现端到端的持续学习,用于事件相机动作识别,通过尖峰CNN和新型Loihi 2模块实现高能效和低延迟。
Meta-Attention: 用于高效Transformer推理的贝叶斯逐Token路由
AI总结 提出Meta-Attention框架,通过贝叶斯元控制器动态为每个token选择最优注意力策略(全softmax、线性或滑动窗口局部注意力),在几乎无开销下实现更优的计算-性能权衡。
PrionNER: 朊病毒病生物医学文献命名实体识别数据集
AI总结 针对朊病毒病临床信息,构建了手动标注的命名实体识别数据集PrionNER,包含317篇摘要、15种粗粒度和31种细粒度实体类型,并评估了监督和零样本模型性能。
Comments 29 pages, 5 figures, accepted at ACL 25th Workshop on Biomedical Language Processing (BioNLP 2026)
教师-学生表征对齐用于强化学习驱动的模仿学习
AI总结 提出一种通过自监督对比学习构建共享嵌入空间的方法,以减小教师和学生策略之间的不可模仿差距,从而提升学生策略性能。
Comments 6 pages, 5 figures. Accepted as an oral presentation at the RL4IL Workshop at ICRA 2026
从论文到基准测试:基于智能体和框架的机器健康智能中欠规范方法复现
AI总结 提出一种基于智能体和共享框架的方法,通过槽绑定接口将论文转化为可执行、可比较的基准测试实现,解决工业预测与健康管理中方法复现的困难。
CyberJurors:电商纠纷裁决的多智能体模拟任务
AI总结 针对电商纠纷裁决需要从冗余多轮多模态证据中提取关键线索并依据平台特定惯例决策的问题,提出多智能体框架CyberJurors,通过个体裁决链式思维和集体陪审共识裁决提升裁决质量,在包含6000真实案例的基准上超越现有方法。
Comments ICML 2026
风险控制的 Lean 作为自然语言数学推理的评判者
AI总结 针对 Lean 评判自然语言数学答案时信号稀疏且不忠实的问题,提出 COVCAL 选择器,通过有限样本选择性风险控制,在自动形式化覆盖率足够高时保证接受答案的准确率。
PubMedCausal: 用于生物医学文本中因果关抽取的跨度级标注语料库
AI总结 为解决现有资源将因果关系与广义关联混淆、限制句子级标注或仅关注显式因果线索的问题,构建了基于PubMed摘要的跨度级因果关抽取语料库PubMedCausal,包含30,000段落级行、3,945因果行和6,491个裁决的因果对,并基准测试了判别式编码器和开源生成模型。
Comments Submitted to EMNLP 2026, 8 Pages, 23 page appendix
加速机器人路径规划的连通性保持区域提议网络
AI总结 提出连通性保持区域提议网络(CP-RPN),通过分割模型预测紧凑且拓扑连通的候选区域,压缩搜索空间,结合Voronoi图与局部A*回退机制实现低延迟高成功率路径规划。
提示码本:面向语言模型指令精炼的离散组合优化
AI总结 提出Prompt Codebooks (PCO)框架,将自动提示优化重构为离散组合学习,通过可重用的自然语言本能单元实现实例级路由和结构化反馈,在多个基准上提升性能并压缩提示长度。
从知道到做到:面向LLM股票市场交易智能体的记忆控制基准
AI总结 针对LLM交易智能体评估中的知识泄露和收益归因问题,提出KTD-Fin基准,通过数据掩码和Barra风格归因框架,分离市场记忆与投资决策,并揭示收益主要来自被动市场暴露而非选股能力。
基于分数的纠错码译码器
AI总结 提出SB-ECC,一种将译码视为连续时间去噪的基于分数的译码器,通过神经去噪器定义概率流常微分方程,在奇偶校验约束下迭代更新噪声信道观测值,无需SNR估计即可推理,并在42个码/SNR设置中39/42达到最佳误码率。
Comments Accepted to ICML 2026
检测生成器偏移下的扩散生成时间序列
AI总结 针对生成器未知的扩散生成时间序列检测问题,比较了白盒与黑盒方法,发现简单分类器作为黑盒检测器显著优于白盒方法,并指出该问题不能直接迁移图像领域经验。
搜索前先规划:搜索智能体需要规划
AI总结 提出Plan方法,通过将问题分解为有序子问题再进行检索,并引入自举训练范式,无需外部强模型蒸馏即可在多跳QA中激活规划能力。
基于磁体的软体机器人皮肤:使用3D打印多格点结构和CNN触觉超分辨率
AI总结 提出一种集成多层软格点、霍尔效应传感器阵列和CNN触觉超分辨率模型的磁基机器人皮肤,通过格点参数调节实现机械柔顺性与传感特性的联合优化,并利用3D打印快速制造,实现接触位置和法向力的实时估计。
Comments 6 pages, 9 figures. Accepted to IEEE International Conference on Robotics and Automation (ICRA) 2026. Y. Bang and J. Park contributed equally
面向语义无关和形状感知的视觉-语言分割模型
AI总结 提出语义无关且形状感知(SANSA)分割范式,通过非语义文本描述微调模型,在保持语义提示性能的同时,在新任务上提升高达20% mIoU。
Comments Accepted at the 2026 IEEE International Conference on Image Processing (ICIP 2026)
FedMPT: 视觉语言模型的多标签联邦提示调优
AI总结 针对联邦学习中多标签识别任务,提出FedMPT方法,利用因果模型的前门调整和大语言模型驱动的条件解耦,通过最优传输和门控机制抑制虚假标签关联,提升模型鲁棒性。
Comments 16 pages, including 11 pages of main text and 5 pages of appendix; Accepted by CVPR2026
当话语压力冲突时:视觉-语言模型输出中的信息结构
AI总结 研究视觉-语言模型在视觉问答中是否区分话语旧主题和新焦点,发现模型虽产生信息结构相关结构但过度正则化,倾向于窄响应模板,类似模式崩溃。
Picid: 一种跨任务和领域的可复现PHM模块化评估基础设施
AI总结 提出模块化评估基础设施Picid,通过标准化数据契约和评估边界,实现跨任务、跨数据集的故障检测、诊断和预测的可复现与公平比较。