Do Proactive Agents Really Need an LLM to Decide When to Wake and What to Anchor?
主动型智能体真的需要LLM来决定何时唤醒和锚定什么吗?
AI总结 提出用时间图学习(TGL)模型替代LLM作为主动智能体的触发器,通过图更新而非文本处理用户活动,实现高效、低延迟的触发决策。
Comments 31 pages, 5 figures, 7 tables
主动型智能体真的需要LLM来决定何时唤醒和锚定什么吗?
AI总结 提出用时间图学习(TGL)模型替代LLM作为主动智能体的触发器,通过图更新而非文本处理用户活动,实现高效、低延迟的触发决策。
Comments 31 pages, 5 figures, 7 tables
数学任务评估中的时间稳定性和少样本提示
AI总结 本研究通过纵向实验评估AI工具在数学任务认知需求分类中的时间稳定性和少样本提示效果,发现提示工程比模型版本更新更能提升性能。
Comments 23 pages, 1 figure
无锚点多样化并行LLM创意生成
AI总结 研究无锚点方法(如语义方向分层)在并行LLM创意生成中实现候选池多样化,无需依赖种子想法,在多样性、质量和计算效率上优于有锚点基线。
克服LLM微调中的遗忘:进化策略方法
AI总结 本文发现进化策略微调中的先前任务遗忘实为性能漂移且可恢复,并引入锚定权重衰减(AWD)正则化技术有效稳定先前任务性能,表明遗忘可避免,使ES成为LLM持续学习的可行方法。
AgentSchool:基于LLM的多智能体教育模拟系统
AI总结 提出AgentSchool,一种LLM驱动的多智能体模拟器,通过可成长的学生智能体(带知识图谱、思维工作流和错误概念)与自适应教师智能体(基于最近发展区)模拟学习过程,支持多尺度模拟,实验验证了其生成差异化掌握轨迹和符合课堂社会理论的行为模式。
Comments 39 pages, 10 figures
AnomalyAgent: 用于零样本/少样本异常检测的无训练智能体模型
AI总结 提出一种基于多模态大语言模型的无训练智能体框架AnomalyAgent,通过定制工具集和记忆模块实现零样本/少样本异常检测,在逻辑/上下文异常等复杂场景中优于现有方法。
通过上下文相关性的注意力引导增强多智能体通信
AI总结 针对LLM多智能体系统中长对话历史导致信息稀释的问题,提出无训练的上下文管理方法Agent-Radar,利用时空衰减机制动态引导注意力,在五个基准上取得最高7.64个绝对点的提升。
DAMEL: 双轴多专家学习用于类别不平衡学习
AI总结 提出双轴多专家学习算法DAMEL,通过表示轴和时间轴上的多专家集成,同时降低预测偏差和方差,有效解决类别不平衡学习问题。
CorPipe at CRAC 2026: 多语言共指消解中的空节点与跨语言迁移
AI总结 本文提出CorPipe 26系统,通过单一模型联合预测空节点、提及和共指链接,在CRAC 2026多语言共指消解共享任务中超越所有其他系统,并在LLM赛道和不受限赛道分别领先2.8和9.5个百分点。
Comments Accepted to CODI-CRAC 2026
学习外推到新任务:一种关系型任务外推方法
AI总结 提出关系型任务外推器(RTE),通过将目标任务分解为锚定任务和变换关系并学习关系算子,实现向未见任务的系统性外推,在函数预测和序列预测中显著优于现有方法。
Comments ICML 2026
CCS:放射学报告生成的临床共识选择
AI总结 提出CCS框架,通过采样多个候选报告并选择临床共识最高的一个,以改进放射学报告生成在推理时的质量。
Comments 17 pages, 6 figures
PARCEL: 基于池锚定的条件弹性查询重采样以实现高效视觉-语言理解
AI总结 提出PARCEL视觉分词架构,通过池锚定和条件弹性查询重采样解决视觉令牌压缩中的空间与查询表示冲突,在27个基准上提升性能-效率帕累托前沿。
Comments 33 pages, 4 figures
VLA-Trace: 通过表示与行为追踪诊断视觉-语言-动作模型
AI总结 提出VLA-Trace诊断框架,通过表示演化、因果控制归因和行为表现分析,揭示VLA模型在多模态知识向具身控制转化中的机制,发现不同模型在微调适应、多模态路由和语义遵循上的差异与局限。
SGMD: 得分梯度匹配蒸馏用于少步视频扩散蒸馏
AI总结 针对分布匹配蒸馏在少步视频扩散中训练昂贵且运动动态保守的问题,提出得分梯度匹配蒸馏(SGMD),通过直接优化假得分朝向教师并使用教师停止梯度Fisher作为稳定目标,实现约3倍训练加速并显著提升运动动态。
Comments ICML 2026
来自稀疏观测的大深度补全模型
AI总结 提出LDCM,利用单目基础模型和基于泊松的深度初始化策略,结合点图头回归3D坐标,实现稀疏观测下的度量准确深度补全。
Comments ICLR 2026. Project webpage: https://pkqbajng.github.io/ldcm/
跨越雷诺数:神经PDE泛化中的表示几何
AI总结 通过分析神经PDE求解器在跨雷诺数泛化中的表示几何,发现基于卷积自编码器的匹配方法(ConvAE-Relay)在无需目标域数据的情况下达到38.34%误差,揭示了局部多尺度表示对跨雷诺数迁移的关键作用。
Comments 12 pages, 8 figures, 5 tables
xModel-KD:基于LiDAR的3D场景感知跨模态知识蒸馏
AI总结 提出跨模态知识蒸馏框架xModel-KD,通过对比学习对齐2D图像纹理与3D点云几何特征,在无额外标注下提升LiDAR点云分割性能。
Comments 3 figures, and 5 tables
Dial HEALTHDIAL for Advice: 一个用于知识驱动信息检索的多语言多平行口语对话数据集
AI总结 本文构建了HEALTHDIAL,一个大规模多语言多平行口语对话数据集,用于开发基于检索增强生成的口语对话系统,并揭示了不同语言间的性能差异。
Comments Accepted to Findings of ACL 2026
SEAL: 饱和基准能否通过LLM作为元裁判得以复兴?
AI总结 提出SEAL协议,通过自适应LLM元裁判从饱和基准中提取潜在排名信号,在代码生成、数学推理等任务上以更少调用实现高排名准确率。
基于迭代式LLM的神经架构搜索的收敛理论:一个具有闭式代理可靠性的参数化交叉熵框架
AI总结 将迭代式LLM-NAS建模为参数化交叉熵方法,证明了收敛性、精英集概率几何收敛、增量生成有效性、MinHash-Jaccard去重防止模式崩溃以及代理可靠性闭式公式,并通过实验验证了理论预测。
Comments 14 pages, 2 figures, 2 tables. Submitted to NeurIPS 2026
Chess-World-Model: 一个用于从国际象棋走棋序列精确状态跟踪的1000万对局基准
AI总结 提出一个基于1000万真实国际象棋对局的大规模状态跟踪基准,通过预测合法走棋序列后的棋盘状态,测试模型学习转换规则的能力,并发现循环模型优于Transformer,且随机均匀分布子集能揭示规模掩盖的失败。
Comments 20 pages, 4 figures
对话代理评估:理解情感检测中的文化、背景与环境
AI总结 针对黑人非洲社会,提出结合语音和图像数据、使用3层CNN和AFME算法的情感预测模型,准确率85%-96%,并识别讽刺,提升对话AI情感识别系统的可信度。
Comments IEEE paper on arxiv
PokerSkill: 无需训练或求解器,大语言模型可达到专家级扑克水平
AI总结 提出PokerSkill框架,通过规则驱动的技能库约束大语言模型动作,无需训练或求解器即可在扑克中达到接近GTO水平的性能。
Comments 45 pages, 3 figures
几何至关重要:用于学习语义对应的3D基础先验
AI总结 提出一种3D感知的后训练框架,利用3D基础模型(SAM3D)估计物体几何和姿态,生成几何感知特征图,结合DINO和Stable Diffusion特征,通过测地距离过滤候选对应,训练轻量适配器改进语义对应。
Comments 9 pages (main paper), 21 pages (total), 4 figures
DirectorBench: 通过个性化多智能体评估诊断长视频生成
AI总结 提出DirectorBench,一种基于多智能体的诊断基准,通过80个结构化元数据、7个用户画像和40个检查点标准,在脚本、视觉、音频、跨模态和稳定性五个维度上评估长视频生成,并定位瓶颈和用户偏好依赖。
推理时元素损坏下的分布鲁棒集合表示学习
AI总结 针对推理时元素损坏问题,提出SW-DRSO分布鲁棒优化框架,通过重心对抗近似最坏情况损失,在四个任务上验证了鲁棒性和性能。
Comments Accepted by ICML'26
冲突多源个人记忆上的选择性问答:诊断性测试平台与方法比较
AI总结 针对多源冲突记忆的选择性问答问题,构建了包含34,560个实例的诊断基准,评估了多种方法,发现结构化融合方法在准确性和选择性上优于纯提示LLM。
Comments 55 pages, 5 figures
推理轨迹前缀的保形认证
AI总结 提出CROP方法,通过保形校准选择阈值,返回最长无错前缀,并控制错误包含概率,平衡保留有效推理与丢弃误导后缀。
Comments Code available at https://github.com/matthewyccheung/crop
未来强制:自回归视频生成中无需训练的未来感知KV缓存策略
AI总结 提出Future Forcing,一种无需训练的未来感知KV缓存策略,通过利用自回归视频模型中查询分布的平稳性来估计未来查询,从而改进长视频生成的一致性。
自适应目标动态分块用于无分词层次模型
AI总结 提出自适应目标动态分块(ATDC)机制,通过课程学习动态调整压缩比,以优化无分词层次模型的字节压缩效果,在FineWeb-Edu 100B数据集上实现竞争性的每字节比特数性能,并提升训练稳定性和下游任务表现。