AI 大模型
语言大模型 / LLM
大语言模型、预训练、指令微调、后训练和语言模型应用。
1. 其他LLM 19 篇
As Easy as Rocket Science: Assessing the Ability of Large Language Models to Interpret Negation in Figurative Language
像火箭科学一样简单:评估大型语言模型解释比喻语言中否定能力的研究
专题命中 其他LLM :评估LLM对否定与比喻语言的理解
AI总结 本研究通过开发新的注释数据集,测试多种大型语言模型在比喻语言中理解否定的能力,发现否定与比喻的组合对模型构成挑战,且性能高度依赖提示风格。
Comments 16 pages, 16 figures; for associated code and data see https://github.com/jrdowers/Negation-and-Fig-Lang; To be published in Transactions of the Association for Computational Linguistics
Bounded Context Management for Tabular Foundation Models on Stream Learning
表格基础模型在流学习中的有界上下文管理
专题命中 其他LLM :表格基础模型流学习上下文管理
AI总结 针对表格流学习中分布漂移问题,提出上下文管理策略CURE,通过不确定性门控准入和冗余感知驱逐管理上下文,在七个流上相对提升最高27.0%。
Comments Accepted as a spotlight oral (top 5%) at the 2nd ICML Workshop on Foundation Models for Structured Data (FMSD@ICML2026)
DeFAb: A Verifiable Benchmark for Defeasible Abduction in Foundation Models
DeFAb:基础模型中可废止溯因的可验证基准
专题命中 其他LLM :评估基础模型的可废止溯因推理
AI总结 提出DeFAb基准,通过将知识库转换为可验证的溯因实例,评估基础模型在可废止推理中的创造力与理论推理能力,发现前沿模型准确率远低于符号求解器。
Comments 33 pages, 14 figures, 23 tables. Dataset: https://huggingface.co/datasets/PatrickAllenCooper/DeFAb ; code and evaluation harness: https://github.com/PatrickAllenCooper/blanc
Bag of Dims: Training-Free Mechanistic Interpretability via Dimension-Level Sign Patterns
Bag of Dims:通过维度级符号模式实现无需训练的机制可解释性
专题命中 其他LLM :无需训练的Transformer机制可解释性方法
AI总结 本文提出Bag of Dims框架,证明Transformer隐藏状态的标准基即可作为无需训练的特征基,通过维度符号模式编码语义,并在三个模型上验证了其有效性。
Comments 22 pages, 5 figures, 27 tables
DN-Hypo-Pipeline: An AI-Driven Workflow for Hypothesis Generation via Large Language Models and Scientific Explanations
DN-Hypo-Pipeline:一种基于大语言模型和科学解释的AI驱动假设生成工作流
专题命中 其他LLM :LLM驱动的假设生成工作流
AI总结 提出DN-Hypo-Pipeline,利用大语言模型和科学解释作为先验知识,从现有文献中推导新假设,在数据科学建模中通过统计推断和专家评估证明优于直接生成方法,并验证了生成假设对应的算法性能。
TurnGuide: Enhancing Meaningful Full Duplex Spoken Interactions via Dynamic Turn-Level Text-Speech Interleaving
TurnGuide: 通过动态轮次级文本-语音交错增强有意义的全双工口语交互
专题命中 其他LLM :全双工语音语言模型中的文本-语音交错生成
AI总结 提出TurnGuide方法,通过动态分割助手语音为对话轮次并交错生成轮次级文本和语音,解决全双工语音语言模型在连续双通道音频中集成离散文本令牌导致的时间对齐问题,显著提升语义连贯性和轮次交互性能。
Comments Interspeech 2026 Long Paper Track
2. 预训练 4 篇
The Stanford EDGAR Filings Dataset: Reconstructing U.S. Corporate and Financial Disclosures into Layout-Faithful and Token-Efficient Pretraining Data
斯坦福EDGAR文件数据集:将美国公司及财务披露重建为布局忠实且令牌高效的预训练数据
专题命中 预训练 :构建长上下文预训练数据集用于LLM
AI总结 为解决长上下文文档稀缺问题,提出SEFD数据集,将SEC文件重建为布局忠实的MultiMarkdown格式,用于金融语言建模与评估,具有令牌高效、与Common Crawl重叠率低于0.1%的特点。
Comments Preprint. Includes appendix, tables, and figures
3. 后训练 6 篇
EfficientRollout: System-Aware Self-Speculative Decoding for RL Rollouts
EfficientRollout: 面向强化学习推演的感知系统的自推测解码
专题命中 后训练 :提出自推测解码加速强化学习推演。
AI总结 针对强化学习推演中自回归解码延迟瓶颈,提出感知系统的自推测解码框架,通过量化自推测解码器与感知系统的推测开关策略,在保持模型质量前提下降低推演和端到端延迟。
Comments Project Page: https://github.com/furiosa-ai/EfficientRollout
DiPOD: Diffusion Policy Optimization without Drifting Apart
无漂移扩散策略优化
专题命中 后训练 :扩散策略优化用于语言模型后训练
AI总结 针对扩散策略梯度方法的不稳定性,提出DiPOD框架,通过自蒸馏与策略改进梯度更新交替进行,维持紧界行为,实现稳定且高效的策略优化。
Comments Project page: astro-eric.github.io/blogs/dipod/ Code: https://github.com/Astro-Eric/DiPOD-release