语言大模型 / LLM - arXivDaily 专题

2606.18431 2026-06-18 cs.LG cs.DC 新提交专题 85

Beyond Prediction: Tail-Aware Scheduling for LLM Inference

超越预测：面向LLM推理的尾延迟感知调度

Yueying Li, Yuanfan Chen, Jiayang Chen, Esha Choukse, Haoran Qiu, G. Edward Suh, Rodrigo Fonseca, Ziv Scully, Udit Gupta

专题命中其他LLM ：提出LLM推理调度框架，优化尾延迟

AI总结针对LLM推理中长度预测调度在分布偏移和尾延迟控制上的脆弱性，提出无预测的分布感知调度框架，通过轻量统计信号实现软优先级提升，结合缓存感知抢占，在多种工作负载下将P99 TTLT降低35-50%，TTFT降低34-47%。

Journal ref Forty-Third International Conference on Machine Learning (2026)

URL PDF HTML

2606.18394 2026-06-18 cs.CL 新提交专题 85

JetFlow: Breaking the Scaling Ceiling of Speculative Decoding with Parallel Tree Drafting

JetFlow: 通过并行树草稿突破推测解码的缩放上限

Lanxiang Hu, Zhaoxiang Feng, Yulun Wu, Haoran Yuan, Yujie Zhao, Yu-Yang Qian, Bojun Wang, Daxin Jiang, Yibo Zhu, Tajana Rosing, Hao Zhang

专题命中其他LLM ：提出并行树草稿加速LLM推测解码

AI总结提出JetFlow框架，通过因果并行草稿头结合树推测解码，将更大草稿预算转化为更长接受前缀和更高端到端加速，在Qwen3模型上实现最高9.64倍加速。

URL PDF HTML

2602.05992 2026-06-18 cs.CL 版本更新专题 85

DSB: Dynamic Sliding Block Scheduling for Diffusion LLMs

DSB: 扩散语言模型的动态滑动块调度

Lizhuo Luo, Shenggui Li, Yonggang Wen, Tianwei Zhang

专题命中其他LLM ：改进扩散语言模型的推理调度

AI总结针对扩散语言模型固定块调度忽视语义难度的问题，提出无训练的动态滑动块方法DSB及配套KV缓存机制DSB Cache，显著提升生成质量和推理效率。

Comments Accepted at the 43rd International Conference on Machine Learning (ICML 2026)

URL PDF HTML

2602.23092 2026-06-18 cs.AI 版本更新专题 85

Enhancing CVRP Solver through LLM-driven Automatic Heuristic Design

通过LLM驱动的自动启发式设计增强CVRP求解器

Zhuoliang Xie, Fei Liu, Zhenkun Wang, Qingfu Zhang

专题命中其他LLM ：利用LLM自动设计启发式求解CVRP，属于LLM应用

AI总结提出AILS-AHD方法，结合进化搜索框架与大语言模型动态生成和优化破坏启发式，并引入加速机制，在中等和大规模CVRP实例上优于现有求解器，在CVRPLib大规模基准中10个实例上取得8个新最优解。

URL PDF HTML

2602.15851 2026-06-18 cs.CL cs.AI 版本更新专题 85

Narrative Theory-Driven LLM Methods for Automatic Story Generation and Understanding: A Survey

叙事理论驱动的LLM方法在自动故事生成与理解中的应用：综述

David Y. Liu, Aditya Joshi, Paul Dawson

专题命中其他LLM ：综述叙事理论驱动的LLM故事生成与理解

AI总结综述叙事理论驱动的大语言模型方法在自动故事生成与理解中的应用，分析现状并指出生成任务在理论应用、后训练方法、非虚构叙事及叙事层次等方面落后于理解任务，提出未来方向。

Comments 31 pages

URL PDF HTML

2510.15551 2026-06-18 cs.CL cs.AI cs.LG 版本更新专题 85

Rethinking Cross-lingual Gaps from a Statistical Viewpoint

从统计视角重新思考跨语言差距

Vihari Piratla, Purvam Jain, Darshan Singh, Trevor Cohn, Preethi Jyothi, Partha Talukdar

专题命中其他LLM ：研究LLM跨语言差距，属于LLM应用

AI总结提出跨语言差距源于目标语言响应方差，通过形式化偏差和无偏误差，并采用推理时集成方法降低方差，使跨语言迁移得分提升8%-50%以上。

Comments 30 pages

URL PDF HTML

2510.04120 2026-06-18 cs.CL cs.AI 版本更新专题 85

Probing Semantic Alignment, Lexical Invariance, and Syntactic Influence in LLM Metaphor Processing

探究大语言模型隐喻处理中的语义对齐、词汇不变性和句法影响

Fengying Ye, Shanshan Wang, Lidia S. Chao, Derek F. Wong

专题命中其他LLM ：LLM隐喻处理机制分析

AI总结通过几何探测、上下文替换和句法扰动三种方法，分析LLM在隐喻处理中的语义漂移、词汇稳定性及句法敏感性，揭示强行为表现可能源于异质信号。

Comments Accepted to ACL 2026

URL PDF HTML

2508.09191 2026-06-18 cs.LG cs.AI 版本更新专题 85

From Values to Tokens: An LLM-Driven Framework for Context-aware Time Series Forecasting via Symbolic Discretization

从数值到标记：一种基于符号离散化的LLM驱动上下文感知时间序列预测框架

Xiaoyu Tao, Shilong Zhang, Mingyue Cheng, Daoyu Wang, Tingyue Pan, Bokai Pan, Changqing Zhang, Shijin Wang

专题命中其他LLM ：提出TokenCast框架，利用LLM进行时间序列预测。

AI总结提出TokenCast框架，利用大语言模型通过符号离散化将连续时间序列转化为标记，与上下文文本对齐，实现上下文感知的预测，实验证明有效。

URL PDF HTML

2506.15066 2026-06-18 cs.AR cs.MA 版本更新专题 85

ChatModel: Automating Reference Model Design and Verification with LLMs

ChatModel: 利用LLMs自动化参考模型设计与验证

Jianmin Ye, Tianyang Liu, Qi Tian, Shengchu Su, Zhe Jiang, Xi Wang

专题命中其他LLM ：利用LLM自动化参考模型设计与验证，提升效率。

AI总结提出ChatModel平台，通过设计标准化和分层敏捷建模，利用LLM自动生成参考模型，在300个设计上验证，效率提升最高58.99%，验证周期加速7.11倍。

URL PDF HTML

2503.01163 2026-06-18 cs.AI cs.CL cs.HC cs.LG cs.NE 专题 85

Bandit-Based Prompt Design Strategy Selection Improves Prompt Optimizers

基于Bandit的提示设计策略选择改进提示优化器

Rin Ashizawa, Yoichi Hirose, Nozomu Yoshinari, Kento Uchida, Shinichi Shirakawa

专题命中其他LLM ：提出OPTS方法优化LLM提示策略

AI总结本文提出OPTS方法，通过显式选择提示设计策略提升EvoPrompt性能，采用Thompson采样机制在BIG-Bench Hard上验证效果，实现最优结果。

Comments Accepted to ACL 2025 Findings

URL PDF HTML

2412.15557 2026-06-18 cs.SE cs.CL 版本更新专题 85

MORTAR: Multi-turn Metamorphic Testing for LLM-based Dialogue Systems

MORTAR：基于LLM的对话系统的多轮蜕变测试

Aaron Guoxiang Guo, Aldeida Aleti, Neelofar Neelofar, Chakkrit Tantithamthavorn, Yuanyuan Qi, Tsong Yueh Chen

专题命中其他LLM ：LLM对话系统多轮测试方法

AI总结提出MORTAR方法，通过多轮蜕变关系自动化生成测试用例，解决LLM对话系统多轮测试中的预言问题，相比单轮测试每个用例发现更多且更高质量的缺陷。

Comments Accepted for publication in IEEE Transactions on Software Engineering (TSE)

URL PDF HTML

2506.09822 2026-06-18 cs.CE cs.AI 专题 85

Superstudent intelligence in thermodynamics

热力学中的超级学生智能

Rebecca Loubet, Pascal Zittlau, Marco Hoffmann, Luisa Vollmer, Sophie Fellenz, Heike Leitte, Fabian Jirasek, Johannes Lenhard, Hans Hasse

专题命中其他LLM ：评估o3模型在热力学考试中的表现

AI总结研究展示OpenAI的o3模型在热力学考试中超越所有学生，证明机器在复杂任务中的能力，影响工程教育与实践。

Comments This document is the unedited Author's version of a yet to be Submitted Work to Physical Review Physics Education Research. 15 pages, 2 figures, Graphical Abstract, Highlights and SI available (12 pages)

URL PDF HTML

2504.12347 2026-06-18 cs.CL cs.AI cs.CY 专题 85

Assessment of Evolving Large Language Models in Upper Secondary Mathematics

对上中学数学中演进式大语言模型的评估

Mika Setälä, Pieta Sikström, Ville Heilala, Tommi Kärkkäinen

专题命中其他LLM ：评估LLM在中学数学考试中的能力

AI总结本文评估了不同大语言模型在芬兰毕业考试中的数学能力，发现随着模型演进，其表现显著提升，部分模型接近完美，展示了LLM在数学能力上的快速进步及其在教育中的潜力。

URL PDF HTML

2606.19256 2026-06-18 cs.AI 新提交专题 80

X+Slides: Benchmarking Audience-Conditioned Slide Generation

X+Slides：面向受众条件的幻灯片生成基准测试

Haodong Chen, Xuanhe Zhou, Wei Zhou, Xinyue Shao, Yanbing Zhu, Bo Wang, Jiawei Hong, Anya Jia, Fan Wu

专题命中其他LLM ：LLM幻灯片生成基准测试

AI总结提出X+Slides基准，通过动态评估框架和受众特定权重，衡量幻灯片生成系统在受众覆盖、领域覆盖、效率和正确性方面的表现，揭示现有系统在受众关键信息恢复上的不足。

URL PDF HTML

2606.18946 2026-06-18 cs.CL 新提交专题 80

SenFlow: Inter-Sentence Flow Modeling for AI-Generated Text Detection in Hybrid Documents

SenFlow: 面向混合文档中AI生成文本检测的句间流建模

Jingkun Luo, Yifan Sun, Da-Tian Peng, Guanxiong Pei

专题命中其他LLM ：检测LLM生成文本，建模句间依赖

AI总结针对人机混合文档的句子级AI文本检测，提出SenFlow模型，通过图传播和CRF解码建模句间依赖，在MOSAIC基准上跨域F1提升4.15个百分点。

Comments 16 pages, 4 figures, 9 tables

URL PDF HTML

2606.18922 2026-06-18 cs.CL cs.AI 新提交专题 80

As Easy as Rocket Science: Assessing the Ability of Large Language Models to Interpret Negation in Figurative Language

像火箭科学一样简单：评估大型语言模型解释比喻语言中否定能力的研究

Jasmine Owers, Edwin Simpson, Martha Lewis

专题命中其他LLM ：评估LLM对否定与比喻语言的理解

AI总结本研究通过开发新的注释数据集，测试多种大型语言模型在比喻语言中理解否定的能力，发现否定与比喻的组合对模型构成挑战，且性能高度依赖提示风格。

Comments 16 pages, 16 figures; for associated code and data see https://github.com/jrdowers/Negation-and-Fig-Lang; To be published in Transactions of the Association for Computational Linguistics

URL PDF HTML

2606.18797 2026-06-18 cs.CL 新提交专题 80

Beyond Scalar Scores: Exploring LLM-based Metrics for Clinical Significance Evaluation in Radiology Reports

超越标量分数：探索基于LLM的放射学报告临床意义评估指标

Qingyu Lu, Ruochen Li, Liang Ding, Yufei Xia, Youxiang Zhu, Dacheng Tao

专题命中其他LLM ：基于LLM的放射学报告评估指标

AI总结针对放射学报告评估中临床准确性要求，研究基于LLM的指标区分临床错误与无害变体的能力，发现判别偏差，并通过合成数据训练轻量级指标，在成本敏感部署中优于大型模型。

Comments Under Review

URL PDF HTML

2606.18741 2026-06-18 cs.DC 新提交专题 80

ReMP: Low-Downtime Runtime Model-Parallelism Reconfiguration for LLM Serving

ReMP：面向LLM服务的低停机时间运行时模型并行重配置

Haipeng Yuan, Kaining Zheng, Yongshu Bai, Yuchen Zhang, Yunquan Zhang, Baodong Wu, Xiang Gao, Daning Cheng

专题命中其他LLM ：LLM推理服务模型并行重配置，低停机时间。

AI总结提出ReMP框架，通过解耦拓扑与运行时状态、二维KV缓存迁移等技术，实现LLM推理服务中模型并行拓扑的在线动态调整，将重配置停机时间从分钟级降至1-7秒。

URL PDF HTML

2606.18677 2026-06-18 cs.LG cs.AI 新提交专题 80

Bounded Context Management for Tabular Foundation Models on Stream Learning

表格基础模型在流学习中的有界上下文管理

Jinmo Lee, Doyun Choi, Moongi Choi, Jaemin Yoo

专题命中其他LLM ：表格基础模型流学习上下文管理

AI总结针对表格流学习中分布漂移问题，提出上下文管理策略CURE，通过不确定性门控准入和冗余感知驱逐管理上下文，在七个流上相对提升最高27.0%。

Comments Accepted as a spotlight oral (top 5%) at the 2nd ICML Workshop on Foundation Models for Structured Data (FMSD@ICML2026)

URL PDF HTML

2606.18557 2026-06-18 cs.AI cs.LG cs.LO 新提交专题 80

DeFAb: A Verifiable Benchmark for Defeasible Abduction in Foundation Models

DeFAb：基础模型中可废止溯因的可验证基准

Patrick Cooper, Alvaro Velasquez

专题命中其他LLM ：评估基础模型的可废止溯因推理

AI总结提出DeFAb基准，通过将知识库转换为可验证的溯因实例，评估基础模型在可废止推理中的创造力与理论推理能力，发现前沿模型准确率远低于符号求解器。

Comments 33 pages, 14 figures, 23 tables. Dataset: https://huggingface.co/datasets/PatrickAllenCooper/DeFAb ; code and evaluation harness: https://github.com/PatrickAllenCooper/blanc

URL PDF HTML

2606.18383 2026-06-18 cs.LG cs.CL 新提交专题 80

From Sparse Features to Trustworthy Proxies: Certifying SAE-Based Interpretability

从稀疏特征到可信代理：认证基于SAE的可解释性

Dibyanayan Bandyopadhyay, Asif Ekbal

专题命中其他LLM ：认证基于SAE的语言模型可解释性

AI总结提出一种后验泛化框架，通过稀疏代理（SAE重建）认证语言模型，推导期望风险上界，并在GPT-2 Small等模型上验证非平凡界，揭示深层更易认证且特征分解区分语义对齐与统计稀疏性。

URL PDF HTML

2606.18042 2026-06-18 cs.DC 新提交专题 80

Latency Prediction for LLM Inference on NPU Systems

NPU系统上LLM推理的延迟预测

Juhyun Park, Seungwoo Jeong, Jingyu Lee, Kyungyong Lee

专题命中其他LLM ：预测LLM在NPU上的推理延迟

AI总结针对NPU上LLM推理延迟预测面临微架构不公开、编译器优化不可预测和分桶导致非线性延迟的挑战，提出LENS延迟估计器，通过每个桶两次端到端测量组合预测任意输入输出长度组合的延迟，平均预测误差2.15%。

Comments 12 pages, 9 figures

URL PDF HTML

2606.12629 2026-06-18 cs.LG cs.AI 新提交专题 80

Bag of Dims: Training-Free Mechanistic Interpretability via Dimension-Level Sign Patterns

Bag of Dims：通过维度级符号模式实现无需训练的机制可解释性

Varun Reddy Nalagatla

专题命中其他LLM ：无需训练的Transformer机制可解释性方法

AI总结本文提出Bag of Dims框架，证明Transformer隐藏状态的标准基即可作为无需训练的特征基，通过维度符号模式编码语义，并在三个模型上验证了其有效性。

Comments 22 pages, 5 figures, 27 tables

URL PDF HTML

2606.08532 2026-06-18 cs.AI 新提交专题 80

DN-Hypo-Pipeline: An AI-Driven Workflow for Hypothesis Generation via Large Language Models and Scientific Explanations

DN-Hypo-Pipeline：一种基于大语言模型和科学解释的AI驱动假设生成工作流

Lei Lin, Ronghao Wang, Chunbao Zhou, Jue Wang, Yangang Wang

专题命中其他LLM ：LLM驱动的假设生成工作流

AI总结提出DN-Hypo-Pipeline，利用大语言模型和科学解释作为先验知识，从现有文献中推导新假设，在数据科学建模中通过统计推断和专家评估证明优于直接生成方法，并验证了生成假设对应的算法性能。

URL PDF HTML

2602.06470 2026-06-18 cs.CL cs.AI 版本更新专题 80

Improve Large Language Model Systems with User Logs

通过用户日志改进大型语言模型系统

Changyue Wang, Weihang Su, Qingyao Ai, Xingzhao Yue, Rui Zhang, Xiaojia Chang, Yiqun Liu

专题命中其他LLM ：提出UNO框架利用用户日志改进LLM系统。

AI总结本文提出UNO框架，通过用户日志提炼规则和偏好对，利用查询反馈驱动聚类处理数据异质性，量化模型知识与日志数据间的认知差距，提升LLM系统性能。

URL PDF HTML

2602.00161 2026-06-18 cs.LG cs.AI cs.CL quant-ph 版本更新专题 80

LLM Compression by Block Removal with Constrained Binary Optimization

通过带约束二进制优化的块移除进行LLM压缩

David Jansen, Roman Rausch, Ali Hashemi, David Montero, Román Orús

专题命中其他LLM ：提出LLM压缩方法，通过块移除优化，属于LLM。

AI总结提出将大语言模型块移除压缩问题建模为约束二进制优化，映射到Ising玻璃系统，实现高效排序和高质量非连续块移除，在50%压缩时MMLU提升近23个百分点，且计算高效、通用性强。

Comments 16 pages, 3 figures

URL PDF HTML

2601.14968 2026-06-18 cs.LG cs.AI 版本更新专题 80

InstructTime++: Time Series Classification with Multimodal Language Modeling via Implicit Feature Enhancement

InstructTime++: 通过隐式特征增强的多模态语言建模进行时间序列分类

Mingyue Cheng, Xiaoyu Tao, Huajian Zhang, Qi Liu, Zhiding Liu, Yucong Luo, Yiheng Chen, Enhong Chen

专题命中其他LLM ：将时间序列分类转化为多模态生成任务

AI总结提出将时间序列分类转化为多模态生成任务，通过离散化模块和对齐投影层弥合模态差距，并利用隐式特征建模提升语言模型性能。

URL PDF HTML

2508.07375 2026-06-18 cs.CL cs.SD eess.AS 版本更新专题 80

TurnGuide: Enhancing Meaningful Full Duplex Spoken Interactions via Dynamic Turn-Level Text-Speech Interleaving

TurnGuide: 通过动态轮次级文本-语音交错增强有意义的全双工口语交互

Wenqian Cui, Lei Zhu, Xiaohui Li, Zhihan Guo, Haoli Bai, Lu Hou, Irwin King

专题命中其他LLM ：全双工语音语言模型中的文本-语音交错生成

AI总结提出TurnGuide方法，通过动态分割助手语音为对话轮次并交错生成轮次级文本和语音，解决全双工语音语言模型在连续双通道音频中集成离散文本令牌导致的时间对齐问题，显著提升语义连贯性和轮次交互性能。

Comments Interspeech 2026 Long Paper Track

URL PDF HTML

2512.04144 2026-06-18 cs.AI 版本更新专题 80

RippleBench: Capturing Ripple Effects Using Existing Knowledge Repositories

RippleBench: 利用现有知识库捕捉涟漪效应

Roy Rinberg, Usha Bhalla, Igor Shilov, Flavio P. Calmon, Rohit Gandikota

专题命中其他LLM ：评估语言模型遗忘的涟漪效应

AI总结提出RippleBench-Maker自动管道，从知识库检索语义邻居生成选择题，评估八种遗忘方法在Llama3-8B-Instruct上的涟漪效应，发现准确率下降随语义距离衰减且跨模型一致。

URL PDF HTML

2510.09905 2026-06-18 cs.AI cs.CL 版本更新专题 80

The Personalization Trap: How User Memory Alters Emotional Reasoning in LLMs

个性化陷阱：用户记忆如何改变大语言模型的情感推理

Xi Fang, Weijie Xu, Yuchong Zhang, Stephanie Eckman, Scott Nickleach, Chandan K. Reddy

专题命中其他LLM ：LLM情感推理偏差研究

AI总结研究用户记忆如何导致大语言模型在情感推理中产生系统性偏差，发现高绩效模型对优势背景用户的情感解读更准确，个性化机制可能嵌入社会等级。

Comments 19 pages 5 figures

URL PDF HTML