语言大模型 / LLM

2606.19868 2026-06-19 cs.AI 新提交专题 80

A Systematic Evaluation of Black-Box Uncertainty Estimation Methods for Large Language Models

大型语言模型黑盒不确定性估计方法的系统评估

Jiayi Wang, Xu-Yao Zhang

专题命中其他LLM ：系统评估LLM黑盒不确定性估计方法。

AI总结系统评估了24种黑盒不确定性估计方法在4个模型和4个数据集上的表现，发现无单一方法普遍最优，但基于答案空间推理和比较的方法通常有效，混合方法在多数条件下表现良好。

URL PDF HTML

2606.19735 2026-06-19 cs.AI cs.CV 新提交专题 80

GLARE: A Natural Language Interface for Querying Global Explanations

GLARE: 用于查询全局解释的自然语言接口

Bhavan Vasu, Rajesh Mangannavar

专题命中其他LLM ：基于LLM的接口将自然语言转换为SQL查询。

AI总结提出基于LLM的交互接口GLARE，将自然语言问题转换为SQL查询以聚合局部解释数据，提升全局解释的可访问性和可用性。

Comments 16 pages, 2 figures

URL PDF HTML

2606.19727 2026-06-19 cs.CL cs.AI 新提交专题 80

NRITYAM: Language Models Meet Art and Heritage of Dance

NRITYAM：语言模型遇见舞蹈的艺术与遗产

Punit Kumar Singh, Niladri Ghosh, Advait Joshiınst, Shailee Choudhary, Michael Färber, Haiqin Yang

专题命中其他LLM ：评估语言模型对全球舞蹈文化的理解能力。

AI总结提出NRITYAM基准，包含9,260个跨12语言的文化问答对，评估语言模型对全球舞蹈传统的文化理解能力，涵盖多种模型类型。

Comments 18 pages, 12 figures, in ECML_PKDD'26

URL PDF HTML

2606.19698 2026-06-19 cs.CL 新提交专题 80

What sentiment analysis can't see: Measuring whether customers were helped, and what went wrong, across 70,000 support conversations

情感分析看不到的：衡量客户是否得到帮助以及出了什么问题——基于70,000次客服对话

Jason Potteiger

专题命中其他LLM ：使用GPT-5.4估计客户满意度并标记问题。

AI总结本研究使用GPT-5.4从70,450次客服对话中估计客户满意度并标记具体问题，发现满意度估计比情感分析更准确，且能揭示情感分析无法捕捉的客户状态和问题原因。

Comments 25 pages, 6 figures

URL PDF HTML

2606.19668 2026-06-19 cs.CL 新提交专题 80

Code-Switching Reveals Language Anchoring in Multilingual LLMs

代码切换揭示多语言大模型中的语言锚定

Jeonghyun Park, Seunghyun Yoon, Yonghyun Jun, Hwanhee Lee

专题命中其他LLM ：研究多语言大模型中的代码切换和语言锚定现象

AI总结通过语法强制代码切换诊断多语言大模型中的语言锚定现象，提出锚定偏差度量并设计CANVAS干预方法，有效缓解代码切换导致的问答性能下降。

Comments 36 pages, 13 figures, 27 tables

URL PDF HTML

2606.19353 2026-06-19 cs.CL cs.LG 新提交专题 80

Quantifying Aleatoric Uncertainty of In-Context Learning for Robust Measure of LLM Prediction Confidence

量化上下文学习中的偶然不确定性以稳健衡量LLM预测置信度

Jinseok Chung, Minkyoung Song, Hyunji Jung, Namhoon Lee

专题命中其他LLM ：量化上下文学习中的不确定性，提升置信度

AI总结针对上下文学习（ICL）中预测对提示设计敏感的问题，提出基于贝叶斯观点和机制可解释性的自函数向量，直接估计偶然不确定性，并设计严格评估协议，在合成和真实数据集上验证了方法的可靠性及在幻觉检测等应用中的实用性。

Comments Accepted to ACL 2026

URL PDF HTML

2606.19349 2026-06-19 cs.CL cs.AI 新提交专题 80

Where to Place the Query? Unveiling and Mitigating Positional Bias in In-Context Learning for Diffusion LLMs via Decoding Dynamics

查询应置于何处？通过解码动力学揭示并缓解扩散大语言模型中上下文学习的位置偏差

Zhengheng Li, Panrui Li, Xuyang Liu, Puzhi Xia

专题命中其他LLM ：研究扩散LLM中上下文学习的位置偏差

AI总结本文系统分析了扩散大语言模型中查询位置对生成质量的影响，发现其与示例语义质量同等重要，并提出基于平均置信度的无训练自适应路由策略Auto-ICL以优化查询放置。

Comments 9 figures, 4 tables

URL PDF HTML

2606.19346 2026-06-19 cs.CL cs.AI 新提交专题 80

Disentangling Linguistic Relatedness from Task Alignment in Cross-Lingual Transfer

跨语言迁移中语言相关性与任务对齐的解耦

Ahmed Haj Ahmed, Ruochen Zhang, Alvin Grissom

专题命中其他LLM ：跨语言迁移中任务对齐与语言相关性解耦

AI总结通过微调大语言模型并在闪语族与非闪语族语言上评估零样本阅读理解，发现跨语言迁移主要提升任务格式对齐而非语言特定知识。

URL PDF HTML

2603.25702 2026-06-19 cs.CL 版本更新专题 80

S2D2: Fast Decoding for Diffusion LLMs via Training-Free Self-Speculation

S2D2：通过免训练自我推测实现扩散LLM的快速解码

Ligong Han, Hao Wang, Han Gao, Kai Xu, Akash Srivastava

专题命中其他LLM ：扩散LLM解码加速，属于语言模型方法

AI总结提出S2D2，一种免训练的自我推测解码框架，通过将块扩散模型在块大小为1时变为自回归模型，实现草稿与验证角色复用，在不增加训练或测试计算下提升解码速度与准确性。

Comments Code is available at https://github.com/phymhan/S2D2

URL PDF HTML

2603.16606 2026-06-19 cs.CL 版本更新专题 80

Omnilingual SONAR: Cross-Lingual and Cross-Modal Sentence Embeddings Bridging Massively Multilingual Text and Speech

Omnilingual SONAR：跨语言与跨模态句子嵌入，连接大规模多语言文本与语音

Omnilingual SONAR Team, João Maria Janeiro, Pere-Lluís Huguet Cabot, Ioannis Tsiamas, Yen Meng, Vivek Iyer, Guillem Ramírez, Loic Barrault, Belen Alastruey, Xiang "Tony" Cao, Yu-An Chung, Marta R. Costa-Jussa, David Dale, Kevin Heffernan, Jaehyeong Jo, Artyom Kozhevnikov, Alexandre Mourachko, Christophe Ropers, Holger Schwenk, Paul-Ambroise Duquenne

专题命中其他LLM ：跨语言跨模态句子嵌入模型

AI总结提出OmniSONAR模型，通过渐进式训练和教师-学生蒸馏，在数千种语言上实现文本、语音、代码和数学表达式的统一语义嵌入，在跨语言检索和翻译任务上显著降低错误率，并支持零样本语音翻译。

URL PDF HTML

2512.03818 2026-06-19 cs.CL 版本更新专题 80

Improving Alignment Between Human and Machine Codes: An Empirical Assessment of Prompt Engineering for Construct Identification in Psychology

改善人机编码对齐：心理学构念识别中提示工程的实证评估

Kylie L. Anglin, Stephanie Milan, Brittney Hernandez, Claudia Ventura

专题命中其他LLM ：优化LLM在心理学文本中识别构念的提示工程。

AI总结本研究提出一个实证框架，通过提示工程优化大语言模型在心理学文本中识别构念的性能。实验评估五种提示策略，发现构念定义和任务框架最关键，结合代码簿引导和自动提示工程的少样本方法最接近专家判断。

Comments 22 pages, 2 figures

URL PDF HTML

2606.20560 2026-06-19 cs.LG cs.AI 新提交专题 75

How Transparent is DiffusionGemma?

DiffusionGemma 的透明度如何？

Joshua Engels, Callum McDougall, Bilal Chughtai, Janos Kramar, Senthoran Rajamanoharan, Cindy Wu, Arthur Conmy, Asic Q Chen, Jean Tarbouriech, Min Ma, Brendan O'Donoghue, João Gabriel Lopes de Oliveira, Rohin Shah, Neel Nanda

专题命中其他LLM ：研究DiffusionGemma推理透明度

AI总结研究DiffusionGemma在连续潜空间中的推理透明度，通过变量透明度和算法透明度分解，发现可解释的令牌瓶颈将不透明串行深度降至Gemma 4的1.1倍，并揭示扩散特有现象。

Comments 20 main text pages and 6 pages of references and appendices

URL PDF HTML

2606.20400 2026-06-19 cs.LG 新提交专题 75

The Significance of Style Diversity in Annotation-Free Synthetic Data Generation

无标注合成数据生成中风格多样性的重要性

Zahra Abbasiantaeb, Zeno Belligoli, Omar Essam, Mohammad Aliannejadi

专题命中其他LLM ：利用LLM生成合成对话数据，提升意图分类性能

AI总结提出无需人工标注的对话生成框架，利用主题和风格属性增强多样性，并设计两种后处理风格化模型，实验表明风格多样性比主题多样性更关键，性能可达人工标注数据的93.3%。

URL PDF HTML

2606.19831 2026-06-19 cs.CL cs.LG 新提交专题 75

Leverage Is Not Reach: A Control-Window Law for Single-Neuron Steering in Language Models

杠杆不等于可达性：语言模型中单神经元操控的控制窗口定律

Hongliang Liu

专题命中其他LLM ：研究语言模型中单神经元干预的控制窗口理论。

AI总结提出预算归一化控制窗口框架，通过残差范数与写入范数之比定义的相干预算，预测单神经元干预何时产生连贯行为控制，并在15个神经元上验证了预测精度。

URL PDF HTML

2606.19679 2026-06-19 cs.LG cs.AI 新提交专题 80

LOKI: Memory-Free Null-Space Constrained Lifelong Knowledge Editing

LOKI: 无记忆零空间约束的终身知识编辑

Masih Eskandar, Miquel Sirera Perelló, Stratis Ioannidis, Jennifer Dy

专题命中后训练：终身知识编辑方法，动态选择层并投影到零空间

AI总结提出LOKI方法，通过希尔伯特-施密特独立性准则动态选择层，并将梯度更新投影到模型权重的零空间，实现无需访问旧知识的终身知识编辑，平均准确率提升14%。

URL PDF HTML

2606.19607 2026-06-19 cs.AI stat.AP 新提交专题 80

Which Pairs to Compare for LLM Post-Training?

LLM后训练中应比较哪些对？

Jiangze Han, Vineet Goyal, Will Ma

专题命中后训练：研究偏好后训练中比较对的选择，提升样本效率。

AI总结研究偏好后训练中如何选择最具信息量的比较对，提出基于采样设计的比较策展方法，通过DPO训练的理论分析给出优化准则，实验证明能提升样本效率。

URL PDF HTML

2606.19549 2026-06-19 cs.LG 新提交专题 80

Predicting Mergeability of Parameter-Efficient Fine-Tuning Updates

预测参数高效微调更新的可合并性

Lin Tang, Wei Zhang, Jing Li, Hongyu Chen, Ming Zhao, Yuxuan Wang

专题命中后训练：预测LoRA适配器可合并性，涉及模型微调

AI总结提出MergeProbe，通过训练初期信号预测LoRA适配器的可合并性，在MERGE-PEFT基准上实现最佳平均和最差保留性能。

URL PDF HTML

2606.19542 2026-06-19 cs.LG 新提交专题 80

Tracking Representation Dynamics in Large Language Models with Persistent Homology

利用持续同调追踪大型语言模型中的表示动态

Naman Malhotra, Jay Ambadkar, Abhinav Gupta, Kushal Kasivel, Abbas Schwarz, Kamillo Ferry, Anthea Monod

专题命中后训练：分析对齐过程中LLM内部表示拓扑变化

AI总结通过持续同调分析激活空间拓扑，发现对齐过程中拓扑重组主要发生在训练早期，且不同对齐目标产生可区分的拓扑轨迹。

Comments 29 pages

URL PDF HTML

2602.09689 2026-06-19 cs.LG 版本更新专题 80

Model soups need only one ingredient

模型汤只需一种成分

Alireza Abdollahpoorrostam, Nikolaos Dimitriadis, Adam Hazimeh, Pascal Frossard

专题命中后训练：MonoSoup方法通过SVD实现单检查点模型汤

AI总结提出MonoSoup方法，利用SVD分解单检查点的层更新，通过熵有效秩自动重加权成分，实现强分布内-分布外平衡，无需多检查点。

URL PDF HTML

2606.19946 2026-06-19 cs.CL cs.LG 新提交专题 75

GEMS: Geometric Constraints Enable Multi-Semantic Superposition in LLMs

GEMS: 几何约束使LLM中多语义叠加成为可能

Yu Deng

专题命中后训练：提出无训练多语义方向激活干预方法GEMS

AI总结提出GEMS方法，通过范数保持加权叠加、目标注意力路径注入和实时正交化两个几何约束，解决无训练多方向激活干预中的分布偏差和方向干扰问题，在GSM8K上保持98%准确率。

Comments 30 pages, 5 figures, 20 tables. Code and logs are available at: https://github.com/LuLu663939/gems-multi-semantic-steering

URL PDF HTML

2606.19528 2026-06-19 cs.LG cs.AI 新提交专题 80

Techniques for Peak Memory Reduction for LoRA Fine-tuning of LLMs on Edge Devices

边缘设备上LLM LoRA微调峰值内存降低技术

Hassan Dbouk, Matthias Reisser, Prathamesh Mandke, Likhita Arun Navali, Christos Louizos

专题命中预训练：降低LLM LoRA微调峰值内存的技术

AI总结针对边缘设备上LLM LoRA微调的内存瓶颈，提出四种互补技术（量化、检查点、softmax近似、logits掩码），在Llama-3.2 3B和Qwen-2.5 3B上实现高达26倍和28倍的峰值内存降低。

Comments Hassan Dbouk and Matthias Reisser contributed equally to this work

URL PDF HTML

2602.04396 2026-06-19 cs.LG cs.AI 版本更新专题 80

LoRDO: Distributed Low-Rank Optimization with Infrequent Communication

LoRDO: 分布式低秩优化与低频通信

Andrej Jovanović, Alex Iacob, Mher Safaryan, Ionut-Vlad Modoranu, Lorenzo Sani, William F. Shen, Xinchi Qiu, Dan Alistarh, Nicholas D. Lane

专题命中预训练：LoRDO框架实现分布式低秩优化与低频通信

AI总结提出LoRDO框架，统一低秩优化与低频同步，通过全秩准双曲更新恢复子空间探索，在125M-720M模型规模下实现与低秩DDP近似的性能，通信量减少约10倍。

Comments Accepted at ICML 2026

URL PDF HTML

2606.19625 2026-06-19 cs.CL cs.LG 新提交专题 75

Where Does Social Reasoning Come From? Capability Provenance in Language Models

社会推理从何而来？语言模型中的能力来源

Glenn Matlin, Chandreyi Chakraborty, Saehee Eom, Mika Okamoto, Rayan Castilla, Louis Jaburi, Alvin Deng, Taywon Min, Lucia Quirke, Stella Biderman, Mark Riedl

专题命中预训练：通过训练数据归因分析社会推理与STEM推理来源。

AI总结通过训练数据归因方法，发现OLMo3-7B中社会推理和STEM推理依赖于不同的预训练语料区域，且推理层面的差异比知识层面更显著。

Comments Under review at COLM 2026 (Conference)

URL PDF HTML

2606.19376 2026-06-19 cs.LG cs.AI cs.IR 新提交专题 80

Cost-Optimal LLM Routing with Limited User Feedback under User Satisfaction Guarantees

在用户满意度保证下基于有限用户反馈的成本最优LLM路由

Herbert Woisetschläger, Arastun Mammadli, Ryan Zhang, Shiqiang Wang

专题命中领域大模型：研究LLM路由以优化成本和服务质量。

AI总结针对LLM推理成本与服务质量之间的矛盾，提出SLARouter在线路由算法，利用稀疏单侧用户反馈学习成本最优策略，理论保证成本最优和SLA合规，实验显示成本降低高达2.2倍。

Comments Preprint. Under review

URL PDF HTML

2605.17443 2026-06-19 cs.CL cs.SD eess.AS 版本更新专题 80

Analyzing Error Propagation in Korean Spoken QA with ASR-LLM Cascades

分析韩语语音问答中ASR-LLM级联中的误差传播

Donghyuk Jung, Youngwon Choi

专题命中领域大模型：研究ASR-LLM级联在韩语语音问答中的误差传播

AI总结本文研究了韩语语音问答中ASR-LLM级联中误差传播的问题，通过分析下游语义失败，揭示了传统ASR指标无法完全捕捉的误差影响，发现不同性能的LLM在级联降级上的一致性，识别出单字符ASR错误作为语义失败通道，并通过辅助比较表明大音频语言模型在噪声韩语SQA中优于匹配语言模型的ASR-LLM流水线。

Comments Preprint. Submitted to APSIPA ASC 2026

URL PDF HTML

2604.18105 2026-06-19 eess.AS cs.CL cs.SD 版本更新专题 80

NIM4-ASR: Towards Efficient, Robust, and Customizable Real-Time LLM-Based ASR

NIM4-ASR：迈向高效、鲁棒且可定制的实时基于LLM的语音识别

Yuan Xie, Jiaqi Song, Guang Qiu, Xianliang Wang, Kai Qiao, Junfeng Yuan, Shengqing Liu, Yi Zhang, Bowen Chen, Ming Lei, Jie Gao, Jie Wu

专题命中领域大模型：提出基于LLM的语音识别框架NIM4-ASR

AI总结提出NIM4-ASR框架，通过重新设计多阶段训练范式（包括预训练架构优化、迭代异步SFT和ASR专用强化学习）以及生产优化（噪声鲁棒性、流式推理和RAG热词定制），在2.3B参数下实现SOTA性能。

URL PDF HTML

2507.00875 2026-06-19 cs.CL cs.HC cs.MA 版本更新专题 80

TransLaw: A Large-Scale Dataset and Multi-Agent Benchmark Simulating Professional Translation of Hong Kong Case Law

TransLaw：模拟香港判例法专业翻译的大规模数据集与多智能体基准

Xi Xuan, Chunyu Kit

专题命中领域大模型：多智能体框架用于法律翻译

AI总结针对香港判例法英译中资源匮乏、法律术语和格式要求严格的问题，构建了首个大规模句对齐平行语料库HKCFA Judgment 97-22，并提出多智能体框架TransLaw，通过分解翻译任务、集成法律词汇库和检索增强生成，显著提升翻译质量，但仍未达到人类专家的风格自然度。

Comments Accepted at ICML 2026 - AI for Law

URL PDF HTML

2509.03391 2026-06-19 cs.DL cs.CY 版本更新专题 80

More Parameters Than Populations: A Systematic Literature Review of Large Language Models within Survey Research

参数多于总体：调查研究中的大语言模型系统文献综述

Trent D. Buskirk, Florian Keusch, Leah von der Heyde, Adam Eck

专题命中领域大模型：系统综述LLM在调查研究中的应用，涵盖三个阶段。

AI总结通过系统文献综述，评估大语言模型在调查研究三个阶段（数据收集前、中、后）的应用，讨论其潜力与陷阱，并展望调查研究对LLM发展的贡献。

Comments This working paper is outdated as of June 2026 - please refer to the full version with substantive changes here: https://doi.org/10.31235/osf.io/eubj4_v1 This work was presented at NLPOR 2025 (non-archival): https://openreview.net/forum?id=0Hxhwa56Yg

URL PDF HTML

2605.16865 2026-06-19 cs.CL 版本更新专题 80

MixSD: Mixed Contextual Self-Distillation for Knowledge Injection

MixSD: 混合上下文自蒸馏用于知识注入

Jiarui Liu, Lechen Zhang, Yongjin Yang, Yinghui He, Yingheng Wang, Weihao Xuan, Zhijing Jin, Mona Diab

专题命中指令微调：混合上下文自蒸馏用于知识注入

AI总结本文提出MixSD方法，通过混合模型自身条件下的token来实现与模型生成分布对齐的知识注入，从而在保持预训练能力的同时提升事实记忆和推理能力。

URL PDF HTML

2606.19710 2026-06-19 cs.CL cs.AI 新提交专题 75

FineREX: Fine-Tuned NER-RE for Human Smuggling Knowledge Graphs

FineREX: 面向人口走私知识图谱的微调NER-RE

Elijah Feldman, Dipak Meher, Carlotta Domeniconi

专题命中指令微调：微调LLM以提升特定领域信息提取性能。

AI总结提出FineREX，一个基于微调LLM的流水线，用于从法律文档中提取实体和关系构建知识图谱，在F1分数上分别提升15.50%和31.46%，并减少50%处理时间。

Comments Code available at https://github.com/ElijahFeldman7/FineREX

URL PDF HTML

1. 其他LLM 14 篇

A Systematic Evaluation of Black-Box Uncertainty Estimation Methods for Large Language Models

GLARE: A Natural Language Interface for Querying Global Explanations

NRITYAM: Language Models Meet Art and Heritage of Dance

What sentiment analysis can't see: Measuring whether customers were helped, and what went wrong, across 70,000 support conversations

Code-Switching Reveals Language Anchoring in Multilingual LLMs

Quantifying Aleatoric Uncertainty of In-Context Learning for Robust Measure of LLM Prediction Confidence

Where to Place the Query? Unveiling and Mitigating Positional Bias in In-Context Learning for Diffusion LLMs via Decoding Dynamics

Disentangling Linguistic Relatedness from Task Alignment in Cross-Lingual Transfer

S2D2: Fast Decoding for Diffusion LLMs via Training-Free Self-Speculation

Omnilingual SONAR: Cross-Lingual and Cross-Modal Sentence Embeddings Bridging Massively Multilingual Text and Speech

Improving Alignment Between Human and Machine Codes: An Empirical Assessment of Prompt Engineering for Construct Identification in Psychology

How Transparent is DiffusionGemma?

The Significance of Style Diversity in Annotation-Free Synthetic Data Generation

Leverage Is Not Reach: A Control-Window Law for Single-Neuron Steering in Language Models

2. 后训练 6 篇

LOKI: Memory-Free Null-Space Constrained Lifelong Knowledge Editing

Which Pairs to Compare for LLM Post-Training?

Predicting Mergeability of Parameter-Efficient Fine-Tuning Updates

Tracking Representation Dynamics in Large Language Models with Persistent Homology

Model soups need only one ingredient

GEMS: Geometric Constraints Enable Multi-Semantic Superposition in LLMs

3. 预训练 3 篇

Techniques for Peak Memory Reduction for LoRA Fine-tuning of LLMs on Edge Devices

LoRDO: Distributed Low-Rank Optimization with Infrequent Communication

Where Does Social Reasoning Come From? Capability Provenance in Language Models

4. 领域大模型 5 篇

Cost-Optimal LLM Routing with Limited User Feedback under User Satisfaction Guarantees

Analyzing Error Propagation in Korean Spoken QA with ASR-LLM Cascades

NIM4-ASR: Towards Efficient, Robust, and Customizable Real-Time LLM-Based ASR

TransLaw: A Large-Scale Dataset and Multi-Agent Benchmark Simulating Professional Translation of Hong Kong Case Law

More Parameters Than Populations: A Systematic Literature Review of Large Language Models within Survey Research

5. 指令微调 2 篇

MixSD: Mixed Contextual Self-Distillation for Knowledge Injection

FineREX: Fine-Tuned NER-RE for Human Smuggling Knowledge Graphs