AI 大模型
语言大模型 / LLM
大语言模型、预训练、指令微调、后训练和语言模型应用。
1. 其他LLM 14 篇
What sentiment analysis can't see: Measuring whether customers were helped, and what went wrong, across 70,000 support conversations
情感分析看不到的:衡量客户是否得到帮助以及出了什么问题——基于70,000次客服对话
专题命中 其他LLM :使用GPT-5.4估计客户满意度并标记问题。
AI总结 本研究使用GPT-5.4从70,450次客服对话中估计客户满意度并标记具体问题,发现满意度估计比情感分析更准确,且能揭示情感分析无法捕捉的客户状态和问题原因。
Comments 25 pages, 6 figures
Quantifying Aleatoric Uncertainty of In-Context Learning for Robust Measure of LLM Prediction Confidence
量化上下文学习中的偶然不确定性以稳健衡量LLM预测置信度
专题命中 其他LLM :量化上下文学习中的不确定性,提升置信度
AI总结 针对上下文学习(ICL)中预测对提示设计敏感的问题,提出基于贝叶斯观点和机制可解释性的自函数向量,直接估计偶然不确定性,并设计严格评估协议,在合成和真实数据集上验证了方法的可靠性及在幻觉检测等应用中的实用性。
Comments Accepted to ACL 2026
Where to Place the Query? Unveiling and Mitigating Positional Bias in In-Context Learning for Diffusion LLMs via Decoding Dynamics
查询应置于何处?通过解码动力学揭示并缓解扩散大语言模型中上下文学习的位置偏差
专题命中 其他LLM :研究扩散LLM中上下文学习的位置偏差
AI总结 本文系统分析了扩散大语言模型中查询位置对生成质量的影响,发现其与示例语义质量同等重要,并提出基于平均置信度的无训练自适应路由策略Auto-ICL以优化查询放置。
Comments 9 figures, 4 tables
S2D2: Fast Decoding for Diffusion LLMs via Training-Free Self-Speculation
S2D2:通过免训练自我推测实现扩散LLM的快速解码
专题命中 其他LLM :扩散LLM解码加速,属于语言模型方法
AI总结 提出S2D2,一种免训练的自我推测解码框架,通过将块扩散模型在块大小为1时变为自回归模型,实现草稿与验证角色复用,在不增加训练或测试计算下提升解码速度与准确性。
Comments Code is available at https://github.com/phymhan/S2D2
Improving Alignment Between Human and Machine Codes: An Empirical Assessment of Prompt Engineering for Construct Identification in Psychology
改善人机编码对齐:心理学构念识别中提示工程的实证评估
专题命中 其他LLM :优化LLM在心理学文本中识别构念的提示工程。
AI总结 本研究提出一个实证框架,通过提示工程优化大语言模型在心理学文本中识别构念的性能。实验评估五种提示策略,发现构念定义和任务框架最关键,结合代码簿引导和自动提示工程的少样本方法最接近专家判断。
Comments 22 pages, 2 figures
2. 后训练 6 篇
GEMS: Geometric Constraints Enable Multi-Semantic Superposition in LLMs
GEMS: 几何约束使LLM中多语义叠加成为可能
专题命中 后训练 :提出无训练多语义方向激活干预方法GEMS
AI总结 提出GEMS方法,通过范数保持加权叠加、目标注意力路径注入和实时正交化两个几何约束,解决无训练多方向激活干预中的分布偏差和方向干扰问题,在GSM8K上保持98%准确率。
Comments 30 pages, 5 figures, 20 tables. Code and logs are available at: https://github.com/LuLu663939/gems-multi-semantic-steering
3. 预训练 3 篇
Techniques for Peak Memory Reduction for LoRA Fine-tuning of LLMs on Edge Devices
边缘设备上LLM LoRA微调峰值内存降低技术
专题命中 预训练 :降低LLM LoRA微调峰值内存的技术
AI总结 针对边缘设备上LLM LoRA微调的内存瓶颈,提出四种互补技术(量化、检查点、softmax近似、logits掩码),在Llama-3.2 3B和Qwen-2.5 3B上实现高达26倍和28倍的峰值内存降低。
Comments Hassan Dbouk and Matthias Reisser contributed equally to this work
4. 领域大模型 5 篇
Analyzing Error Propagation in Korean Spoken QA with ASR-LLM Cascades
分析韩语语音问答中ASR-LLM级联中的误差传播
专题命中 领域大模型 :研究ASR-LLM级联在韩语语音问答中的误差传播
AI总结 本文研究了韩语语音问答中ASR-LLM级联中误差传播的问题,通过分析下游语义失败,揭示了传统ASR指标无法完全捕捉的误差影响,发现不同性能的LLM在级联降级上的一致性,识别出单字符ASR错误作为语义失败通道,并通过辅助比较表明大音频语言模型在噪声韩语SQA中优于匹配语言模型的ASR-LLM流水线。
Comments Preprint. Submitted to APSIPA ASC 2026
TransLaw: A Large-Scale Dataset and Multi-Agent Benchmark Simulating Professional Translation of Hong Kong Case Law
TransLaw:模拟香港判例法专业翻译的大规模数据集与多智能体基准
专题命中 领域大模型 :多智能体框架用于法律翻译
AI总结 针对香港判例法英译中资源匮乏、法律术语和格式要求严格的问题,构建了首个大规模句对齐平行语料库HKCFA Judgment 97-22,并提出多智能体框架TransLaw,通过分解翻译任务、集成法律词汇库和检索增强生成,显著提升翻译质量,但仍未达到人类专家的风格自然度。
Comments Accepted at ICML 2026 - AI for Law
More Parameters Than Populations: A Systematic Literature Review of Large Language Models within Survey Research
参数多于总体:调查研究中的大语言模型系统文献综述
专题命中 领域大模型 :系统综述LLM在调查研究中的应用,涵盖三个阶段。
AI总结 通过系统文献综述,评估大语言模型在调查研究三个阶段(数据收集前、中、后)的应用,讨论其潜力与陷阱,并展望调查研究对LLM发展的贡献。
Comments This working paper is outdated as of June 2026 - please refer to the full version with substantive changes here: https://doi.org/10.31235/osf.io/eubj4_v1 This work was presented at NLPOR 2025 (non-archival): https://openreview.net/forum?id=0Hxhwa56Yg
5. 指令微调 2 篇
FineREX: Fine-Tuned NER-RE for Human Smuggling Knowledge Graphs
FineREX: 面向人口走私知识图谱的微调NER-RE
专题命中 指令微调 :微调LLM以提升特定领域信息提取性能。
AI总结 提出FineREX,一个基于微调LLM的流水线,用于从法律文档中提取实体和关系构建知识图谱,在F1分数上分别提升15.50%和31.46%,并减少50%处理时间。
Comments Code available at https://github.com/ElijahFeldman7/FineREX