STaT: Resolving Shape Distortion in Non-Stationary Time Series via Tri-Modal Synergy
STaT: 通过三模态协同解决非平稳时间序列中的形状失真
AI总结 提出STaT多模态架构,通过符号-时间-文本三模态对齐,在降低平均误差的同时减少形状失真,在8个基准上提升幅度指标达8.9%并降低形状失真达8.5%。
STaT: 通过三模态协同解决非平稳时间序列中的形状失真
AI总结 提出STaT多模态架构,通过符号-时间-文本三模态对齐,在降低平均误差的同时减少形状失真,在8个基准上提升幅度指标达8.9%并降低形状失真达8.5%。
LRDDv3:具有距离信息和热数据的高分辨率远程无人机检测数据集
AI总结 提出LRDDv3数据集,包含102,532张高分辨率远程RGB图像和29,630张配对IR图像,支持远程无人机检测,提供距离信息。
Comments 8 pages, 5 figures. Accepted to the 2026 IEEE International Conference on Robotics and Automation (ICRA)
概念擦除应发生在何处:文本到视频扩散模型中的概念-层对齐
AI总结 本文通过识别概念-层拓扑对齐瓶颈,提出基于可分离性优化的CLEAR框架,在文本到视频扩散模型中实现精确的概念擦除并保持生成质量。
Comments Accepted by ICML 2026
从潜在空间到训练数据:最小MLP中的可解释特化
AI总结 研究最小单隐藏层MLP中隐藏神经元是否因训练偏差而特化,以及这种特化是否改善基于原型的训练数据重构,发现覆盖正则化能提高特化比并降低重构误差,而重叠惩罚会导致原型中心被推出凸包。
通过特定恐惧症数据迁移学习定量评估创伤后应激障碍的严重程度
AI总结 提出基于多元核密度估计的机器学习方法,利用心率与皮肤电导信号从特定恐惧症数据迁移学习,客观评估PTSD严重程度,分类准确率86%,平均绝对误差5.6。
Comments Submitted to a peer-reviewed journal, comments welcome
先探索再求解:面向ARC-AGI-3的认知主体中的速度-深度权衡
AI总结 通过系统分析所有25个公开ARC-AGI-3游戏,发现它们均可通过非智能策略达到,并提出了一个三阶段认知主体AERA,在速度-深度权衡框架下形式化其性能。
Comments 22 pages, 3 figures. Code: https://github.com/farmountain/aera-arc3-paper (CC0)
Thaka at KSAA-2026 Task 2: 用于阿拉伯语音节符号化的正则化微调
AI总结 针对低资源阿拉伯语音节符号化任务,通过正则化微调CATT-Whisper多模态模型,结合R-Drop一致性正则化、Optuna优化超参数和Focal Loss,在KSAA-2026共享任务中取得第一名。
Comments 4 pages, 1 figure. Published in Proceedings of OSACT7 (LREC 2026). Winning system for KSAA-2026 Task 2 on Arabic Speech Diacritization
在学习者语料库上继续预训练是否能提高英语水平测试的自动作文评分?来自EFCAMDAT的证据
AI总结 研究通过在EFCAMDAT学习者语料库上进行领域自适应继续预训练(DAPT),探究其对基于Transformer的自动作文评分(AES)在英语水平测试中的影响,发现全语料库DAPT效果不一,而基于CEFR分级的针对性DAPT能更可靠地提升领域内评分性能。
Comments 16 pages, 3 figures, 10 tables, including references and appendices
闭环双向提示用于视觉语言模型的对抗鲁棒性
AI总结 针对视觉语言模型在对抗扰动下跨模态语义对齐脆弱的问题,提出闭环双向提示方法,通过动态反馈循环恢复跨模态一致性,并引入语义锚点约束循环更新,实现实例自适应保护,在11个数据集上达到最先进的鲁棒性和泛化性能。
Comments 24 pages, 8 figures
LLM 能时间旅行吗?通过强化学习增强法律智能搜索中的时间一致性
AI总结 提出 LegalSearch-R1 框架,结合本地 statute RAG 和在线搜索,通过强化学习在跨修订期数据上训练,以解决法律 LLM 的时间偏差和搜索代理缺乏时间约束的问题,在13项法律任务上超越现有方法。
Comments Under Review
通过约束多目标深度强化学习联合优化联邦边缘学习中的训练与推理
AI总结 提出一种在线优化框架,通过约束多目标深度强化学习算法C-MOPPO联合管理资源受限边缘设备上的联邦训练和推理,以在最小化延迟和能耗的同时最大化推理精度。
R5DGS:基于刚体约束的语义感知4D高斯泼溅用于高效动态场景重建
AI总结 提出R5DGS框架,通过紧凑身份编码和CLIP对象查找表实现语义感知的4D高斯表示,并利用刚体推理约束仅预测对象质心动力学,从而在保持轨迹合理性的同时实现11 FPS的加速。
Comments Code: https://github.com/be2rlab/r5dgs
通用激活词化器:跨模型激活解释的统一框架
AI总结 提出通用激活词化器(UAV)框架,通过共享解码器和轻量适配器将异构模型的隐藏表示转化为自然语言解释,支持跨模型家族和规模的激活词化,在分类、事实检索和要点总结任务中与强基线竞争。
Comments 23 pages, 11 figures, 11 tables
AgentGrounder:使用多模态语言模型的零样本3D视觉点云定位
AI总结 提出AgentGrounder框架,通过两阶段设计(离线构建对象查找表和在线工具驱动代理)实现零样本3D视觉定位,在ScanRefer和Nr3D上分别提升2.5%和6.3%的准确率。
Comments Code: https://github.com/be2rlab/AgentGrounder
使用多模态深度学习预测盈利公告日的股价方向
AI总结 本研究结合基本面指标、技术指标和新闻情感,利用LSTM和Transformer模型预测盈利公告日的股价方向,发现Transformer在识别波动方面更敏感,且新闻情感有助于提升性能。
$D^2$-Monitor: 通过犹豫感知路由实现扩散LLM的动态安全监控
AI总结 针对扩散大语言模型的安全监控问题,提出基于犹豫感知路由的双层动态监控框架$D^2$-Monitor,通过轻量级探针实时估计犹豫度并触发高容量探针,在3个数据集上以0.85M参数达到最优性能与效率平衡。
SP-MoMamba:基于超像素驱动的状态空间专家混合模型用于高效图像超分辨率
AI总结 提出SP-MoMamba,通过超像素驱动将刚性扫描转化为语义级交互,结合多尺度超像素状态空间专家混合与局部空间调制专家,实现高效且保真的图像超分辨率。
Comments 16 pages, 15 figures
因果舌结:LLMs 能编码因果方向,但其是/否输出无法表达
AI总结 研究发现大语言模型在因果问题上存在内部编码与输出不匹配的现象,通过线性探针可从隐藏状态恢复证据支持的答案(准确率约0.97),但口头是/否回答却退化为常识答案(准确率约0.5),揭示了约+0.5的差距,称为“因果舌结”。
Merge-Bench: 使用大型语言模型解决合并冲突
AI总结 本文构建了包含7938个真实合并冲突的数据集Merge-Bench,并利用组相对策略优化(GRPO)训练LLMergeJ模型,在Java程序上以14B参数超越多数商业LLM,但最佳模型正确解决率仍低于60%。
Comments 14 pages, 7 figures
两层多物品订单履约的最优和阶最优门控优先级贪婪策略
AI总结 针对电商在两层分销网络中实时履约决策问题,提出门控优先级贪婪策略,证明其竞争比最优性,并通过数值实验验证性能。
基于共形化的不精确推断在有限数据下的鲁棒外推
AI总结 提出一种模型无关的共形化不精确推断框架,通过引入不精确性和距离感知,在分布偏移下保持覆盖并自适应扩展不确定性,实现有限数据下的鲁棒外推。
Comments 10 pages, 5 figures
无残差Transformer的量化优势
AI总结 本文通过对比残差与无残差Transformer,发现残差连接导致激活值非高斯性增强,从而增加量化误差;而无残差Transformer通过正交初始化等技术保持近高斯激活值,显著提升低比特量化鲁棒性,揭示了精度与可压缩性之间的权衡。
Comments Under review
DyCoRM: 面向文本到图像生成的动态准则感知奖励建模
AI总结 针对用户对文本到图像生成中动态、细粒度评价准则的需求,提出DyCoRM动态准则感知奖励模型,并构建数据集DyCoDataset-20K和基准DyCoBench-1K,通过准则感知偏好比较和DyCoPick选择方法,实现首个动态细粒度奖励建模框架。
WBench:面向交互式视频世界模型评估的综合多轮基准
AI总结 提出WBench,一个包含五个维度、289个测试用例和1058轮交互的综合多轮基准,用于系统评估交互式世界模型,并发现现有模型在不同维度上表现不一。
Comments Technical report of WBench. Homepage: https://meituan-longcat.github.io/WBench/
通过类型化记忆表示缓解长期智能体中的来源-角色崩溃
AI总结 提出MemIR类型化记忆中间表示,通过结构约束实现来源监控,解决长期智能体中因无结构存储导致的来源-角色崩溃问题,在LoCoMo和BEAM-100K上优于现有基线。
UNATE:用于晶体结构性质预测的无监督原子嵌入
AI总结 提出UNATE框架,通过无监督去噪自编码器和自监督对比学习从无标签晶体结构中学习鲁棒原子表示,用于下游性质预测,在有限标签数据下提升高达10%。
当自我信念误导:面向可验证奖励的强化学习的主动标签获取
AI总结 提出RLAVR框架,通过主动获取少量真实标签并与伪标签结合,利用CAG指标和CARE策略稳定训练并提升有限标注预算下的性能。
SAM3辅助训练的轻量级YOLO模型用于精准养猪
AI总结 提出利用SAM 3自动生成伪标签训练YOLOv8检测器,无需人工标注,在PigLife数据集上达到79.4% mAP,推理速度比教师模型快约200倍。
Comments Accepted for publication at the IEEE Sensors Applications Symposium (SAS 2026)
从核算到协调:面向数据中心调度的虚拟水感知电-算-水关联框架
AI总结 提出一个将虚拟水影响内化到电力系统调度的可微优化框架,通过深度学习实现端到端协调策略学习,在IEEE 30/118节点系统上实现约3-5%的淡水取水减少。
RePlan-Bot:面向具身指令跟随的多级重规划
AI总结 提出RePlan-Bot,通过多级连续重规划(高层LLM审计器、常识引导搜索、轻量级ViT校正器)解决具身指令跟随中的长时规划和不可逆状态变化问题,在ALFRED基准上取得最佳性能。
Comments 10 pages