Towards Realistic 3D Sonar Simulation
面向真实3D声纳仿真
发表机构 * IEEE
AI总结 本文提出一种模块化架构,结合GPU加速图形引擎与物理声学传播原理,在NVIDIA Isaac Sim中实现基于Water Linked 3D-15传感器的体积3D声纳模型,并通过硬件在环配置验证其有效性。
面向真实3D声纳仿真
发表机构 * IEEE
AI总结 本文提出一种模块化架构,结合GPU加速图形引擎与物理声学传播原理,在NVIDIA Isaac Sim中实现基于Water Linked 3D-15传感器的体积3D声纳模型,并通过硬件在环配置验证其有效性。
基于率失真的自适应状态-动作抽象
发表机构 * Department of Informatics, University of Sussex(苏塞克斯大学信息学院) ; Department of Brain Science, Imperial College London(伦敦帝国学院脑科学系) ; Centre for Eudaimonia and Human Flourishing, University of Oxford(牛津大学幸福与人类繁荣中心)
AI总结 提出通过率失真原理构建软状态-动作抽象,并利用性能证书动态调整抽象粒度,以在压缩状态和动作信息时实现近似最优性能。
Comments 28 pages, 2 figures
Diff-CA: 使用扩散模型分离共同因素和显著因素
发表机构 * INRIA at Univ. Grenoble Alpes(法国格勒诺布尔大学INRIA实验室) ; CEA List, Palaiseau(法国CEA列表,帕莱索) ; Télécom Paris, Institut Polytechnique de Paris(巴黎电信学院,巴黎理工学院)
AI总结 提出一种基于扩散模型的条件框架,通过弱监督学习将图像条件分解为共同因素和显著因素,实现对比分析中的因素分离,并保持高保真图像生成质量。
从观察中学习理论化世界
发表机构 * University of Washington(华盛顿大学)
AI总结 受认知科学启发,提出Learning-to-Theorize范式,通过神经理论家(NEO)模型从原始非文本观测中推断显式解释性理论,实现基于解释的泛化。
利用结构上下文进行实体对齐基础模型
发表机构 * State Key Laboratory for Novel Software Technology, Nanjing University, Nanjing, China(南京大学新型软件技术国家重点实验室) ; Nanjing University of Information Science and Technology, Nanjing, China(南京信息科学技术大学) ; National Institute of Healthcare Data Science, Nanjing University, Nanjing, China(南京大学健康数据科学国家研究院)
AI总结 提出ContextEA框架,通过交叉KG交互编码器和结构校准解码器增强结构上下文的构建与利用,在29个数据集上超越强基线,实现更强的跨KG迁移能力。
用于脑电图解码的相关矩阵切片Wasserstein框架
发表机构 * Westlake University(西湖大学) ; School of Artificial Intelligence and Computer Science(人工智能与计算机科学学院) ; Jiangnan University(江南大学) ; Sun Yat-sen University(中山大学)
AI总结 提出基于拉回欧几里得度量的切片Wasserstein框架,实例化两种相关矩阵切片Wasserstein差异,并构建脑电图解码的域泛化方法,在三个数据集上验证了分布偏移下的泛化能力提升。
Comments Accepted by KDD 2026
MS-DKC:用于设计和适配医学图像分割模型的数据集知识卡片框架
发表机构 * Center of Excellence in Precision Medicine and Digital Health, Faculty of Dentistry, Chulalongkorn University, Bangkok, Thailand(精准医学与数字健康中心,朱拉隆功大学牙科学院,泰国曼谷) ; Department of Computer Engineering, COMSATS University Islamabad, Islamabad, Pakistan(计算机工程系,COMSATS伊斯兰堡大学,巴基斯坦伊斯兰堡) ; School of Biomedical Engineering, UNSW, Sydney, NSW, Australia(生物医学工程学院,新南威尔士大学,澳大利亚悉尼,新南威尔士) ; Visiting Scholar (Collaborative Projects), Center of Excellence in Precision Medicine and Digital Health, Chulalongkorn University, Bangkok, Thailand(访问学者(合作项目),精准医学与数字健康中心,朱拉隆功大学,泰国曼谷) ; Department of Computing, Abasyn University Islamabad Campus (AUIC), Islamabad, Pakistan(计算系,阿巴斯扬大学伊斯兰堡校区(AUIC),巴基斯坦伊斯兰堡) ; Mohamed bin Zayed University of Artificial Intelligence, Abu Dhabi, United Arab Emirates(Mohamed bin Zayed人工智能大学,阿布扎比,阿拉伯联合酋长国) ; College of Computer and Information Sciences, prince Sultan University, Riyadh, SAudi Arabia(计算机与信息科学学院,苏丹王子大学,沙特阿拉伯利雅得)
AI总结 提出MS-DKC框架,通过显式记录数据集特征(如前景占有率、形态、边界模糊性等)并映射到失败模式、设计先验和风险对齐标准,指导医学图像分割模型的设计与适配,在DRIVE、ISIC2018和ACDC数据集上验证了数据集条件化设计的有效性。
步进自适应多模态融合网络与多尺度云特征学习用于超短期太阳辐照度预测
发表机构 * School of Automation, Southeast University(自动化学院,东南大学)
AI总结 提出一种步进自适应多模态融合网络,通过InceptionNeXt提取多尺度云特征、步进自适应低频补偿单元动态调整低频信息,并结合气象时间序列特征进行超短期太阳辐照度预测。
HyperVis:洛伦兹双曲面上的连续潜在视觉关系图用于组合推理
发表机构 * Data Science and AI, University of Doha for Science and Technology, Qatar(数据科学与人工智能,多哈科学技术大学,卡塔尔) ; Pluralis Research, Australia(Pluralis研究,澳大利亚) ; Department of Electrical and Computer Engineering, North South University, Bangladesh(电气与计算机工程系,北南大学,孟加拉国)
AI总结 针对视觉语言模型在组合推理中理解物体间关系的困难,提出HyperVis方法,通过计算密集视觉关系张量并投影到洛伦兹双曲面,利用空间物理(IoA驱动的蕴含锥和外部角排斥)增强层次结构,在训练时作为正则化器提升生成式VQA性能,在推理时作为关系编码器提升判别式组合评分。
CogManip: 在大语言模型多轮交互中操控行为的基准测试
发表机构 * School of Artificial Intelligence, Beihang University(北京航空航天大学人工智能学院) ; BrainCog AI Lab, CASIA(CASIA脑认知人工智能实验室) ; Gaoling School of AI, Renmin University of China(中国人民大学 Gallagher人工智能学院) ; Beijing-AISI(北京人工智能研究所) ; Beijing Key Laboratory of Safe AI and Superalignment(北京安全人工智能与超对齐重点实验室) ; School of Artificial Intelligence, UCAS(中国科学技术大学人工智能学院) ; Huawei Technologies Co., Ltd.(华为技术有限公司)
AI总结 提出CogManip基准,通过1000个多轮交互场景评估15种操控策略风险,发现前沿模型存在显著风险异质性,并揭示提示工程防御的重要性。
IR3DE:面向大型语言模型的线性路由器
发表机构 * Gensyn
AI总结 提出基于岭回归的线性路由器IR3DE,以低成本快速为每个提示选择最合适的领域专家大语言模型,在推理任务中超越基线方法,并支持动态添加或移除专家模型。
Comments Accepted at the ICML 2026 Workshop on Resource-Adaptive Foundation Model Inference
OrderGrad: 通过顺序统计量策略梯度估计超越均值优化
发表机构 * The University of Tokyo(东京大学)
AI总结 提出OrderGrad,一种用于顺序统计量目标的似然比和重参数化梯度估计器族,通过奖励变换实现风险厌恶、鲁棒和探索性学习的统一即插即用方法。
通过可微编程整合机制模型与数据驱动模型用于神经系统疾病
发表机构 * Department of Applied Mechanics, Indian Institute of Technology Delhi(印度理工学院德里应用力学系) ; Yardi School of Artificial Intelligence, Indian Institute of Technology Delhi(印度理工学院德里人工智能学院)
AI总结 本文综述了混合建模策略,通过可微编程将深度学习与基于物理的求解器结合,用于神经系统疾病的诊断、预后和治疗规划,优于纯机制或纯数据驱动方法。
超越语义组织:记忆作为长时程智能体的执行状态管理
发表机构 * University of Science and Technology of China(中国科学技术大学) ; Microsoft(微软) ; Nanjing University(南京大学) ; University of California, San Diego(加州大学圣地亚哥分校)
AI总结 针对长时程任务中智能体依赖执行状态而非语义相似性的问题,提出MAGE(记忆作为智能体引导的探索),通过层次状态树管理交互,实现状态完整性和错误隔离,在MemoryArena上任务成功率提升7.8-20.4个百分点,token消耗降低55.1%。
Comments 16 pages
CHALIS:困难场景下的语言识别挑战数据集
发表机构 * Charles University, Faculty of Mathematics and Physics(查理大学数学与物理系) ; Institute of Formal and Applied Linguistics(形式与应用语言学研究所)
AI总结 提出CHALIS数据集,针对亲缘语言和拼写噪声等困难场景,通过收集互懂语言对句子和模拟拼写噪声,评估四种语言识别系统,发现它们在低资源语言和音译输入上表现不佳。
Comments 7 pages
LatentSkill: 从上下文文本技能到LLM智能体的权重内隐技能
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; Sun Yat-Sen University(中山大学) ; Shanghai Innovation Institute(上海创新研究院) ; OPPO Research Institute(OPPO研究院)
AI总结 提出LatentSkill框架,通过预训练超网络将文本技能转换为即插即用的LoRA适配器,将技能知识存储在权重空间而非上下文空间,从而减少预填充令牌并提升性能。
Comments 16 pages, 4 figures
衡量对集合值AI建议适当依赖的框架
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; ETH Zurich(苏黎世联邦理工学院)
AI总结 本文提出首个正式框架,用于在序列判断-顾问范式中衡量对集合值AI建议的适当依赖,涵盖分类和回归任务,并定义了新的度量指标以捕捉现有方法忽略的细微差别。
关于 Max@K 策略梯度的优势估计
发表机构 * The University of Tokyo(东京大学)
AI总结 针对稀疏奖励下推理模型后训练困难,提出一种新的优势估计方法 MaxPO,通过 Leave-Two-Out 基线实现中心化优势,降低梯度方差并提升性能。
SkillComposer: 学习演化智能体技能以实现特化与泛化
发表机构 * Zhejiang University(浙江大学) ; Tongyi Lab(通义实验室) ; National University of Singapore(新加坡国立大学)
AI总结 提出SkillComposer框架,通过创建、改进和合并三种可学习操作,使语言模型在推理时自我演化技能,支持离线、在线和混合部署模式,在多个基准上提升性能。
Comments Under Review
视觉自回归模型的知识蒸馏
发表机构 * Qualcomm AI Research(高通人工智能研究) ; University of Technology Nuremberg(纽伦堡技术大学)
AI总结 针对视觉自回归模型计算开销大的问题,提出VarKD蒸馏框架,通过选择性教师监督和减少令牌级歧义,在ImageNet上多个AR骨干网络中优于现有蒸馏方法。
基于生成流场代理的三维水下路径规划
发表机构 * Flinders University(弗林德斯大学)
AI总结 针对自主水下航行器回收过程中复杂三维螺旋桨尾流的高成本CFD仿真问题,提出用条件生成对抗网络(cGAN)作为替代,结合能量加权A*路径规划,实现快速且有效的路径规划。
Comments 41 pages, 5 figures, 11 tables
VZCrash:大规模自车碰撞IMU数据集
发表机构 * Verizon Connect
AI总结 提出VZCrash,目前最大的真实车辆碰撞IMU数据集,包含超过31,000个验证碰撞和158,000个负样本,并基于该数据集对多种碰撞检测方法进行了基准测试和规模效应分析。
Comments Accepted at the 2026 IEEE International Conference on Intelligent Transportation Systems (ITSC 2026). VZCrash is publicly available at this URL: https://huggingface.co/datasets/vzc-research-chapter/VZCrash
FontFusion: 通过排版条件增强扩散模型中的生成文本
发表机构 * Adobe Research(Adobe研究院) ; Department of Computer Science, University of Bucharest(布加勒斯特大学计算机科学系)
AI总结 提出FontFusion框架,通过层次化token表示、位置感知嵌入和多级token丢弃策略,在扩散Transformer中实现精确字体控制与文本可读性的平衡,显著提升排版保真度。
Comments 12 pages, 8 figures, accepted at ICANN 2026
基于分布式生成式AI模型的人机协作操作对话框架
发表机构 * Automation Technology and Mechanical Engineering, Tampere University(自动化技术与机械工程,塔尔库大学)
AI总结 提出一个分布式对话框架,集成语言和视觉语言模型与ROS 2执行栈,实现从自由形式用户命令生成结构化操作请求,并通过视觉基础将图像空间目标转换为机器人框架目标,实验验证了端到端任务可靠性和延迟。
Comments Accepted to the 35th IEEE International Conference on Robot and Human Interactive Communication (RO-MAN 2026). The final published version will appear under the title "A Distributed Conversational Framework for Human-Robot Collaborative Manipulation Using Local LLMs and VLMs"
ReCache: 通过REINFORCE学习扩散模型的预算感知缓存调度
发表机构 * HSE University(俄罗斯高等经济学院) ; Yandex Research(Yandex研究院)
AI总结 提出ReCache,利用策略梯度学习在给定计算预算下最大化生成质量的去噪步骤重计算调度,无需标注数据且兼容多种缓存机制。
MDP-GRPO:面向多约束指令跟随的稳定化组相对策略优化
发表机构 * Department of Electrical and Computer Engineering, College of Engineering, University of Tehran(德黑兰大学电气与计算机工程系,工程学院) ; Department of Statistics, Mathematics and Computer Science, Allameh Tabataba’i University(塔巴蒂大学统计、数学与计算机科学系)
AI总结 针对标准GRPO在离散低分散奖励下的不稳定性,提出MDP-GRPO,通过多温度采样、双锚优势、前景理论整形和非对称KL正则化,在FollowBench等数据集上提升严格约束满足率最高5.0%。
Comments Accepted to ACL 2026 Main Conference. 14 pages, 9 figures
记忆何时应保持沉默:衡量记忆增强型对话代理的记忆使用边界
发表机构 * Hefei University of Technology(合肥工业大学) ; Harvard Medical School(哈佛医学院)
AI总结 提出RBI-Eval框架,通过探针集比较模型在有/无敏感记忆时的行为差异,发现当前检索增强生成系统无法避免敏感记忆的不当整合,需在检索和生成阶段同时进行记忆感知决策。
Comments 21 pages, 10 figures
超越相似性:面向个人AI代理的可信记忆搜索
发表机构 * University of Science and Technology of China(中国科学技术大学) ; Tsinghua University(清华大学) ; National University of Singapore(新加坡国立大学) ; University of California, Berkeley(加州大学伯克利分校)
AI总结 针对个人AI代理中基于语义相似性的记忆检索存在的信任漏洞,提出轻量级记忆插件MemGate,通过查询条件神经门控实现可信记忆搜索。
基于函数近似的在线KL正则化强化学习在模型误设下的研究
发表机构 * Department of XXX, University of YYY, Location, Country(XXX系,YYY大学,地点,国家) ; School of ZZZ, Institute of WWW, Location, Country(ZZZ学院,WWW研究所,地点,国家)
AI总结 研究在模型误设下,基于一般函数近似的KL正则化上下文赌博机和情节强化学习,提出KL误设公式并分析基于回归的Gibbs策略更新算法,给出包含显式误设项的高概率KL遗憾界。
Comments Accepted by RLC 2026
L-SDPPO:用于舱内机器人操作的脉冲扩散策略优化
发表机构 * Department of Control Science and Engineering, Harbin Institute of Technology(控制科学与工程系,哈尔滨工业大学) ; Department of Mechanical and Automation Engineering, The Chinese University of Hong Kong(机械与自动化工程系,香港中文大学)
AI总结 提出L-SDPPO框架,结合脉冲扩散策略与强化学习优化,并引入状态依赖延迟注入机制,在舱内机器人操作任务中实现高成功率和低能耗。