When is Your LLM Steerable?
你的大模型何时可操控?
发表机构 * University of Maryland, College Park(马里兰大学帕克分校) ; MBZUAI, UAE(穆罕默德·本·扎耶德人工智能大学)
AI总结 提出通过模型生成初期的内部状态预测激活操控是否成功,并利用该预测器优化操控强度搜索,降低解码成本。
你的大模型何时可操控?
发表机构 * University of Maryland, College Park(马里兰大学帕克分校) ; MBZUAI, UAE(穆罕默德·本·扎耶德人工智能大学)
AI总结 提出通过模型生成初期的内部状态预测激活操控是否成功,并利用该预测器优化操控强度搜索,降低解码成本。
Kuramoto注意力:在环面上同步自注意力
发表机构 * Department of Informatics, Luddy School of Informatics, Computing, and Engineering, Cognitive Science Program, Indiana University Bloomington(印第安纳大学伯明顿分校信息学系,卢迪信息学、计算与工程学院,认知科学项目)
AI总结 提出Kuramoto注意力层,将隐藏坐标视为角度,通过门控余弦相似度和环形均值更新实现自注意力,等价于Kuramoto耦合项,在字符级语言建模中达到与强基线相近的性能。
Comments 13 pages, 2 figures, 3 tables
超越黄金教师:通过LLM-GNN协同教学增强图学习
发表机构 * The Hong Kong University of Science and Technology(香港科技大学) ; WeBank(微众银行)
AI总结 针对文本属性图上的少样本学习,提出LLM-GNN协同教学框架,避免固定教师模型,通过双向伪标签交换和基于轮次的偏好优化,显著提升图学习性能。
Comments Code: https://github.com/llmgnncoteaching/LLM-GNN-Coteaching
基于深度相机的非接触式3D人体测量用于智能健康监测
发表机构 * Department of Computer(计算机系) ; Department of Information(信息系) ; Department of Human Genetics(人类遗传学系) ; University of Texas Rio Grande Valley(德克萨斯大学里奥格兰德谷分校) ; Department of Electrical and Computer Engineering(电气与计算机工程系)
AI总结 提出一种基于深度相机和3D点云的非接触式人体测量框架,通过空间滤波、地标选择及体素/网格分析实现身高、臂展、体积和表面积等关键指标的准确估计。
Comments 6 pages, 4 figures. Depth camera-based framework for contactless anthropometric measurement and geometric analysis using 3D point clouds
抗畸变机器人模仿学习用于自主电缆布线
发表机构 * School of Artificial Intelligence, Harbin Institute of Technology(哈尔滨工业大学人工智能学院) ; Department of Computer Science, City University of Hong Kong(香港城市大学计算机科学系) ; Pengcheng Laboratory(鹏城实验室) ; Suzhou Research Institute, Harbin Institute of Technology(哈尔滨工业大学苏州研究院)
AI总结 提出一种包含图像质量评估、置信度学习和决策模块的机器人模仿学习框架,在图像畸变下仍保持高性能,实验验证了其有效性。
AVIS: 视觉语言模型的自适应测试时缩放
发表机构 * AI Center-Toronto, Samsung Electronics(三星电子多伦多AI中心) ; University of Toronto(多伦多大学) ; Vector Institute(向量研究所) ; York University(约克大学)
AI总结 提出AVIS,通过轻量策略联合优化视觉上下文缩放和推理缩放,利用无训练的关键多样性剪枝和自适应自一致性,在多种基准上提升精度-计算权衡。
Comments Project page: https://avis-vlm.github.io/
范围感知贝叶斯优化用于在目标属性窗口内发现多样化设计
发表机构 * Department of Chemical and Biological Engineering, Princeton University(普林斯顿大学化学与生物工程系)
AI总结 提出范围感知贝叶斯优化框架,通过采集函数直接评分候选解满足目标范围的后验概率,在基准任务和实际案例中比标准方法发现更多样化的有效设计。
Comments 64 pages, 6 main text figures, 17 supporting figures, 6 supporting tables
理解跨传感器特征变化以实现可泛化的3D感知
发表机构 * Zhejiang University(浙江大学)
AI总结 针对雷达-相机BEV感知跨数据集性能下降问题,提出频域场景变化建模框架,通过合成多样源域视图并正则化融合表示,提升3D检测器鲁棒性,无需目标域样本。
FreqKD: 面向红外目标检测的频率解耦跨模态知识蒸馏
发表机构 * University of Michigan-Dearborn(密歇根大学迪尔伯恩分校)
AI总结 针对RGB与红外图像模态差异,提出频率解耦蒸馏框架FreqKD,对低频和高频成分分别施加严格MSE和松弛log-MSE损失,在KAIST数据集上提升DINOv2基线2.4 mAP50。
ConsistencyPlanner: 基于快速采样一致性模型的实时规划
发表机构 * State Key Laboratory of Multimodal Artificial Intelligence Systems, Institute of Automation, Chinese Academy of Sciences(中国科学院自动化研究所多模态人工智能系统国家重点实验室) ; School of Artificial Intelligence, University of Chinese Academy of Sciences(中国科学院大学人工智能学院) ; Guangzhou Zaofu Intelligent Technology Co., Ltd.(广州造父智能科技有限公司)
AI总结 提出Consistency Planner框架,利用快速采样一致性模型实现高效多模态采样,并结合注意力增强解码器融合异构特征,在Waymax模拟器中显著提升安全性和实时性。
4DP-QA:面向视觉语言模型中4D感知的可扩展问答
发表机构 * NVIDIA(英伟达) ; Yale University(耶鲁大学) ; KAIST AI(韩国科学技术院人工智能学院)
AI总结 针对视觉语言模型难以理解动态场景的问题,提出一种关注运动场景理解的问答生成流水线,通过真运动追踪解耦物体与相机运动,生成大规模数据集4DP-QA和基准4DP-QA-Bench,训练现有模型在外部基准上取得性能提升。
Comments Project page: https://research.nvidia.com/labs/lpr/4dpqa
自然环境中机器人感知的跨模态基准测试
发表机构 * CSIRO Robotics, CSIRO, Australia(CSIRO机器人研究所,CSIRO,澳大利亚) ; University of Sydney (USyd), Australia(悉尼大学(USyd),澳大利亚) ; Queensland University of Technology (QUT), Australia(昆士兰理工大学(QUT),澳大利亚)
AI总结 针对自然环境中机器人感知的挑战,提出WildCross跨模态基准,用于大规模自然场景下的地点识别和度量深度估计,并扩展了度量深度估计实验。
Comments Accepted to the IEEE ICRA Workshop on Open Challenges for Rigorous Robot Perception 2026
GraphInfer-Bench:评估LLM在图上的推理能力基准
发表机构 * The Hong Kong University of Science and Technology(香港科技大学) ; Webank(微众银行)
AI总结 提出GraphInfer-Bench基准,通过五个任务(描述与比较)测试LLM能否从节点及其邻域推断出无法从单节点或路径检索的答案,发现所有方法均存在差距。
Comments Code: https://github.com/graphinfer/GraphInfer-Bench ; Dataset: https://huggingface.co/datasets/graphinfer/graphinfer
HERO: 基于环境观察的后见增强反思的智能体自蒸馏
发表机构 * University of California, San Diego(加州大学圣地亚哥分校) ; Independent Researcher(独立研究员) ; University of California, Berkeley(加州大学伯克利分校)
AI总结 提出HERO框架,利用环境观察作为局部对齐反馈进行自蒸馏,解决多轮设置中特权反馈与当前决策上下文不对齐导致的性能下降问题,在TauBench和WebShop上提升任务成功率并减少冗余轮次。
APEX:面向无线边缘运维的预测与异常检测的网络原生时间序列基础模型
发表机构 * Cisco Systems, USA(思科系统公司)
AI总结 提出网络原生解码器Transformer APEX,针对企业AP遥测数据预训练,在DHCP退化基准上MAE比最强基线降低18%,异常检测F1=0.93,边缘版本实现亚秒级隐私保护推理。
Comments 5 pages, 1 figure, 4 tables. Discusses a network-native time-series foundation model for wireless edge operations
教导扩散模型从左到右推测
发表机构 * Lexington Whalen ; Yuki Ito ; Ryo Sakamoto
AI总结 针对自回归解码的推理瓶颈,提出三种训练时干预方法(位置加权、首次错误焦点损失、链损失)来弥合块扩散草稿模型的双向生成与自回归目标模型从左到右验证之间的不对称性,显著提升接受草稿长度。
Comments 13 pages, technical report
VL-DINO: 利用CLIP视觉-语言知识进行开放词汇目标检测
发表机构 * Chongqing University(重庆大学) ; City University of Hong Kong(香港城市大学)
AI总结 提出VL-DINO,通过QPSC模块构建高质量正样本增强视觉-语言对齐,VSE模块蒸馏CLIP视觉知识,ORSA模块对齐区域特征与文本嵌入,在LVIS零样本检测上达到36.3/38.1 AP。
SkillJuror:衡量智能体技能组织如何改变运行时行为
发表机构 * Tongji University(同济大学) ; Shanghai Innovation Institute(上海创新研究院) ; Sun Yat-sen University(中山大学) ; Shanghai Jiao Tong University(上海交通大学)
AI总结 提出SkillJuror框架,通过渐进式披露与扁平基线对比,发现技能组织方式改变智能体搜索和应用程序知识的行为,并在82个任务中提升4.1%的验证通过率。
预训练自监督语音模型能够识别未见过的辅音
发表机构 * University of Notre Dame(圣母大学) ; University at Buffalo(纽约州立大学布法罗分校) ; Tokyo University of Foreign Studies(东京外国语大学) ; Reitaku University(丽泽大学) ; Boston College(波士顿学院)
AI总结 研究预训练自监督语音模型(Wav2Vec2、HuBERT)对Khoisan语言中罕见吸气辅音的识别能力,发现模型对吸气辅音的识别准确率高于非吸气辅音,表明自监督学习能泛化到稀有音素。
Comments 6 pages, 3 figures, 3 tables, accepted at Interspeech 2026
针对手术机器人任务学习策略的对抗攻击
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; KTH Royal Institute of Technology(瑞典皇家理工学院)
AI总结 研究学习型策略在机器人辅助手术中易受对抗攻击的脆弱性,提出破坏性和引导性攻击方法,实验表明攻击可使手术子任务成功率平均降低61%。
从重复模式的层次复用测量语言复杂度
发表机构 * Department of Systems Science, Faculty of Arts and Sciences, Beijing Normal University(北京师范大学文理学院系统科学系) ; International Academic Center of Complex Systems, Beijing Normal University(北京师范大学国际复杂系统学术中心) ; Department of Chinese Language and Literature, Faculty of Arts and Sciences, Beijing Normal University(北京师范大学文理学院中国语言文学系) ; Center for Linguistic Sciences, Beijing Normal University(北京师范大学语言学科学中心) ; School of Systems Science, Beijing Normal University(北京师范大学系统科学学院) ; Department of Mathematics and Applied Mathematical Sciences, University of Rhode Island(罗德岛大学数学与应用数学科学系) ; Department of Cell and Molecular Biology, University of Rhode Island(罗德岛大学细胞与分子生物学系)
AI总结 提出基于算法信息论的梯径指数,通过层次复用重复子结构测量语言复杂度,在21个平行语料库中验证了等复杂度假说和权衡假说。
Comments 17 pages, 4 figures
通过对比交互从零开始学习物体操作
发表机构 * UC San Diego(加州大学圣地亚哥分校) ; UT Austin(德克萨斯大学奥斯汀分校)
AI总结 针对对比强化学习在交互密集操作任务中表现不佳的问题,提出交互加权重采样方法,通过保留模式边界提升多模态分段非线性可达性表示,在仿真和真实机器人空气曲棍球任务中取得显著改进。
长周期研究智能体的搜索纪律
发表机构 * North Carolina State University(北卡罗来纳州立大学) ; University of Maryland(马里兰大学)
AI总结 针对研究智能体使用聚合指标评估候选方案导致科学有效性反转的问题,提出一种外部审计协议,基于分解行为而非单一分数进行决策。
Comments 9 pages, 1 figure
使用推理代理的大规模反例引导学习
发表机构 * University of Wisconsin-Madison(威斯康星大学麦迪逊分校)
AI总结 提出反例引导的LLM正则表达式归纳框架,通过验证器反馈和代理策略(如反思与修复循环)显著提升样本效率和复杂任务成功率。
Comments Code, data, and resources are publicly available for research purposes: https://github.com/Lhtie/CEGML
SirenFNO:高效且全频率学习的傅里叶神经算子
发表机构 * The University of Sydney(悉尼大学)
AI总结 提出SirenFNO框架,利用正弦表示网络学习隐式神经表示并进行模态核参数化,消除频率截断,实现全频谱学习,在多个PDE基准上以最多73倍参数减少取得性能提升。
Comments 9 pages, accepted by IJCAI 2026
CS-YODAS:一个挖掘自真实环境的代码转换语音数据集
发表机构 * Carnegie Mellon University(卡内基梅隆大学) ; Johns Hopkins University(约翰霍普金斯大学) ; University of Texas at Austin(德克萨斯大学奥斯汀分校) ; University of Sheffield(谢菲尔德大学) ; Brno University of Technology(布尔诺理工大学) ; MBZUAI(穆罕默德·本·扎耶德人工智能大学) ; Kyoto University(京都大学)
AI总结 本文提出CS-YODAS数据集,通过可扩展的人机协同流程从多语言YouTube数据中挖掘真实代码转换语音,涵盖7种基质语言共313小时,并分析其分布特征与语言对切换模式。
SAGE: 面向言语不确定性对齐的答案条件不确定性目标
发表机构 * University of Notre Dame(圣母大学)
AI总结 提出SAGE目标,通过答案条件不确定性几何从模型采样响应中构建群组级不确定性目标,结合GUPO训练框架优化言语不确定性表达,在多项推理任务中提升不确定性排序、降低校准误差和过度自信。
概率对比预训练用于多任务ADME性质预测
发表机构 * NVIDIA(英伟达)
AI总结 提出分子图-Transformer预训练框架,结合化学自监督与对比互信息,通过统一概率潜变量目标优化重构、对比和化学任务,在多任务微调中采用任务特定MLP头,在三个数据集上平均提升7.6%-9.5%。
SceneMiner: 保持身份的多任务微调用于统一BEV场景挖掘
发表机构 * University of Michigan-Dearborn(密歇根大学迪尔伯恩分校)
AI总结 提出SceneMiner,一种统一的仅相机鸟瞰图管道,通过冻结视觉语言骨干网络在单次前向传播中发出互补的挖掘信号,并发现跨任务干扰问题,通过零初始化新子模块和冻结共享流参数的身份保持多任务微调解决。
基于深度学习的生物特征欺骗检测研究
发表机构 * School of Science and Technology(科学与技术学院)
AI总结 评估MobileNetV2、DenseNet-121、Inception-v3和STD模型在面部识别系统欺骗检测中的性能,MobileNetV2以92%准确率最优,适合实际应用。