Non-Parametric Machine Text Detection via Multi-View Gaussian Processes
非参数化机器文本检测:基于多视角高斯过程
发表机构 * Johns Hopkins University(约翰霍普金斯大学)
AI总结 提出多视角非参数检测框架,通过高斯过程集成互补特征视图,提高对对抗攻击的鲁棒性,并提供校准概率和分布外输入的原则性弃权。
非参数化机器文本检测:基于多视角高斯过程
发表机构 * Johns Hopkins University(约翰霍普金斯大学)
AI总结 提出多视角非参数检测框架,通过高斯过程集成互补特征视图,提高对对抗攻击的鲁棒性,并提供校准概率和分布外输入的原则性弃权。
ReactSim-Bench:自动驾驶中反应性行为世界模型模拟的基准测试
发表机构 * School of Computer Science & School of Artificial Intelligence, Shanghai Jiao Tong University(上海交通大学计算机科学与技术学院、人工智能学院) ; Great Wall Motor(长城汽车) ; Institute of Trustworthy Embodied AI (TEAI), Fudan University(复旦大学可信具身人工智能研究所) ; School of Computer Science, Wuhan University(武汉大学计算机学院) ; University of Science and Technology of China(中国科学技术大学)
AI总结 提出ReactSim-Bench,通过解耦自车与周围智能体控制,使用偏离日志的自车行为作为输入,评估行为世界模型模拟的反应性能力,并基于碰撞、地图和运动学指标系统评测多种模型。
FoleyGenEx: 统一视频到音频生成,具备多模态控制、时间对齐与语义精度
发表机构 * Academy for Advanced Interdisciplinary Studies, Nankai University(南开大学前沿交叉学科研究院) ; Kling Team, Kuaishou Technology(快手科技Kling团队)
AI总结 提出FoleyGenEx统一框架,通过条件注入、多模态动态掩码和副词数据增强,实现视频到音频生成中多模态控制、帧级时间对齐与细粒度语义的同步合成。
Comments Accepted by INTERSPEECH 2026
WAM4D:通过空间注册令牌实现快速4D世界动作模型
发表机构 * Peking University(北京大学) ; The Hong Kong University of Science and Technology(香港科技大学) ; Beijing Innovation Center of Humanoid Robotics(北京人形机器人创新中心)
AI总结 提出WAM4D,利用轻量级空间注册令牌将预训练几何先验迁移至因果视频-动作变换器,实现高效4D世界动作建模,在RoboTwin 2.0和真实操作任务中提升空间一致性并保持快速推理。
Comments 15 pages, 7figures, 9tables
通过ChordEdit重新思考一步图像编辑:复现、简化与新见解
发表机构 * Harvard AI and Robotics Lab(哈佛人工智能与机器人实验室)
AI总结 本文通过复现、消融和简化ChordEdit,揭示其机制:和弦窗口作为时间步偏移,和弦传输执行低频语义编辑,近端对齐补充高频细节,从而将编辑分解为粗低频传输和细高频对齐两个阶段,为自适应编辑提供新路径。
Comments 9 pages
在应当稀疏处分解,在应当稠密处吸收
发表机构 * Georgia Institute of Technology(佐治亚理工学院)
AI总结 针对稀疏自编码器假设所有激活内容均可稀疏分解的缺陷,提出在标准SAE旁添加低秩线性瓶颈以吸收稠密成分,在Gemma-2-2B第12层上秩24瓶颈减少84%稠密潜变量,并揭示该成分是结构可识别、因果必要且被稀疏字典冗余编码的计算脚手架。
对或错,模型都顺从:LLM 道德判断中的方向盲从
发表机构 * University of California, Santa Cruz(加州大学圣克鲁兹分校)
AI总结 本文提出顺从不对称性(A = BCR/HCR)双向诊断指标,发现大语言模型在事实判断中更顺从有益提示(A=1.58),但在道德判断中几乎同等顺从有益和误导提示(A=1.04),揭示了方向盲从这一对齐失败模式。
面向360度室内全景编辑的基于重聚焦交叉注意力的免调优扩散模型
发表机构 * arXiv
AI总结 提出FocusDiff框架,通过重聚焦交叉注意力实现免调优的精确区域编辑,并扩展到360度室内全景编辑,在局部编辑基准LIMB上优于现有零样本方法。
Comments ICCCI 2026. Project page: https://vdkhoi20.github.io/FocusDiff
从攻击到课程:面向安全自动驾驶的可学习性引导对抗训练
发表机构 * College of Transportation & Key Laboratory of Road and Traffic Engineering of Ministry of Education, Tongji University(同济大学交通运输工程学院 & 道路与交通工程教育部重点实验室) ; Department of Civil and Environmental Engineering, The Hong Kong Polytechnic University(香港理工大学土木与环境工程学系)
AI总结 提出AlignADV框架,通过偏好对齐生成可解决场景,并利用行为指纹预测策略能力,动态采样课程以提升自动驾驶对抗训练的收敛效率与安全性。
治疗性药物-疾病关系的适用条件提取
发表机构 * The University of Osaka(大阪大学) ; RIKEN(理化学研究所) ; Institute of Science Tokyo(东京科学大学) ; Tohoku University(东北大学)
AI总结 提出从生物医学文献中提取药物-疾病治疗关系适用条件的任务,构建首个手动标注数据集,并改进LoRA方法以考虑药物与疾病间关系,在多个评估设置中优于基线。
神经说话人日志中的结构化剪枝与低位量化效率-性能权衡
发表机构 * Department of Computer Science, Colby College(科尔比学院计算机科学系)
AI总结 针对资源受限硬件上的流式说话人日志,通过结构化剪枝和低位量化压缩分割模型,研究不同延迟预算下的性能权衡,发现FP16可减半模型大小但DER增加40%。
Comments 6 pages, 3 figures, preprint
效用约束策略优化
发表机构 * York University(约克大学) ; Google DeepMind(谷歌深度思维)
AI总结 提出一种简单而强大的效用约束MDP方法,支持风险敏感约束,无需预先固定约束限值,在多个安全基准任务上匹配或超越现有基线。
GarmentSketch:大规模草图到时尚基准
发表机构 * Kangbdd.github.io
AI总结 为解决时尚草图到图像合成缺乏大规模配对数据的问题,构建了包含26249对草图-文本描述的GarmentSketch数据集,并基于多模态大模型与人工精炼生成描述,评估了现有生成模型的性能。
Comments ICCCI 2026. Project page: https://khangbdd.github.io/garmentsketch
ViT-Up:面向视觉Transformer的忠实特征上采样
发表机构 * Shanghai Jiao Tong University(上海交通大学)
AI总结 提出ViT-Up,一种隐式特征上采样框架,通过从中间ViT隐藏状态构建逐层查询,在任意连续坐标预测特征,避免图像引导带来的特征泄露和模糊,在密集预测和语义对应任务上超越现有方法。
Comments Code is available at: https://github.com/krispinwandel/vit-up
PostDeg:在LayerNorm GNN中位置胜过参数化
发表机构 * Purdue University(普渡大学) ; Park Tudor High School(帕克图多尔高中)
AI总结 发现LayerNorm会擦除拓扑信号,而后LayerNorm位置可保留信号;提出无参数的后LayerNorm逆度缩放PostDeg,在三个组合优化任务上提升显著,且四个证伪测试均未触发。
Comments Yash Tomar and Aryav Das contributed equally to this work
RT-VLA:通过知识蒸馏实现实时视觉-语言-动作模型
发表机构 * Carnegie Mellon University(卡内基梅隆大学)
AI总结 提出RT-VLA,通过多级监督蒸馏将SimLingo模型的能力压缩至轻量学生模型,在保持竞争性能的同时将推理时间降低44.8倍(纯视觉模式)和7.9倍(视觉+语言模式),实现实时可解释的VLA自动驾驶。
HARBOR:基于行为观测与雷达的航向分析与重建
发表机构 * Institute for Advanced Studies (IEAv)(高级研究所(IEAv))
AI总结 提出HARBOR管道,仅用单张SAR图像在无辅助数据时预测船只运动,通过骨架几何和局部强度估计航向,离线校准AIS参数生成概率热图。
上下文引导的特征融合网络语义对齐
发表机构 * Department of Embedded Systems Engineering, Incheon National University(仁川国立大学嵌入式系统工程系)
AI总结 提出轻量级语义对齐模块FINE,通过跨层级注意力机制利用高层上下文指导低层特征融合,并引入对齐感知令牌采样降低计算复杂度,提升目标检测精度。
Comments 26 pages, 12 figures, 8 tables
数值分析的形式化:超越内核接受的智能体流水线与质量审计
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 提出一种编码智能体流水线,将数值分析教材形式化为Lean 4代码,并引入三维质量评估框架(语义正确性、Mathlib复用、跨文件复用),发现编译通过掩盖了不忠实的形式化模式。
Dialogue SWE-Bench: 对话驱动的编码智能体基准
发表机构 * University of California, Santa Cruz(加州大学圣克鲁兹分校)
AI总结 提出Dialogue SWE-Bench基准,通过用户模拟器评估编码智能体在对话中解决软件工程问题的能力,并引入模式引导智能体提升对话性能3-14%。
Comments 22 pages, 13 figures
文本和音频语言模型中动词+up短语的整体存储
发表机构 * University of Oregon(俄勒冈大学) ; Vail Systems, Inc(Vail Systems公司)
AI总结 研究文本和音频语言模型对动词+up短语的整体存储,发现频率和可预测性驱动独立表征,支持基于使用的语言理论。
SplatlessDF: 基于非溅射高斯分布的连续距离场映射
发表机构 * UTS Robotics Institute, Faculty of Engineering and IT, University of Technology Sydney(悉尼科技大学工程与信息技术学院UTS机器人研究所) ; School of Engineering, University of Western Australia(西澳大学工程学院)
AI总结 提出SplatlessDF框架,利用各向异性高斯元素从空间角度构建连续距离场,支持距离和梯度查询,并可与2D高斯溅射结合实现统一建模,适用于机器人导航。
掩码、采样、修正:面向引导离散流匹配文本转语音的可修正CTMC推理栈
发表机构 * Federal University of Goiás(戈亚斯联邦大学) ; Federal University of Uberlândia(乌贝兰迪亚联邦大学) ; University of São Paulo(圣保罗大学) ; University of Brasília(巴西利亚大学) ; University of California, Berkeley(加利福尼亚大学伯克利分校)
AI总结 提出Mask, Sample, Revise推理栈,结合无预测器引导、提示匹配条件耦合和调度约束重掩码机制,在低步数下提升离散流匹配TTS的鲁棒性和可懂度。
创造性整合:一个可判定的创造力标准
发表机构 * Mirage Mountain Technologies(幻山科技)
AI总结 提出基于描述长度压缩的创造性整合可判定标准,通过四个二元门和伪整合分类法实现判别,并在多领域语料库上通过四项可证伪测试验证。
Comments 18 pages, 1 figure
Prompt2Effect: 通过LoRA生成实现免训练图像到视频模型特化
发表机构 * Northeastern University(东北大学) ; Snap Inc.(Snap公司)
AI总结 提出Prompt2Effect,一种权重驱动超网络,通过单次前向传播直接合成效果特定的LoRA权重,无需训练,在保持视频质量的同时将计算成本从56 GPU小时降至3.3秒。
基于注意力的缺失模态鲁棒预测模型
发表机构 * Simon Fraser University(西蒙菲莎大学) ; RBC Borealis
AI总结 提出一种基于条件变分自编码器和Transformer的多模态模型,通过注意力机制学习统一固定维度的表示,在训练和推理中处理缺失模态,在人类轨迹预测和机器人操作预测任务上优于现有方法。
Comments Work originally done in 2023
CaricHarmony:身份保持的漫画合成的对比扩散路径
发表机构 * SketchX, CVSSP, University of Surrey(萨里大学CVSSP实验室SketchX组)
AI总结 提出CaricHarmony,一种无需训练的方法,通过并行无污染扩散路径解决身份与形状条件信号污染问题,实现平衡的漫画合成,在保持身份一致性的同时达到最优形状保真度。
机器学习能否在数据受限条件下预测水稻产量?卫星气候数据、国家作物统计及塞拉利昂的经验教训
发表机构 * Seidenberg School of Computer Science & Information Systems Pace University, New York, USA(佩斯大学塞登伯格计算机科学与信息系统学院,纽约,美国) ; RiseAfrica Foundation for STEM and Innovation Sierra Leone, West Africa(RiseAfrica STEM与创新基金会,塞拉利昂,西非)
AI总结 利用塞拉利昂25年作物统计和免费卫星气候数据,通过严格反泄漏协议训练机器学习模型,发现仅气候数据的XGBoost将水稻产量预测误差降低三分之一,早期季节降雨是关键预测因子,并转化为政策建议。
Comments 32 pages, 7 figures. Code and data: https://github.com/Denis060/sierraleone-agri-ml
分子潜在扩散中的暗区平滑
发表机构 * New York University(纽约大学) ; Stanford University(斯坦福大学)
AI总结 针对分子潜在扩散中存在的暗区问题,提出拓扑优化VAE(TopVAE),通过训练时内化结构和化学约束,减少暗区,提升离后验鲁棒性,在QM9和GEOM-Drugs上取得显著改进。
Minim: 通过可信本地净化实现代理的隐私感知最小化视图
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 针对LLM代理传输完整UI状态导致隐私泄露的问题,提出MINIM框架,在客户端基于上下文完整性学习双重分数(敏感性和必要性),通过三元披露策略实现隐私感知的最小化视图,在减少敏感泄露的同时保留任务关键信息。
Comments Accepted at ICML 2026 (43rd International Conference on Machine Learning, Seoul, South Korea). Code available at https://github.com/yyyyhx/MINIM