arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.11774 2026-05-13 cs.CL cs.LG

From Token to Token Pair: Efficient Prompt Compression for Large Language Models in Clinical Prediction

Mingcheng Zhu, Zhiyao Luo, Yu Liu, Tingting Zhu

AI总结该研究针对医疗电子健康记录（EHR）在临床预测任务中产生的长序列问题，提出了一种名为MedTPE的高效无损压缩方法。该方法通过合并高频共现的医学词对生成复合词，实现对原始序列的压缩，同时保持计算复杂度和模型性能。实验表明，MedTPE在多个临床预测任务中有效减少了输入长度和推理延迟，且在不同模型和语言环境下均表现出良好的鲁棒性和泛化能力。

Comments 21 pages, 6 figures, 13 tables

2605.11773 2026-05-13 cs.LG cs.AI

Is Monotonic Sampling Necessary in Diffusion Models?

Muhammad Haris Khan

AI总结本文探讨了扩散模型中是否必须采用单调采样策略。研究设计了四种非单调噪声调度方案，并在多个生成模型上进行广泛实验，结果表明所有非单调方案均未优于单调基线。研究进一步揭示了模型对调度策略的敏感性差异，并提出了一个用于评估扩散模型质量的新指标——调度敏感系数。

2605.11771 2026-05-13 cs.CV

Revisiting Shadow Detection from a Vision-Language Perspective

Yonghui Wang, Wengang Zhou, Hao Feng, Houqiang Li

AI总结本文从视觉-语言视角重新审视阴影检测问题，指出传统基于视觉线索的方法在视觉模糊场景下可能失效，因此提出SVL框架，利用语言作为显式的语义参考来区分阴影与相似的暗色区域。SVL通过场景级阴影比例回归对齐图像与文本嵌入，并引入全局到局部的耦合机制，实现整体与细粒度预测的一致性，同时保持参数高效，实验表明其在多个基准测试中表现出优异的性能与鲁棒性。

2605.11769 2026-05-13 cs.CL

Safety-Oriented Evaluation of Language Understanding Systems for Air Traffic Control

Yujing Chang, Yash Guleria, Duc-Thinh Pham, Nhut-Huy Pham, Ningli Wang, Vu N. Duong, Sameer Alam

AI总结本文研究了大型语言模型在空中交通管制（ATC）这一安全关键领域中的可靠性问题，提出了一种基于安全导向、关注后果的评估框架，以弥补现有方法在处理高风险语义错误方面的不足。研究发现，尽管当前语言模型在整体准确率上表现良好，但在涉及跑道标识或操作限制等关键信息时，其可靠性显著下降，表明其在实际ATC应用中仍存在结构性理解缺陷。该研究为AI辅助空中交通管制系统的负责任部署提供了重要的评估依据。

2605.11764 2026-05-13 cs.LG q-bio.BM

Decomposing the Generalization Gap in PROTAC Activity Prediction: Variance Attribution and the Inter-Laboratory Ceiling

Thor Klamt, Wolfgang Nejdl, Ming Tang

AI总结该研究探讨了机器学习预测PROTAC（蛋白降解靶向嵌合体）生物活性时存在的泛化差距问题，指出在不同实验室间测量变异是导致这一差距的主要因素。通过分析多个模型在不同评估协议下的表现，研究揭示了跨实验室数据差异对预测性能的显著影响，并提出了分解该差距的框架。此外，研究还开发了PROTAC-Bench数据集及相关评估工具，为后续研究提供了重要资源。

Comments 32 pages, 11 figures, 11 tables. Dataset: https://huggingface.co/datasets/ThorKl/protac-bench (CC-BY-4.0). Code: https://github.com/ThorKlm/PROTAC-Bench (MIT)

详情

英文摘要

Machine-learning predictors of biochemical activity often exhibit large random-split-to-leave-one-target-out generalisation gaps that have been documented but not decomposed. We frame this as an evaluation-science question and use targeted protein degradation as the empirical test bed. PROTACs (proteolysis-targeting chimeras) are heterobifunctional small molecules that induce targeted protein degradation, with more than forty candidates currently in clinical trials; published predictors report AUROC of 0.85 to 0.91 under random-split cross-validation, while the leave-one-target-out (LOTO) protocol of Ribes et al. reduces performance to approximately 0.67. Random splits reward within-target interpolation, whereas LOTO measures the novel-target prediction that de-novo design depends on. We decompose this gap and identify inter-laboratory measurement variance as the dominant component, anchored by a within-target cross-laboratory cascade bounding the inter-laboratory contribution at 0.124 AUROC, well above the 0.05 contribution from binarisation-threshold choice. Across eight published architectures and ESM-2 protein language models up to 3B parameters, LOTO AUROC plateaus near 0.67, with a comparable plateau under SMILES-level deduplication; a 21-dimensional 2000-trial hyperparameter optimisation cannot break this ceiling, and the rank-1 single-seed configuration regresses by 0.161 AUROC under multi-seed validation, matching a closed-form selection-bias prediction (Bailey and Lopez de Prado, 2014). Few-shot k=5 stratified per-target retraining combined with ADMET features lifts 65-target LOTO AUROC from 0.668 to 0.7050, and post-hoc Platt scaling recovers raw output to within the 0.05 well-calibrated threshold. We release PROTAC-Bench (10,748 measurements, 173 targets, 65 LOTO folds), the variance-decomposition framework, the per-target calibration protocol, and the evaluation code.

URL PDF HTML ☆

赞 0 踩 0

2605.11762 2026-05-13 cs.RO

NavOL: Navigation Policy with Online Imitation Learning

Xiaofei Wei, Chun Gu, Li Zhang

AI总结本文提出了一种在线模仿学习框架NavOL，用于解决机器人导航中鲁棒策略学习的难题。NavOL通过与模拟器交互，在线收集专家示范数据并更新策略，避免了传统离线模仿学习中的分布偏移和误差累积问题，同时省去了强化学习中复杂的奖励设计。该方法基于预训练的导航扩散策略，结合全局路径规划器进行在线训练，显著提升了学习效率和泛化能力，并在多个仿真和现实场景中验证了其有效性。

Comments Project page: https://logosroboticsgroup.github.io/NavOL/

2605.11760 2026-05-13 cs.CV

M$^4$-SAM: Multi-Modal Mixture-of-Experts with Memory-Augmented SAM for RGB-D Video Salient Object Detection

Jiyuan Liu, Jia Lin, Xiaofei Zhou, Runmin Cong, Deyang Liu, Zhi Liu

AI总结该论文提出了一种名为 M$^4$-SAM 的多模态混合专家模型，旨在提升 RGB-D 视频显著目标检测的性能。通过引入模态感知的 LoRA 机制、多级特征融合模块以及无需手动提示的伪引导初始化方法，M$^4$-SAM 有效解决了 SAM2 在空间建模、多尺度特征利用和初始化依赖等方面的局限性。实验表明，该方法在三个公开数据集上取得了当前最优的检测性能。

Comments 10 pages, 3 figures

2605.11756 2026-05-13 cs.CV cs.AI

Focusable Monocular Depth Estimation

Yuxin Du, Tao Lin, Zile Zhong, Runting Li, Xiyao Chen, Jiting Liu, Chenglin Liu, Ying-Cong Chen, Yuqian Fu, Bo Zhao

AI总结本文提出了一种可聚焦的单目深度估计方法（FDE），旨在提升模型对用户指定或任务相关区域的深度估计精度。该方法引入了基于提示的FocusDepth框架，通过多尺度空间对齐融合（MSSA）技术，将多尺度特征与目标区域提示进行对齐和融合，从而在保持全局场景几何结构的同时，增强对目标区域的深度感知能力。研究还构建了FDE-Bench基准，实验证明该方法在目标边界和前景区域的深度估计上表现显著优于现有基线模型。

2605.11753 2026-05-13 cs.AI

Towards Visually Grounded Multimodal Summarization via Cross-Modal Transformer and Gated Attention

Abid Ali, Diego Molla-Aliod, Usman Naseem

AI总结该论文研究了多模态摘要生成问题，旨在从文本和图像中生成语义连贯且内容准确的摘要。为了解决现有方法中视觉特征与语言模型表征不匹配的问题，作者提出了一种统一框架SPeCTrA-Sum，通过深度对齐视觉与语言编码器，并引入视觉相关性预测模块来选择具有代表性的图像。实验表明，该方法在生成视觉相关性更强的摘要和选择更具代表性的图像方面表现优异。

Comments Accepted to Findings of ACL 2026

2605.11752 2026-05-13 cs.LG

Federated Client Selection under Partial Visibility: A POMDP Approach with Spatio-Temporal Attention

Qijun Hou, Yuchen Shi, Pingyi Fan, Khaled B. Letaief

AI总结本文研究了在部分可见性场景下的联邦学习客户端选择问题，即服务器在每轮通信中只能观测到部分客户端。为此，作者将该问题建模为部分可观测马尔可夫决策过程（POMDP），并提出了一种基于时空注意力机制的强化学习框架，通过融合历史全局模型和客户端身份嵌入，捕捉训练过程中的时间上下文和客户端的持续特性。实验结果表明，该方法在异构且部分可见的环境下优于现有基线，验证了其在实际联邦学习系统中应对不完全观测挑战的有效性。

2605.11750 2026-05-13 cs.RO cs.AI cs.CL cs.CV

DreamAvoid: Critical-Phase Test-Time Dreaming to Avoid Failures in VLA Policies

Xianzhe Fan, Yuxiang Lu, Shenyuan Gao, Xiaoyang Wu, Ruihua Han, Manling Li, Hengshuang Zhao

AI总结 Vision-Language-Action（VLA）模型在精细操作任务中容易因关键阶段的微小动作错误而引发不可恢复的失败。为解决这一问题，本文提出DreamAvoid，一种在测试阶段通过“梦境”模拟来预判并规避失败的框架。该方法引入梦境触发机制、动作提案和梦境评估器，通过模拟候选动作的短期未来结果，选择最优动作以提升任务成功率。实验表明，DreamAvoid能有效减少失败情况，提高实际操作任务的完成率。

Comments 19 pages, 7 figures

2605.11749 2026-05-13 cs.LG

Learning Feature Encoder with Synthetic Anomalies for Weakly Supervised Graph Anomaly Detection

Yingjie Zhou, Yuqin Xie, Fanxing Liu, Dongjin Song, Ce Zhu, Lingqiao Liu

AI总结本文研究弱监督图异常检测问题，旨在在仅有少量标注异常样本和大量未标注数据的情况下，识别行为显著偏离正常模式的图实例。为解决如何学习对异常敏感且能区分正常类别的图特征表示这一挑战，作者提出了一种基于合成异常的多任务学习方法，通过生成多种方式扰动的合成异常样本，并为每类异常分配专用检测头，从而引导模型学习更具判别性的特征表示。实验表明，该方法在多个公开数据集上优于现有方法。

Comments 14 pages, 7 figures, published by IEEE Transactions on Knowledge and Data Engineering,2026

详情

DOI: 10.1109/TKDE.2026.3656821
Journal ref: IEEE Transactions on Knowledge and Data Engineering, vol. 38, no. 4, pp. 2326-2339, 2026

英文摘要

Weakly supervised graph anomaly detection aims to unveil unusual graph instances, e.g., nodes, whose behaviors significantly differ from normal ones, given only a limited number of annotated anomalies and abundant unlabeled samples. A major challenge is to learn a meaningful latent feature representation that reduces intra-class variance among normal data while remaining highly sensitive to anomalies. Although recent works have applied self-supervised feature learning for graph anomaly detection, their strategies are not specifically tailored to its unique requirements, motivating our exploration of a more domain-specific approach. In this paper, we introduce a weakly supervised graph anomaly detection method that leverages a feature learning strategy tailored for graph anomalies. Our approach is built upon a multi-task learning scheme that extracts robust feature representations through synthesized anomalies. We generate synthetic anomalies by perturbing the normal graph in various ways and assign a dedicated detection head to each anomaly type, ensuring that learned features are sensitive to potential deviations from normal patterns. Although synthetic anomalies may not perfectly replicate real-world patterns, they provide valuable auxiliary data for effective feature learnin, much like features learned from ImageNet classification transfer to downstream vision tasks. Additionally, we adopt a two-phase learning strategy: an initial warm-up phase using only synthetic samples, followed by a full-training phase integrating both tasks, to balance the influence of synthetic and real data. Extensive experiments on public datasets demonstrate the superior performance of our method over its competitors. Code is available at https://github.com/yj-zhou/SAWGAD.

URL PDF HTML ☆

赞 0 踩 0

2605.11748 2026-05-13 cs.CV

BronchoLumen: Analysis of recent YOLO-based architectures for real-time bronchial orifice detection in video bronchoscopy

Yongchao Li, Marian Himstedt

AI总结本文提出了一种基于YOLO的实时系统BronchoLumen，用于在视频支气管镜图像中检测支气管开口，旨在辅助支气管镜导航和计算机辅助诊断系统。研究比较了YOLOv8和集成注意力模块的YOLOv12在不同图像域中的检测性能，结果表明YOLOv12在定位精度上略优于YOLOv8，但整体精度稍低，系统在多数场景下表现出良好的鲁棒性。该方法为跨域支气管开口检测提供了高效且准确的解决方案，并已开源以促进相关研究。

Comments 10 pages, 4 figures, IPCAI 2026

2605.11746 2026-05-13 cs.AI

When Reasoning Traces Become Performative: Step-Level Evidence that Chain-of-Thought Is an Imperfect Oversight Channel

Wenkai Li, Fan Yang, Ananya Hazarika, Shaunak A. Mehta, Koichi Onoue

AI总结该研究探讨了思维链（Chain-of-thought, CoT）推理过程中，可见的推理轨迹与实际计算过程之间的一致性问题。通过构建Detect-Classify-Compare框架，并结合多种验证方法，发现大多数模型在推理步骤中存在轨迹与答案承诺不一致的现象，尤其是推理轨迹在答案确定后仍继续生成看似深思熟虑但实际无实质影响的文本。研究还表明，CoT在提升模型性能方面仍具价值，但其作为答案形成时间的可靠记录存在显著偏差。

2605.11744 2026-05-13 cs.CL cs.LG

Training-Inference Consistent Segmented Execution for Long-Context LLMs

Xianpeng Shang, Jiang Li, Zehua Duo, Qianyi Cai, Xiangdong Su

AI总结本文针对基于Transformer的大语言模型在长上下文生成中面临的计算和内存瓶颈问题，提出了一种训练与推理一致的分段执行框架。该方法在训练过程中模拟推理阶段的分段执行语义，通过限制梯度传播仅作用于前一段的KV状态，从而保证训练与推理的一致性。实验表明，该方法在长上下文任务中性能接近全上下文注意力机制，同时在延迟与内存消耗方面优于现有高效推理方法，显著提升了超长上下文场景下的可扩展性。

Comments Accepted by ICML 2026. 19 pages, 6 figures, 3 tables

2605.11743 2026-05-13 cs.CV cs.LG

WorldComp2D: Spatio-semantic Representations of Object Identity and Location from Local Views

SeongMin Jin, Doo Seok Jeong

AI总结本文提出了一种名为 WorldComp2D 的轻量级表征学习框架，旨在从局部视角中学习物体身份和位置的时空语义表示。该方法通过多尺度局部感受野显式构建与物体身份和空间邻近性相关的潜在空间结构，包含一个依赖邻近性的编码器和一个用于定位输入中物体坐标的局部化模块。实验表明，相比现有轻量模型，WorldComp2D 在参数量和计算量上分别减少达 4.0 倍和 2.2 倍，同时在 CPU 上仍能保持实时性能，验证了其在时空语义推理中的高效性和通用性。

Comments Accepted as a regular paper at ICML2026

2605.11742 2026-05-13 cs.LG

Online Continual Learning with Dynamic Label Hierarchies

Xinrui Wang, Shao-Yuan Li, Bartłomiej Twardowski, Alexandra Gomez-Villa, Songcan Chen

AI总结本文研究了在线持续学习中动态标签层次结构的问题，即在非平稳数据流中学习时，如何应对标签层次结构在细粒度和粗粒度之间的动态演变。现有方法大多假设标签空间是扁平的，忽略了现实世界中概念的层次组织特性。为此，作者提出了一个新的问题设定DHOCL，并设计了HALO方法，通过自适应组合分类头和结构化原型，实现快速适应与知识保持，在多个基准测试中表现出色。

Comments Accepted to ICML2026

2605.11738 2026-05-13 cs.AI

OptArgus: A Multi-Agent System to Detect Hallucinations in LLM-based Optimization Modeling

Zhong Li, Zihan Guo, Xiaohan Lu, Juntao Wang, Jie Song, Chao Shen, Jiageng Wu, Mingyang Sun

AI总结本文提出OptArgus，一个用于检测基于大语言模型（LLM）的优化建模中幻觉问题的多智能体系统。研究聚焦于LLM在将自然语言优化问题转化为数学模型和求解代码时可能产生的结构不一致问题，并构建了一个细粒度的幻觉分类体系，涵盖目标函数、变量、约束和实现等多个方面。OptArgus通过多智能体协作机制，结合引导路由、专家审计和证据整合，显著提升了检测准确性和定位能力，并在包含多种类型数据的基准测试中表现出优于单一智能体方法的性能。

2605.11735 2026-05-13 cs.LG eess.SP

U-STS-LLM A Unified Spatio-Temporal Steered Large Language Model for Traffic Prediction and Imputation

Yichen Zhang, Jun Li

AI总结本文提出了一种统一的时空引导大语言模型U-STS-LLM，用于交通预测与缺失值填补。该模型通过动态生成时空注意力偏差，显式引导大语言模型关注关键时空结构，并结合低秩适配和门控融合机制，实现了高效稳定的参数优化。实验表明，U-STS-LLM在真实蜂窝网络数据集上取得了优于现有方法的预测和填补性能，展示了其在结构化非语言领域应用大模型的潜力。

Comments 14 pages, 6 figures

2605.11730 2026-05-13 cs.LG cs.CR

Persona-Conditioned Adversarial Prompting: Multi-Identity Red-Teaming for Adversarial Discovery and Mitigation

Cristian Morasso, Anisa Halimi, Muhammad Zaid Hameed, Douglas Leith

AI总结该研究提出了一种名为“Persona-Conditioned Adversarial Prompting（PCAP）”的方法，通过引入多样化的攻击者角色和策略集，提升大语言模型的红队测试效果，以更全面地发现和应对潜在威胁。PCAP通过并行搜索不同角色的攻击方式，生成更具现实场景覆盖性的攻击样本，并显著提高了攻击成功率和防御数据的多样性。实验表明，基于PCAP生成的数据进行微调，能有效增强模型的鲁棒性，同时保持较低的误报率，展示了从漏洞发现到自动对齐的实用闭环流程。

2605.11727 2026-05-13 cs.AI cs.CL cs.CV

Allegory of the Cave: Measurement-Grounded Vision-Language Learning

Kepeng Xu, Li Xu, Gang He, Wenxin Yu

AI总结该研究探讨了如何通过更贴近原始相机测量数据的视觉输入来提升视觉-语言模型的感知能力。提出了一种基于原始测量值的视觉-语言学习框架PRISM-VL，结合了RAW图像输入、相机条件化对齐和曝光区间监督聚合等方法，以增强模型对真实环境信息的感知。实验表明，该方法在低光、高动态范围等复杂场景下显著提升了模型的性能，验证了保留测量域信息对多模态推理的重要性。

2605.11722 2026-05-13 cs.CV cs.LG

EPIC: Efficient Predicate-Guided Inference-Time Control for Compositional Text-to-Image Generation

Sunung Mun, Sunghyun Cho, Jungseul Ok

AI总结 EPIC 是一种无需训练的推理时优化框架，用于解决复杂文本到图像生成中多对象、数量、属性和关系等组合性提示的生成难题。该方法通过将提示解析为固定的视觉程序，利用谓词引导搜索进行图像验证与修正，确保所有条件满足后才判定生成成功。实验表明，EPIC 在 GenEval2 数据集上显著提升了生成准确率，并在计算资源消耗上相比现有方法大幅降低。

2605.11716 2026-05-13 cs.AI

SafeSteer: A Decoding-level Defense Mechanism for Multimodal Large Language Models

Xinyi Zeng, Xue Yang, Jingyuan Zhang, Huanqian Yan, Xiang Chen, Kaiwen Wei, Hankun Kang, Yu Tian

AI总结多模态大语言模型（MLLMs）在面对 Jailbreak 攻击时面临较大安全挑战，现有防御方法依赖昂贵的微调或低效的后处理，难以应对新型攻击且存在性能折衷。本文提出 SafeSteer，一种基于解码阶段的防御机制，通过引入轻量级的 Decoding-Probe 检测并修正有害输出，并结合模态语义对齐向量将文本安全对齐能力迁移至视觉模态。实验表明，SafeSteer 在无需微调的情况下可提升 MLLMs 的安全性达 33.40%，同时保持模型的有效性与实用性。

2605.11714 2026-05-13 cs.RO

Introducing Environmental Constraints to Grasping Strategies for Paper-Like Flexible Materials Using a Soft Gripper

Yi Dong, Yang Li, Jinjun Duan, Zhendong Dai

AI总结本文研究了使用软夹爪抓取纸张类柔性材料时如何引入环境约束以提升抓取效果。通过分析材料特性和工作条件对抓取的影响，提出了一套基于环境约束的系统抓取策略，并建立了其力学与运动学模型。实验验证了不同策略的适用场景和性能，为家庭服务机器人抓取平面柔性物体提供了可行的解决方案。

Comments Under Review

2605.11712 2026-05-13 cs.AI

Toward Stable Value Alignment: Introducing Independent Modules for Consistent Value Guidance

Wenhao Chen, Sirui Sun, Shengyuan Bai, Guojie Song

AI总结本文针对大语言模型（LLM）在价值对齐过程中因残差流动态性导致的价值表达不稳定问题，提出了一种名为 Stable Value Guidance Transformer（SVGT）的新架构。该方法通过引入独立的价值模块，将价值表示与主干网络分离，并利用可学习的桥接标记实现稳定的价值引导，从而在保持生成流畅性的同时显著提升模型的安全性。实验表明，SVGT 在多个基准测试中有效降低了有害输出，验证了其在结构化价值建模方面的有效性。

Comments Accepted to ICML 2026 (Spotlight). 32 pages

2605.11711 2026-05-13 cs.LG cs.AI

Debiased Model-based Representations for Sample-efficient Continuous Control

Jiafei Lyu, Zichuan Lin, Scott Fujimoto, Kai Yang, Yangkun Chen, Saiyong Yang, Zongqing Lu, Deheng Ye

AI总结本文提出了一种去偏的基于模型的表示学习方法DR.Q，用于提高连续控制任务中样本效率。该方法通过最大化当前状态-动作对与其下一状态之间的互信息，并结合衰减优先经验回放策略，有效缓解了传统方法在表示学习中的偏差和过拟合问题。实验表明，DR.Q在多个基准任务上表现优异，能够匹配甚至超越现有先进方法。

Comments ICML 2026

2605.11706 2026-05-13 cs.LG

GRAFT: Graph-Tokenized LLMs for Tool Planning

Xinyi Gao, Xinyu Ren, Junliang Yu, Tong Chen, Quoc Viet Hung Nguyen, Hongzhi Yin

AI总结 GRAFT 是一种用于工具规划的图标记化大语言模型框架，旨在解决复杂任务中工具选择与子任务意图对齐以及满足工具间依赖关系的问题。该方法通过将每个工具节点映射为专用特殊标记，并在表示空间中学习有向工具依赖关系，从而将工具图内部化到模型中。此外，GRAFT 引入了基于策略的工具上下文蒸馏技术，提升模型在复杂工作流中生成合法、准确工具序列的能力，实验表明其在序列匹配和依赖合法性方面达到最优性能。

2605.11705 2026-05-13 cs.CV

CAST: Collapse-Aware multi-Scale Topology Fusion for Multimodal Coreset Selection

Boran Zhao, Hetian Liu, Zhenxian Hu, Yuqing Yuan, Yu Yan, Pengju Ren

AI总结本文提出了一种名为CAST的多模态核心集选择框架，旨在解决大规模图像-文本数据集在训练多模态模型时带来的高计算成本问题。CAST通过构建图像和文本模态的拓扑结构，并结合局部坍缩感知的融合策略，实现跨模态信息的均衡表示。同时，CAST引入多尺度扩散小波域分布匹配和局部软关系覆盖机制，有效提升了核心集在语义结构、细粒度细节和冗余抑制方面的表现。实验表明，CAST在多个数据集上优于现有方法，展现出更强的跨架构泛化能力和计算效率。

2605.11704 2026-05-13 cs.CV

ScaleMoGen: Autoregressive Next-Scale Prediction for Human Motion Generation

Inwoo Hwang, Hojun Jang, Bing Zhou, Jian Wang, Young Min Kim, Chuan Guo

AI总结本文提出 ScaleMoGen，一种基于尺度自回归的文本驱动人体运动生成框架。该方法将运动生成视为从粗到细的过程，通过多尺度骨骼-时序离散化标记进行自回归预测，从而生成高质量的运动序列。研究通过位级量化和预测策略，提升了标记词汇量并优化了生成稳定性，实验表明其在多个指标上优于现有方法，并支持无需训练的文本引导运动编辑。

Comments Project page: https://inwoohwang.me/ScaleMoGen

2605.11697 2026-05-13 cs.RO

Rainbow Deep Q-Learning with Kinematics-Aware Design for Cooperative Delta and 3-RRS Parallel Robot Insertion

Hassen Nigatu, Gaokun Shi, Jituo Li, Wang Jin, Lu Guodong

AI总结本文提出了一种基于彩虹深度Q网络（Rainbow DQN）的运动学感知深度强化学习框架，用于Delta并联机器人与3-RRS并联机械臂的协作插孔操作。研究通过优化3-RRS机械臂的几何结构，扩大其无奇异工作空间，从而提升强化学习策略的探索安全性。该框架将协作插入任务建模为马尔可夫决策过程，并结合定制奖励函数与两阶段训练课程，最终在高保真仿真环境中实现了稳定策略收敛与可靠插入效果。

Comments 10 pages