2606.20246
2026-06-19
cs.RO
cs.AI
新提交
70%
Finetuning Vision-Language-Action Models Requires Fewer Layers Than You Think
微调视觉-语言-动作模型所需的层数比你想象的少
Gia-Binh Nguyen, Trong-Bao Ho, Thien-Loc Ha, Khoa Vo, Philip Lund Møller, Quang T. Nguyen, Long Dinh, Tuan Dam, Vu Duong, Tung M. Luu, Trung Le, Tran Nguyen Le, Minh Vu, An Thai Le, Ngan Le, Daniel Sonntag, James Zou, Jan Peters, Duy M. H. Nguyen, Ngo Anh Vien
发表机构
*
Center for AI Research, VinUniversity(VinUniversity人工智能研究中心)
;
VinRobotics
;
University of Arkansas(阿肯色大学)
;
Technical University of Denmark(丹麦技术大学)
;
Hanoi University of Science and Technology(河内科技大学)
;
KAIST(韩国科学技术院)
;
Monash University(莫纳什大学)
;
Oldenburg University(奥尔登堡大学)
;
DFKI(德国人工智能研究中心)
;
University of Stuttgart(斯图加特大学)
;
IMPRS-IS(国际马克斯·普朗克智能系统研究学院)
;
Stanford University(斯坦福大学)
;
Technische Universität Darmstadt(达姆施塔特工业大学)
专题命中
机器人学习
:应用于机器人操作模型压缩
AI总结
本文发现VLA模型存在层间表示冗余,提出无需训练的压缩方法,通过去除冗余层将模型深度减少50%,实现40-50%训练加速和30%推理加速,性能不变。