arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2604.11331 2026-04-14 cs.CV cs.CG

Any 3D Scene is Worth 1K Tokens: 3D-Grounded Representation for Scene Generation at Scale

Dongxu Wei, Qi Xu, Zhiqi Li, Hangning Zhou, Cong Qiu, Hailong Qin, Mu Yang, Zhaopeng Cui, Peidong Liu

Comments Under Review. Project Page: https://wswdx.github.io/3DRAE

详情

英文摘要

3D scene generation has long been dominated by 2D multi-view or video diffusion models. This is due not only to the lack of scene-level 3D latent representation, but also to the fact that most scene-level 3D visual data exists in the form of multi-view images or videos, which are naturally compatible with 2D diffusion architectures. Typically, these 2D-based approaches degrade 3D spatial extrapolation to 2D temporal extension, which introduces two fundamental issues: (i) representing 3D scenes via 2D views leads to significant representation redundancy, and (ii) latent space rooted in 2D inherently limits the spatial consistency of the generated 3D scenes. In this paper, we propose, for the first time, to perform 3D scene generation directly within an implicit 3D latent space to address these limitations. First, we repurpose frozen 2D representation encoders to construct our 3D Representation Autoencoder (3DRAE), which grounds view-coupled 2D semantic representations into a view-decoupled 3D latent representation. This enables representing 3D scenes observed from arbitrary numbers of views--at any resolution and aspect ratio--with fixed complexity and rich semantics. Then we introduce 3D Diffusion Transformer (3DDiT), which performs diffusion modeling in this 3D latent space, achieving remarkably efficient and spatially consistent 3D scene generation while supporting diverse conditioning configurations. Moreover, since our approach directly generates a 3D scene representation, it can be decoded to images and optional point maps along arbitrary camera trajectories without requiring per-trajectory diffusion sampling pass, which is common in 2D-based approaches.

URL PDF HTML ☆

赞 0 踩 0

2604.11328 2026-04-14 cs.AI cs.LG

Select Smarter, Not More: Prompt-Aware Evaluation Scheduling with Submodular Guarantees

Xiaoyu Ma, Yiwen Li, Haoyue Liu, Zhichao Wang, Ye Chen, Yongxin Guo, Xiaoying Tang

2604.11322 2026-04-14 cs.CL cs.AI

Do LLMs Know Tool Irrelevance? Demystifying Structural Alignment Bias in Tool Invocations

Yilong Liu, Xixun Lin, Pengfei Cao, Ge Zhang, Fang Fang, Yanan Cao

Comments Accepted to ACL 2026 (Main Conference)

2604.11320 2026-04-14 cs.RO

CLASP: Closed-loop Asynchronous Spatial Perception for Open-vocabulary Desktop Object Grasping

Yiran Ling, Wenxuan Li, Siying Dong, Yize Zhang, Xiaoyao Huang, Jing Jiang, Ruonan Li, Jie Liu

2604.11315 2026-04-14 cs.LG cs.AI

S$^3$: Structured Sparsity Specification

Ayoub Ghriss

Comments 8 pages main text, 12 pages appendix

2604.11311 2026-04-14 cs.LG stat.ML

Learning Discrete Diffusion of Graphs via Free-Energy Gradient Flows

Dario Rancati, Jan Maas, Francesco Locatello

2604.11307 2026-04-14 cs.AI

PaperScope: A Multi-Modal Multi-Document Benchmark for Agentic Deep Research Across Massive Scientific Papers

Lei Xiong, Huaying Yuan, Zheng Liu, Zhao Cao, Zhicheng Dou

2604.11306 2026-04-14 cs.RO cs.AI

Learning to Forget -- Hierarchical Episodic Memory for Lifelong Robot Deployment

Leonard Bärmann, Joana Plewnia, Alex Waibel, Tamim Asfour

2604.11304 2026-04-14 cs.AI

BankerToolBench: Evaluating AI Agents in End-to-End Investment Banking Workflows

Elaine Lau, Markus Dücker, Ronak Chaudhary, Hui Wen Goh, Rosemary Wei, Vaibhav Kumar, Saed Qunbar, Guram Gogia, Yi Liu, Scott Millslagle, Nasim Borazjanizadeh, Ulyana Tkachenko, Samuel Eshun Danquah, Collin Schweiker, Vijay Karumathil, Asrith Devalaraju, Varsha Sandadi, Haemi Nam, Punit Arani, Ray Epps, Abdullah Arif, Sahil Bhaiwala, Curtis Northcutt, Skyler Wang, Anish Athalye, Jonas Mueller, Francisco Guzmán

2604.11302 2026-04-14 cs.RO cs.AI

3D-Anchored Lookahead Planning for Persistent Robotic Scene Memory via World-Model-Based MCTS

Bronislav Sidik, Dror Mizrahi

Comments 5 pages, 1 figure, 1 table

2604.11299 2026-04-14 cs.CL cs.AI

Enhancing Multimodal Large Language Models for Ancient Chinese Character Evolution Analysis via Glyph-Driven Fine-Tuning

Rui Song, Lida Shi, Ruihua Qi, Yingji Li, Hao Xu

Comments Accepted by ACL 2026 main

2604.11297 2026-04-14 cs.LG cs.AI cs.CL

The Past Is Not Past: Memory-Enhanced Dynamic Reward Shaping

Yang Liu, Enxi Wang, Yufei Gao, Weixin Zhang, Bo Wang, Zhiyuan Zeng, Yikai Zhang, Yining Zheng, Xipeng Qiu

2604.11295 2026-04-14 cs.RO

Modeling, Analysis and Activation of Planar Viscoelastically-combined Rimless Wheels

Fumihiko Asano, Yuxuan Xiang, Yanqiu Zheng, Cong Yan

Comments This is a corrected version of the IROS 2022 paper. A typographical error in Eq. (14) has been corrected

2604.11290 2026-04-14 cs.CL

Polyglot Teachers: Evaluating Language Models for Multilingual Synthetic Data Generation

Lester James V. Miranda, Ivan Vulić, Anna Korhonen

2604.11288 2026-04-14 cs.CL cs.LG

Transactional Attention: Semantic Sponsorship for KV-Cache Retention

Abhinaba Basu

2604.11287 2026-04-14 cs.AI q-bio.OT

Consistency of AI-Generated Exercise Prescriptions: A Repeated Generation Study Using a Large Language Model

Kihyuk Lee

Comments 15 pages, 5 tables, 3 figures

2604.11279 2026-04-14 cs.CV

A Deep Equilibrium Network for Hyperspectral Unmixing

Chentong Wang, Jincheng Gao, Fei Zhu, Jie Chen

2604.11278 2026-04-14 cs.LG

Representation-Aligned Multi-Scale Personalization for Federated Learning

Wenfei Liang, Wee Peng Tay

2604.11274 2026-04-14 cs.LG cs.IR

Mycelium-Index: A Streaming Approximate Nearest Neighbor Index with Myelial Edge Decay, Traffic-Driven Reinforcement, and Adaptive Living Hierarchy

Anton Pakhunov

Comments 10 pages, 10 tables, 1 appendix

2604.11272 2026-04-14 cs.LG cs.AI

AbLWR:A Context-Aware Listwise Ranking Framework for Antibody-Antigen Binding Affinity Prediction via Positive-Unlabeled Learning

Fan Xu, Zhi-an Huang, Haohuai He, Yidong Song, Wei Liu, Dongxu Zhang, Yao Hu, Kay Chen Tan

2604.11261 2026-04-14 cs.AI

Inspectable AI for Science: A Research Object Approach to Generative AI Governance

Ruta Binkyte, Sharif Abuaddba, Chamikara Mahawaga, Ming Ding, Natasha Fernandes, Mario Fritz

2604.11259 2026-04-14 cs.AI cs.CR

Mobile GUI Agent Privacy Personalization with Trajectory Induced Preference Optimization

Zhixin Lin, Jungang Li, Dongliang Xu, Shidong Pan, Yibo Shi, Yuchi Liu, Yuecong Min, Yue Yao

Comments 10 pages, 6 figures, 3 tables

2604.11258 2026-04-14 cs.CL

Dialectic-Med: Mitigating Diagnostic Hallucinations via Counterfactual Adversarial Multi-Agent Debate

Zhixiang Lu, Jionglong Su

Comments Accepted by ACL 2026

2604.11257 2026-04-14 cs.LG

Unified Graph Prompt Learning via Low-Rank Graph Message Prompting

Beibei Wang, Bo Jiang, Ziyan Zhang, Jin Tang

2604.11250 2026-04-14 cs.CV

Variational Latent Entropy Estimation Disentanglement: Controlled Attribute Leakage for Face Recognition

Ünsal Öztürk, Vedrana Krivokuća Hahn, Sushil Bhattacharjee, Sébastien Marcel

Comments Submitted to IEEE Transactions on Information Forensics and Security (TIFS). 13 pages, 5 figures, 4 tables

2604.11240 2026-04-14 cs.CV

Decoupled Similarity for Task-Aware Token Pruning in Large Vision-Language Models

Kexin Ma, Jing Xiao, Chaofeng Chen, Geyong Min, Guibo Zhu, Jinqiao Wang, Liang Liao

2604.11234 2026-04-14 cs.CV

Bridging the RGB-IR Gap: Consensus and Discrepancy Modeling for Text-Guided Multispectral Detection

Jiaqi Wu, Zhen Wang, Enhao Huang, Kangqing Shen, Yulin Wang, Yang Yue, Yifan Pu, Gao Huang

Comments 17 pages ,Under review

2604.11233 2026-04-14 cs.CL

RUMLEM: A Dictionary-Based Lemmatizer for Romansh

Dominic P. Fischer, Zachary Hopton, Jannis Vamvas

2604.11231 2026-04-14 cs.CV

Seg2Change: Adapting Open-Vocabulary Semantic Segmentation Model for Remote Sensing Change Detection

You Su, Yonghong Song, Jingqi Chen, Zehan Wen

Comments 21 pages, 15 figures

2604.11230 2026-04-14 cs.CV

NTIRE 2026 The 3rd Restore Any Image Model (RAIM) Challenge: AI Flash Portrait (Track 3)

Ya-nan Guan, Shaonan Zhang, Hang Guo, Yawen Wang, Xinying Fan, Tianqu Zhuang, Jie Liang, Hui Zeng, Guanyi Qin, Lishen Qu, Tao Dai, Shu-Tao Xia, Lei Zhang, Radu Timofte, Bin Chen, Yuanbo Zhou, Hongwei Wang, Qinquan Gao, Tong Tong, Yanxin Qian, Lizhao You, Jingru Cong, Lei Xiong, Shuyuan Zhu, Zhi-Qiang Zhong, Kan Lv, Yang Yang, Kailing Tang, Minjian Zhang, Zhipei Lei, Zhe Xu, Liwen Zhang, Dingyong Gou, Yanlin Wu, Cong Li, Xiaohui Cui, Jiajia Liu, Guoyi Xu, Yaoxin Jiang, Yaokun Shi, Jiachen Tu, Liqing Wang, Shihang Li, Bo Zhang, Biao Wang, Haiming Xu, Xiang Long, Xurui Liao, Yanqiao Zhai, Haozhe Li, Shijun Shi, Jiangning Zhang, Yong Liu, Kai Hu, Jing Xu, Xianfang Zeng, Yuyang Liu, Minchen Wei

Comments Accepted to CVPR 2026 Workshop. Includes supplementary material as ancillary file