arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2604.24493 2026-04-28 cs.CV

CA-IDD: Cross-Attention Guided Identity-Conditional Diffusion for Identity-Consistent Face Swapping

Md Shohel Rana, Tanoy Debnath

详情

英文摘要

Face swapping aims to optimize realistic facial image generation by leveraging the identity of a source face onto a target face while preserving pose, expression, and context. However, existing methods, especially GAN-based methods, often struggle to balance identity preservation and visual realism due to limited controllability and mode collapse. In this paper, we introduce CA-IDD (Cross-Attention Guided Identity-Conditional Diffusion), the first diffusion-based face swapping approach that integrates multi-modal guidance comprising gaze, identity, and facial parsing through multi-scale cross-attention. Precomputed identity embeddings are incorporated into the denoising process via hierarchical attention layers, resulting in accurate and consistent identity transfer. To improve semantic coherence and visual quality, we use expert-guided supervision, with facial parsing and gaze-consistency modules. Unlike GAN-based or implicit-fusion methods, our diffusion framework provides stable training, robust generalization, and spatially adaptive identity alignment, allowing for fine-grained regional control across pose and expression variations. CA-IDD achieves an FID of 11.73, exceeding established baselines such as FaceShifter and MegaFS. Qualitative results also reveal improved identity retention across diverse poses, establishing CA-IDD as a strong foundation for future diffusion-based face editing.

URL PDF HTML ☆

赞 0 踩 0

2604.24492 2026-04-28 cs.CV cs.AI cs.ET cs.LG cs.NE

Deployment-Aligned Low-Precision Neural Architecture Search for Spaceborne Edge AI

Parampuneet Kaur Thind, Vaibhav Katturu, Giacomo Zema, Roberto Del Prete

2604.24487 2026-04-28 cs.RO

Guiding Vector Field Generation via Score-based Diffusion Model

Zirui Chen, Shiliang Guo, Shiyu Zhao

Comments 8 pages, 6 figrues, ICRA2026

2604.24479 2026-04-28 cs.CV

Zero-to-CAD: Agentic Synthesis of Interpretable CAD Programs at Million-Scale Without Real Data

Mohammadmehdi Ataei, Farzaneh Askari, Kamal Rahimi Malekshan, Pradeep Kumar Jayaraman

2604.24473 2026-04-28 cs.AI cs.CL

Agentic clinical reasoning over longitudinal myeloma records: a retrospective evaluation against expert consensus

Johannes Moll, Jannik Lübberstedt, Christoph Nuernbergk, Jacob Stroh, Luisa Mertens, Anna Purcarea, Christopher Zirn, Zeineb Benchaaben, Fabian Drexel, Hartmut Häntze, Anirudh Narayanan, Friedrich Puttkammer, Andrei Zhukov, Jacqueline Lammert, Sebastian Ziegelmayer, Markus Graf, Marion Högner, Marcus Makowski, Florian Bassermann, Lisa C. Adams, Jiazhen Pan, Daniel Rueckert, Krischan Braitsch, Keno K. Bressem

2604.24470 2026-04-28 cs.CL

Zero-shot Large Language Models for Automatic Readability Assessment

Riley Grossman, Yi Chen

Comments Accepted to ACL 2026 (Main Conference)

2604.24459 2026-04-28 cs.CV

TextGround4M: A Prompt-Aligned Dataset for Layout-Aware Text Rendering

Dongxing Mao, Yilin Wang, Linjie Li, Zhengyuan Yang, Alex Jinpeng Wang

Comments aaai poster; Project page: https://dongxingmao.github.io/TextGround4M.github.io/

2604.24447 2026-04-28 cs.RO cs.AI

Characterizing Vision-Language-Action Models across XPUs: Constraints and Acceleration for On-Robot Deployment

Kaijun Zhou, Qiwei Chen, Da Peng, Zhiyang Li, Xijun Li, Jinyu Gu

Comments 13 pages

2604.24444 2026-04-28 cs.CL

Can You Make It Sound Like You? Post-Editing LLM-Generated Text for Personal Style

Connor Baumler, Calvin Bao, Huy Nghiem, Xinchen Yang, Marine Carpuat, Hal Daumé

Comments ACL 2026

2604.24443 2026-04-28 cs.AI

PhysNote: Self-Knowledge Notes for Evolvable Physical Reasoning in Vision-Language Model

Sinin Zhang, Yunfei Xie, Yuxuan Cheng, Haoyu Zhang, Tong Zhang

Comments 11 pages. Accepted by ICLR 2026 Workshop ES-Reasoning

2604.24441 2026-04-28 cs.CV

AutoGUI-v2: A Comprehensive Multi-Modal GUI Functionality Understanding Benchmark

Hongxin Li, Xiping Wang, Jingran Su, Zheng Ju, Yuntao Chen, Qing Li, Zhaoxiang Zhang

Comments Technical Report

2604.24432 2026-04-28 cs.CL cs.AI cs.IR cs.LG

Kwai Summary Attention Technical Report

Chenglong Chu, Guorui Zhou, Guowang Zhang, Han Li, Hao Peng, Hongtao Cheng, Jian Liang, Jiangxia Cao, Kun Gai, Lingzhi Zhou, Lu Ren, Qi Zhang, Ruiming Tang, Ruitao Wang, Xinchen Luo, Yi Su, Zhiyuan Liang, Ziqi Wang, Boyang Ding, Chengru Song, Dunju Zang, Hui Wang, Jiao Ou, Jiaxin Deng, Jijun Shi, Jinghao Zhang, Junmin Chen, Lejian Ren, Minxuan Lv, Qianqian Wang, Qigen Hu, Shiyao Wang, Siyang Mao, Tao Wang, Xingmei Wang, Zhixin Ling, Ziming Li, Zixing Zhang

Comments Work in progress

2604.24429 2026-04-28 cs.CL

A Multi-Dimensional Audit of Politically Aligned Large Language Models

Lisa Korver, Mohamed Mostagir, Sherief Reda

2604.24426 2026-04-28 cs.CV

DYMAPIA: A Multi-Domain Framework for Detecting AI-based Video Manipulation

Md Shohel Rana, Andrew H. Sung

2604.24419 2026-04-28 cs.CV

BMD-45: A Large-Scale CCTV Vehicle Detection Dataset for Urban Traffic in Developing Cities

Akash Sharma, Chinmay Mhatre, Sankalp Gawali, Ruthvik Bokkasam, Brij Sharma, Vishwajeet Pattanaik, Punit Rathore, Raghu Krishnapuram, Vijay Gopal Kovvali, Anirban Chakraborty, Yogesh Simmhan

Comments Accepted at CVPR 2026 Findings Track. To appear in the IEEE/CVF Conference on Computer Vision and Pattern Recognition 2026

2604.24416 2026-04-28 cs.CL cs.AI cs.LG

Scaling Properties of Continuous Diffusion Spoken Language Models

Jason Ramapuram, Eeshan Gunesh Dhekane, Amitis Shidani, Dan Busbridge, Bogdan Mazoure, Zijin Gu, Russ Webb, Tatiana Likhomanenko, Navdeep Jaitly

2604.24407 2026-04-28 cs.CV

AD-Relight: Training-Free Banner Relighting via Illumination Translation with Diffusion Priors

Rameshwar Mishra, A V Subramanyam

2604.24403 2026-04-28 cs.LG cs.RO

An Automatic Ground Collision Avoidance System with Reinforcement Learning

Seyyid Osman Sevgili, Atahan Cilan, Mahir Demir, Özgün Can Yürütken, Ümit Can Bekar

2604.24401 2026-04-28 cs.SD cs.AI cs.CL eess.AS

All That Glitters Is Not Audio: Rethinking Text Priors and Audio Reliance in Audio-Language Evaluation

Leonardo Haw-Yang Foo, Chih-Kai Yang, Chen-An Li, Ke-Han Lu, Hung-yi Lee

Comments 6 pages, 3 figures, 5 tables

2604.24396 2026-04-28 cs.CV cs.AI

Global Context or Local Detail? Adaptive Visual Grounding for Hallucination Mitigation

Yubo Jiang, Xin Yang, Abudukelimu Wuerkaixi, Zheming Yuan, Xuxin Cheng, Fengying Xie, Zhiguo Jiang, Cao Liu, Ke Zeng, Haopeng Zhang

Comments 9 pages, 8 figures, Findings of ACL 2025

2604.24395 2026-04-28 cs.AI

Aligning with Your Own Voice: Self-Corrected Preference Learning for Hallucination Mitigation in LVLMs

Byeonggeuk Lim, JungMin Yun, Junehyoung Kwon, Kyeonghyun Kim, YoungBin Kim

Comments Accepted to ACL 2026

2604.24393 2026-04-28 cs.LG cs.CV

Complexity of Linear Regions in Self-supervised Deep ReLU Networks

Mufhumudzi Muthivhi, Terence L. van Zyl

Comments Accepted for publication in 2026 IEEE/CVF Conference on Computer Vision and Pattern Recognition - Findings Track (CVPRF)

2604.24391 2026-04-28 cs.RO

FreqCache: Accelerating Embodied VLN Models with Adaptive Frequency-Guided Token Caching

Zihao Zheng, Xingyue Zhou, Zhihao Mao, Songyu Sun, Lingyue Zhang, Yulong Ao, Yupu Feng, Qiongqiong Zhang, Yonghua Lin, Xiang Chen

2604.24386 2026-04-28 cs.SD eess.AS

An event-based sequence modeling approach to recognizing non-triad chords with oversegmentation minimization

Leekyung Kim, Jonghun Park

Comments accepted to ICASSP 2026

2604.24384 2026-04-28 cs.RO

Pedestrians play chicken with an autonomous vehicle

Rakshit Soni, Charles Fox

2604.24380 2026-04-28 cs.CL

Structural Pruning of Large Vision Language Models: A Comprehensive Study on Pruning Dynamics, Recovery, and Data Efficiency

Yiran Huang, Lukas Thede, Massimiliano Mancini, Wenjia Xu, Zeynep Akata

Comments Accepted at International Journal of Computer Vision (IJCV) 2026

2604.24379 2026-04-28 cs.AI cs.LG cs.SC

Certified geometric robustness -- Super-DeepG

Noémie Cohen, Mélanie Ducoffe, Christophe Gabreau, Claire Pagetti, Xavier Pucel

Comments ICCPS / HSCC 2026, CPS IoT Week, May 2026, Saint Malo (Palais du Grand Large), France

2604.24376 2026-04-28 cs.CL

Learning Evidence of Depression Symptoms via Prompt Induction

Eliseo Bao, Anxo Perez, David Otero, Javier Parapar

Comments Accepted at SIGIR 2026

2604.24371 2026-04-28 cs.LG cs.AI

PathMoG: A Pathway-Centric Modular Graph Neural Network for Multi-Omics Survival Prediction

Di Wang, Chupei Tang, Junxiao Kong, Jixiu Zhai, Moyu Tang, Tianchi Lu

Comments 9 pages, 5 figures, 3 tables. Source code available at https://github.com/wangzoyou/pathmog

2604.24370 2026-04-28 cs.CV

Multispectral airborne laser scanning dataset for tree species classification: MS-ALS-SPECIES

Matti Hyyppä, Klaara Salolahti, Eric Hyyppä, Xiaowei Yu, Josef Taher, Leena Matikainen, Matti Lehtomäki, Paula Litkey, Teemu Hakala, Harri Kaartinen, Juha Hyyppä, Antero Kukko