arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.13436 2026-05-14 cs.CL cs.LG

Pretraining Language Models with Subword Regularization: An Empirical Study of BPE Dropout in Low-Resource NLP

Ruan Visser, Trienko Grobler, Marcel Dunaiski

AI总结本文研究了在低资源自然语言处理任务中，是否在预训练阶段应用BPE Dropout能提升下游任务表现。研究通过在多种语言的子集上训练单语和双语BERT模型，并在多个基准数据集上进行评估，发现同时在预训练和微调阶段使用随机分词能取得最佳效果，尤其在数据量较少时，预训练阶段引入BPE Dropout具有明显优势。实验还表明，预训练阶段的随机分词有助于模型更一致地接触形态对齐的分词方式，从而提升模型的表示能力。

Comments Comments: 12 pages, 8 figures, 5 tables

2605.13435 2026-05-14 cs.LG cs.AI

Q-Flow: Stable and Expressive Reinforcement Learning with Flow-Based Policy

JaeHyeok Doo, Byeongguk Jeon, Seonghyeon Ye, Kimin Lee, Minjoon Seo

AI总结本文提出了一种名为 Q-Flow 的强化学习框架，旨在充分利用基于流模型的策略的高表达能力，同时解决其在价值最大化过程中的优化稳定性问题。该方法通过利用流模型的确定性动态，直接将终端轨迹价值传播到中间潜在状态，从而在无需展开数值求解器的情况下实现稳定策略优化。实验表明，Q-Flow 在离线学习任务中显著优于现有先进方法，并支持在同一框架下的稳定在线适应。

Comments 27 pages

2605.13434 2026-05-14 cs.LG cs.DC math.OC stat.ML

Rescaled Asynchronous SGD: Optimal Distributed Optimization under Data and System Heterogeneity

Ammar Mahran, Artavazd Maranjyan, Peter Richtárik

AI总结本文研究了在数据和系统异构环境下分布式学习中的异步随机梯度下降（ASGD）方法。传统ASGD因未考虑不同工作节点的计算速度差异，导致模型更新偏向于局部目标的频率加权平均，而非全局目标。本文提出了一种名为Rescaled ASGD的新方法，通过按各节点计算时间比例调整步长，使得每个节点在周期内对模型的总学习率贡献相同，从而恢复对全局目标的正确优化。理论分析表明，该方法在非凸设置下能够收敛到全局目标的平稳点，且时间复杂度达到已知下界，实验验证了其有效性与先进性。

2605.13431 2026-05-14 cs.SD

Text2Score: Generating Sheet Music From Textual Prompts

Keshav Bhandari, Sungkyun Chang, Abhinaba Roy, Francesca Ronchini, Emmanouil Benetos, Dorien Herremans, Simon Colton

AI总结本文提出 Text2Score，一个用于从自然语言提示生成乐谱的两阶段框架，旨在解决文本驱动符号音乐生成中数据稀缺和自动标注不可靠的问题。该方法通过直接从符号化 XML 数据中提取监督信号，绕过了传统文本-音乐对的噪声和稀疏性问题，分为规划阶段和执行阶段：规划阶段利用大语言模型生成结构化的乐谱计划，执行阶段则生成符合该计划的 ABC 符号乐谱。实验表明，Text2Score 在可玩性、可读性等多个评估维度上均优于现有方法，并开源了数据集、代码及评估工具。

Comments 8 pages including references, 1 figure

2605.13429 2026-05-14 cs.CL

TokAlign++: Advancing Vocabulary Adaptation via Better Token Alignment

Chong Li, Yingzhuo Deng, Wen Yang, Jiajun Zhang, Chengqing Zong

AI总结本文提出了一种名为 TokAlign++ 的方法，旨在通过学习更优的词元对齐词典来提升大语言模型的词汇适配性能。该方法将源语言和目标语言的词表视为两种不同语言，从单语词元表示中学习双语对齐词典，并据此重新排列模型参数以适应新词表，再通过逐步微调实现模型适配。实验表明，该方法在15种语言上显著提升了多语言文本压缩率，并在较少训练步数下恢复了原模型性能，同时有效支持了基于词元的模型蒸馏。

Comments Paper under review

2605.13428 2026-05-14 cs.RO

SID: Sliding into Distribution for Robust Few-Demonstration Manipulation

Yicheng Ma, Wei Yu, Zhian Su, Xidan Zhang, Huixu Dong

AI总结本文提出了一种名为SID的框架，用于在仅有少量演示的情况下实现鲁棒的机器人操作。SID通过学习物体中心的运动场，逐步引导系统接近演示的流形，并进入轻量化的自中心执行策略的可靠操作区域，从而减少分布外执行的问题。该方法在多个现实任务中表现出色，仅需两次演示即可在分布外初始条件下实现约90%的成功率，为少样本操作提供了一种新的范式。

Comments 20 pages, 14 figures. Project website: https://sliding-into-distribution.github.io/

2605.13424 2026-05-14 cs.LG cs.CL

LIFT: Last-Mile Fine-Tuning for Table Explicitation

Divij Khaitan, Ashish Tiwari

AI总结本文提出了一种名为LIFT（Last-Mile Fine-Tuning）的新型微调方法，用于从非结构化的剪贴板文本中提取表格并修正错误。该方法结合了预训练的大语言模型和微调的小语言模型（参数规模为1B-24B），在保证准确性的前提下显著提升了对输入格式变化的鲁棒性，并在仅有1000个训练样本的情况下，其性能优于端到端微调方法。研究显示，LIFT在表格提取任务中具有更高的效率和更强的适应性。

Comments 9 pages, 1 figure, 3 tables

2605.13418 2026-05-14 cs.LG

DP-KFC: Data-Free Preconditioning for Privacy-Preserving Deep Learning

Marc Molina Van den Bosch, Riccardo Taiello, Albert Sund Aillet, Andrea Protani, Miguel Angel Gonzalez Ballester, Luigi Serio

AI总结本文提出了一种名为DP-KFC的数据无关预处理方法，用于在隐私保护深度学习中提升优化效果。该方法通过结构化合成噪声探测网络，无需使用私有或公共数据即可估计曲率信息，解决了差分隐私优化中损失函数各向异性与噪声各向同性之间的几何不匹配问题。实验表明，DP-KFC在强隐私保护条件下显著优于传统DP-SGD及其他自适应方法，且在医疗等数据稀缺的领域展现出良好的应用潜力。

Comments Accepted at the International Conference on Machine Learning (ICML 2026). 9 pages main text + appendix, 5 figures, 2 tables. Code: https://github.com/molinamarcvdb/DP-KFC

2605.13414 2026-05-14 cs.AI

TRIAGE: Evaluating Prospective Metacognitive Control in LLMs under Resource Constraints

Zabir Al Nazi, Shubhashis Roy Dipta

AI总结本文提出TRIAGE评估框架，用于评估大语言模型在资源受限情况下对未来任务进行选择、排序和计算分配的前瞻性元认知控制能力。该框架通过给模型提供任务池和预设的token预算，要求其制定一个包含任务选择、顺序和资源分配的统一计划，并基于模型在各任务上的解题能力和成本进行评估，从而计算出其分诊效率比。实验表明，当前主流语言模型在该能力上存在显著不足，揭示了其在资源高效部署方面尚未被充分测量的关键能力维度。

2605.13412 2026-05-14 cs.CL cs.AI

LLMs as annotators of credibility assessment in Danish asylum decisions: evaluating classification performance and errors beyond aggregated metrics

Galadrielle Humblot-Renaux, Mohammad N. S. Jahromi, Rohat Bakuri-Jørgensen, Marieke Anne Heyl, Asta S. Stage Jarlner, Maria Vlachou, Anna Murphy Høgenhaug, Desmond Elliott, Thomas Gammeltoft-Hansen, Thomas B. Moeslund

AI总结该研究探讨了使用现成的大语言模型（LLMs）对丹麦难民申请决定文本中的可信度评估进行自动标注的性能与误差。研究引入了一个名为RAB-Cred的高质量丹麦语法律文本分类数据集，并系统评估了多种模型和提示组合在零样本和少样本设置下的表现。研究揭示了顶级模型在标注中的不一致性与错误模式，强调了单一模型预测的局限性，并指出在法律等专业领域中，LLMs作为标注工具仍存在不足，需结合人类判断与更细致的评估方法。

Comments Accepted at the 20th Linguistic Annotation Workshop (LAW XX), co-located with ACL 2026 (https://sigann.github.io/LAW-XX-2026/)

2605.13408 2026-05-14 cs.CL

From Rosetta to Match-Up: A Paired Corpus of Linguistic Puzzles with Human and LLM Benchmarks

Neh Majmudar, Anne Huang, Jinfan Frank Hu, Elena Filatova

AI总结本文研究了高中语言学竞赛中常用的两种语言谜题形式——“罗塞塔石碑”和“匹配对”（Match-Up），提出了一种将前者系统性地转换为后者的高效方法，从而加速新谜题的生成。通过让人类专家和大型语言模型（LLMs）对转换后的谜题对进行测试，研究发现两者在解决Match-Up谜题时均表现出“全或无”的模式，即要么完全解决，要么完全无法解决。该工作构建了一个包含配对谜题的新数据集，并深入分析了不同格式下谜题难度的差异，为理解人类与机器的语言推理能力提供了新视角。

Comments Proceedings of the Fifteenth Language Resources and Evaluation Conference

2605.13407 2026-05-14 cs.LG cs.CE q-fin.ST

Vector-Quantized Discrete Latent Factors Meet Financial Priors: Dynamic Cross-Sectional Stock Ranking Prediction for Portfolio Construction

Namhyoung Kim, Jae Wook Song

AI总结本文提出了一种名为PRISM-VQ的动态因子框架，用于解决跨截面股票收益预测中的低信噪比和市场制度变化带来的挑战。该方法结合了专家先验因子、通过跨截面结构学习得到的向量量化离散潜在因子，以及结构条件的专家混合网络，以生成时变因子载荷。实验表明，该方法在沪深300和标普500数据集上显著提升了收益预测和投资组合表现，同时保持了模型的可解释性。

Comments IJCAI 2026 Accepted Paper including Technical Appendix

2605.13405 2026-05-14 cs.LG

When is Warmstarting Effective for Scaling Language Models?

Neeratyoy Mallik, Maciej Janowski, Johannes Hog, Herilalaina Rakotoarison, Josif Grabocka, Frank Hutter, Aaron Klein

AI总结本文研究了在扩展语言模型规模时，预热训练（warmstarting）的有效性。作者指出，尽管预热训练有助于节省资源，但在实际大模型训练中应用较少，主要受限于对模型性能保持和扩展策略的分析不足。研究发现，保持基础模型初始性能并非必要，简单且通用的扩展策略往往更有效，并确定了扩展因子的上限，超过该上限时从头训练更高效。实验表明，2倍扩展因子在多数情况下能提供最佳收敛速度提升，研究结果为模型扩展提供了实用指导和经验界限。

2605.13404 2026-05-14 cs.SD

Seconds-Aligned PCA-DAC Latent Diffusion for Symbolic-to-Audio Drum Rendering

Konstantinos Soiledis, Maximos Kaliakatsos Papakostas, Dimos Makris, Konstantinos Tsamis

AI总结该研究提出了一种名为Sec2Drum-DAC的条件潜扩散模型，用于从符号控制信息生成鼓声音频。该模型通过在物理时间点采样事件特征，并预测冻结DAC编码本嵌入的主成分坐标，而非直接生成波形样本，从而在保持节奏和力度信息的同时生成逼真的音频。实验表明，该方法在多个评估指标上优于确定性PCA回归和符号渲染基线，尤其在音谱和瞬态特性方面表现突出。

2605.13403 2026-05-14 cs.RO cs.CV

RotVLA: Rotational Latent Action for Vision-Language-Action Model

Qiwei Li, Xicheng Gong, Xinghang Li, Peiyan Li, Quanyun Zhou, Hangjun Ye, Jiahuan Zhou, Yadong Mu

AI总结本文提出RotVLA，一种基于连续旋转潜行动作表示的视觉-语言-动作（VLA）框架，旨在解决现有潜行动作模型在动作表示离散化带来的重建行为简单、表达能力有限等问题。RotVLA将潜动作建模为SO(n)空间中的元素，具有连续性、组合性和符合现实动作动态的结构化几何特性，并通过三帧学习框架强化时间动态特性。实验表明，RotVLA在多个基准测试中表现出色，显著优于现有VLA模型。

2605.13402 2026-05-14 cs.CV cs.DS

Fast and Compact Graph Cuts for the Boykov-Kolmogorov Algorithm

Christian Møller Mikkelstrup, Anders Bjorholm Dahl, Philip Bille, Vedrana Andersen Dahl, Inge Li Gørtz

AI总结本文研究了Boykov-Kolmogorov（BK）算法在计算最小$s$-$t$割问题中的性能优化，提出了改进的理论分析和新的快速紧凑算法（fcBK），将时间复杂度从$O(mn|C|)$降低至$O(m|C|)$。此外，作者设计了一种紧凑的图表示方法，使得算法能够在有限内存下处理包含数十亿顶点和万亿边的大规模图。实验表明，该实现是目前BK算法中最高效的实现，突显了内存效率在大规模图割计算中的重要性。

Comments 15 pages, 6 figures, submitted to the IEEE for possible publication

2605.13401 2026-05-14 cs.LG cs.RO stat.ML

Trajectory-Level Data Augmentation for Offline Reinforcement Learning

Tobias Schmähling, Matthias Burkhardt, Tobias Windisch

AI总结本文提出了一种用于离线强化学习的轨迹级数据增强方法，旨在解决主动定位等任务中从少量次优轨迹中训练策略的问题。该方法利用任务结构以及奖励函数、价值函数与日志策略之间的几何关系，通过轨迹层面的增强技术提升数据质量，从而提高离线强化学习的性能。研究提供了理论依据，并在不同维度和部分可观测性条件下验证了方法的有效性。

Comments 26 pages, 25 figures, Accepted at ICML 2026

2605.13399 2026-05-14 cs.LG cs.IT math.IT

The Diffusion Encoder

Akhil Premkumar, Sarah Lucioni

AI总结本文提出了一种新型编码器，利用扩散模型的强大表达能力来替代传统变分自编码器中的编码器。为了解决扩散模型与解码器之间在潜在空间更新方向不一致的问题，作者设计了一种基于期望最大化算法思想的交替训练方案，从而实现了编码器与解码器的可靠同步，同时保持了扩散模型简单高效的训练目标。

Comments 22 pages + references, 10 figures

2605.13396 2026-05-14 cs.CV

PreFIQs: Face Image Quality Is What Survives Pruning

Jan Niklas Kolf, Guray Ozgur, Andrea Atzori, Žiga Babnik, Vitomir Štruc, Naser Damer, Fadi Boutros

AI总结本文提出了一种无需训练和监督的面部图像质量评估框架 PreFIQs，基于“剪枝识别示例”（PIE）假设，通过分析预训练人脸识别模型及其剪枝版本之间嵌入向量的欧几里得距离来衡量图像质量。该方法从雅可比向量积的角度提供了理论支持，并在多个基准数据集上取得了优于现有方法的性能，验证了参数剪枝作为评估面部图像质量的有效信号。

Comments Accepted at CVPR 2026 Workshops

2605.13395 2026-05-14 cs.LG cs.CV

Taming the Long Tail: Rebalancing Adversarial Training via Adaptive Perturbation

Lilin Zhang, Yimo Guo, Yue Li, Jiancheng Shi, Xianggen Liu

AI总结该论文研究了深度神经网络在长尾数据下的对抗训练问题，指出传统对抗训练方法在类别不平衡的数据上存在训练目标偏斜和对抗分布不稳定等局限。作者提出通过自适应调整对抗扰动来同时提升模型的鲁棒性和类别平衡能力，并设计了名为 RobustLT 的即插即用框架，实验表明该方法在多个长尾数据集上有效增强了模型的对抗鲁棒性与类别平衡性能。

Comments accepted by CVPR 2026

2605.13391 2026-05-14 cs.AI

RS-Claw: Progressive Active Tool Exploration via Hierarchical Skill Trees for Remote Sensing Agents

Liangtian Liu, Zeyuan Wang, Ziyu Li, Kai Ouyang, Zichao Tang, Chengfu Liu, Haifeng Li, Hanwen Yu, Wentao Yang, Cheng Yang, Dongyang Hou

AI总结随着多模态大语言模型的发展，遥感智能正从“感知”转向“行动”，但现有遥感智能体在工具调用上仍采用被动选择方式，难以在复杂任务中动态平衡上下文负载与工具集完整性。为此，本文提出RS-Claw，一种基于分层技能树的主动探索架构，通过技能封装技术对工具进行分层描述，使智能体能够按需逐步加载工具信息，从而显著释放上下文空间并提高关键工具的命中率。实验表明，RS-Claw在Earth-Bench基准测试中表现出色，有效压缩了输入令牌并优于现有方法。

详情

英文摘要

The rise of multi-modal large language models (MLLMs) is shifting remote sensing (RS) intelligence from "see" to "action", as OpenClaw-style frameworks enable agents to autonomously operate massive RS image-processing tools for complex tasks. Existing RS agents adopt a passive selection paradigm for tool invocation, relying on either full tool registration (Flat) or retrieval-augmented generation (RAG). However, in the massive and multi-source heterogeneous RS tool ecosystem, such passive mechanisms struggle to dynamically balance "context load" and "toolset completeness" throughout task reasoning, thus exhibiting inherent limitations: full tool registration triggers context space deficits during long-horizon tasks, whereas RAG retrieval may omit critical tools in essential steps. To overcome these bottlenecks, this paper redefines tool selection by arguing that the agent should act as an active explorer within the tool space. Based on this perspective, we propose RS-Claw, a novel RS agent architecture. By leveraging Skill encapsulation technology at the tool end, this architecture hierarchically structures tool descriptions, enabling the agent to execute on-demand sequential decision-making: initially selecting relevant skill branches by reading only tool summaries, then dynamically loading detailed descriptions, and ultimately achieving precise invocation. This active paradigm not only significantly liberates the agent's context space but also effectively ensures the accurate hit rate of critical tools during long-horizon reasoning. Systematic experiments on the Earth-Bench benchmark demonstrate that RS-Claw's active exploration mechanism effectively filters semantic noise and substantially frees up reasoning space, achieving an input token compression ratio of up to 86%, and comprehensively outperforming existing Flat and RAG baselines across complex reasoning evaluations.

URL PDF HTML ☆

赞 0 踩 0

2605.13386 2026-05-14 cs.LG stat.ML

Support-Conditioned Flow Matching Is Kernel Smoothing

Daniel Matsui Smola

AI总结本文研究了基于交叉注意力的生成模型在有限支持集条件下的生成机制，揭示其速度场本质上是 Nadaraya-Watson 核平滑器，并随着生成过程时间推移，核带宽逐渐缩小，从早期的全局平均过渡到后期的最近邻行为。研究将交叉注意力机制与经典核方法联系起来，并指出了三种失效场景，实验验证了理论预测，并表明 IP-Adapter 的交叉注意力实现了近似核平滑效果。

Comments Submitted to NeurIPS 2026. 18 pages, 10 figures, 1 table. Code at https://github.com/BaroqueObama/kernel-flow-matching-code

2605.13384 2026-05-14 cs.LG

Teaching and Learning under Deductive Errors

Jan Arne Telle, Brigt Håvardstun, Jose Hernandez-Orallo

AI总结本文研究了在学习者存在演绎错误的情况下，机器教学与学习的框架。传统模型假设学习者不会犯推理错误，但人类和少样本学习下的大语言模型往往会出现不一致或随机错误。为此，作者提出了一种新的教学框架，在改进的PAC模型下，分析了教师如何在一定误差估计下找到近似正确的教学集，并探讨了相关计算问题的复杂性，给出了参数化的算法及实验验证。

Comments 15 pages, preprint neurips

2605.13383 2026-05-14 cs.LG

Beyond Oversquashing: Understanding Signal Propagation in GNNs Via Observables

Eden Nagar, Ya-Wei Eileen Lin, Ron Levie

AI总结本文研究了图神经网络（GNNs）中信号传播的问题，指出传统方法在传播过程中容易导致信息丢失，表现为过度平滑和过度压缩现象。作者受量子力学启发，提出基于可观测量的新建模方法，用于刻画信号在图中的位置、集中程度及传播特性，并证明了标准谱图神经网络在信号传播能力上的不足。基于此，作者提出了一种新型谱图神经网络——Schrödinger GNN，能够更有效地在图中路由信号。

2605.13382 2026-05-14 cs.RO

BlockVLA: Accelerating Autoregressive VLA via Block Diffusion Finetuning

Ruiheng Wang, Shuanghao Bai, Haoran Zhang, Badong Chen, Xiangyu Xu

AI总结本文提出了一种名为BlockVLA的新框架，旨在加速基于自回归（AR）的视觉-语言-动作（VLA）模型在机器人任务中的推理过程。通过引入块扩散范式，BlockVLA将预训练的AR模型转换为高效的离散扩散策略，在保持块级自回归依赖的同时实现块内并行去噪，从而兼顾全局因果一致性和局部并行生成。实验表明，BlockVLA在LIBERO和SimplerEnv基准测试中实现了比传统离散扩散模型3.3倍的推理加速，并在复杂长时序任务中表现出更优的训练效率和性能提升。

2605.13381 2026-05-14 cs.CV cs.MM

Backbone is All You Need: Assessing Vulnerabilities of Frozen Foundation Models in Synthetic Image Forensics

Chiara Musso, Joy Battocchio, Andrea Montibeller, Giulia Boato

AI总结随着AI生成图像日益逼真，视觉Transformer（ViT）已成为现代深度伪造检测的核心技术。然而，现有方法普遍依赖冻结的预训练主干网络，这引入了一个隐蔽但关键的漏洞。本文提出了一种基于目标检测器ViT主干网络知识的灰盒攻击方法——替代迭代对抗攻击（SIAA），能够在目标检测器的特征空间内生成高效对抗样本，实验表明该方法在多种场景下均能实现接近白盒攻击的高成功率，揭示了仅凭主干网络知识即可严重削弱检测器可靠性的问题，突显了在对抗性多媒体取证中亟需更鲁棒防御机制的重要性。

2605.13380 2026-05-14 cs.RO

Exploring Human-Robot Collaboration: Analysis of Interaction Modalities in Challenging Tasks

Simone Arreghini, Cristina Iani, Alessandro Giusti, Valeria Villani, Lorenzo Sabattini, Antonio Paolillo

AI总结本文研究了人类与机器人协作中的三种交互模式——被动、反应式和主动式，并通过实验分析它们在完成复杂任务时的表现。实验中，参与者在记忆中搭建七层彩色塔的过程中，分别与不同模式的机器人协作。结果表明，尽管机器人协助增加了任务时间，但大多数参与者更倾向于协作，尤其偏好机器人主动提供帮助的模式。研究指出，在受控协作任务中，及时的主动支持能够提升用户体验。

2605.13375 2026-05-14 cs.CV cs.AI

GRIP-VLM: Group-Relative Importance Pruning for Efficient Vision-Language Models

Mingzhe Huang, Weijun Wang, Xin Ding, Liang Mi, Hao Wen, Yuanchun Li, Lichen Pang, Shansong Yang, Yunxin Liu, Ting Cao

AI总结在视觉-语言模型（VLMs）中，处理大量视觉标记会导致高昂的计算开销。为解决这一问题，本文提出GRIP-VLM，一种基于强化学习的组相对重要性剪枝框架，将剪枝建模为马尔可夫决策过程，通过监督预热引导的组相对策略优化（GRPO）直接探索离散选择空间，从而避免连续近似方法带来的次优解问题。该方法结合预算感知评分器，无需重新训练即可动态评估并适应不同压缩比，实验表明其在多个多模态基准上优于启发式和监督学习基线，在保持精度的同时实现了最高达15%的推理加速。

Comments 10 pages, 11 figures

2605.13373 2026-05-14 cs.CL

Exploiting Pre-trained Encoder-Decoder Transformers for Sequence-to-Sequence Constituent Parsing

Daniel Fernández-González, Cristina Outeiriño Cid

AI总结本文研究如何利用预训练的编码器-解码器 Transformer 模型进行序列到序列的成分句法分析。作者扩展了现有的序列到序列框架，基于 BART、mBART 和 T5 等预训练编码器-解码器模型构建句法分析器，并通过线性化策略进行微调与评估。实验表明，该方法在连续树库和复杂离散基准测试中均优于以往的序列到序列模型，并能与最先进的任务专用句法分析器竞争。

Comments Preliminary version

2605.13370 2026-05-14 cs.LG cs.CL

Phasor Memory Networks: Stable Backpropagation Through Time for Scalable Explicit Memory

Sungwoo Goo, Hwi-yeol Yun, Sangkeun Jung

AI总结本文提出了一种名为“Phasor Memory Network（PMNet）”的新架构，旨在解决显式记忆模型在语言建模中因反向传播时梯度不稳定而导致的训练困难问题。该方法通过引入单位相位动力学和分层可学习锚点，结构化地稳定了记忆模块的更新过程，从而在无需特殊初始化的情况下保持梯度稳定性。实验表明，PMNet在合成复制粘贴任务中能够实现几乎100%的精确记忆检索，并在参数规模仅为Mamba模型三分之一的情况下，展现出相当的长上下文处理能力，为可扩展序列建模提供了理论支撑。