How Does Reasoning Flow? Tracing Attention-Induced Information Flow for Targeted RL in LLMs
推理流如何流动?追踪注意力诱导的信息流以实现LLM中的目标RL
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; Alibaba Group(阿里巴巴集团) ; Shanghai Artificial Intelligence Laboratory(上海人工智能实验室)
AI总结 提出FlowTracer框架,通过注意力诱导的有向无环图追踪答案导向的推理流,基于全局信息流结构分配token级信用,从而提升LLM在推理任务中的强化学习效果。
Comments 25 pages, 7 figures, 11 tables. Accepted at ICML 2026