Do as the Romans Do: Learning Universal Behaviors from Heterogeneous Agents
入乡随俗:从异构智能体学习通用行为
发表机构 * University of Washington(华盛顿大学) ; NVIDIA(英伟达)
专题命中 规划决策 :提取通用奖励训练通用智能体
AI总结 提出GRID方法,从追求不同目标的异构示范者中提取通用奖励,训练通用智能体以学习环境通用能力,避免模式平均偏差,提升下游任务微调效率。
AI 大模型
智能体、工具调用、规划、工作流、多智能体和自主任务执行。
入乡随俗:从异构智能体学习通用行为
发表机构 * University of Washington(华盛顿大学) ; NVIDIA(英伟达)
专题命中 规划决策 :提取通用奖励训练通用智能体
AI总结 提出GRID方法,从追求不同目标的异构示范者中提取通用奖励,训练通用智能体以学习环境通用能力,避免模式平均偏差,提升下游任务微调效率。
带移动障碍物的移动目标旅行商问题的两阶段双层搜索
发表机构 * Texas A&M University(德克萨斯A&M大学) ; Carnegie Mellon University(卡内基梅隆大学)
专题命中 规划决策 :移动目标TSP的两阶段双层搜索算法
AI总结 针对带移动障碍物的移动目标旅行商问题,提出混合整数锥规划公式和两阶段双层搜索算法,显著优于基线方法。
关于加法福利主义规则的公平性
专题命中 规划决策 :公平分配规则研究,与多智能体系统相关
AI总结 本文研究了加法福利主义规则在公平分配中的公平性,证明了MNW规则是唯一能保证EF1的规则,同时探讨了不同实例类型下的规则特性。
Comments Appears in the 24th International Conference on Autonomous Agents and Multiagent Systems (AAMAS), 2025
Journal ref ACM Transactions on Economics and Computation, 14(2):5 (2026)
赌博,或许为了增长
专题命中 规划决策 :研究增长最优投资组合问题,涉及决策优化
AI总结 研究增长最优(凯利)投资组合问题中的收益变换,刻画了产生更保守投资组合的变换条件,并推导了理性疏忽代理人的风险厌恶比较。
数据驱动的物理系统验证
发表机构 * Indian Association for the Cultivation of Science(印度科学培养协会)
专题命中 其他Agent :数据驱动验证物理系统,涉及智能体验证
AI总结 本文提出一种框架,将物理系统验证与深度神经网络验证联系起来,并利用决策树的可解释性加速验证过程,展示了在ARCH-COMP 2024基准测试中高效发现多个反例的潜力。