AI 大模型
大模型推理能力
大模型数学、逻辑、规划、多步推理和测试时计算能力。
ForecastBench-Sim: A Simulated-World Forecasting Benchmark
ForecastBench-Sim:一个模拟世界预测基准
专题命中 规划推理 :模拟世界预测基准,评估概率推理
AI总结 提出基于Freeciv游戏模拟的预测基准ForecastBench-Sim,通过游戏回滚生成可控、即时可解的预测问题,用于评估AI系统的概率推理能力。
Comments 15 pages, 5 main figures, 6 appendix figures. Spotlight presentation at Forecasting as a New Frontier of Intelligence / Workshop on AI Forecasting, ICML 2026