GeoNatureAgent Benchmark: Benchmarking LLM Agents for Environmental Geospatial Analysis Across Frontier and Open-Weight Foundation Models
GeoNatureAgent Benchmark:面向前沿与开源基础模型的环境地理空间分析LLM智能体基准测试
发表机构 * Universidad Católica de Ávila (UCAV)(阿维拉天主教大学) ; Johns Hopkins University(约翰霍普金斯大学) ; Independent Researcher(独立研究者) ; Center for Geographic Analysis, Harvard University(哈佛大学地理分析中心)
AI总结 提出首个通过结构化工具调用真实API评估环境分析智能体的基准,包含93个任务,发现Claude Sonnet 4领先,但开源模型在成本效益上占优,且比较任务普遍未解决。
Comments Preprint. 10 pages, 8 figures. Submitted to ACM SIGSPATIAL 2026