WeatherBench 2 解读:AI 气象大模型的统一基准与公平裁判

这两年 GraphCast、Pangu-Weather、GenCast 等数据驱动的 AI 气象大模型层出不穷,几乎每隔几个月就有论文宣称在某项指标上超过了传统数值预报。但作为新能源与气象数据从业者,你很快会撞上一个尴尬的问题:这些模型彼此之间,到底谁的预报更准、在什么变量上更准、在多长预见期上更准,往往没法直接比较——因为它们用的训练数据、评估网格、误差指标、对照基线各不相同。WeatherBench 2 这篇论文,正是为了终结这种各说各话而生:它给整个 AI 气象领域立了一把统一的尺子。如果你打算用 AI 预报或历史再分析数据去做风电、光伏的资源评估与功率预测,理解这把尺子是怎么造出来的,能帮你在选型时少踩很多坑。
关键要点
- WeatherBench 2 是 AI 气象领域事实上的标准评测平台:由 Google Research 与 ECMWF 等机构出品,2023 年预印、2024 年发表于 JAMES 正刊,截至 2026 年 5 月 Semantic Scholar 引用约 319 次。
- 它用统一的开源数据、指标与基线,加上持续更新的排行榜,让 GraphCast、Pangu-Weather 等 AI 大模型与传统 NWP 第一次能在同一把尺子下横向比较、可复现。
- ERA5 是整套基准的核心地基:既是 0.25°、13 个气压层的训练与真值数据,又是 1.5° 评估分辨率下所有模型的统一对照标尺。
- 判断一个气象模型是否真可用,要问在哪套基准、对什么变量、多长预见期上更准,而不是看孤立的宣传数字。
- 历史评估与训练用 ERA5,准实时与短期预报引入德国气象局数值预报——运梦气象 API 以 ERA5 + 德国气象局双数据源覆盖这两端需求。
背景与权威性
WeatherBench 2 的完整英文标题是 WeatherBench 2: A Benchmark for the Next Generation of Data-Driven Global Weather Models,由 Rasp 等人撰写,出品方为 Google Research 与 ECMWF(欧洲中期天气预报中心)等机构;预印本发布于 2023 年,同行评审版本发表于 Journal of Advances in Modeling Earth Systems(JAMES),2024 年。
这几个标签叠加起来,决定了它的分量:
- 期刊层级:JAMES 是 AGU(美国地球物理联盟)旗下的旗舰地球系统建模期刊,属于正刊而非预印本或会议海报。能在 JAMES 正刊上确立的方法学,本身就经过了同行评审的把关。
- 作者与出品方:Google Research 是当前 AI 气象大模型研究的核心推动者之一,ECMWF 则是全球数值天气预报(NWP)的权威机构、ERA5 再分析数据集的出品方。两类机构联手——一边是 AI 方法论,一边是气象业务与数据的权威——决定了这套基准既懂模型也懂气象。
- 引用量:截至 2026 年 5 月,Semantic Scholar 上的引用量约为 319 次。对一篇 2023 年预印、2024 年正式发表、主题相对垂直的方法学论文而言,这个引用密度已经能说明它被领域内广泛采纳。
更关键的是它的事实地位:WeatherBench 2 已经成为 AI 气象领域事实上的标准评测平台。当一个新模型发布、声称自己更准时,业界默认的出示证据方式之一,就是把结果放到 WeatherBench 2 的框架下跑一遍。换句话说,它不只是一篇论文,更是一套被持续维护、被反复引用的基础设施。
它做了什么
WeatherBench 2 的核心贡献,可以概括为把评测这件事标准化、开源化、可持续化。具体落在几个层面。
统一的数据、指标与基线
论文为多个 AI 大模型与传统 NWP 提供了一套统一的开源基准,其中包含三样东西:标准化的数据、标准化的评估指标,以及标准化的基线(baseline)。基线的意义在于:任何新模型不能只跟另一个 AI 模型比,还要跟公认的参照系(如传统 NWP、气候态等基线)对齐,这样是否真的进步才有可信的锚点。
持续更新的排行榜
它不是一次性发表完就封存的静态实验,而是配套了一个持续更新的排行榜(leaderboard)。新模型可以不断加入、按统一口径排名。这让整个领域的进展变得可追踪、可复现——这一点对工程实践尤其重要,因为你能看到的不是某篇论文里精心挑选的展示样例,而是同一把尺子下的横向结果。
ERA5 既是训练真值,也是评估标尺
整套基准的地基是 ERA5。论文里 ERA5 扮演了双重角色:
- 作为训练与真值数据:ERA5 以 0.25° 的水平分辨率、13 个气压层垂直要素提供全球连续一致的历史气象场,是众多 AI 气象模型喂养和对标的真值来源。
- 作为统一对照标尺:在 1.5° 的评估分辨率下,所有参赛模型都被放到以 ERA5 为基准的同一坐标系里去衡量误差。
这第二点正是 WeatherBench 2 公平性的来源——AI 气象的公平裁判,本质上就建立在 ERA5 之上。无论模型架构是图神经网络、Transformer 还是扩散模型,最终都要回到同一套真值、同一个评估网格上接受检验。
关键结论
把论文的核心要点提炼出来,对从业者最有价值的结论有三条:
- WeatherBench 2 为 AI 大模型与传统 NWP 建立了统一的开源基准:标准数据、标准指标、标准基线加持续排行榜,让谁更准这件事第一次有了可横向比较、可复现的共同语言。这正是它能成为领域事实标准的根本原因。
- ERA5 是这套基准的核心地基:它既是训练与真值数据(0.25°、13 个气压层),又是 1.5° 评估下所有模型的统一对照标尺。离开了 ERA5 这套连续一致的真值,AI 气象模型之间的公平对比就无从谈起。
- 评测口径的统一,本身就是一种进步:在 WeatherBench 2 之前,模型间比较充满苹果对橙子的混乱;它把数据、网格、指标固定下来,让声称的提升必须经得起同一把尺子的检验,这对一个快速膨胀、容易过度宣传的领域是必要的纪律。
需要强调的是:本文对各类模型或数据源的提及,均限于在该基准框架下的客观对比语境,不代表对任何具体模型或数据源的绝对化背书。
对新能源 / 运梦平台的意义
WeatherBench 2 表面上是气象学界的评测裁判,但它的几个结论可以直接映射到风电、光伏的工程实践上。
第一,它帮你理性看待 AI 预报更准的宣传。 做风功率、光伏功率预测时,市面上越来越多的方案宣称基于某个 AI 大模型。WeatherBench 2 告诉你:判断一个模型是否真的可用,要看它在统一基准、统一真值、统一预见期下的表现,而不是看孤立的宣传数字。选型时,在哪套基准、对什么变量、多长预见期上更准这三个问题,比是不是 AI 更值得追问。
第二,它再次印证了 ERA5 在新能源数据链路里的基石地位。 既然连 AI 气象的全球评测都把 ERA5 当作真值与标尺,那么在风电场选址、容量配置、历史电量回测、功率曲线拟合这些需要长期一致历史数据的环节,ERA5 同样是值得信赖的历史气象底座。它的 0.25°、逐小时、长时间序列特性,恰好契合资源评估对连续、自洽、可回溯的硬需求。
第三,它提示了再分析加业务预报双轨并用的合理性。 WeatherBench 2 用 ERA5 做真值评估,而真正的运营预报仍离不开高分辨率的业务模式。落到新能源场景,这对应的是:历史评估与模型训练用 ERA5,准实时与短期功率预测的边界条件则可以引入更高分辨率的德国气象局数值预报。运梦气象 API 恰好以 ERA5 + 德国气象局 双数据源覆盖了这两端的需求。
在运梦气象 API 上手
理解了基准之后,落地其实很直接:你需要的就是拿到对应变量的连续历史序列,喂给自己的资源评估或功率预测流程。运梦气象 API 的 downloadSync 接口按 dataSourceId 选择数据源、按 fields 选择变量,下面是一个面向风电与光伏的取数思路示例。
import os
import requests
API = "https://console.yun-meng.top/api/energy-weather/search/weather/action/downloadSync"
payload = {
"dataSourceId": "era5", # 历史评估/模型训练真值;预报场景换 ger
"lat": 40.5, "lon": 109.8, # 某风光基地坐标
"stime": "2023-01-01 00:00",
"etime": "2023-12-31 23:00",
# 风资源:u100/v100/ws/wd;光伏:rsds/dni/dhi;常规气象:tas/hurs/sp/pr
"fields": ["u100", "v100", "ws", "wd", "rsds", "dni", "dhi", "tas"],
"timezone": "8",
}
resp = requests.post(
API,
headers={"Authorization": f"Bearer {os.environ['YUNMENG_TOKEN']}"},
json=payload,
timeout=600,
)
resp.raise_for_status()
result = resp.json()
if not result.get("success"):
raise RuntimeError(result.get("msg", "查询失败"))
data = result["data"]
print(len(data["timeList"]), data["u100"][0], data["rsds"][0])
字段怎么选,按场景对号入座:
- 风资源评估 / 风功率预测:常用
u100、v100、ws、wd,对应 100m 高度的风分量与派生风速、风向,贴近现代风机轮毂高度。 - 光伏资源评估 / 光伏功率预测:常用
rsds、dni、dhi,分别是地面入射短波辐射、直接法向辐照与散射水平辐照。 - 常规气象与修正:常用
tas、hurs、sp、pr(气温、相对湿度、地面气压、降水),用于温度修正、空气密度换算等。
更完整的产品与文档入口:
一句话总结:WeatherBench 2 把 AI 气象谁更准这件事钉在了 ERA5 这套真值之上;而你在风光资源评估与功率预测里要做的,正是把同一套 ERA5(以及预报端的德国气象局)数据稳定、规范地取下来用好。
常见问题
WeatherBench 2 是什么? 它是 AI 气象领域事实上的标准评测平台,由 Google Research 与 ECMWF 等机构出品,2023 年发布预印本、2024 年正式发表于 JAMES 期刊。它用统一的开源数据、指标、基线和持续更新的排行榜,为 AI 气象大模型与传统 NWP 提供公平的横向比较。
WeatherBench 2 为什么要用 ERA5 做基准? ERA5 在这套基准里扮演双重角色:既是 0.25° 水平分辨率、13 个气压层垂直要素的训练与真值数据,又是 1.5° 评估分辨率下所有模型的统一对照标尺。离开 ERA5 这套连续一致的真值,AI 气象模型之间的公平对比就无从谈起。
怎么判断一个 AI 气象大模型是不是真的更准? 要看它在统一基准、统一真值、统一预见期下的表现,而不是孤立的宣传数字。选型时优先追问三个问题:在哪套基准、对什么变量、多长预见期上更准。
做风电光伏资源评估应该用哪个数据源? 长期一致的历史评估、模型训练、历史电量回测和功率曲线拟合等环节适合用 ERA5,它具备 0.25°、逐小时、长时间序列特性;准实时与短期功率预测的边界条件则可引入更高分辨率的德国气象局数值预报。运梦气象 API 以 ERA5 + 德国气象局双数据源覆盖这两端。
在运梦气象 API 上取风电光伏数据用哪些字段?
风资源常用 u100、v100、ws、wd(100m 高度风分量与派生风速、风向);光伏常用 rsds、dni、dhi(地面入射短波辐射、直接法向辐照、散射水平辐照);常规气象与修正常用 tas、hurs、sp、pr(气温、相对湿度、地面气压、降水)。通过 downloadSync 接口按 dataSourceId 选数据源、按 fields 选变量。
引用与原文
Rasp, S., et al. (2024). WeatherBench 2: A Benchmark for the Next Generation of Data-Driven Global Weather Models. Journal of Advances in Modeling Earth Systems (JAMES). DOI: doi.org/10.1029/2023MS004019