集合再分析与不确定性:把误差量化进资源评估

做风电选址、光伏资源评估或长期电量回测时,大多数人只关心"ERA5 给出的风速是多少",却很少问一句"这个数字本身有多大把握"。但在新能源投资里,后一个问题往往比前一个更值钱:P50 与 P90 之间的差距、融资方对发电量保证的折扣、储能与电力市场报价里预留的安全裕度,本质上都是在为"误差"定价。Hersbach 等人 2020 年发表的 ERA5 奠基论文里,专门用一套不确定性集合回答了这个问题——它让你不只拿到一个确定的历史气象场,还能拿到这个场"可信到什么程度"的量化估计。这篇解读,就把这套集合再分析的机制、口径与边界讲清楚,并落到资源评估的实操上。
关键要点
- ERA5 不只给一份确定性的历史气象场,还配套一套不确定性集合(EDA),让你拿到"这个数字有多大把握"的量化估计。
- EDA 由 10 个集合成员组成,成员间的离散度(spread)即对随机误差的度量;它降分辨率运行——水平约 62km、3 小时一档,比主产品的约 31km、逐小时更粗。
- EDA 只计入观测误差、海温(SST)与模式物理参数化的不确定性,不含温室气体辐射强迫与模式系统性偏差,因此估计的是相对的、随机的不确定性。
- 集合普遍偏欠离散(under-dispersive),倾向于低估不确定性,应把 EDA spread 当作误差的下界,做风险定价时再留余量。
- 在风电、光伏资源评估中,可把 EDA 离散度作为 P50/P90 概率分布的一个输入项,并叠加测风实测、长期订正与地形误差,避免单凭集合离散度低估 P90 折扣。
背景与定位
这部分内容出自论文 The ERA5 global reanalysis,作者为 Hersbach、Bell、Berrisford 等人,代表 ECMWF(欧洲中期天气预报中心,亦即 Copernicus C3S 气候服务的承担方),2020 年发表于 Quarterly Journal of the Royal Meteorological Society(QJRMS,皇家气象学会季刊),DOI 为 10.1002/qj.3803。
它之所以是该主题的权威出处,原因有三:其一,QJRMS 是大气科学领域的旗舰期刊,再分析与数据同化这类基础工作发表于此具备很强的学术背书;其二,论文由 ERA5 的直接生产方 ECMWF 撰写,关于不确定性集合的口径、用途与局限,是造数据的人给出的第一手说明,而非第三方转述;其三,这篇论文已成为全球引用 ERA5 时的默认文献,被引规模达数万次量级。对工程使用者而言,它扮演的是 ERA5 这套数据"官方技术档案"的角色,其中关于不确定性的章节,正是把"误差"纳入决策的入口。
方法 / 它做了什么
ERA5 的高分辨率主产品本身只给出一份确定性的"最优估计":约 31km 水平分辨率、137 个垂直层、逐小时输出,覆盖 1940 年至今(论文重点说明 1979 年以来的生产系统,当前 CDS 数据已回溯扩展到 1940 年)。但这份最优估计并不等于"绝对真值"——观测有误差、模式物理有近似、海温等边界条件也有不确定性。
为了量化这些误差,ECMWF 额外运行了一套集合数据同化(Ensemble of Data Assimilations,EDA)系统。它的核心思路很朴素:与其只跑一条同化轨迹,不如同时跑多条。每条轨迹在观测、海温、模式物理参数化等环节注入随机扰动,于是得到一组彼此略有差异的再分析成员。这组成员之间的离散程度(spread),就是对随机不确定性的估计——成员们越是众说纷纭,说明此时此地的气象场越没把握;成员们高度一致,则说明该处估计相对稳健。
关键点在于成本与口径的权衡。完整运行多条 31km 的同化代价过高,因此 EDA 采用降分辨率配置:水平分辨率约 62km、时间分辨率为 3 小时一档,且成员数量有限。这样既能与主产品共享背景误差信息、保持物理一致,又把算力控制在可承受范围内。换句话说,不确定性集合是主产品的"伴生品"——它不追求逐点最精,而追求给每个估计配上一个可信区间。
关键结论
- 不确定性来自一套 10 成员的 EDA 集合:ERA5 的随机不确定性估计由 10 个集合成员给出,成员间的离散度即对随机误差的度量。这是 ERA5 区别于很多只给单值的历史数据集的关键能力。
- EDA 是降分辨率运行的:相对主产品的约 31km、逐小时,EDA 配置为水平约 62km、3 小时一档。因此使用不确定性场时要注意它比主产品更"粗",需做时空对齐与插值。
- 它只覆盖部分误差来源:EDA 计入了观测误差、海温(SST)不确定性与模式物理参数化的不确定性;但不包含温室气体辐射强迫的不确定性,也不包含模式系统性偏差与观测使用方式带来的系统误差。所以它估计的是相对的、随机的不确定性,而非全部误差。
- 集合普遍偏欠离散(under-dispersive):在常见评测口径下,EDA 的离散度往往小于实际误差,即倾向于低估不确定性。这意味着把 EDA spread 直接当作真实误差时,应理解它更可能是一个下界,做风险定价时需留出额外余量。
需要强调,上述数字与定性结论均依据 ECMWF 官方文档与论文的已核实口径;"欠离散""相对随机不确定性"这类限定不是修辞,而是使用边界,跨越它去做绝对化解读会失真。
对新能源 / 运梦平台的意义
把不确定性当作一等公民,而不是事后补的脚注,是这套方法对新能源工程最大的启发。具体可以这样用:
- 风资源评估与 P50/P90:发电量的 P50/P90 本质是对不确定性的分位数刻画。EDA 给出的随机不确定性,可以作为构造概率分布、估计年际代表性误差的一个输入项;但因其偏欠离散,应把它与测风塔实测、长期订正、地形误差等叠加,避免单凭集合离散度低估了 P90 折扣。
- 光伏资源评估:辐射场在多云、季节转换期的不确定性通常更高。用集合离散度识别"高不确定时段",能帮助判断哪些月份的产能估计需要更保守、是否需要引入卫星辐射做交叉验证。
- 电网与功率预测的风险量化:在历史回测里同时携带不确定性信息,可以让误差归因更清晰——区分哪些偏差来自数据源本身的随机不确定性,哪些来自预测模型,从而避免把数据噪声错记到模型头上。
- 储能调度与市场报价:报价与备用容量的安全裕度,本质是对预测误差的对冲。把不确定性显式量化,有助于把"凭经验留裕度"升级为"按误差分布定裕度"。
南京运梦科技在运梦气象 API 中采用 ERA5 与德国气象局双数据源:历史维度由 ERA5 提供长期、一致、可被规范引用的再分析底座(含其不确定性方法学),预报维度由德国气象局覆盖近期场景,两者互补完成"历史评估 + 未来预测"的闭环。
在运梦气象 API 上手
不确定性方法学最终要落到可取数的接口上。在运梦气象 API 里,历史回测与资源评估统一走 downloadSync 接口,按 dataSourceId 与 fields 拉取;历史底座固定用 era5,未来预报用 ger(德国气象局)。资源评估场景常用字段:
- 风资源:
u100/v100(100m 纬向 / 经向风分量)、ws(风速)、wd(风向); - 光伏辐射:
rsds(地面入射短波辐射)、dni(直接法向辐照)、dhi(散射水平辐照); - 常规气象:
tas(2m 气温)、hurs(2m 相对湿度)、sp(地面气压)。
下面是一个拉取某风电场址一整年风资源与辐射字段、用于 P50/P90 评估底稿的请求示例:
{
"dataSourceId": "era5",
"lat": 38.5,
"lon": 110.2,
"stime": "2024-01-01 00:00",
"etime": "2024-12-31 23:00",
"fields": ["u100", "v100", "ws", "wd", "rsds", "dni"],
"timezone": "8"
}
把请求体 POST 到 downloadSync 即可同步拿到 JSON 结构;data.timeList 与各字段数组按下标一一对应,字段已按公开字段表统一命名。建议把 ERA5 取回的长期序列作为 P50/P90 的统计样本,再叠加测风实测与地形订正,按上文"欠离散"的边界为不确定性预留余量。
延伸阅读与产品入口:
- ERA5 数据源说明:/products/weather-api/era5/
- 资源评估 P50/P90 方法:/blog/wind-solar-resource-assessment-p50-p90/
- 风电与光伏功率预测:/products/wind-forecast/、/products/solar-forecast/
- 字段口径与接口参考:/docs/weather/data-elements/、/docs/weather/api-reference/
常见问题
ERA5 的不确定性是怎么估计出来的?
ECMWF 在主产品之外额外运行了一套集合数据同化(EDA)系统:同时跑多条同化轨迹,每条在观测、海温、模式物理参数化等环节注入随机扰动,得到一组略有差异的再分析成员,成员间的离散度(spread)即对随机不确定性的估计。
EDA 集合有多少个成员?分辨率是多少?
EDA 由 10 个集合成员组成,采用降分辨率配置:水平分辨率约 62km、时间分辨率为 3 小时一档,比主产品的约 31km、逐小时更粗,使用时需做时空对齐与插值。
EDA 的不确定性覆盖了所有误差来源吗?
没有。EDA 计入了观测误差、海温(SST)不确定性与模式物理参数化的不确定性,但不包含温室气体辐射强迫的不确定性,也不包含模式系统性偏差与观测使用方式带来的系统误差,所以它估计的是相对的、随机的不确定性。
为什么说 EDA 偏欠离散?这对决策意味着什么?
在常见评测口径下,EDA 的离散度往往小于实际误差,即倾向于低估不确定性(under-dispersive)。因此把 EDA spread 当作真实误差时应理解它更可能是一个下界,做风险定价时需留出额外余量。
做风电/光伏的 P50/P90 评估,怎么用上 EDA 的不确定性?
可以把 EDA 给出的随机不确定性作为构造概率分布、估计年际代表性误差的一个输入项;但因其偏欠离散,应与测风塔实测、长期订正、地形误差等叠加,避免单凭集合离散度低估了 P90 折扣。
引用与原文
不确定性集合(EDA)的方法与口径出自 ERA5 奠基论文。规范引用建议在引用论文的同时引用所用数据集的官方 DOI(单层逐小时数据集为 10.24381/cds.adbb2d47)。论文标准引用如下:
Hersbach, H., Bell, B., Berrisford, P., Hirahara, S., Horányi, A., Muñoz-Sabater, J., et al. (2020). The ERA5 global reanalysis. Quarterly Journal of the Royal Meteorological Society, 146(730), 1999–2049.
原文 DOI:doi.org/10.1002/qj.3803
EDA 配置(10 成员、约 62km、3 小时、欠离散、所覆盖与未覆盖的误差来源)依据 ECMWF Copernicus 知识库《ERA5: uncertainty estimation》官方文档核实。