气象数据

分位数映射偏差订正：再分析数据落地必修课

2024-10-06 · 南京运梦科技算法团队 · 评审算法负责人

只要你拿再分析数据或模式输出去训练功率预测模型、做风资源评估，迟早会撞上同一个坑：模型本身没错，但喂进去的气象序列带着系统性偏差——风速整体偏低、辐射整体偏高、降水分布的尾部完全对不上实测。直接把原始网格值当真值用，偏差会沿建模链路一路传导，最后体现在容量因子算错、爬坡事件漏报、超短期功率曲线整体平移。**偏差订正（bias correction）**就是把这道闸门关上的标准工序，而其中最常用、也最容易用错的一族方法，就是分位数映射。今天这篇解读，围绕该领域被广泛引用的一篇方法学论文，把分位数映射的几个变体讲透，并说清它们各自的适用边界。

关键要点

分位数映射（QM）逐分位地把模型 CDF 搬到观测 CDF 上，是再分析数据落地功率预测前最常用的偏差订正方法；右偏变量（风速、辐射、降水）用乘性订正，近似对称的气温用加性订正。
标准 QM 会顺手改写模型自带的变化信号，在外推或分布平移时尤其危险；DQM 去趋势后只保住均值层面的变化，QDM 则逐分位保留相对变化量、连尾部极端也单独保护，是论文主推的方法。
偏差订正有能力上限：据 Maraun (2016)，它无法可信修正模型本身的气候趋势，也不能替代真正的降尺度或补出模型未解析的局地小尺度变率，前提是输入本身"有技巧"。
运梦气象 API 采用 ERA5 + 德国气象局双数据源：ERA5（era5）拉长历史序列拟合逐分位订正系数，德国气象局（ger）负责预报场景，同一套订正逻辑可贯通历史拟合与预报链路。
迁移到新能源要素需重新验证：论文结论基于降水等右偏变量的气候模式评测口径，方法机制对风速、辐射依然适用，但具体提升幅度须在自己的实测基线上重测，不可照搬数字。

背景与定位

这篇论文的英文原题是 Bias Correction of GCM Precipitation by Quantile Mapping: How Well Do Methods Preserve Changes in Quantiles and Extremes?，作者为 Cannon、Sobie、Murdock（Alex J. Cannon 等，加拿大环境部 / 太平洋气候影响联盟 PCIC），2015 年发表在大气科学旗舰刊物 Journal of Climate（第 28 卷，第 17 期，6938–6959 页）。

为什么这篇值得新能源从业者认真读？因为它不是泛泛讨论"要做偏差订正"，而是直击一个工程上极易踩雷的问题：当你用历史时段拟合出来的订正函数去校正未来（或外推）数据时，订正本身会不会把你真正关心的"变化信号"给抹掉甚至扭曲？ 对功率预测而言，这个"变化信号"可能就是一次极端大风、一段连续阴天，恰恰是订正最不该破坏的部分。论文系统比较了标准分位数映射与两个改进变体，给出了清晰可操作的结论。

为了补足方法学边界的讨论，本文同时并引 Maraun (2016) 的综述 Bias Correcting Climate Change Simulations — a Critical Review（Current Climate Change Reports，第 2 卷，211–220 页）。这篇综述对偏差订正的能力上限提出了冷静的批判，正好为"什么时候不该过度依赖订正"提供了边界。

方法 / 它做了什么

分位数映射（Quantile Mapping，QM）的核心思想其实非常直观：把模型输出的累积分布函数（CDF）逐分位地搬到观测的 CDF 上去。具体做法是，对模型某个分位（比如第 90 百分位的风速），先查出它在模型分布里的累积概率，再去观测分布里找到相同累积概率对应的值，用后者替换前者。降水、风速这类非负且右偏的变量，通常用乘性（比值）订正；气温这类近似对称的变量，用加性（差值）订正。论文系统比较了三种做法：

QM（标准分位数映射，也叫经验分位数映射 EQM）：直接用历史拟合的映射函数去套未来数据。问题在于——当未来值超出历史训练区间，或整体分布发生平移时，它倾向于把模型自带的"变化趋势"一并改写，导致校正后的趋势失真。
DQM（Detrended Quantile Mapping，去趋势分位数映射）：先把模型序列的趋势（通常是均值变化）剥离出去，对去趋势后的残差做分位数映射，再把趋势加回来。这样能保住均值层面的变化信号，但它对分布尾部（极端值）变化的保护并不充分。
QDM（Quantile Delta Mapping，分位数增量映射）：这是论文主推的方法。它的巧思在于显式地、逐分位地保留模型预估的相对变化量——先量化模型在每一个分位上从历史到未来的相对变化（delta），订正掉系统偏差后，再把这份逐分位的相对变化原样叠加回去。换句话说，QDM 把"偏差订正"和"变化信号保留"两件事解耦：偏差该订的订掉，但每个分位上的变化幅度——包括尾部极端——被独立地保护下来。

理解这三者的差别，关键就一句话：QM 容易顺手改写趋势，DQM 只保住了均值变化，QDM 连尾部分位的变化也单独保住。

关键结论

把论文与综述已核实的要点提炼为几条（数字与口径以已核实来源为准）：

标准 QM 会扭曲模型自带的变化信号。 论文明确指出，标准分位数映射虽然能有效去除历史偏差，却可能人为地破坏模型预估的未来趋势——在你需要外推、或分布发生平移的场景里，这种"误伤"尤其危险。
QDM 能显式保留各分位上的相对变化，对极端值更友好。 相比 DQM 只保住均值层面的变化，QDM 在分布尾部（极端事件）也能独立保留相对变化幅度，这对关心极端大风、连续低辐射等尾部事件的新能源场景特别有价值。
DQM 是均值口径下的折中方案。 它保住了均值变化，实现简单，但对尾部变化的保护不如 QDM 充分——在只关心总量、不强调极端的场景里仍是可用选项。
偏差订正有能力上限，不能无中生有。 据 Maraun (2016) 综述，偏差订正无法可信地修正模型本身的气候变化趋势，也几乎无法替代真正的降尺度——它不能补出模型未解析的局地小尺度变率，任何强行"造"出这种变率的做法都会引入人为假象。
偏差订正成立的前提是输入本身有技巧。 综述强调，一个基本假设是被订正的模型必须提供"有技巧的输入"；仅做边缘分布的交叉验证不足以评估订正质量，需要结合更多分析。换句话说，订正是锦上添花，不是化腐朽为神奇。

需要边界限定的是：上述对比是在降水等右偏变量、面向气候模式输出的评测口径下得出的结论；迁移到风速、辐射等新能源要素时，方法机制依然适用，但具体的提升幅度需要在你自己的实测基线上重新验证，不可直接照搬数字。

对新能源 / 运梦平台的意义

把这套方法映射到风电、光伏、电网与功率预测的实际工作，价值非常具体：

风资源评估与风功率预测：再分析的 100m 风速常存在系统偏差（地形、海陆边界尤甚）。用塔测/测风激光雷达数据拟合分位数映射，对再分析风速逐分位订正，能让风功率曲线的高风速段更贴近实测；而 QDM 的尾部保护，恰好避免把大风事件（爬坡、限功率触发点）抹平。
光伏资源评估与光伏功率预测：辐射要素若整体偏高，长期发电量评估会偏乐观。对 rsds、dni、dhi 做分位数映射订正，可以把容量因子拉回更可靠的基线，减少投资测算的系统性偏差。
电网与系统级建模：在"光伏+储能"联合优化、电力平衡分析里，输入偏差会沿链路传导甚至被放大。先做偏差订正，再进系统模型，是把决策建立在更可靠输入上的前提。
功率预测模型训练：用再分析作训练/回测基线时，数据自带的偏差会被模型"学进去"。理解偏差方向并用分位数映射做后处理订正，是把历史样本变成可靠特征的常规动作。

南京运梦科技在运梦气象 API中采用 ERA5 + 德国气象局双数据源：ERA5 提供长期、一致的历史回填底座，正适合用来拟合分位数映射的订正函数；德国气象局负责近期预报场景。一个务实范式是——用 ERA5 历史序列对齐实测、建立逐分位订正系数，再把同一套订正逻辑应用到预报链路上。

在运梦气象 API 上手

历史回测取数走 ERA5，预报场景走德国气象局（ger）。下面是一个面向偏差订正的最小取数思路：先用 ERA5 拉一段长历史的风速与辐射序列，作为拟合分位数映射的"模型侧"样本：

{
  "dataSourceId": "era5",
  "lat": 32.05,
  "lon": 118.78,
  "stime": "2015-01-01 00:00",
  "etime": "2023-12-31 23:00",
  "fields": ["u100", "v100", "ws", "rsds", "dni", "dhi", "tas"],
  "timezone": "8"
}

把它 POST 到 downloadSync 接口，即可同步拿到 JSON envelope，data.timeList 与各字段数组按下标一一对应。拿到序列后的标准流程是：

用站点实测（测风塔、辐照仪、计量发电）与同期 ERA5 对齐，按分位数映射拟合订正函数（风速、辐射用乘性，气温用加性）；
若需要保留趋势/极端变化，优先采用 QDM 思路逐分位保留相对变化量；
预报阶段改用 dataSourceId: "ger"（德国气象局）拉取预报场，套用同一套订正逻辑后再进功率模型。

延伸阅读与产品入口：ERA5 数据源见 /products/weather-api/era5/，德国气象局预报见 /products/weather-api/ger/；功率预测产品见 /products/solar-forecast/ 与 /products/wind-forecast/；接口与字段定义见 /docs/weather/api-reference/ 和 /docs/weather/data-elements/；再分析偏差与储能误差传播的延伸阅读见 /blog/reanalysis-solar-bias-storage/。

常见问题

分位数映射、QM、DQM、QDM 有什么区别？ QM（标准分位数映射）直接用历史拟合的映射函数套未来数据，容易顺手改写模型自带的趋势；DQM 先剥离趋势、对残差做映射再加回趋势，保住了均值层面的变化；QDM 显式地逐分位保留模型预估的相对变化量，连尾部极端的变化也单独保护，是论文主推的方法。

做偏差订正时风速、辐射和气温该用乘性还是加性？ 降水、风速、辐射这类非负且右偏的变量通常用乘性（比值）订正，气温这类近似对称的变量用加性（差值）订正。

为什么新能源功率预测更应该关注 QDM 而不是标准 QM？ 新能源场景关心极端大风、连续低辐射等尾部事件，而标准 QM 在外推或分布平移时可能抹平这些变化信号；QDM 能在分布尾部独立保留相对变化幅度，避免把大风事件（爬坡、限功率触发点）误伤抹平。

偏差订正能解决所有数据偏差问题吗？ 不能。据 Maraun (2016) 综述，偏差订正有能力上限：它无法可信修正模型本身的气候变化趋势，也几乎无法替代真正的降尺度，更不能补出模型未解析的局地小尺度变率；其成立前提是被订正的模型必须提供"有技巧的输入"。

在运梦气象 API 上怎么落地分位数映射偏差订正？ 用 ERA5（dataSourceId: "era5"）拉一段长历史的风速与辐射序列作为模型侧样本，POST 到 downloadSync 接口取数；再用站点实测与同期 ERA5 对齐、逐分位拟合订正函数；预报阶段改用德国气象局（dataSourceId: "ger"）拉预报场，套用同一套订正逻辑后再进功率模型。

引用与原文

本文所引用的两篇原文，规范引用如下：

Cannon, A. J., Sobie, S. R., & Murdock, T. Q. (2015). Bias Correction of GCM Precipitation by Quantile Mapping: How Well Do Methods Preserve Changes in Quantiles and Extremes? Journal of Climate, 28(17), 6938–6959.

原文 DOI：doi.org/10.1175/JCLI-D-14-00754.1

Maraun, D. (2016). Bias Correcting Climate Change Simulations — a Critical Review. Current Climate Change Reports, 2(4), 211–220.

原文 DOI：doi.org/10.1007/s40641-016-0050-x

相关阅读