气象数据

分位数映射偏差订正:再分析数据落地必修课

· 南京运梦科技算法团队 · 评审 算法负责人

分位数映射偏差订正:再分析数据落地必修课 封面

只要你拿再分析数据或模式输出去训练功率预测模型、做风资源评估,迟早会撞上同一个坑:模型本身没错,但喂进去的气象序列带着系统性偏差——风速整体偏低、辐射整体偏高、降水分布的尾部完全对不上实测。直接把原始网格值当真值用,偏差会沿建模链路一路传导,最后体现在容量因子算错、爬坡事件漏报、超短期功率曲线整体平移。**偏差订正(bias correction)**就是把这道闸门关上的标准工序,而其中最常用、也最容易用错的一族方法,就是分位数映射。今天这篇解读,围绕该领域被广泛引用的一篇方法学论文,把分位数映射的几个变体讲透,并说清它们各自的适用边界。

关键要点

  • 分位数映射(QM)逐分位地把模型 CDF 搬到观测 CDF 上,是再分析数据落地功率预测前最常用的偏差订正方法;右偏变量(风速、辐射、降水)用乘性订正,近似对称的气温用加性订正。
  • 标准 QM 会顺手改写模型自带的变化信号,在外推或分布平移时尤其危险;DQM 去趋势后只保住均值层面的变化,QDM 则逐分位保留相对变化量、连尾部极端也单独保护,是论文主推的方法。
  • 偏差订正有能力上限:据 Maraun (2016),它无法可信修正模型本身的气候趋势,也不能替代真正的降尺度或补出模型未解析的局地小尺度变率,前提是输入本身"有技巧"。
  • 运梦气象 API 采用 ERA5 + 德国气象局双数据源:ERA5(era5)拉长历史序列拟合逐分位订正系数,德国气象局(ger)负责预报场景,同一套订正逻辑可贯通历史拟合与预报链路。
  • 迁移到新能源要素需重新验证:论文结论基于降水等右偏变量的气候模式评测口径,方法机制对风速、辐射依然适用,但具体提升幅度须在自己的实测基线上重测,不可照搬数字。

背景与定位

这篇论文的英文原题是 Bias Correction of GCM Precipitation by Quantile Mapping: How Well Do Methods Preserve Changes in Quantiles and Extremes?,作者为 Cannon、Sobie、Murdock(Alex J. Cannon 等,加拿大环境部 / 太平洋气候影响联盟 PCIC),2015 年发表在大气科学旗舰刊物 Journal of Climate(第 28 卷,第 17 期,6938–6959 页)。

为什么这篇值得新能源从业者认真读?因为它不是泛泛讨论"要做偏差订正",而是直击一个工程上极易踩雷的问题:当你用历史时段拟合出来的订正函数去校正未来(或外推)数据时,订正本身会不会把你真正关心的"变化信号"给抹掉甚至扭曲? 对功率预测而言,这个"变化信号"可能就是一次极端大风、一段连续阴天,恰恰是订正最不该破坏的部分。论文系统比较了标准分位数映射与两个改进变体,给出了清晰可操作的结论。

为了补足方法学边界的讨论,本文同时并引 Maraun (2016) 的综述 Bias Correcting Climate Change Simulations — a Critical ReviewCurrent Climate Change Reports,第 2 卷,211–220 页)。这篇综述对偏差订正的能力上限提出了冷静的批判,正好为"什么时候不该过度依赖订正"提供了边界。

方法 / 它做了什么

分位数映射(Quantile Mapping,QM)的核心思想其实非常直观:把模型输出的累积分布函数(CDF)逐分位地搬到观测的 CDF 上去。具体做法是,对模型某个分位(比如第 90 百分位的风速),先查出它在模型分布里的累积概率,再去观测分布里找到相同累积概率对应的值,用后者替换前者。降水、风速这类非负且右偏的变量,通常用乘性(比值)订正;气温这类近似对称的变量,用加性(差值)订正。论文系统比较了三种做法:

  • QM(标准分位数映射,也叫经验分位数映射 EQM):直接用历史拟合的映射函数去套未来数据。问题在于——当未来值超出历史训练区间,或整体分布发生平移时,它倾向于把模型自带的"变化趋势"一并改写,导致校正后的趋势失真。
  • DQM(Detrended Quantile Mapping,去趋势分位数映射):先把模型序列的趋势(通常是均值变化)剥离出去,对去趋势后的残差做分位数映射,再把趋势加回来。这样能保住均值层面的变化信号,但它对分布尾部(极端值)变化的保护并不充分。
  • QDM(Quantile Delta Mapping,分位数增量映射):这是论文主推的方法。它的巧思在于显式地、逐分位地保留模型预估的相对变化量——先量化模型在每一个分位上从历史到未来的相对变化(delta),订正掉系统偏差后,再把这份逐分位的相对变化原样叠加回去。换句话说,QDM 把"偏差订正"和"变化信号保留"两件事解耦:偏差该订的订掉,但每个分位上的变化幅度——包括尾部极端——被独立地保护下来。

理解这三者的差别,关键就一句话:QM 容易顺手改写趋势,DQM 只保住了均值变化,QDM 连尾部分位的变化也单独保住。

关键结论

把论文与综述已核实的要点提炼为几条(数字与口径以已核实来源为准):

  • 标准 QM 会扭曲模型自带的变化信号。 论文明确指出,标准分位数映射虽然能有效去除历史偏差,却可能人为地破坏模型预估的未来趋势——在你需要外推、或分布发生平移的场景里,这种"误伤"尤其危险。
  • QDM 能显式保留各分位上的相对变化,对极端值更友好。 相比 DQM 只保住均值层面的变化,QDM 在分布尾部(极端事件)也能独立保留相对变化幅度,这对关心极端大风、连续低辐射等尾部事件的新能源场景特别有价值。
  • DQM 是均值口径下的折中方案。 它保住了均值变化,实现简单,但对尾部变化的保护不如 QDM 充分——在只关心总量、不强调极端的场景里仍是可用选项。
  • 偏差订正有能力上限,不能无中生有。 据 Maraun (2016) 综述,偏差订正无法可信地修正模型本身的气候变化趋势,也几乎无法替代真正的降尺度——它不能补出模型未解析的局地小尺度变率,任何强行"造"出这种变率的做法都会引入人为假象。
  • 偏差订正成立的前提是输入本身有技巧。 综述强调,一个基本假设是被订正的模型必须提供"有技巧的输入";仅做边缘分布的交叉验证不足以评估订正质量,需要结合更多分析。换句话说,订正是锦上添花,不是化腐朽为神奇。

需要边界限定的是:上述对比是在降水等右偏变量、面向气候模式输出的评测口径下得出的结论;迁移到风速、辐射等新能源要素时,方法机制依然适用,但具体的提升幅度需要在你自己的实测基线上重新验证,不可直接照搬数字。

对新能源 / 运梦平台的意义

把这套方法映射到风电、光伏、电网与功率预测的实际工作,价值非常具体:

  • 风资源评估与风功率预测:再分析的 100m 风速常存在系统偏差(地形、海陆边界尤甚)。用塔测/测风激光雷达数据拟合分位数映射,对再分析风速逐分位订正,能让风功率曲线的高风速段更贴近实测;而 QDM 的尾部保护,恰好避免把大风事件(爬坡、限功率触发点)抹平。
  • 光伏资源评估与光伏功率预测:辐射要素若整体偏高,长期发电量评估会偏乐观。对 rsdsdnidhi 做分位数映射订正,可以把容量因子拉回更可靠的基线,减少投资测算的系统性偏差。
  • 电网与系统级建模:在"光伏+储能"联合优化、电力平衡分析里,输入偏差会沿链路传导甚至被放大。先做偏差订正,再进系统模型,是把决策建立在更可靠输入上的前提。
  • 功率预测模型训练:用再分析作训练/回测基线时,数据自带的偏差会被模型"学进去"。理解偏差方向并用分位数映射做后处理订正,是把历史样本变成可靠特征的常规动作。

南京运梦科技在运梦气象 API中采用 ERA5 + 德国气象局双数据源:ERA5 提供长期、一致的历史回填底座,正适合用来拟合分位数映射的订正函数;德国气象局负责近期预报场景。一个务实范式是——用 ERA5 历史序列对齐实测、建立逐分位订正系数,再把同一套订正逻辑应用到预报链路上。

在运梦气象 API 上手

历史回测取数走 ERA5,预报场景走德国气象局(ger)。下面是一个面向偏差订正的最小取数思路:先用 ERA5 拉一段长历史的风速与辐射序列,作为拟合分位数映射的"模型侧"样本:

{
  "dataSourceId": "era5",
  "lat": 32.05,
  "lon": 118.78,
  "stime": "2015-01-01 00:00",
  "etime": "2023-12-31 23:00",
  "fields": ["u100", "v100", "ws", "rsds", "dni", "dhi", "tas"],
  "timezone": "8"
}

把它 POST 到 downloadSync 接口,即可同步拿到 JSON envelope,data.timeList 与各字段数组按下标一一对应。拿到序列后的标准流程是:

  1. 用站点实测(测风塔、辐照仪、计量发电)与同期 ERA5 对齐,按分位数映射拟合订正函数(风速、辐射用乘性,气温用加性);
  2. 若需要保留趋势/极端变化,优先采用 QDM 思路逐分位保留相对变化量;
  3. 预报阶段改用 dataSourceId: "ger"(德国气象局)拉取预报场,套用同一套订正逻辑后再进功率模型。

延伸阅读与产品入口:ERA5 数据源见 /products/weather-api/era5/,德国气象局预报见 /products/weather-api/ger/;功率预测产品见 /products/solar-forecast//products/wind-forecast/;接口与字段定义见 /docs/weather/api-reference//docs/weather/data-elements/;再分析偏差与储能误差传播的延伸阅读见 /blog/reanalysis-solar-bias-storage/

常见问题

分位数映射、QM、DQM、QDM 有什么区别? QM(标准分位数映射)直接用历史拟合的映射函数套未来数据,容易顺手改写模型自带的趋势;DQM 先剥离趋势、对残差做映射再加回趋势,保住了均值层面的变化;QDM 显式地逐分位保留模型预估的相对变化量,连尾部极端的变化也单独保护,是论文主推的方法。

做偏差订正时风速、辐射和气温该用乘性还是加性? 降水、风速、辐射这类非负且右偏的变量通常用乘性(比值)订正,气温这类近似对称的变量用加性(差值)订正。

为什么新能源功率预测更应该关注 QDM 而不是标准 QM? 新能源场景关心极端大风、连续低辐射等尾部事件,而标准 QM 在外推或分布平移时可能抹平这些变化信号;QDM 能在分布尾部独立保留相对变化幅度,避免把大风事件(爬坡、限功率触发点)误伤抹平。

偏差订正能解决所有数据偏差问题吗? 不能。据 Maraun (2016) 综述,偏差订正有能力上限:它无法可信修正模型本身的气候变化趋势,也几乎无法替代真正的降尺度,更不能补出模型未解析的局地小尺度变率;其成立前提是被订正的模型必须提供"有技巧的输入"。

在运梦气象 API 上怎么落地分位数映射偏差订正? 用 ERA5(dataSourceId: "era5")拉一段长历史的风速与辐射序列作为模型侧样本,POST 到 downloadSync 接口取数;再用站点实测与同期 ERA5 对齐、逐分位拟合订正函数;预报阶段改用德国气象局(dataSourceId: "ger")拉预报场,套用同一套订正逻辑后再进功率模型。

引用与原文

本文所引用的两篇原文,规范引用如下:

Cannon, A. J., Sobie, S. R., & Murdock, T. Q. (2015). Bias Correction of GCM Precipitation by Quantile Mapping: How Well Do Methods Preserve Changes in Quantiles and Extremes? Journal of Climate, 28(17), 6938–6959.

原文 DOI:doi.org/10.1175/JCLI-D-14-00754.1

Maraun, D. (2016). Bias Correcting Climate Change Simulations — a Critical Review. Current Climate Change Reports, 2(4), 211–220.

原文 DOI:doi.org/10.1007/s40641-016-0050-x