风电

风电功率概率预测:Pinson 2013 运营挑战综述

· 南京运梦科技算法团队 · 评审 算法负责人

风电功率概率预测:Pinson 2013 运营挑战综述 封面

调度员最怕的不是预测值偏高或偏低,而是根本不知道预测有多不可靠。某西北风电场曾因日前功率预测误差过大,连续两个月触发电网偏差考核,罚款金额直接抹平了当月售电收益。事后复盘发现,问题不在于模型精度不够高,而在于调度人员拿到的始终是一条"单值"曲线——没有置信区间,备用容量无从配置,极端场景无从规避。

这种困境在国内风电行业普遍存在。国家能源局"两个细则"要求风电场提供日前预报,但绝大多数风场仍在用均方根误差(RMSE)衡量预测质量,拿一个点估计值参与调度竞价。这套方法在低波动时段尚可应付,一旦遭遇寒潮大风或切变显著的强对流天气,单值预测的置信度几近于零,调度决策就等于在猜测。

将预测从"给一个值"升级为"给一条分布"——这是过去二十年风电预测领域最重要的范式转变。丹麦技术大学(DTU)的 Pierre Pinson 于 2013 年在统计学顶刊 Statistical Science 发表的综述论文,系统性地梳理了这一演进路径,至今仍是概率预测方向被引用最多的奠基文献之一。本文将逐层拆解这篇论文的核心框架,并结合运梦气象 API 展示如何在实际工程中落地。

关键要点

  • 三层预测体系:从确定性点预测,到区间预测(含名义覆盖率),再到完整条件密度预测,每一层都对应不同的决策场景和评估标准。
  • Pinball Loss 是分位数预测的基石:损失函数 L_τ(u) = u·(τ − 1u < 0) 对高估和低估采用非对称惩罚,τ 即分位数水平,是分位数回归模型训练的直接优化目标。
  • CRPS 综合评估概率预测质量:连续排列概率评分(Continuous Ranked Probability Score)等价于对所有分位数水平上的 Pinball Loss 积分,可将整条预测分布压缩为单一可比较的标量。
  • 可靠性与锐度须同时满足:好的概率预测不只是覆盖率达标(可靠性),区间还要尽量窄(锐度),二者缺一不可,Pinson 给出了校准-锐度分解框架。
  • 条件变量决定分布形状:以风速、风向、风切变(由 100m 与近地面的风速大小之差刻画)等数值天气预报(NWP)字段为条件变量,可以生成非对称、非高斯的功率条件分布,显著优于无条件的历史经验分布。

背景与定位

Pierre Pinson 是丹麦技术大学风能系(DTU Wind Energy)教授,长期深耕风电与可再生能源预测。其论文被引次数在同领域中名列前茅,是 IEA Wind Task 36(风电预测)的核心贡献者。2013 年这篇发表于 Statistical Science(Vol. 28, No. 4)的论文标题为"Wind energy: Forecasting challenges for its operational management",面向统计学界系统阐述了风电预测从工程走向严谨统计框架的全过程。选择在统计学旗舰期刊发表,本身就表明了作者的雄心:将风电预测问题提炼为统计科学的正式研究对象。

从历史背景看,这篇综述出现在欧洲风电大规模并网的关键节点。2010 年代初,丹麦的风电发电量占比已稳定突破 20%(2011 年前后约 28%),是当时全球风电渗透率最高的国家;德国、西班牙则处于快速爬升阶段——德国风电占比约 8%(2019—2020 年后才突破 20%),西班牙约 16%—21%(2013 年前后才触及 21%)。即便渗透率尚未到顶,这些国家的电力系统调度人员也已迫切需要不仅"好看"而且"可信"的预测工具。仅仅报告期望值已无法满足调度需求:备用容量该留多少、竞价策略怎么制定、极端小概率事件如何应对,这些决策天然需要整条概率分布,而不是一个点估计。

对新能源行业从业者来说,这篇论文的价值远不止学术引用。它提供了一套可直接落地的方法论地图:如何从气象数值预报中提取不确定性信息,如何用分位数回归构建区间预测,如何用 CRPS 在不同模型之间做公平比较。在中国,随着新能源装机突破 1TW、"双碳"目标驱动下风光消纳压力持续加大,这套框架对国内风电场的精细化运营和合规考核同样具有直接的参考价值。

方法 / 它做了什么

第一层:确定性点预测及其局限

论文首先回顾了风电预测的起点——确定性点预测。这一方法将数值天气预报(NWP)的风速输出,经由物理功率曲线或统计模型,转化为单一功率期望值。评估指标通常是均方根误差(RMSE)或平均绝对误差(MAE)。Pinson 指出,点预测在低波动天气下表现尚可,但在风速爬坡(ramp event)、切入/切出边界附近以及大气层结不稳定时段,单值输出完全无法反映预测不确定性的量级差异。一个 RMSE=8% 的模型,可能在平静天气下误差仅 2%,在强对流过境时误差高达 30%,这种方差的时变性被点预测完全掩盖。

第二层:区间预测——引入名义覆盖率

区间预测的核心是给出一个置信区间 Q_τ_low, Q_τ_high,使得真实功率落在区间内的频率(实测覆盖率)与名义覆盖率(1−α)相符。Pinson 强调,区间预测的评估必须同时考察两个维度:一是可靠性(Reliability),即实测覆盖率是否与名义水平一致;二是锐度(Sharpness),即在满足可靠性的前提下,区间宽度是否尽可能窄。只追求覆盖率而忽视锐度,等价于将区间设为 0, 额定容量,没有任何信息量。

分位数回归(Quantile Regression)是生成区间预测最主流的工具。给定分位数水平 τ ∈ (0,1),分位数回归通过最小化 Pinball Loss 来学习条件分位数函数:

$$L_\tau(u) = u \cdot (\tau - \mathbf{1}u < 0)$$

其中 u = y − ŷ_τ 为预测残差。当真实值低于预测分位数时(u < 0),损失权重为 (1−τ);当真实值高于预测分位数时,权重为 τ。这种非对称惩罚机制使模型自然对齐到目标分位数水平,无需对误差分布做任何参数假设。

第三层:密度预测——完整条件分布

密度预测进一步将单个或少数几个分位数扩展为完整的条件概率密度函数 f(y|x),其中 x 是 NWP 协变量向量(风速、风向、风切变、温度、气压等)。Pinson 详细讨论了非参数方法(核密度估计、分位数回归森林)和参数方法(Beta 分布、混合高斯)各自的适用场景。特别值得关注的是:以天气情景为条件变量,功率分布往往呈现显著的非对称性——在额定功率附近,上尾被截断;在零功率附近,存在质量点(point mass)。这种非对称、有界的分布结构,是风电功率区别于一般时间序列的根本特征。

CRPS:概率预测的统一评分规则

为了在不同概率预测方法之间做公平比较,Pinson 采用 CRPS(Continuous Ranked Probability Score)作为综合评分指标。CRPS 的数学定义为:

$$\text{CRPS}(F, y) = \int_{-\infty}^{+\infty} \left(F(z) - \mathbf{1}z \geq y\right)^2 dz$$

其中 F(z) 是预测的累积分布函数,y 是实测值。等价地,CRPS 可以表示为对所有分位数水平 τ ∈ (0,1) 上 Pinball Loss 的积分,这一性质使其成为评估整条预测分布质量的"一站式"指标——既奖励覆盖率高的预测,也惩罚不必要的宽区间。

关键结论

  1. 风电功率预测不确定性具有显著的时变性:低风速时段(爬坡前后、额定出力边界)的不确定性远高于稳定满发时段,点预测的均值误差指标无法捕捉这一动态特征。
  2. 分位数回归在不做分布参数假设的条件下,可以直接估计任意分位数水平的条件功率分布,对非对称、有界的风电功率分布尤为适用。
  3. 可靠性与锐度是概率预测质量的两个独立维度,两者都满足的预测才具备实用价值;单纯提高覆盖率而忽视锐度的预测在决策应用中无效。
  4. CRPS 等严格评分规则(Proper Scoring Rules)是比较不同概率预测方法的标准工具,它同时奖励校准良好且区间紧凑的预测,能有效防止"刷覆盖率"的投机行为。
  5. 以 NWP 多变量(风速、风向、风切变、大气稳定度代理指数)为条件的密度预测,显著优于无条件历史分位数基线,尤其在极端天气场景下的改进最为突出。

以上结论均为 Pinson (2013) 综述提出的定性论断;本文未引用原文中的具体数值实验结果,落地时的量化指标请以各自数据与模型的实测为准。

对新能源 / 运梦平台的意义

对风电场运营的直接影响

Pinson 论文所描述的三层预测框架,与中国新能源市场的监管要求高度契合。国家能源局"两个细则"对日前功率预测误差有明确考核区间,超出阈值即触发偏差电量罚款。然而,仅有点预测值的运营商只能被动承担这种不确定性,而拥有概率预测的运营商可以主动管理:当 90% 置信区间过宽时,适当降低申报功率以减少正偏差风险;当区间收窄且均值偏高时,大胆报高值争取更多电量收益。这种基于不确定性信息的动态决策策略,正是概率预测相对于点预测的核心商业价值。

备用容量与调度优化

在省级电力现货市场日益成熟的背景下,风电场参与辅助服务市场(调频、备用)的意愿不断提升。备用容量的报价本质上是对功率下行风险的定价——报价太低则在风速骤降时无法履约,报价太高则白白折价销售电量。概率预测给出的下行分位数(如 10% 分位数)天然对应"最坏情况下的可用容量",为备用报价提供了量化依据。Pinson 在论文中详细推导了最优投标量与概率预测分位数之间的对应关系,为这一决策场景提供了严格的理论支撑。

运梦气象 API 的数据支撑

运梦气象 API 提供的预报数据(dataSourceId: ger,即德国气象局数据源)覆盖了 Pinson 框架所需的核心 NWP 变量:100 米高度纬向风速(u100)、经向风速(v100)、近地面风速(约 10m,ws)、近地面温度(tas)、地表气压(sp)。这些变量构成了构建多变量分位数回归模型的完整特征集。

对于历史数据训练,ERA5 再分析资料(dataSourceId: era5)提供了长达数十年的连续历史气象场,可用于训练分位数回归模型的基准参数。实践中常见的做法是:用 ERA5 完成长期样本训练,再用德国气象局的实时预报驱动推理,在保证样本量充足的同时确保预测输入与训练分布一致。

多起报时次滚动预测与不确定性量化

德国气象局数据支持多个起报时次(如 00Z、06Z、12Z、18Z),可以构建集成预报体系:将不同起报时次的预测结果视为条件分布的蒙特卡洛样本,直接估计各未来时刻的功率分位数。这一方法无需显式的概率模型假设,计算简单,且能自然捕捉起报时次之间的一致性信息——当多个起报时次的预测值高度收敛时,区间自然收窄;当各时次出现发散时,区间自动扩张,正是 Pinson 所倡导的"数据驱动的不确定性量化"思路的直接实现。

在运梦气象 API 上手

要将上述概率预测框架落地,第一步是从运梦气象 API 拉取所需的多变量预报字段。以下示例展示如何通过 downloadSync 接口获取某风场坐标点未来 72 小时的预报数据,用于构建分位数功率预测曲线的输入特征矩阵。

在实际工程中,通常需要同时拉取多个起报时次(或多个邻近格点)的数据,再经过后处理(偏差校正、统计降尺度)后输入分位数回归模型。ERA5 历史数据可通过相同接口(仅替换 dataSourceId"era5")获取,用于离线训练基准模型;德国气象局预报数据则在每次起报后实时拉取,驱动在线推理。两套数据的字段名称保持一致,切换成本极低。

{
  "dataSourceId": "ger",
  "lat": 39.85,
  "lon": 106.42,
  "stime": "2026-04-21 00:00",
  "etime": "2026-04-24 00:00",
  "fields": ["u100", "v100", "ws", "tas", "sp"],
  "timezone": "8"
}

返回的时序数据中,u100v100 可合成轮毂高度处的风速和风向特征;由 u100v100 合成的 100m 风速 √(u100²+v100²) 与近地面风速 ws 之差,可作为风切变/稳定度的代理;tassp 用于计算空气密度,进而修正功率曲线。将这些字段构成的特征向量输入预训练的分位数回归模型(如分位数梯度提升树 QGB 或分位数随机森林),即可直接输出 10%、25%、50%、75%、90% 共五条功率分位数曲线,构成完整的概率预测产品。

常见问题

Pinball Loss 和普通 MAE 有什么区别,为什么分位数预测不能用 MAE 训练?

MAE 优化的是条件均值(τ=0.5 时恰好等价于中位数),对高估和低估采用对称惩罚。Pinball Loss 通过非对称权重(τ 对应高估,1−τ 对应低估)将模型收敛目标锁定在特定分位数水平。如果用 MAE 训练并声称输出是 90% 分位数,覆盖率实际上只会接近 50%,严重低估上行风险。

CRPS 和区间覆盖率哪个更重要?

两者不可替代,衡量不同维度。覆盖率(Reliability)是概率预测的最低准入门槛——声称 90% 置信区间若实测覆盖率只有 70%,预测已经失真。CRPS 在覆盖率合格的前提下进一步区分锐度,数值越小意味着区间越紧凑、信息量越大。工程实践中建议先通过 Reliability Diagram 确认校准良好,再用 CRPS 排序模型优劣。

德国气象局(ger)数据和 ERA5 在用途上如何区分?

ERA5 是再分析历史数据,时效截止到近几天,适合构建长时间序列样本用于模型训练和统计分析。德国气象局(dataSourceId: ger)提供实时滚动预报,覆盖未来数天,是日前和超短期功率预测的预报驱动源。两者字段体系兼容,通常的工程做法是:ERA5 训练,ger 推理。

分位数回归模型需要多少历史样本才能稳定收敛?

这取决于模型复杂度和季节性强度。线性分位数回归在数百个样本后即可基本收敛;分位数梯度提升等非参数模型通常需要至少 12 年的逐小时数据(约 800017500 条),以充分覆盖各季节、各风速区间的条件分布。ERA5 提供的 40 年以上历史数据远超这一下限,样本量不是制约因素,关键在于特征工程和超参数调优。

概率预测是否适用于光伏电站?

完全适用,且同等重要。光伏功率的不确定性来源(云量遮蔽、气溶胶光学厚度、辐射衰减)与风电不同,但分位数回归框架完全通用,只需将输入特征替换为辐照度相关字段(GHI、DHI、DNI、云量)。Pinson 论文虽以风电为主要案例,但其统计框架对所有出力具有随机性的间歇性电源均有效。

引用与原文

Pinson, P. (2013). Wind energy: Forecasting challenges for its operational management. Statistical Science, 28(4), 564–585. DOI: doi.org/10.1214/13-STS445