预报的经济价值:cost-loss 决策模型怎么把准确率换算成钱

老板问算法团队一个很实在的问题:我们把日前光伏预报的 nRMSE 从 9% 压到 8%,到底多赚了多少钱?大多数团队答不上来,因为 RMSE 是误差的统计量,不是收益的货币量,两者之间隔着一层"决策"。一个预报准不准固然重要,但它值多少钱,取决于你拿它去做什么决策、做错了赔多少、做对了省多少。气象经济学里有一个用了几十年、简单到可以写在餐巾纸上的框架专门回答这件事——cost-loss 决策模型。它把预报质量、决策行为和经济后果串成一条可计算的链路,让"准确率换算成钱"从口号变成一个可以落地的公式。本文从最朴素的二元决策讲起,逐层推进到概率预报的最优阈值与潜在经济价值(PEV),并落到新能源运营的真实场景。
关键要点
- cost-loss 模型的核心是成本损失比 C/L:采取防护措施的成本 C 与不防护却遭遇坏天气的损失 L 之比,它决定了一个理性决策者的行动门槛,是把预报准确率翻译成钱的"汇率"。
- 对确定性(是/否)预报,经济价值由列联表(命中、误报、漏报、正确否定)配上 C/L 加权求和得到;价值不只看命中率,误报和漏报的代价天平由 C/L 决定。
- 对概率预报,最优决策规则极其简洁:当预报概率 p 超过阈值 C/L 时就行动,否则不行动。阈值不是拍脑袋的 0.5,而是由你的成本结构内生决定。
- 潜在经济价值(PEV) 把预报系统相对于"只用气候态"和"拥有完美预报"两个基准做归一化,得到 0 到 1 之间的得分,且它是 C/L 的函数——同一套预报,对不同成本结构的用户价值天差地别。
- 概率预报的 PEV 是其 ROC/相对作业特征曲线下不同点的包络,概率预报在几乎所有 C/L 上都不劣于、通常优于把它阈值化后的确定性预报,这是"为什么要做概率预测"的经济学证明。
- 落到新能源:两个细则考核电费、现货报量偏差结算、备用容量报价,本质都是一张张 C/L 表;把预报准确率提升换算成收益,先要把你的决策写成 cost-loss 结构。
从一个餐巾纸模型说起:成本与损失
设想最简单的决策:明天可能下雨(坏天气,事件 E),你要不要花钱做防护(行动 A)。把后果填进一张 2×2 的表:
- 行动且事件发生:付出防护成本 C(雨来了,但你提前防住了,只赔 C)。
- 行动但事件未发生:付出防护成本 C(白防了,但也只赔 C)。
- 不行动且事件发生:遭受损失 L(没防,雨砸下来,赔 L)。
- 不行动且事件未发生:损失 0(赌对了,啥也没花)。
这里有个关键假设:只要你行动,无论天气好坏都付 C;只有"不行动撞上坏天气"才赔 L。现实里通常 C < L——防护比挨砸便宜,否则没人会防。两者之比 C/L ∈ (0, 1) 就是这个决策的全部经济结构,称为成本损失比。
一个完全没有预报、只知道气候态的理性人怎么决策?设坏天气的气候概率为 ō(climatological base rate)。他只有两个固定策略:永远防(期望成本 C)或永远不防(期望成本 ō·L)。他会选两者中更便宜的,期望成本是 min(C, ō·L)。这就是"无预报"的基准开销。另一极端,拥有完美预报的人,只在坏天气真来时才防,期望成本是 ō·C。预报的经济价值,就夹在这两个基准之间。
把准确率塞进去:确定性预报的价值
现在给决策者一套确定性预报:它对每一天给出"会下/不会下"的判断。一段时间后统计出列联表:命中 a(报有且真有)、误报 b(报有但没有)、漏报 c(报无但有)、正确否定 d(报无且没有)。决策者信任预报:报有就防,报无就不防。
他的期望费用是:行动的天数(a+b)每天付 C,加上漏报的天数 c 每天赔 L,即 (a+b)·C + c·L(按频率归一化)。把它代入价值公式:
$$V = \frac{E_{\text{climate}} - E_{\text{forecast}}}{E_{\text{climate}} - E_{\text{perfect}}}$$
分子是"用了预报比只用气候态省下的钱",分母是"完美预报相对气候态能省的钱上限",归一化后 V=1 表示预报和完美一样好,V=0 表示和瞎猜气候态一样、毫无增量,V<0 表示用了反而更糟。
这条公式里藏着一个反直觉的事实:同一套预报,对不同的 C/L 用户,V 完全不同。对一个 C/L 很小的用户(防护极便宜、损失极惨重,比如电网保供),他几乎一有风吹草动就该防,预报的漏报对他是致命的,他在意的是"命中率/击中率";对一个 C/L 接近 1 的用户(防护几乎和损失一样贵),他对误报极其敏感,宁可少防。所以不存在脱离 C/L 的"预报值多少钱"——准确率是预报系统的属性,价值是预报与决策者成本结构耦合后的产物。
概率预报的最优阈值:为什么是 C/L 而不是 0.5
确定性预报的问题在于它替决策者把阈值定死了。概率预报把这个权力还给用户:它对每一天给出坏天气概率 p,由用户自己决定 p 多大才行动。
这里有一个干净得令人愉悦的结论。一个理性的、追求期望成本最小的决策者,应当在 p > C/L 时行动,p ≤ C/L 时不行动。推导很短:行动的期望成本是 C(无论事件是否发生都付 C);不行动的期望成本是 p·L(以概率 p 赔 L)。两者相等的临界点 C = p·L,解出 p* = C/L。所以最优阈值不是想当然的 0.5,而是你的成本损失比本身。
这个结论的工程含义极强:
- 一个 C/L = 0.1 的保供决策(防护便宜、停电损失巨大),应当在坏天气概率刚到 10% 就行动——它对漏报零容忍。
- 一个 C/L = 0.7 的高成本检修决策,要等概率到 70% 才动手——它怕误报浪费停机。
- 同一套概率预报,发给这两类用户,各自用自己的 C/L 阈值切,都能拿到对自己最优的决策。这是确定性预报永远做不到的——它的阈值是发布方替所有人拍的,注定对大多数用户次优。
而要让"p > C/L 就行动"真正最优,概率预报必须是可靠的(reliable / 校准良好):所有报 30% 的日子里,坏天气真的约 30% 发生。校准差的概率预报会让这个阈值规则系统性犯错。这也是为什么概率预报的检验里,可靠性图(reliability diagram)和 cost-loss 价值是一体两面。
潜在经济价值 PEV:把预报系统画成一条价值曲线
把"对每一个 C/L,概率预报能创造多少归一化价值"画出来,横轴 C/L、纵轴 V,就是潜在经济价值(Potential Economic Value, PEV)曲线。它是评估预报系统经济效用的标准工具,背后的决策理论可追溯到 Richardson 等人在 ECMWF 集合预报经济价值评估上的经典工作。
PEV 曲线有几个必须知道的性质:
- 它是一族曲线的上包络。 对每个 C/L,用最优阈值 p*=C/L 去切概率预报,得到一张确定性列联表,算出一个 V。扫遍所有 C/L,就得到整条曲线。曲线在 C/L = ō(气候概率)附近达到峰值——这里气候态最"纠结"、预报的增量信息最值钱。
- 概率预报的 PEV 包络住任意单一阈值确定性预报的价值曲线。 任何一个固定阈值的是/否预报,只在某个特定 C/L 区间附近有竞争力,离开就迅速跌向 0 甚至负值;而概率预报因为对每个 C/L 都能选最优阈值,在整条横轴上都不劣。这就是"概率预报值更多钱"的严格经济学证明,比"概率预报信息更丰富"这种定性说法硬得多。
- PEV 与 ROC 曲线同源。 不同阈值在击中率-误报率平面上的点连成相对作业特征(ROC)曲线,PEV 本质是把 ROC 上的点用 C/L 加权重新投影到价值轴。ROC 下面积(AUC)衡量区分能力,PEV 衡量这种区分能力在特定成本结构下值多少钱——前者是物理体检,后者是财务报表。
一句话总结 PEV 的价值观:预报的好坏是统计问题,预报的价值是经济问题;同一份预报,对不同 C/L 的人值不同的钱,PEV 把这件事画成了一条可比较的曲线。
落到新能源:两个细则、现货报量与备用都是 C/L 表
把视角切回新能源运营,会发现 cost-loss 不是气象学家的玩具,而是每个场站每天都在算(只是没意识到)的账。
两个细则考核:日前/超短期功率预测合格率不达标会触发分档考核电费。把"是否在某时段保守上报以避免超限扣分"写成决策,保守上报的机会成本是 C,被扣考核电费是 L,C/L 就定了你该在多大的"预测可能偏差"概率上转为保守。预报准确率的提升,通过降低漏报(该保守时没保守)和误报(不必要的保守损失电量),沿 PEV 曲线兑现成减少的考核支出。
现货市场报量:日前申报偏离实际出力,要按偏差结算价补差。报多了缺额高价回购(一种 L),报少了弃掉本可卖的电量(另一种 C)。这是一个双边 cost-loss,最优报量点由两侧边际成本相等决定,而决定这个点的,正是你对出力概率分布的刻画质量——概率预报越可靠,报量点越逼近真实最优。
备用容量报价:下行分位数对应"最坏情况可用容量",报低了风速骤降无法履约(高 L),报高了白白折价(C)。这又是一张 C/L 表,且 C/L 偏小(违约罚则通常远高于折价损失),意味着备用决策天然偏保守、对漏报零容忍——这正好解释了为什么备用要看低分位数而非中位数。
所以回到开头老板的问题:nRMSE 从 9% 到 8% 多赚多少钱,不能直接答,但可以这样答——把场站的考核、报量、备用三类决策各写成一张 C/L 表,估出各自的 PEV,再用提升后的预报跑一遍 PEV,差值就是货币化的收益。准确率提升 1pp,在 C/L 接近气候概率、PEV 曲线最陡的那段决策上兑现的钱最多;在曲线平坦段则几乎不增收。这解释了一个常见困惑:为什么有时辛苦把 RMSE 压了一截,财务上却没什么动静——因为你压的是决策不敏感区间的误差。
落地:用运梦气象 API 把 PEV 算法跑起来
要把上面这套从公式变成场站里的实际收益评估,最缺的往往不是优化器,而是一段足够长、口径一致的历史样本去标定 C/L、估计气候概率 ō,并回测 PEV 曲线。运梦气象 API 在这件事上的定位很清楚:
- 历史地基用 ERA5(dataSourceId 取
era5)。ERA5 是 ECMWF 第五代再分析,数据集本身覆盖 1940 年至今;运梦平台对外提供的历史范围为 1950 年至今,足够拉出数十年逐小时的辐照与风速场,用来估计坏天气的气候基率、构造(预报,实测)样本对、并离线回测不同预报方案的 PEV。再分析只用于训练与回测,绝不参与对未来的预测。 - 预报驱动用德国气象局数据(dataSourceId 取
ger,来源为德国气象局 DWD 的数值预报),覆盖未来约一周,是日前决策中 p(坏天气/超限概率)的来源。把多个起报时次或邻近格点的预报当作集合样本,可以直接估出每个时刻的事件概率,再用 p > C/L 规则做最优决策。
两类数据 CF 字段口径一致,"ERA5 训练、DWD 推理"的链路无需在命名间反复转译。真正决定收益的,不是把预报均值再修准 0.1pp,而是先把你的每个运营决策诚实地写成一张 C/L 表,再让可靠的概率预报沿 PEV 曲线把准确率兑成现金——这一步做对了,"预报值多少钱"才第一次有了可计算的答案。
常见问题
cost-loss 模型里的 C 和 L 到底指什么,怎么估? C 是采取防护/保守措施的成本(无论坏天气是否发生都要付),L 是不防护却遭遇坏天气的损失。新能源场景里,C 常是保守上报损失的电量收益或备用折价,L 常是考核扣费、偏差回购或违约罚则。两者用历史结算数据估算,关键是只取两者之比 C/L,绝对值的量纲会在归一化中约掉。
为什么概率预报的最优行动阈值是 C/L 而不是 0.5? 因为行动的期望成本是 C,不行动的期望成本是 p·L,令两者相等解得临界概率 p*=C/L。0.5 只是 C/L=0.5(防护成本恰为损失一半)这一特例。对保供这类 C/L 很小的决策,阈值应远低于 0.5,一有苗头就行动。
潜在经济价值 PEV 和 RMSE、AUC 是什么关系? RMSE 衡量预报误差大小,AUC 衡量区分坏天气的能力,二者都是统计指标、与钱无关。PEV 把 ROC 上的点用 C/L 加权投影到价值轴,得到 0~1 的归一化经济得分,且随 C/L 变化。RMSE/AUC 好不一定 PEV 高——价值是否兑现取决于你的成本结构落在 PEV 曲线的陡段还是平段。
为什么说概率预报在经济上严格优于确定性预报? 确定性预报的判定阈值由发布方替所有用户定死,只在某个 C/L 区间附近有价值;概率预报让每个用户用自己的 C/L 当阈值,对所有 C/L 都取到最优。因此概率预报的 PEV 曲线包络住任意单阈值确定性预报的价值曲线——这是经济学层面的严格证明,前提是概率预报校准良好。
历史回测 PEV 用 ERA5,实时决策用德国气象局预报,会不会不一致?
不会,这正是推荐做法。ERA5(era5,再分析,平台历史范围 1950 年至今)用于估计气候基率、标定 C/L 与离线回测,绝不预测未来;德国气象局(ger,DWD 数值预报)覆盖未来约一周,提供实时决策所需的事件概率。两者 CF 字段口径一致,可无缝衔接,注意不要拿再分析冒充预报回测,否则会泄漏未来信息、把 PEV 虚高。
参考与延伸阅读
- Richardson, D. S. (2000). Skill and relative economic value of the ECMWF ensemble prediction system. Quarterly Journal of the Royal Meteorological Society, 126(563), 649–667. https://doi.org/10.1002/qj.49712656313
- Wilks, D. S. (2001). A skill score based on economic value for probability forecasts. Meteorological Applications, 8(2), 209–219. https://doi.org/10.1017/S1350482701002092
- Murphy, A. H. (1977). The value of climatological, categorical and probabilistic forecasts in the cost-loss ratio situation. Monthly Weather Review, 105(7), 803–816. https://doi.org/10.1175/1520-0493(1977)105<0803:TVOCCA>2.0.CO;2
- Hersbach, H., Bell, B., Berrisford, P., et al. (2020). The ERA5 global reanalysis. Quarterly Journal of the Royal Meteorological Society, 146(730), 1999–2049. https://doi.org/10.1002/qj.3803