气象大数据

分布式光伏的聚合功率预测：从单站到区域的尺度跨越

2026-06-17 · 南京运梦科技算法团队 · 评审算法负责人

集中式电站的功率预测，对象边界清晰：一个并网点、一套遥测、一组容量参数。但分布式光伏完全是另一种形态——一个地市可能散布着成千上万个屋顶电站，单站容量从几千瓦到几百千瓦不等，多数没有实时遥测，台账还经常缺斜率、缺方位、缺投运日期。如果还想着"逐站建模再相加"，工程上根本跑不动，业务上也没必要。真正要预测的，是这些电站在某个空间范围（一条馈线、一个台区、一个地市、整个省）上汇总后的出力曲线，因为电网调度、新能源消纳和现货申报关心的恰恰是这条聚合曲线。这篇文章讲清楚从单站到区域做尺度跨越时，物理上发生了什么、有哪两条主流技术路线、代表站点和容量缩放怎么做、辐照的空间相关性如何影响误差，最后给出在多个点位上批量取气象数据的实战。读者对象是新能源功率预测、电网调度和分布式运营的算法与工程同行。

关键要点

聚合的本质收益是空间平滑效应：分散站点的快变波动（穿云、局地阵性遮挡）彼此不同步，求和后相对波动被显著削弱，区域聚合出力的归一化方差远小于任一单站。
主流有两条路线：**自下而上（bottom-up）**先估单站再聚合，适合台账较全、有部分遥测的场景；**自上而下（top-down）**直接对区域总出力建模，适合海量无遥测的分布式群，工程上更稳健。
代表站点法是落地折中：选少量有遥测的"标杆站"建模，再按容量比例缩放（upscaling）到全域，关键在代表性筛选与缩放因子的动态校正，而非简单乘一个常数。
气象输入要从"一个点"升级为"一片面"：用多点 ERA5 历史辐照刻画区域内辐照的空间相关性，相关性越低、平滑越强，决定了聚合误差能压到多低。
历史回测与缩放因子标定用 ERA5（dataSourceId="era5"），日前到日内的区域预报换预报源德国气象局预报数据 DWD（dataSourceId="ger"，覆盖未来约 7 天），字段口径保持一致以复用同一套多点管线。

一、为什么不能"逐站相加"

直觉上，区域出力等于所有单站出力之和，那只要把每个站预测好再相加不就行了？这条路在分布式场景下走不通，原因有三。

第一是对象规模。一个中等地市的分布式光伏可能有上万个并网点，逐站维护模型、逐站拉气象、逐站推理，算力和运维成本都不可接受，而且绝大多数小站根本没有实时遥测，连训练标签都没有。第二是台账质量。分布式电站的安装信息往往残缺——倾角、方位角、组件容量、投运日期经常对不上，逐站物理建模需要的参数拿不齐，硬填默认值反而引入系统性偏差。第三是误差传播。即便每个单站都能建模，单站预测误差较大（穿云导致的瞬时波动很难预测），上万个带误差的预测相加，若处理不当，误差不一定能很好地相互抵消。

更重要的是，业务侧需要的从来不是单站曲线，而是聚合曲线。所以正确的提法是：把"聚合出力"本身当作预测对象，让尺度跨越发生在建模阶段，而不是在简单求和阶段。

二、空间平滑效应：聚合的物理红利

把视角从单站拉到区域，会出现一个对预测极其有利的现象——空间平滑效应（spatial smoothing）。

单站出力的剧烈波动主要来自局地、快变的云过程：一片积云飘过组件阵列，GHI 和 DNI 可能在几分钟内掉到原来的零头（辐照三分量的物理意义见光伏功率预测的气象输入详解）。但同一时刻，几公里外的另一个电站可能正沐浴在晴空下。这些站点的快变波动在时间上不同步，把它们的出力相加时，正负波动相互抵消，聚合曲线就比任何单站都平滑得多。

可以用一个简单的统计直觉理解：若 N 个站点的出力波动两两不完全相关，则聚合出力的相对波动（归一化标准差）会随站点增多而下降。当站点彼此独立时，相对波动约按 1/√N 的趋势衰减；现实中相邻站点存在正相关，衰减没有这么理想，但只要相关性小于 1，聚合就一定带来平滑收益。这正是风光互补里"此消彼长"思想在单一品种、空间维度上的体现（互补性度量见风光互补性综述解读）。

平滑效应有两个直接推论：其一，区域聚合预测的相对精度通常优于单站，因为最难预测的高频抖动被求和抹平了；其二，空间相关性是平滑强度的决定变量——电站分布越分散、辐照场的空间相关尺度越小，平滑越强，这也是后面气象输入必须从"点"扩展到"面"的根本原因。

三、两条技术路线：自下而上 vs 自上而下

把单站映射到区域，工程上有两条主流路线，区别在于"先聚合还是先预测"。

自下而上（bottom-up）：先对每个（或每类）电站建立出力模型，再把单站结果按拓扑求和到目标空间范围。它的优点是物理可解释、能输出单站级结果、便于定位异常；缺点是严重依赖台账完整度和单站标签，在无遥测的海量小站上难以铺开。适用场景是台账较全、关键大站有遥测、需要单站可观测性的中高压分布式群。

自上而下（top-down）：跳过单站，直接把区域总出力当作单一时间序列来预测，输入是区域聚合的气象特征（如区域平均辐照、辐照空间分布特征）与历史聚合出力。它的优点是对单站台账不敏感、模型数量少、运维轻；缺点是丧失单站粒度、对区域总量的历史标签有要求。适用场景正是分布式最典型的形态——海量、无遥测、只在变电站或关口表能拿到聚合计量。

实务中很少非此即彼。常见做法是以自上而下为主干保证区域总量的稳健性，对少数有遥测的大站做自下而上的细化与异常监控，两者互为校验。

四、代表站点与容量缩放（upscaling）

在"全站可观测"和"只看区域总量"之间，工程上最常落地的是折中方案——代表站点法（representative stations / upscaling）。

思路是：在区域内挑选少量有实时遥测、且能代表不同典型条件的"标杆站"，只对这些标杆站精细建模，再把它们的归一化出力按容量比例放大到全域。核心公式概念上是：区域出力 ≈ Σ（代表站归一化出力 × 该代表站所代表子区域的总装机容量）。

这里有两个决定成败的细节。一是代表性筛选：标杆站要在地理分布、辐照气候带、组件朝向、遮挡环境上覆盖区域的主要类型，不能全选同一片产业园的屋顶。可以用多点历史辐照做聚类，每个簇取一个遥测站做代表。二是缩放因子不是常数：装机在持续新增、部分站点限电或检修、季节性遮挡变化，都会让"代表站→全域"的映射关系漂移。务实做法是用关口计量的区域总量作为真值，周期性地反演、校正各簇的缩放因子，让 upscaling 始终贴合实际并网容量，而不是依赖一次性的静态台账。

代表站点法本质上是在"建模成本"和"空间分辨率"之间取平衡：站点选得好、缩放校得勤，就能用很少的遥测撬动整个区域的预测。

五、把气象输入从"点"升级为"面"

单站预测拉一个点位的辐照就够了；区域聚合预测必须刻画辐照场在空间上的分布与相关结构，否则平滑效应就只是经验观察，无法量化进模型。

第一步是多点取数。在区域内按代表站位置、或按规则网格布设若干采样点，逐点拉取 ERA5 历史辐照（rsds/dni/dhi）与配套的气温、风速。这些点共同构成区域辐照场的离散采样。

第二步是估计空间相关性。对任意两点的辐照时序求相关系数，并按两点间距分组，能得到"相关性随距离衰减"的经验曲线——这就是辐照的空间相关结构。相关长度越短，说明云场越破碎、站点间越独立，聚合平滑越强，区域误差能压得越低；反之，大范围阴天系统下所有站点同步变暗，相关性接近 1，平滑几乎失效，这种"系统性低辐照日"恰恰是区域预测最该重点保障的工况。

第三步是构造区域特征。自上而下路线可以把多点辐照汇成区域平均辐照、辐照空间方差、晴空指数 Kt 的空间分布等聚合特征喂给模型；自下而上与代表站点路线则各点独立建模后再聚合。无论哪条路线，多点 ERA5 都是标定空间相关性、量化平滑效应、校准缩放因子的共同数据底座。一个工程提醒：ERA5 是 0.25° 网格的再分析，邻近采样点可能落在同一格点，挑点时要兼顾网格分辨率，避免"采了很多点其实信息冗余"。

六、在运梦气象 API 上做多点取数

运梦气象 API（南京运梦科技）同时提供历史再分析 ERA5（dataSourceId="era5"）与未来预报德国气象局预报数据 DWD（dataSourceId="ger"，覆盖未来约 7 天）。下面用同步下载接口 downloadSync 对一组代表点位逐点拉取辐照三分量与气温，用于标定区域空间相关性与缩放因子。接口返回统一 JSON envelope，用 resp.json() 解析后从 data 里按字段名取等长数组，各数组与 timeList 一一对应；历史标定用 era5，切到日前区域预报时只需把 dataSourceId 改成 ger，解析逻辑完全复用。

import requests

URL = "https://console.yun-meng.top/api/energy-weather/search/weather/action/downloadSync"
HEADERS = {
    "Authorization": "Bearer sk-your-api-key",
    "Content-Type": "application/json",
}

# 区域内的代表点位（示意：经聚类挑出的标杆站坐标）
points = [
    {"name": "site_A", "lat": 32.03253, "lon": 117.35184},
    {"name": "site_B", "lat": 31.86120, "lon": 117.48910},
    {"name": "site_C", "lat": 32.21470, "lon": 117.19560},
]

series = {}
for p in points:
    payload = {
        "dataSourceId": "era5",              # 历史标定用 ERA5；区域预报改 "ger"
        "lat": p["lat"],
        "lon": p["lon"],
        "stime": "2025-06-01 00:00",         # 格式 yyyy-MM-dd HH:mm
        "etime": "2025-06-30 23:00",
        "timezone": "8",                      # 必填，东八区时区偏移
        "fields": ["rsds", "dni", "dhi", "tas"],
    }
    resp = requests.post(URL, headers=HEADERS, json=payload)
    result = resp.json()
    if result["success"]:
        data = result["data"]
        series[p["name"]] = {
            "t": data["timeList"],
            "ghi": data["rsds"],              # GHI（地表水平总辐射）
        }
        print(f"{p['name']}: {len(data['timeList'])} 条逐时辐照已就绪")
    else:
        print(f"{p['name']} 请求失败：", result["msg"], result.get("errorCode"))

# 下一步：对各点 GHI 时序两两求相关、按距离分组 → 得到空间相关结构
# 再据此评估区域平滑强度、标定 upscaling 缩放因子

拿到多点辐照后的标准流程是：先用三分量恒等式逐点质检，再对各点 GHI 时序两两求相关并按距离聚合，得到区域辐照的空间相关结构；据此评估平滑强度、对代表站做聚类与缩放因子标定；最后按所选路线（自下而上 / 自上而下 / 代表站点）输出区域聚合出力。历史用 era5 标定、日前用 ger 预报推理时，只需切换 dataSourceId，字段名与解析逻辑完全复用。

Hersbach, H., Bell, B., Berrisford, P., et al. (2020). The ERA5 global reanalysis. Quarterly Journal of the Royal Meteorological Society, 146(730), 1999–2049. https://doi.org/10.1002/qj.3803
Marcos, J., Marroyo, L., Lorenzo, E., Alvira, D., & Izco, E. (2011). Power output fluctuations in large scale PV plants: One year observations with one second resolution and a derived analytic model. Progress in Photovoltaics: Research and Applications, 19(2), 218–227. https://doi.org/10.1002/pip.1016
Perez, R., Kivalov, S., Schlemmer, J., Hemker, K., Renné, D., & Hoff, T. E. (2010). Validation of short and medium term operational solar radiation forecasts in the US. Solar Energy, 84(12), 2161–2172. https://doi.org/10.1016/j.solener.2010.08.014
IEC 61724-1:2021, Photovoltaic system performance – Part 1: Monitoring (Edition 2.0). International Electrotechnical Commission. https://webstore.iec.ch/en/publication/65561

分布式光伏的聚合功率预测：从单站到区域的尺度跨越

关键要点

一、为什么不能"逐站相加"

二、空间平滑效应：聚合的物理红利

三、两条技术路线：自下而上 vs 自上而下

四、代表站点与容量缩放（upscaling）

五、把气象输入从"点"升级为"面"

六、在运梦气象 API 上做多点取数

常见问题

分布式光伏为什么不逐站预测再相加？

什么是空间平滑效应？

自下而上和自上而下怎么选？

代表站点缩放（upscaling）的关键是什么？

历史标定和区域预报分别用什么数据源？

结语

参考与延伸阅读

相关阅读