气候

预测具有韧性的气候决策

面向天气风险、能源需求与环境适应的快速仿真工具。

regimes短期天气·能源需求·基础设施
output核心数值与经校准的不确定性区间相搭配
test可靠性图,而非排行榜排名
预测扇形图·24步预测窗口 0.2 0.4 0.6 0.8 1.0 normalised demand +24 h → P25–P75 P10–P90 P5–P95 median
为何重要

预测必须可执行,而不只是准确

一个预测,只有当有人能据此采取行动时才有用。我们的气候工作瞄准那些传统仿真太慢、标准机器学习又太脆弱的场景,并在每一个核心数值旁呈现不确定性,使决策有据可依。

准确

一个用来最小化排行榜指标的点预测,往往不说明它在哪里有把握、在哪里只是在猜测。

可执行

一个核心数值,搭配一条经校准的区间,运营者可据此解读、辩护,并依照成文政策采取行动。

目标场景

在传统仿真太慢、标准机器学习又太脆弱之处

R1

短期天气风险

奖励 在分钟到小时的窗口里,物理仿真太慢、朴素机器学习又太脆弱 惩罚 在出问题之前一直掩盖自身不确定性的点预测
R2

能源需求

奖励 带有经校准尾部的负荷预测,使运营者能够诚实地预留余量 惩罚 把各种状态切换都抹平的扁平核心数值
R3

基础设施规划

奖励 逐个预测窗口的决策,并配以判断失误的代价 惩罚 只有排行榜准确率、却没有决策面
校准

当分位数对齐时,预测才是诚实的

一条覆盖90%结果的90%区间才是经过校准的。我们在交付的每个模型上都报告可靠性图——若它不落在对角线上,就不可执行。

0.00 0.00 0.25 0.25 0.50 0.50 0.75 0.75 1.00 1.00 perfectly calibrated observed quantile predicted quantile → calibrated uncalibrated baseline
对角线即目标。青色线是我们交付的结果;品红虚线则是一个未经校准的基线在同一数据上会呈现的样子。
决策面

仅有一个核心数值,并不构成决策

每一项输出都附带运营者做判断所需的区间。行动一栏是交付内容的一部分,而非事后补充。

信号 核心数值 区间 行动 紧迫度
peak load 8.4 GW 7.9 – 9.0 GW (P10–P90) arm 1.1 GW reserve high
6-hour gust risk 38 % 24 – 54 % (P25–P75) pre-stage crew medium
next-day temp +1.6 °C +0.9 – +2.4 °C shift maintenance low
flood window 14:00–17:00 70 – 92 % within window open sluice gates high

更快、经校准的预测

我们的模型瞄准那些传统仿真太慢、传统机器学习又太脆弱的场景:短期天气风险、能源需求与基础设施规划。

决策,而非仅仅是数字

一个预测,只有当有人能据此采取行动时才有用。我们设计的输出会在核心数值旁呈现不确定性,使决策更易于辩护。

横向贯穿

校准是一种纪律,而非一项指标

我们在此处所施加的同一套可靠性审视,也延伸到我们的评测库与对齐立场中。一个对自身不确定性撒谎的预测,会被当作失败的系统来处理,而不是排行榜上的离群点。