“中间三天”成绩 最对机器学习“胃口”
作者头像
  • 卧龙降妖
  • 2020-03-08 15:56:49 0

天气预报、计算机、麦克风和大屏幕,构成了全国各地每天例行天气会商的标准场景。然而,未来这个场景或将被人工智能改变——部分天气会商活动有望被“微缩”到计算机内部,通过算法和计算,快速完成对数值预报结果的修正。

“尽管现在还不能肯定能否能实现这一目标,但人工智能的迅猛发展让我们看到了这种可能性,我们正在为此不懈努力。”张平文表示。

“三天”难题的契机

大约20年前,张平文参与了中国科学院大气物理研究所的一个项目,使他以研究者的视角,对天气预报产生了持久的兴趣。契机出现在五年前。当时,人工智能尚未广泛普及,但站在计算数学研究前沿的张平文已经预见到,这项技术的发展将对应用数学产生重大影响。其中,他对解决天气预报中最棘手的问题之一——“三天”预报的机会感到乐观。

“三天”指的是0-72小时内的天气预报。熟悉数值天气预报的人都知道,由于数值模式输入的偏差,预报员需要在模式结果的基础上进行“后处理”。这意味着预报员必须一手拿着模式结果,一手拿着观测数据,通过分析和研究,用后者对前者进行人工修正,才能得出一个较为准确的预报结论。这个过程增加了预报员的工作量。

然而,从另一个角度来看,这其实是一个对数学家极具吸引力的问题——“三天”预报非常适合利用人工智能来解决。它不仅涉及计算数学(描述大气运动的物理原理),还涉及统计学(观测数据)。这两者不仅是简单的结合,而是深度的融合。

张平文认为,“三天”预报中的人工修正过程可以通过机器学习实现,甚至在某些情况下,机器学习可能会做得更好。

MOS与机器学习的结合

张平文并不是第一个提出这一想法的人。早在20年前,就有国外学者提出利用计算机处理“三天”预报修正问题。科学家们尝试了多种方法,但至今大多遇到了瓶颈。其中最著名且应用最广泛的方法是模型输出统计(MOS)方法。

MOS中的“S”代表统计,它通过使用模型预测变量和历史观测数据作为预测因子,运用多个线性回归来改进特定地点的预报。在2002年冬季奥运会期间,MOS表现优异,证明其与人工预报同样精确甚至更为高效。

然而,MOS仍然无法彻底解决“三天”预报问题。它只考虑单个空间点的校正,忽略了网格的时间和空间结构。这与过去的计算能力和数据获取手段的限制有关,也与其算法本身的局限性相关。

如今,当MOS遇到机器学习,后者已经具备了不同的条件和环境——计算能力显著提升,数据获取成本低廉且实时性强,更重要的是,机器学习本身也在迅猛发展。“单纯从算法角度看,虽然机器学习仍有许多待解决的问题,但它已经在统计基础上取得了巨大进步。”张平文表示,机器学习不仅吸收了统计学知识,还融合了优化和计算数学的知识,将数值模式(物理机制)和机器学习(数据驱动)紧密结合,突破了MOS预报的局限性,因此它在解决问题方面更加广泛和精细。

为天气预报定制算法

路径已经明确,但实现这一目标并不容易。

张平文认为,对于专业人士而言,机器学习算法设计本身并不难,真正的难点在于为天气预报量身定制一套专属算法。

在大数据领域,最重要的概念之一是“特征”。例如,在数值天气预报中,可利用的数据量非常庞大,但计算能力有限,不可能处理所有数据;另一方面,有些数据即使被处理,也可能对改善预报结果无益。

为解决这个问题,科学家需要在数据中筛选出最重要的部分,然后通过压缩这些关键数据,完成计算。这个过程称为特征工程。

同样,在使用机器学习解决“三天”预报问题时,特征工程也是一个不可忽视的环节。

“实际上,在几乎所有大数据领域,特征工程都非常重要,但针对具体问题时,方法会有所不同。具体到天气预报,需要对这一领域的知识有深入了解,整理好数据结构,写好数据特征,才能真正取得成效。我觉得这是最难的部分。”张平文表示。

因此,张平文团队设定了短期目标来验证效果——解决2022年北京冬奥会赛场天气预报难题。

一个绝佳的“试金石”

为什么选择冬奥会赛场天气预报作为“试金石”?

2022年冬奥会赛场分布在延庆和张家口的多个山区。山区的天气预报非常困难,因为数值模型计算出的信息是低频的,这源于数值模型网格的尺度较大,即便从最初的上百公里逐渐缩小,目前也只能达到几公里左右。在山区,几百米甚至几十米的距离内,天气状况可能大相径庭。一方面,低频信息无法预测这种变化;另一方面,预报员必须将其报告得非常准确,因为冬奥会很多赛事对天气有严格要求。增加观测点数量是一种常见做法,但这也会带来新的问题。

从科学角度看,解决这一困境与解决“三天”预报问题的方向是一致的。

在服务冬奥会的共同目标下,北京大学、中国科学院大气物理研究所和北京市气象局联合成立了气候大数据实验室。三机构各有专长,分别负责模型和算法设计、数据特征工程以及数据提供和测试,张平文担任实验室主任并牵头推进。目前,第一阶段研究成果已发表在《大气科学进展》上,结果表明,机器学习的结果比传统的MOS方法有了显著提高。

“从数据上看,与传统的‘1+1’组合(数值模型加MOS)相比,机器学习提升了约10%,这非常不容易。”张平文表示。

迈出了第一步,未来还有更大的提升空间。张平文介绍,第一阶段研究中只使用了一个气象站的数据,只包含时间维度的高频信息,没有空间维度的高频信息。目前,张平文团队正在研究多个站点的数据,这将填补之前缺失的空间维度高频信息。

“长远来看,我们希望开发出一套智能会商系统,最终实现智能化天气预报会商,让预报员从‘三天’预报中的磋商和研究中解脱出来。”张平文表示,“这条路依然艰难,但我们看到了可能性。”

    本文来源:图灵汇
责任编辑: : 卧龙降妖
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
胃口中间机器成绩学习
    下一篇