躺在草地上的孩子们可能会在云层中寻找图像——也许这里是一只毛茸茸的兔子,那里是一条火龙。通常情况下,大气科学家们的做法恰恰相反——他们搜索云层的数据图像,作为了解地球系统研究的一部分。由于手工逐像素标记数据图像耗时较长,因此研究人员依赖于云检测算法等自动处理技术。但是算法的输出并不像科学家希望的那样精确。
最近,美国能源部(Department of Energy)西北太平洋国家实验室(Pacific Northwest National Laboratory)的研究人员联手发现,与目前基于物理的算法相比,深度学习(deep learning)——机器学习的一个独特子集——能否更好地识别激光雷达数据中的云。答案是肯定的。新模型更接近科学家们得出的答案,但只是一小部分时间。
激光雷达是一种发射脉冲激光并通过云滴或气溶胶收集散射回来的返回信号的遥感仪器。这个返回信号提供了关于大气特征高度和垂直结构的信息,例如云或烟雾层。这些来自地面雷达的数据是全球预报的重要组成部分。地球科学家唐娜·弗林注意到,在某些情况下,激光雷达图像中云的算法检测到的与她的专家眼睛看到的并不匹配。这些算法往往高估了云的边界。“目前的算法使用粗线条识别云,”该项目的联合首席研究员弗林说。“我们需要更准确地确定云的真正顶部和底部,并区分多个云层。”
直到最近,计算能力还将人工神经网络(一种深度学习模型)限制在少数计算层。现在,随着超级计算集群带来的计算能力的增强,研究人员可以在一系列层中使用更多的计算——每一层都是从上一层构建的。人工神经网络的层次越多,深度学习网络就越强大。
找出这些计算是模型训练的一部分。首先,研究人员需要正确标记的激光雷达数据图像,或“地面真相”数据,用于训练和测试模型。因此,弗林花了很长时间逐个像素手工标记图像:云还是没有云。她的眼睛可以分辨云的边界和云与气溶胶层。她花了40个小时——相当于一周的工作时间——来标注在美国能源部位于俄克拉荷马州的大气辐射测量用户设施——南方大平原大气观测站(Southern Great Plains atmospheric observatory)收集的大约100天的激光雷达数据。
考虑到手工标记过程的时间和劳动强度,PNNL的计算科学家兼联合首席研究员埃罗尔·克伦威尔(Erol Cromwell)使用的学习方法只需要很少的基础事实数据。模型通过自我反馈进行学习。克伦威尔解释说,它将自己的性能与手工标记的结果进行比较,并相应地调整计算。它循环执行这些步骤,每次都进行改进。克伦威尔将于明年1月在电气和电子工程师学会冬季计算机视觉应用会议上展示该小组的研究成果。
通过训练,深度学习模型优于现有算法。该模型的精度几乎是人类专家的两倍,而且更接近人类专家的发现——但只是在很短的时间内。接下来的步骤是评估模型在不同地点和不同季节收集的激光雷达数据的性能。对阿拉斯加Oliktok Point的ARM天文台的数据进行的初步测试是有希望的。克伦威尔说:“深度学习模式的一个优点是转移学习。”“我们可以用Oliktok的数据对模型进行进一步的训练,使其性能更加稳健。”“减少全球模型预测中的不确定性来源对大气科学界尤其重要,”弗林说。“随着精确度的提高,深度学习增强了我们的信心。”此外,它还能让我们有更多的时间在外面看真正的云!”
视频:https://www.youtube.com/watch?time_continue=2&v=VOWBSVVXuo0
领取专属 10元无门槛券
私享最新 技术干货