首页>科研动态

实验室研究团队在全球尺度遥感土壤水分产品时空填补方法方面取得新进展

作者:来源:发布时间:2025-02-21
       微波遥感对土壤的介电特性非常敏感,具备全天时全天候工作能力,为大尺度土壤水分监测提供了有效手段。国际上已发布了多种微波土壤水分产品。这些产品凭借其全球覆盖能力、高时间分辨率等特性,在干旱监测和滑坡预警等众多应用展现出巨大潜力。
       然而,由于微波土壤水分产品受到卫星轨道约束和一些干扰因素(如射频干扰、复杂地形)的影响,导致其存在数据缺失,严重阻碍了这些产品的应用。因此,填补缺失的土壤水分值对于生成连续时间序列的土壤水分信息具有重要价值。以往研究大多局限于采用单一手段在特定的区域尺度上对土壤水分产品进行填补,缺少对全球尺度不同填补方法优劣的比较与验证以及对填补精度影响因素的调查与分析。
       中国科学院空天信息创新研究院(空天院)遥感与数字地球全国重点实验室研究员曾江源研究团队就传统偏差校正方法与机器学习方法在填补全球尺度SMAP土壤水分产品缺失数据的有效性、全球实测数据验证填补后的土壤水分相较于原始SMAP数据的准确性、以及环境变量对土壤水分数据填补精度的影响三个方面展开研究。以发展适用不同场景的填补方法,并为利用环境变量提升基于机器学习如随机森林(RF)方法填补后的SMAP产品精度提供依据。
基于多种方法填补全球SMAP土壤水分产品精度结果
       传统偏差校正方法包括线性回归、线性重缩、最大最小校正、累积分布函数(CDF)匹配方法通常用于消除卫星产品与站点观测之间因空间尺度不匹配导致的可能的偏差,从而在卫星土壤水分产品精度验证中得到了广泛应用。实际上,这些方法也可以通过利用卫星土壤水分和参考数据建立的关系模型,或者根据已有参考数据的范围和分布特征估计并填补土壤水分数据中的缺失值。这些方法的优点在于数学关系式明确,计算简单高效。然而,鲜有研究探索这些方法在土壤水分产品填补中的有效性与局限性。另一方面,机器学习方法由于其强大的学习和处理数据间非线性关系的能力,近年来也被用于土壤水分产品的填补。环境辅助数据(如植被指数、地表类型、气候类型等)常被引入用于增强机器学习方法的估算能力。然而,目前仍缺乏研究定量分析这些方法在加入或未加入环境辅助数据情况下填补卫星土壤水分缺失值的差异以及这些环境参量对填补精度的影响。
       因此,研究团队基于2016-2019年的SMAP产品与时空无缝的再分析产品ERA5,首先比较了四种常用机器学习方法的填补能力。在此基础上,进一步分析了机器学习中表现最优的RF方法与五种传统偏差校正方法共六种方法在仅使用ERA5数据的情况下,在全球范围内填补SMAP土壤水分产品的有效性。填补后的SMAP数据与原始SMAP数据(假设这些格网SMAP无值进行填补)在验证阶段的均方根误差(RMSE)如图1。最大最小校正、CDF匹配、线性重缩、一元一次和一元二次线性方程以及RF方法填补时对应阶段的全球填补精度分布图精度由低逐渐变高,但空间分布情况相似。同时发现RF方法在训练阶段精度明显优于其他方法,但验证阶段精度下降明显,需进一步提升其在验证阶段的精度。
图1 验证阶段(2018-2019年)基于ERA5利用不同方法填补SMAP土壤水分数据相对于原始SMAP数据的RMSE全球分布图:(a)一元一次线性回归,(b)一元二次线性回归,(c)线性重缩,(d)最大最小校正,(e) CDF匹配,(f) RF方法。
       为了进一步提高RF方法在验证阶段的精度和稳定性,研究基于RF方法并结合12种与土壤水分相关的辅助数据,包括静态数据(砂土、壤土和粘土比例,气候类型,地表类型及其异质性,DEM及其异质性)、动态数据(NDVI)、时空信息数据(经度、纬度、DOY),旨在通过多源信息的融合提升机器学习方法的预测能力和泛化性能。结果表明加入辅助数据后填补的土壤水分结果误差明显小于未加入辅助数据结果,与原始值的相关性得到了显著提高,明显提升RF填补效果(表1)。
表1 基于RF方法在验证阶段对比加入辅助数据前后的填补数据与原始SMAP数据的精度表
多种填补方法在全球尺度的对比分析
       基于六种方法填补后的SMAP土壤水分数据相对于原始SMAP数据在验证阶段的RMSE和R指标,进一步分析方法中的最低RMSE和最高相关系数(图2),以探索各种方法在空间分布上的差异。在仅使用ERA5数据的情况下,训练阶段表现最好的填补方法是RF,误差最小且与原始值的相关性最高,但在验证阶段的精度下降比较明显。表现最差的是最大最小校正以及CDF匹配方法,在训练阶段就表现出较大的误差,验证阶段在训练阶段的基础上误差略微增加。
图2 验证阶段(2018-2019年)基于ERA5数据利用不同方法填补SMAP土壤水分数据相对于原始SMAP数据的最低RMSE(左图)和最高R(右图)的全球分布图。ULR、UQR、LR、MMC、CDF和RF分别表示一元一次线性回归、一元二次线性回归、线性重缩、最大最小校正、CDF匹配和RF。
       以2018年6月1日和9月1日为例,展示使用表现最好的RF方法进行SMAP土壤水分填补前后的全球分布(图3)。结果显示SMAP缺值区域已被成功填补,全球的土壤水分空间分布合理,进一步证明了填补方法的有效性。
图3 基于表现最佳的RF方法分别填补2018年6月1日(第一列)和2018年9月1日(第二列)两天的缺值前后SMAP数据(m3m-3)在全球的分布情况:(a)和(b)为填补前结果,(c)和(d)为填补后结果。
基于全球实测数据评估填补后的SMAP土壤水分
       为了检验加入辅助数据的RF方法在填补SMAP数据上的准确性,研究利用覆盖全球不同地表状况的1071个站点的实测数据对填补结果进行了验证,并将其与原始数据的精度进行对比(表2)。结果表明,得益于论文发展的填补方法的有效性,填补后的SMAP数据在整体精度上甚至优于原始SMAP数据,其有更低的ubRMSE和RMSE,以及更高的R值。此外,尽管ERA5表现出更高的R值,但填补后SMAP数据相比ERA5具有更高的绝对精度,可以很好地补充ERA5,从而更好地服务于各类应用。
表2 基于实测数据评估2018至2019年期间原始SMAP、填补缺值后的SMAP(使用包含辅助数据的RF方法)以及ERA5土壤水分数据的误差指标。
SMAP数据填补精度的影响因素分析
       为了进一步了解RF方法填补SMAP结果精度的主要影响因素,研究分析在9种不同的环境变量包括NDVI、土壤质地(砂土、壤土和粘土含量)、气候类型(Global Aridity Index)、地表类型及其异质性(GSI)、DEM及其异质性(SDE)下SMAP填补精度的变化,如图4所示。
       结果显示,在环境变量中,不同的NDVI、地表类型及其异质性和气候类型对填补精度的影响较大且随着植被覆盖度、土壤水分(对应气候类型从干到湿)和地表类型异质性增加,填补精度会有所下降。砂土含量越高RMSE越低,粘土含量对填补精度的影响较小,但在含量较高时精度有所下降,壤土对填补精度的影响较小。当DEM较低时,RMSE达到最大值,并随着DEM的增加而减小;SDE对填补精度的影响较小。
图4 加入辅助数据的RF方法填补精度受环境因素的影响结果:(a) NDVI,(b) 地表类型异质性,(c) 气候类型,(d) 砂土,(e) 壤土,(f) 粘土,(g) DEM,(h) 地表类型,(i) 高程异质性。红色圆形代表RMSE的平均值,误差棒代表RMSE值的标准偏差。
 
       上述研究成果“Global-scale gap filling of satellite soil moisture products: methods and validation”发表于水文学领域权威期刊《Journal of Hydrology》(中国科学院一区)。空天院硕士生张春林为第一作者,研究员曾江源为通讯作者。研究工作得到国家自然科学优秀青年科学基金、中国科学院青年创新促进会优秀会员等项目资助。
 
附件下载