2022/3/30 9:18:19 阅读:292 发布者:chichi77
题目:Global patterns of potential future plant diversity hidden in soil seed banks
期刊:Nature Communications
DOI:10.1038/s41467-021-27379-1
时间:2021年12月02日
链接:https://doi.org/10.1038/s41467-021-27379-1
写在前面
相较于对地上植被全球分布特征的大量研究,针对“地下植被群落—土壤种子库—全球分布”的研究较少。近期植物所黄振英老师等人发表了类似研究。研究共收集了15698条数据。随机森林分析发现绝对纬度是土壤种子库多样性的重要预测因子。气候与土壤是土壤种子库多样性的主要决定因素,净初级生产力与土壤特征是土壤种子库密度的主要预测因子。全球绘图清晰地揭示了土壤种子库的空间格局。例如,低纬度生物区系较低的密度可能导致其对大型扰动的抵抗力较低。本文为环境条件如何塑造土壤种子库的分布提供了量化证据。
笔者也曾做过一些关于种子库的工作,甚至也思考过未来能否做一个关于全球尺度上土壤种子库分布的研究。在详细阅读了黄老师等人的文章后,笔者之前的一些疑惑也被解开。比如,不同来源的种子库数据如何进行标准化、如何利用随机森林方法分析大数据等问题。为此,本文将主要从数据分析思路和方法上对这篇文章进行解读。
正文
本研究的主要目的是分析全球尺度上土壤种子库组成的分布格局及其主要驱动因素。物种丰富度(species richness)和密度(density)是衡量土壤种子库组成的两个基本属性。对此,研究者首先需要搜集所有已发表的涉及土壤种子库丰富度和密度的数据,提取其关键信息,然后对数据进行全球尺度上的二次分析。通过对关键词等的检索,研究者最后确定了1502篇相关的原始研究(图1),整合出超过15000条数据。
图1. 本文收集到的土壤种子库研究点分布。(a)丰富度;(b)密度。
相较于常规的生态学数据分析任务,本研究的数据量可以算得上是大数据了。传统的由理论驱动的数据分析方法,如线性回归分析等,较难应用在这样的大数据任务中。换句话说,面对这样的任务,传统统计分析方法很难得出一个“比较好看”的结果。对此,研究者选择了机器学习中的随机森林方法进行分析。依据笔者目前的理解,这是较为可行和合适的分析方法。
下面将主要介绍本研究的数据分析中最为重要的两个部分:1)数据前处理(标准化);2)利用随机森林方法对大数据进行分析的逻辑。
1. 数据的前处理: 如何对复杂数据进行标准化
本研究中,不同来源的种子库数据在采样时间、采样面积和采样深度上都有差异。比如,通常在生长季之后,种子成熟并补充进了种子库,此时采样得出的结果可能要高于其他季节。再比如,采样的面积越大则可能调查到更多的物种丰富度信息,而采样深度越深则更可能得到在单位面积上更大的种子库密度数据。这说明,将不同研究的数据直接进行整合分析将得出不准确的结论。因此,需要将不同采样时间、采样面积和采样深度下的数据进行一定的标准化。当然,这种标准化也可以说是不得已而为之,因此,标准化后的数据在精确度方面存在一定的损失也是在所难免。
具体来说,针对采样时间的不同,研究者首先明确了不同来源数据的采样季节,并假定冬季采样种子库最大。然后,计算出其他三个季节与冬季采样种子库的比率,进而对不同采样季节的数据根据这个比率进行折算,最后将所有数据标准化为冬季采样数据。针对采样面积的不同,研究者利用种-面积曲线(species-area curve)将种子库丰富度数据折算成相同面积下的数据。针对采样深度的不同,研究者通过线性回归方法将所有种子库数据折算成0-5 cm土壤深度的数据。
当然,研究者实际对数据进行标准化和前处理的过程更加复杂,以上所述的只是核心思想。总的来说,对于这样大尺度的整合分析,如何统筹解决不同来源的数据间的差异性是难点。在meta分析中可以构建处理与对照间的效应量(effect size)来规避这一问题,但对于本研究这种类型的整合分析来说,并没有处理因素存在,因此数据标准化和前处理是难以回避的。
在完成这一步之后,面对超过15000已被标准化的数据,研究者又需要思考应当采用哪种方法来分析这样的“大数据”。
2. 随机森林分析:如何分析大数据
在本研究中,标准化之后的种子库丰富度和密度属于响应变量。此时,研究者一方面想要基于这些数据对种子库的全球分布格局进行模拟并绘制全球分布地图;另一方面则是想要分析环境因子、植被特征等31个预测变量对土壤种子库分布的驱动特征。对此,研究者选择了随机森林这一机器学习方法。如前所述,在笔者看来之所以没有使用回归分析等方法,主要原因是数据量大、数据的变异也大,此时很难通过简单的模型得到相对确定的结论。而机器学习方法主要是由数据驱动,可以处理大数据,同时,对其结果的解释还更加灵活。
具体分析过程包括首先筛选出重要性较高的某些预测变量(图2),然后对这些被筛选出的、相对重要的变量与响应变量进行单独的分析(图3)。这部分的分析都是基于随机森林或者机器学习方法框架,笔者了解相对较浅,在此不做更多阐述。但需要注意一点,随机森林等机器学习方法通常不涉及传统统计学中的假设检验,其核心逻辑是由数据驱动建模过程。此外,面对图3中这类随机森林分析出的预测变量与响应变量的复杂关系,我们该如何解释?以笔者目前的粗浅理解,对这种分析结果的解释需要研究者认真考量。这类分析通常只能描述其大概趋势,同时对结果的解释具有一定的随意性。当然,根本原因还是由数据本身的复杂性导致的,研究者要做的是需要根据具体情况“量体裁衣”。
图2. 基于随机森林得出的31个预测变量的相对重要性。(a)丰富度;(b)密度。
图3. 利用随机森林方法对重要性较高的预测变量进行单独分析。(a)丰富度;(b)密度。
最后,在分析了全球种子库分布与预测变量的关系后,研究者又对全球种子库分布的格局进行了模拟,绘制了全球种子库分布地图(图4)。根据材料方法部分的描述推测,图4应当也是利用随机森林方法模拟出来的,不过笔者目前对此逻辑还不甚了解。
图4. 土壤种子库的全球分布格局。(a)丰富度;(b)密度。
如有侵权,请联系本站删除!