Nat. Food丨在没有基本数据的情况下，机器学习可以指导粮食安全工作

2023/12/19 15:44:26　阅读：156　发布者：

论文内容

研究背景：

过去几年中，研究人员已经开始调查非传统数据和新的计算方法的潜力，以便在没有初级数据的情况下估计脆弱性和社会经济特征。在这些研究中，手机数据，卫星图像，两者的结合，移动货币交易记录，维基百科的文章或推文、社交媒体广告数据与最先进的机器学习方法相结合，为几个撒哈拉以南非洲国家以及南亚和东南亚国家提供了以不同空间分辨率的可靠贫困估计。在这项工作中，我们展示了类似的方法和数据可以用来解决影响全球人口的另一种突出形式的脆弱性:粮食不安全。2019年，据估计，营养不良人口为6.5亿，其中55个国家和地区有1.35亿人处于严重粮食不安全状态。受2019冠状病毒病大流行的影响，这一数字大幅增加，据报告，2020年至少有2.8亿人处于严重粮食不安全状态，比前一年增加了一倍多。

粮食不安全是一个多维度的概念，涵盖了粮食的可获得性、利用机会和稳定性。制定了多个指标来表征家庭粮食不安全水平，每个指标都反映了不同的方面。在本研究中，我们关注食物消费得分(FCS)和降低的应对策略指数(rCSI)，前者反映了饮食摄入量的数量和多样性，后者反映了食物获取受限导致应对行为的后果。我们表明，当初级数据不可用时，这两个指标可以通过机器学习算法从次级数据中估计出来。这为全球范围内的粮食安全近实时临近预报打开了大门，使决策者能够就与饥饿作斗争的政策和规划作出更及时和知情的决定。

在本研究中，我们将重点放在粮食安全临近预测上，提出了一种方法，使我们能够在没有初级数据的情况下，在任何给定时间，从次级数据中估计粮食消费不足人群的当前流行程度，以及在次国家层面上使用基于粮食的危机或危机以上应对方式的人群的流行程度。

研究内容：

利用历史测量的水平和辅助数据进行预测

本研究的主要假设是，在无法获得初级数据的情况下，可以通过二级信息，特别是粮食不安全的主要驱动因素，来估计粮食消费不足和基于粮食的危机或以上应对水平。

对于每个目标变量，在定义和选择了方法中描述的输入变量之后，我们使用梯度增强回归树(25)拟合Nb = 100个bootstrapped模型，使用第一个(在时间方面)大约85%的历史数据，如方法中进一步详述的。所提出的模型能够对剩余约15%的样本外数据(即过去两个月的数据)进行解释，在每个国家的食物消费不足人群细分中，流行率变异的81%和使用危机或危机以上食物的人群流行率变异的73%，平均绝对误差分别为0.07和0.08。图1(顶部图)显示了测试集中每个观察的预测和实际流行率。前者计算为Nb bootstrap模型预测值的中位数。

仅使用辅助数据进行预测。

为了测试这些模型的表现在多大程度上是由人均国内生产总值和营养不良发生率等变量造成的，这些变量是一国社会经济发展的有力代表，我们创建了一套基线模型，分别使用这些单独变量和综合变量。结果表明，仅这些变量就可以解释66%的食物消费差异和39%的食物应对方式差异。这意味着这些变量，解释了这两个指标变化的最大部分;然而，由于它们是国家一级的年度数据，它们可以作为基本基线，但不能帮助预测反映粮食不安全的地方和快速变化的动态，而这正是本研究的目标。最后，考虑到最近在饥荒预警系统中使用极端气候数据方面的进展，我们还创建了一个额外的基线，其中只包括与天气有关的变量。结果表明，这些模型只能解释14%的食物消费变化和37%的基于食物的应对变化，因此不能单独使用。

近乎实时的即时广播

为了测试建议模型在捕捉当前形势方面的有效性，我们将世界粮食计划署的近实时监测系统在2021年8月1日至9月30日期间测量的粮食消费不足和危机或以上粮食应对趋势，与建议模型预测的相应流行率进行了比较，根据2021年8月1日之前收集的数据进行了训练和测试。对于那些在该国启动近实时监测系统之前进行的先前评估的流行率可用的地区，我们使用包含这一信息的模型作为自变量;对于无法实现这一点的领域，我们求助于仅依赖辅助数据的模型。国家层面的食物消费不足结果如图2所示。红线表示世界粮食计划署的近实时监测系统所测量的目标患病率，蓝线表示预测患病率，绿虚线表示以前评估的患病率(如有)。首先在一级行政单位的空间分辨率上获得所有流行水平，然后汇总得到全国趋势。次国家趋势见补充图2-16。在大多数情况下，近实时监测系统所测量的流行率至少在部分趋势的预测区间内(或在低于5%的合理距离内)。在实际数据线距离预测区间较远的情况下，我们可以观察到，预测的趋势明显地更接近于观察到的趋势，而不是以前评估的流行率(例如，马拉维和赞比亚)。在其余的情况下，在没有先前评估的情况下(即索马里)，预测和观察到的趋势均属于世界粮食计划署27所定义的同一严重级别(>40%)。在图3中，除了刚果和索马里以外，在危机或以上粮食应对方面也可以观察到类似的结果(补充图17-31提供了相应的次国家趋势)。

预测值和预测趋势变化的解释

使用瀑布图方法解释了2021年8月1日索马里的两个预测指标（图5）。从底部开始，将每个变量的贡献求和到基线E(f(x))，最终得到预测值f(x)。变量按重要性排序(根据其贡献的绝对值)，并用贡献的符号表示:相对于基线，红色表示增加，蓝色表示减少。在图5a中，决定马里粮食消费不足人群高发病率(0.52)的最重要变量是营养不良发生率(>5%)，以及人均国内生产总值低(778.5美元)。相反，在之前的评估中测量的流行率值越低(0.20)，预测值就越低，类似于图5b中使用危机或危机以上食物应对方式的人群的流行率。2021年8月15日至9月15日期间，印度尼西亚预计的粮食消费情况如何恶化（图6）。我们的方法能够确定，决定这一变化的最重要的变量是食品通胀的变化，如底部的表格所示。

研究结论：

预估有多少人处于粮食不安全状态，对于各国政府和人道主义组织就相关政策和规划作出知情和及时的决定具有根本重要性。在本研究中，我们提出了一种机器学习方法来预测食物消费不足的人群以及在没有基本数据的情况下使用危机或危机以上食物应对的人群的流行程度。利用独特的全球数据集，所提出的模型可以解释高达81%的食物消费不足的变化，以及高达73%的危机或高于食物的应对水平的变化。我们还表明，所提出的模型可以近实时地对粮食安全状况进行短时预测，并提出了一种方法来识别哪些变量在驱动预测趋势中观察到的变化——这是使预测能够为决策者所用的关键。

期刊信息

期刊：Nature Food

影响因子（2022）：23.2

中科院分区：环境科学与生态学一区Top

转自：“农科学术圈”微信公众号

如有侵权，请联系本站删除！

投稿问答最小化 关闭

Nat. Food丨在没有基本数据的情况下，机器学习可以指导粮食安全工作

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化 关闭

Nat. Food丨在没有基本数据的情况下，机器学习可以指导粮食安全工作

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化关闭