导读
生姜 (Zingiber officinale Roscoe)是一种世界范围内的高价值食品和草药。生姜的品质往往与其产地有关。本研究通过稳定同位素、多元素、代谢物等综合研究,实现生姜来源溯源。化学计量学表明,生姜样品可以初步分离,4种同位素 (δ13C、δ2H、δ18O和δ34S),12种矿物元素 (铷(Rb)、锰(Mn)、钒(V)、钠(Na)、钐(Sm)、钾K、镓(Ga)、镉(Cd)、铝(Al)、钛(Ti)、镁(Mg)和锂(Li)),1种生物元素 (%C)和143种代谢物是鉴别的重要变量。在此基础上,基于VIP特征的融合数据集的分类准确率最高,K近邻的分类准确率为98%,支持向量机和随机森林的分类准确率为100%。结果表明,同位素指纹图谱、元素指纹图谱和代谢指纹图谱是判别生姜地理来源的有效指标。
论文ID
原名:Combining stable isotope, multielement and untargeted metabolomics with chemometrics to discriminate the geographical origins of ginger (Zingiber officinale Roscoe)
译名:将稳定同位素、多元素和非靶向代谢组学与化学计量学相结合,以区分生姜 (Zingiber officinale Roscoe) 的地理来源
期刊:Food Chemistry
IF:8.8
发表时间:2023.04
通讯作者:段金廒,郭盛
通讯作者单位:南京中医药大学
实验设计
实验结果
研究人员于2021年9月至10月在中国主要生姜产区的当地农田采集了155份新鲜生姜样本。每个生姜样本的采样地点和详细信息 (包括地理来源、经度、纬度和海拔)分别见图1和表1S。具体而言,所有生姜样本均采自中国四川省(SC, n = 25)、江西省 (JX, n = 20)、云南省(YN, n = 25)、湖北省 (HB, n = 20)、湖南省(HuN, n = 20)、山东省 (SD, n = 25)和河南省(HeN, n = 20)。加工姜时,将所有样品洗净、切片,在电热恒温干燥箱中55 ℃恒温干燥24 h。然后,将干燥后的生姜样品磨成粉末,通过50目 (355 μm ± 13 μm)的筛子进行实验。
图1 不同地区生姜样本的地理位置。(SD,山东;YN,云南;SC,四川;HB,湖北;JX,江西;HeN,河南;HuN,湖南)。
1. 稳定同位素和多元素分析
1.1 不同地区姜的同位素比值
不同地区生姜稳定同位素 (δ13C、δ15N、δ34S、δ2H、δ18O)的平均值列于表2S。所有生姜样品的同位素比率分布趋势在箱形图中可视化(图2)。从上到下,这些箱形图包含异常值、最大值、第一四分位数(Q1)、平均值、第三四分位数 (Q3)和最小值。
图2 中国7个地区生姜5种稳定同位素(δ13C、δ15N、δ34S、δ2H和δ18O)的箱形图 (A-E);稳定同位素与地理信息的Pearson相关分析 (F);不同地理来源 (G),不同字母 (a-d)的生姜中C、N、S值 (%)的直方图表明差异有统计学意义(p < 0.05)。
如图2A和表2S所示,不同产地生姜的δ13C平均值在-28.29‰ ~ -25.99‰之间,其中YN和HB地区的δ13C比值最高,HB地区的δ13C比值最低。总体而言,不同来源姜的δ13C平均值由高到低依次为YN (-25.99‰)、HeN (-26.25‰)、SD (-26.68‰)、HuN (-27.64‰)、SC (-27.69‰)、JX (-27.96‰)和HB (-28.29‰)。多重比较分析表明,YN地区生姜的δ13C比值与其他地区差异显著 (p < 0.05), HuN、SC、JX和HB之间差异不显著 (p > 0.05)。通常,δ13C比值受到光合作用过程中CO2分馏的强烈影响,不同类型的植物遵循不同的光代谢途径。本研究认为生姜属于C3型植物,δ13C比值在-35‰ ~ -22‰之间。Pearson相关分析显示,δ13C比值与海拔高度相关 (p < 0.01),相关系数为0.242 (图2F)。此外,温度、光照和湿度可能是导致生姜δ13C比值区域差异的重要因素。
δ15N结果显示,河南姜的平均值最高,为4.81‰,河南姜的平均值最低,为2.40‰ (表2S)。SC、HB和SD姜样品δ15N比值的同位素范围相似 (图2B),但HB姜的平均δ15N值 (3.98‰)显著大于SC和SD姜 (2.43‰和2.68‰)。多重比较分析表明,黄姜的δ15N值与SC、SD、JX和HeN区差异显著 (p < 0.05)。通常,肥料类型和土壤化学肥力被认为是影响δ15N值的重要因素,它们往往因不同的耕作方式而异。化学合成肥料的δ15N比值分布在-3.9‰ ~ +5.7‰之间,而有机肥的δ15N比值分布在+2.5‰ ~ +45.2‰之间。根据本研究,我们推测HeN和SC姜在很大程度上使用了化学合成肥料,而其余来源可能使用单一肥料或混合肥料。虽然δ15N比值与纬度和海拔高度相关 (p < 0.01) (图2F),但生姜不同地区的差异更多地归因于耕作方式。
生姜的δ34S值在不同区域差异较大 (图2C和表2S),表现为YN、HuN和SC的δ34S值均值较高 (分别为10.81‰、9.25‰和8.10‰),HeN、SD、HB和JX的δ34S值均值较低 (分别为5.65‰、4.61‰、3.95‰和2.22‰)。海拔是影响生姜δ34S值的最重要因素,相关系数为0.511 (图2F)。此外,生姜δ34S值的差异可能受地质特征、大气硫化物、大气沉淀硫化物和海洋硫酸盐的影响。
对于H和O同位素,地理位置和季节气候变化是影响不同成因δ2H和δ18O比值的主要因素。SD生姜的平均δ2H值最高,为-50.08‰ (表2S),这可能与该地区的高纬度有关。YN和SC的平均δ2H比值分别为-88.84‰和-83.98‰,负δ2H比值大于其他地区。多因素统计分析显示,生姜的δ2H值在SC、SD、HeN、JX和YN区域差异显著 (p < 0.05),而HB和HuN的δ2H值相似,约为-73‰ (图2D)。通常,δ2H值与叶片气孔蒸散速率呈正相关。在我们的研究中,SD和HeN位于较凉爽和干燥的地区,由于湿度较低,叶片气孔蒸腾速率较高,因此δ2H值比YN, GZ和HB的地区更大。此外,δ2H比值与经度、纬度和海拔高度三个地理因子之间存在较强的相关性 (p < 0.01),相关系数分别为0.858、0.701和-0.737 (图2F)。7个产区生姜的平均δ18O值为20.18‰ ~ 25.64‰ (表2S)。HeN和SD的δ18O比值分别为25.64‰和25.20‰,高于其他区域(图2E)。JX、HuN和YN样品的平均δ18O值分别为22.57‰、21.68‰和21.23‰,略高于SC (20.68‰)和HB (20.18‰)。δ18O与δ2H的相关性与地理因子相似 (p < 0.01),经度系数为0.652,纬度系数为0.611,海拔系数为-0.467。此外,靠近海洋的SD和HeN样品δ2H和δ18O值最高。结果表明,δ2H和δ18O比值随离海距离的增加而减小,这在其他农产品中也得到了验证。总体而言,7个产区生姜δ2H和δ18O比值的地理分布差异显著,说明H和O同位素是生姜原产地溯源的重要指标。
1.2 不同地区姜的元素含量
通过对生姜矿物元素、生物元素等多种元素的分析,我们探讨了生姜来源溯源的可行性。表1显示了中国7个地区生姜中26种矿物元素的平均浓度。单质钾含量最高,平均浓度为15896.39 ~ 43280.82 mg/kg (SD)。作为植物生长必需元素,K在我们的研究中更有效地富集在生姜中,这与先前研究的结果相当。其余微量元素中,SD区Mg和P的平均含量最高,分别为3354.91 mg/kg和3583.97 mg/kg,而HuN区Ca和Na的平均含量最高,分别为1231.80 mg/kg和512.22 mg/kg。5种常量元素在云南省的平均含量最低。从区域分布上看,西南地区 (YN和SC省)生姜的5种常量元素含量显著低于北方地区 (SD、HeN和HB省)。微量元素以Mn含量最高,其次为Al、Fe、Zn、Ba、Ti、Rb、Sr、Cu、Cr、Ca、Pb、V、Cd、Co、Li、Mo、As、Y、Gd、Sm。多重比较分析表明,除Cr元素外,其余25种元素在7种姜中含量差异显著 (p< 0.05)。不同产地姜的元素差异可归因于不同的生态因素和农业生产方式。土壤成分是影响生姜根茎中元素吸收的重要因素,主要与土壤的原始基岩和矿质肥料有关。此外,气候、降水、灌溉水以及植物根系与土壤微生物的相互作用可能会导致生姜元素含量的区域差异。因此,矿质元素的浓度对生姜的地理鉴定具有重要意义。
表1 不同产地生姜中26种元素的平均值(mg/kg)
注: 同一行不同字母 (a-d)表示差异有统计学意义 (p < 0.05,多重比较检验)。数据以平均值±SD表示。nd表示未检测到内容。不同区域包括四川省 (SC),江西省 (JX),云南省(YN),湖北省 (HB),山东省 (SD),河南省 (HeN)和湖南省 (HuN)。
生姜生物元素 (C、N、S)的平均含量见图2G和表3S。C值的百分比显著高于N和S值。HuN的生姜%C平均值最高,为41.20%,其次是SC、JX、HB、YN、HeN和SD。SD组和HB组的姜%N含量较高,分别为1.94%和1.93%,YN组的姜%N含量低于1.0%。7个地区生姜中S元素的平均含量最低,均在0.5%以下。7个生姜产地的C、N、S含量差异显著 (p < 0.05),表明生物元素也可作为原产地溯源的有效工具。
1.3 同位素和元素指纹的化学计量分析
为了探讨稳定同位素和多元素在生姜产地溯源中的适用性,我们采用PCA和PLS-DA模型进行了研究。PCA作为一种无监督识别方法,可以降低复杂数据的维数,提供准确的分类。本研究共提取了4个主成分,R2X和Q2 (cum)的值分别为0.602和0.437,共同积累了可以解释和预测的总方差的60.2%和43.7%。从评分图 (图3A)可以看出,SC、YN、SD和HeN区域的生姜样本可以明显区分,表明PCA模型在区分上述生姜产地方面具有良好的适应度和可预测性。Q2 (cum)参数小于0.5,说明该模型对生姜7个产地的产地追溯预测能力较差。为了解决这一问题,需要开发包括PLS-DA在内的监督模型和一些算法来进一步构建分类模型。在分布趋势上,生姜样本明显分为3个部分,分别对应西南地区的YN和SC,华北地区的SD和HeN,中部地区的JX、HB和HuN。SD和HeN的生姜样本 (底部)沿黄河流域分布,其余样本(顶部)沿长江流域分布,表明河流带来的生态变化可能是影响同位素和元素的重要因素。虽然大多数生姜可以有效地分类,但JX、HB和HuN样品呈现部分重叠,这可能是由于邻近地理区域的同位素和元素组成相似。
图3 生姜稳定同位素和多元素的PCA模型(A)和PLS-DA模型 (B)分值图 (地理来源:SD,山东;YN,云南;SC,四川;HB,湖北;JX,江西;HeN,河南;HuN,湖南);使用200次排列检验 (C)进行交叉验证结果;可变重要系数 (VIP)图 (D)。
与PCA模型相比,PLS-DA模型是一种监督方法,可以最大限度地分离不同组,从而获得更好的分类和预测效果。本研究拟合了一个较好的PLS-DA模型,其主要参数为R2X = 0.736,R2Y = 0.715,Q2 (cum) = 0.634,表明该模型具有较强的解释和预测能力。如图3B所示,不同地理产地的生姜样品分离效果良好。SD、YN、SC和HeN区域的生姜与其他区域的分类显著,与PCA模式的结果相当。进行200次置换检验,R2Y和Q2Y的截距分别 < 0.3和0.05 (图3C),说明模型没有过拟合。通过可变重要系数 (VIP)分析,我们确定了影响7个地区生姜分类的关键同位素和元素。通常,当变量的VIP值大于1.0时,我们将其视为分类中的关键成分。如图3D所示,17个变量 (VIP > 1, p < 0.05)具有最高的鉴别潜力,包括δ13C、δ2H、δ18O、δ34S、Rb、Mn、V、Na、Sm、K、Ga、Cd、Al、Ti、Mg、Li和%C。矿物元素在这些变量中所占比例较大,其中Rb、Mn和V元素 (VIP > 1.2)是最重要的判别因子。除N同位素外,C、H、O和S同位素在起源溯源中也发挥了重要作用,进一步验证了稳定同位素与地理特征之间的密切关系。此外,百分比C值也是分类的有效指标。%C作为有机质的主要组成部分,是植物碳储量和物质组成的综合度量,这对于扩大原产地识别的变量类型具有重要意义。
2. 基于UPLC-Q-TOF/MS的代谢组学分析
2.1 不同来源姜的代谢指纹图谱
除了同位素和元素谱外,基于UPLC-Q-TOF/MS的非靶向代谢组学策略也被开发出来,以获得生姜地理来源的次生代谢物的全面信息。代表性生姜样品的总离子电流色谱图如图1S所示。显然,检测到大量的生姜次生代谢产物,表明我们建立的方法对生姜化合物的综合表征是非常有效的。然而,由于代谢产物复杂且相似,仅通过质谱指纹图谱的比较难以实现姜的产地分类。因此,进一步的化学计量学分析对探讨生姜代谢物在地理追踪中的适用性是必要的。
2.2 PCA和PLS-DA模型
近年来,包括PCA和PLS-DA在内的化学计量学已被广泛应用于非靶向代谢组学的多变量分析。本研究首先使用MassLynx软件对MS原始数据进行预处理,得到一个包含3130个特征的独立矩阵。然后,我们建立了地理分类的主成分分析模型。具体来说,模型拟合了17个主成分,R2X和Q2 (cum)的主参数分别为0.782和0.558,说明总变化可以得到较好的解释和预测。图4A为不同产地生姜样本的散点图。可以看出,SC、SD和YN三省的生姜样本可以独立聚类,与其他地区有明显的区别。来自JX、HB、HuN和HeN的样本很难分离,在得分图的四个象限中有明显的重叠。地理位置和气候差异可能是影响生姜代谢物差异的重要因素。SD省地处高纬度地区,冬季较冷,导致SD与西南地区 (SC和YN)生姜代谢物差异较大。尽管YN和SC省地理位置接近,但它们的代谢物差异很大,这可能与海拔有关,YN样本位于高海拔 (1306 ~ 1928 m),而SC样本位于低海拔 (349 ~ 909 m)。此外,所有QC样本都紧密聚集在评分图的中心,表明该应用的LC-MS方法具有良好的重复性和稳定性。
图4 中国不同地区生姜代谢物的PCA模型(A)和PLS-DA模型 (B)评分图;使用200次排列检验 (C)进行交叉验证结果;可变重要系数 (VIP)图 (D);不同地理来源姜中鉴定的差异代谢物强度 (E),不同字母 (a-d)表示差异有统计学意义 (p < 0.05)。
利用监督PLS-DA模型建立分类模型,我们发现潜在影响因素。该模型经7重交叉验证,R2X = 0.696,R2Y = 0.927, Q2 (cum) = 0.836,证实具有较好的预测能力。如图4B所示,SC、SD和YN样本分别分布在得分图的第一、第二和第三象限,而JX、HB、HuN和HeN区域的生姜主要分布在第四象限,并且相互重叠。总体而言,PLS-DA模型的结果优于上述PCA模型,分类可视化效果更好。此外,PLS-DA模型通过200次置换检验进行评估,截距R2 = 0.627, Q2 = -0.723 (图4C),没有过拟合。为了发现生姜分类中的特征代谢物,我们绘制了V形图 (图4D)的变量。通常将VIP > 1.0的变量视为候选差异代谢物,选择VIP > 2.0的变量作为最显著的区分因素。表4S给出了通过比较已发表的研究发现的化合物。在鉴定的鉴别成分中,脱氢-10-姜酮、脱氢-12-姜酮、Me-8-姜酚、黄樟素、8-paradoldiene和5-(6-amino-9H-purin-9-yl)-1-(4-hydroxy-3-methoxyphenyl)decan-3-one的VIP值均 > 2.0。这些代表性成分的相对强度如图4E所示。以往的研究表明,中国不同地区的生姜中姜辣素、姜烯酚、姜酮及其衍生物的含量存在显著差异,这与我们的研究结果相当。许多研究指出,植物生长过程中次生代谢物的合成受外界气候环境的调控,如温度、湿度、降水、土壤等。从地理分布上看,中国北部的山东和河南气候干燥,年平均气温低,而南部的云南省气候温暖湿润。因此,我们记录了每个采样点的经纬度和海拔高度,并从https://www.wheata.cn/上收集了温度、降水、相对湿度和日照时数作为七个变量进行相关分析。结果 (图2S)显示,脱氢-10-姜酮和脱氢-12-姜酮与海拔高度和日照时数呈正相关 (p < 0.01),与纬度呈负相关 (p < 0.01)。Me-8-姜酚与降水量呈正相关 (p < 0.01),相关系数为0.49。此外,温度和相对湿度对不同地区生姜成分含量也有影响。这些变化可能与生态胁迫对生姜次生代谢产物积累的影响有关。气候、土壤等因素对姜代谢产物积累的影响机制有待进一步研究。此外,一些代谢产物未被明确,这些未知化合物的信息仍可为生姜的原产地溯源提供有效的参考。
3. 生姜地理识别的机器学习算法
基于稳定同位素、多元素和代谢物的PCA和PLS-DA模型已经实现了生姜产地的初步判别,但仍有部分生姜样品存在重叠,无法完全区分。与上述分类器相比,机器学习算法在数据处理和分类构建方面表现出强大的能力。因此,我们可以通过三种经典的识别算法 (KNN、SVM和RF)来验证上述模型的可靠性,获得更准确的分类。此外,采用融合数据集进行算法建模,提高了判别率,取代了单一数据集。
我们通过底层数据融合得到两个模型集。具体而言,我们将多元素结合的稳定同位素设置为一个数据集,将稳定同位素、多元素和代谢物设置为另一个数据集。PLS-DA模型的VIP值实现了中级数据融合,VIP值包括4种同位素 (δ13C、δ34S、δ2H和δ18O),13种多元素 (K、Na、Mg、Al、Mn、Rb、V、Sm、Li、Ti、Cd、Ga和%C),以及143种已识别和未知代谢物(VIP > 2.0)。这些建立的数据集被归一化并自动缩放到相同的矩阵,用于KNN, SVM和RF分析。表5S给出了三种分类器针对不同数据集的评价指标 (正确率、精密度、召回率和F1分数)。通常,精确率和召回率是用来评估不同算法准确性的指标。F1分数是准确率和召回率的综合指数,通常情况下,最好的结果接近100%。在本研究中,所有训练文本的识别率都高于90%,表明这些模型具有良好的可靠性。验证结果表明,三种算法的准确率均 > 85% (表5S)。在三个数据集中,稳定同位素结合多元素在KNN模型中表现出最低的判别率 (85%),而SVM的总预测精度为96%,RF的总预测精度为98%。混淆矩阵图 (图5)显示了三种算法对生姜样本的错误分类。具体而言,SC样本在每个分类器中都被误判 (图5A)。有8个生姜样本在KNN模型中被错误分类,集中在HB、HuN和SC区域。与PCA和PLS-DA模型相比,SVM和RF模型均未出现华中地区3个产区(JX、HB和HuN)生姜样品的误分类,表明SVM和RF算法能够准确捕捉生姜样品中稳定同位素和多元素的产地差异,进一步提高了产地溯源性能。在现有同位素和元素变量中加入代谢物后,RF的准确度提高到100%,SVM的准确度保持在96%。KNN增加了98%,混淆矩阵中只有一个样本被误分类 (图5B)。这些结果表明,生姜代谢产物提供了地理来源的有用信息。与低级数据集相比,在基于VIP特征的中级数据融合中,三种算法的判别准确率最高,KNN的预测率为98%,SVM和RF分类器的预测率均为100%。如图5C所示,在KNN模型中只有一个来自JX区域的样本被误分类,说明通过VIP分数过滤的特征变量可以提高原模型的准确率。此外,我们利用中级融合数据集,采用PCA和OPLS-DA模型来区分不同地理来源的生姜样本 (图3S)。PCA和OPLS-DA模型的Q2均大于0.5,表明预测模型效果较好。但是,河南、湖南和江西地区的生姜样本仍有部分重叠。综合来看,这三个数据集在算法建模方面表现出了出色的能力。基于VIP值的中级数据融合被认为是最佳数据集。将中级融合数据集与SVM和RF算法相结合,对生姜原产地溯源具有最佳的判别性能。
图5 基于稳定同位素和多元素 (A),稳定同位素和多元素结合的代谢物 (B)和基于VIP值的融合数据集(C)的文本集混淆矩阵 (KNN、SVM和RF)。
结论
本研究成功探索了稳定同位素、多元素和代谢物在生姜产地鉴别中的潜在应用。结果表明,中国7个地区的生姜具有不同的同位素比值和元素含量,可用于生姜的溯源。其中δ2H和δ18O比值与地理因子的相关性较高,尤其是经度。无监督主成分分析表明,生姜的不同产地可以很好地区分,而进一步的PLS-DA分析发现了最关键的分类成分,包括4种同位素(δ13C、δ2H、δ18O和δ34S),12种矿物元素 (Rb、Mn、V、Na、Sm、K、Ga、Cd、Al、Ti、Mg和Li)和1种生物元素 (%C)。基于LC-MS的非靶向代谢组学分析也被用于确定生姜的地理起源。此外,我们还研究了同位素、元素和代谢物的组合,以探索不同维度数据的协同和互补信息。我们引入KNN、SVM和RF三种深度学习算法来改进分类模型,其中,基于VIP特征的融合数据被认为是最佳组合,KNN的预测率为98%,SVM和RF分类器的预测率均为100%。总体而言,本研究为确保生姜产地认证提供了可行的策略,填补了生姜同位素、元素和代谢谱溯源的研究空白。
原文链接:
https://www.sciencedirect.com/science/article/abs/pii/S0308814623011950
转自:“如沐风科研”微信公众号
如有侵权,请联系本站删除!