随机森林算法的原理及其在临床研究中的应用
2022/12/2 10:17:21 阅读:203 发布者:
中华儿科杂志, 2021,59(9) 张华, 陶立元, 赵一鸣.
数据获取的难度下降及临床研究数据维度的上升给建立预测模型带来困难,主要体现在预测模型变量的筛选和计算量两个方面,随机森林模型通过投票决策的方式很好地解决了上面的问题。
随机森林是用随机抽样的方法建立一个森林,森林里包含很多决策树,并且每棵树之间是独立的,通过各树之间投票决定一个样本最终分类的过程。随机森林的基本思想是将所有样本视为一个总体,通过Bootstrap法抽取训练样本,每个模型用于训练的变量不全相同,其准确率可能不高,可以视为某个窄领域的专家;通过多次学习建立模型,得到多个专家的结果,将多个窄领域专家的预测结果汇总,结果的准确率将大幅提升。
随机森林分成随机和森林两部分。随机指是随机选取样本和变量用于建立模型。随机选取样本一般采用Bootstrap法,如果训练样本中有N个样本,那么从这N个样本中有放回地抽样N次,将得到的样本用于建立模型,即森林中的“树”。这种有放回的抽样没有改变总样本量,有的样本可能抽取1 次,有的样本可能未被抽到,少数样本可能抽到多次,通过样本抽样,使各“树”之间既保证相互独立,又具有一定的外推性。随机选取变量一般采用随机抽样,设样本的总变量数为M个,在建立分类树时,先从这M个变量中选择m(m<)个变量,然后再在这m个变量中选择最佳的变量和界值进行分类,这个过程减少了计算量,起到降维的作用,并且各个树和分类过程可以同时进行,提高了计算效率。森林指每一棵树都是一个独立的预测模型,很多树组合成“委员会”,通过投票的方式进行预测。上述决定树模型建立后,当有一个新的样本输入,森林中的每一棵决策树会分别进行一次预测,最后比较一下被判定为哪一类的树最多,就预测该样本为哪一类。
该模型的优点也比较明显:(1)通过降维可以处理高维度的数据,并根据各分类树最终变量的选取,评估各预测变量的重要性;(2)多个进程可以同时进行,计算效率高,学习过程较快;(3)对于多种资料的预测,可以产生高准确度的分类模型,存在缺失资料时,仍可以维持较高的准确度。缺点主要是如果某个变量分类较多,其对随机森林产生更大的影响,也可能在分类或回归中产生过拟合。应用中可以通过该模型筛选出重要预测变量,再使用其他方法建立预测模型。
随机森林的实现可以通过R、Python等软件实现,R语言的“randomForest”包可以实现模型建立、输出变量重要性、实现随机森林的可视化、对缺失样本进行填补等,基本满足了临床研究中所需要的信息输出和展示。
转自:“医学科研与管理空间”微信公众号
如有侵权,请联系本站删除!