投稿问答最小化  关闭

万维书刊APP下载

毕业论文进行数据研究和数据分析的方法

2024/1/24 17:52:31  阅读:41 发布者:

想要论文眼前一亮,数据分析是必备可少的,它既可以清楚直观的表现出你的研究结果,又可以让导师了解到你的科研基本能力,那么今天就来为大家盘点下论文中常见的数据分析方法。

一、描述统计

描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。

二、相关分析

相关分析是研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法。例如,人的身高和体重之间;空气中的相对湿度与降雨量之间的相关关系都是相关分析研究的问题。

1、单相关:是指两个变量之间的相关关系。如产品产量与单位产品成本之间的关系等。只有一个因变量和自变量。

2、复相关:是指一个变量与另外两个或两个以上变量之间的相关关系。

3、偏相关:在某一现象与多种现象相关的场合,两个随机变量在排除了其余部分或全部随机变量影响情形下,称为偏相关。

三、方差分析

通过分析研究不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。各研究来源必须是相互独立,且各总方差相等。

1、单因素方差分析:研究中只有一个影响因素,或者存在多个影响因素时,只分析一个因素与响应变量的关系。

2、多因素有交互方差分析:有两个或者两个以上的因素对因变量产生影响,同时考虑多个因素之间的关系。

3、多因素无交互方差分析:分析多个因素与因变量的关系,但是各因素之间没有影响关系或忽略影响关系。

四、假设检验

1、参数检验:其基本原理是已知总体的特征下,对一些主要的参数进行检验。

2、非参数检验:非参数检验是在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。主要方法有:总体分布的卡方检验、二项分布检验、单样本K-S检验等。

五、信度分析

检查测量的信度,比如问卷调查的真实性。

1、外在信度:不同时间测量时量表的一致性程度,常用方法重测信度。

   2、内在信度:每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如何,常用方法半分信度。

六、列联表分析

用以分析离散变量或定型变量之间的是否存在关系。

对于二维表,可进行卡方检索,对于三维表,可作为Mentel-Hanszel分层分析。

列联表分析还包括配对计数资料的卡方检验、行列均为顺序表里的相关检验。

七、回归分析

可以分为

1、一元线性回归分析:只有一个自变量x与因变量v有关,xY都必须是连续型变量,因变量y或其残差必须服从正态分布。

2、多元线性回归分析:使用条件:分析多个自变量与因变量Y的关系,xY都必须是连续型变量,因变量y或其残差必须服从正态分布。

1) 变呈筛选方式:选择最优回归方程的变里筛选法包括全横型法(CP)、逐步回归法,向前引入法和向后剔除法

2)横型诊断方法:

A残差检验:观测值与估计值的差值要艰从正态分布

B强影响点判断:寻找方式一般分为标准误差法、Mahalanobis 距离法

C共线性诊断:

诊断方式:容忍度、方差扩大因子法(又称膨胀系数VIF)、特征根判定法、条件指针cl、方差比例

处理方法:增加样本容量或选取另外的回归如主成分回归、岭回归等

3Logistic 回归分析

线性回归模型要求因变量是连续的正态分布变里,且自变量和因变量呈线性关系,而Logistic回归模型对因变量的分布没有要求,一般用于因变量是离散时的情况。

4、其他回归方法非线性回归、有序回归、Probit 回归、加权回归等。

八、主成分分析

主成分分析是对数据做降维处理的统计分析方法,它能够从数据中提取某些公共部分,然后对这些公共部分进行分析和处理。

在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。

主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。

九、因子分析

因子分析的主要目的是用来描述隐藏在一组测量到的变量中的一些更基本的,但又无法直接测量到的隐性变量。并估计隐形变量对可测变量的影响程度以及潜在因子之间的相关性的分析。

与主成分分析比较:

相同:都能够起到济理多个原始变量内在结构关系的作用

不同:主成分分析重在综合原始变适的信息.而因子分析重在解释原始变量间的关系,是比主成分分析更深入的一种多元统计方法

1)减少分析变量个数

2)通过对变量间相关关系探测,将原始变量进行分类

十、聚类分析

样本个体或指标变量按其具有的特性进行分类,寻找合理的度量事物相似性的统计量。

1、性质分类:

Q型聚类分析:对样本进行分类处理,又称样本聚类分祈使用距离系数作为统计量衡量相似度,如欧式距离、极端距离、绝对距离等

R型聚类分析:对指标进行分类处理,又称指标聚类分析使用相似系数作为统计量衡量相似度,相关系数、列联系数等

2、方法分类:

1)系统聚类法:适用于小样本的样本聚类或指标聚类,一般用系统聚类法来聚类指标,又称分层聚类

2)逐步聚类法:适用于大样本的样本聚类

3)其他聚类法:两步聚类、K均值聚类等

十一、判别分析

根据已掌握的一批分类明确的样品建立判别函数,使产生错判的事例最少,进而对给定的一个新样品,判断它来自哪个总体

十二、时间序列分析

动态数据处理的统计方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题;时间序列通常由4种要素组成:趋势、季节变动、循环波动和不规则波动。

主要方法:移动平均滤波与指数平滑法、ARIMA横型、量ARIMA横型、ARIMAX模型、向呈自回归横型、ARCH族模型。

十三、生存分析

用来研究生存时间的分布规律以及生存时间和相关因索之间关系的一种统计分析方法。

1、描述生存过程,即研究生存时间的分布规律。

2、比较生存过程,即研究两组或多组生存时间的分布规律,并进行比较。

3、分析危险因素,即研究危险因素对生存过程的影响。

4、建立数学模型,即将生存时间与相关危险因素的依存关系用一个数学式子表示出来。

十四、ROC分析

ROC曲线是根据一系列不同的二分类方式(分界值或决定阈).以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线用途:

1ROC曲线能很容易地查出任意界限值时的对疾病的识别能力用途﹔

2、选择最佳的诊断界限值。ROC曲线越靠近左上角,试验的准确性就越高;

3、两种或两种以上不同诊断试验对疾病识别能力的比较,一股用ROC曲线下面积反映诊断系统的准确性。

十五、典型相关分析

相关分析一般分析两个变里之间的关系,而典型相关分析是分析两组变里(如3个学术能力指标与5个在校成绩表现指标)之间相关性的一种统计分析方法。

十六、其他分析方法

多重响应分析、距离分祈、项目分祈、对应分祈、决策树分析、神经网络、系统方程、蒙特卡洛模拟等。

转自:“学术这些事儿”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com