投稿问答最小化  关闭

万维书刊APP下载

方法|一文了解问卷类论文需要用到的数据分析方法

2024/2/21 16:29:37  阅读:39 发布者:

每年毕业季就有很多小伙伴在写论文路上因为不会数据分析而苦恼,软件没下几个,使用教程看不懂,模型不知道是什么,觉得数据分析学起来太难了,网上的资料又太多,不知道该从哪个开始,全部看完又太费时间。

今天我就整理了一份论文问卷分析的全流程,小白跟着操作基本一天就可以完成论文实证部分,没时间了,本篇文章适合不会数据分析,没使用过SPSS等软件的人员,建议收藏!

基本的问卷分析主要步骤:

1、首先对收集数据进行用户画像分析,通过基础算法频数分析、描述性分析,统计性别,年龄,学历的分布情况如何等;通过基础算法列联表分析(卡方分析)或者分类汇总,分析不同学历的年龄分布,不同性别的年龄分布等等,如果无法精准确定调研群体,也就意味着调研结果没法形成群体的统一认知,也就意味着问卷的信度极低。

2、确定了用户画像后,可以利用信度分析进行验证,信度指标多以相关系数表示,主要考察问卷的可信度 ,是数据分析的一个基础,一般来说,问卷的信度分析只针对量表,性别年龄等背景信息是存在较大的差异情况的,因此一般不纳入信度分析。

3、信度没问题后,接下来需要分析的是问卷的效度,也就是问卷设计的合理不合理,一般来说,我们基于研究目的,会设置多个题目收集意见,按统计学来说,这几个问题的线性相关会很高,所以通过因子分析后,是会被纳入一个因子成分(研究目的)上的,如果有这时候某一选择题不在这个因子成分上,说明该题目设计有问题;

4、通过效度分析后,因为我们基于研究目的,会设置多个题目收集意见,多个题目其实线性相关,表达的都是同一个看法,所以通过指标归类分析可以把这几个题目浓缩为一个整体,这时可以采用因子分析或者主成分分析进行因子归类浓缩,将冗余的题目浓缩后,我们此时无需分析多次分析多个意见相同的题目,因此可以进行这些浓缩后因子(研究目的)的分析了;

5、差异性检验需要用科学的方法验证不同人群的看法是否呈现差异,这需要基于第一步的用户画像,现实场景下,我们收集的问卷调研群体五花八门,我们可以通过设置条件筛选的方式去尽可能分析不同人群对影响结果的看法,分析其是否存在差异,验证自己的结果是具有普适性等等。

6、如果说希望研究影响关系,比如研究“认知”,“态度” 分别对于“行为”的影响关系,此时可考虑使用回归分析,线性回归是将一系列影响因素和结果进行一个拟合,拟合出一个方程(非线性回归就没有方程,人脑就类似一个非线性回归),然后通过将这个方程应用到其他同类事件中,可以进行预测,所谓回归,就是向某个理想的状态或平衡状态的趋向发展,通过回归可以找出哪些影响因素,对结果的影响规律。

分析算法步骤:

step1:用户画像分析:样本有代表性

step2:信效度检验:调查工具很稳定

step3:描述性统计:样本特征行为分析

step4:推断统计:研究核心

PS:不懂这些没关系,知道怎么用就行了,往下看!

一、用户画像分析

一般问卷分析的开头需要先对用户画像进行解释,如调查群体的年龄、职位、地点的分布情况,同时也会对这些数据的均值、标准差进行分析,均值相同时,比较标准差,标准差越小,表示越稳定。

首先将收集到的问卷数据一键上传至SPSSPRO

选择频数分析,拖入所需要分析的变量到指定框中,系统就会自动统计输出结果,如下图:

值得一提的说,SPSSPRO会自动分析结果,不需要自己再去对表格数据进行分析,直接就可以套用到论文中。

二、信度效度分析

信度分析:信度分析主要用来考察问卷中量表所测结果的稳定性以及一致性,即用于检验问卷中量表样本是否可靠可信,简单来讲就是检验收集到的问卷结果是否有效,防止有些人刷问卷那结果就没分析意义。

操作步骤如上一致,在SPSSPRO选择对应的分析模型,将变量拖入框中,一键输出分析结果

Cronbach α信度系数是最常用的信度系数,目前没有统一的标准,但根据多数学者的观点,一般系数如果在0.9以上,则该测验或量表的信度甚佳,0.7-0.8之间则可以接受,如果在0.6以下就要考虑重新编排问卷。看不懂没关系,智能分析报告会直接将问卷的信度或者效度反馈出来。

假设 α值不通过,就需要重新编排问卷或者筛除不必要的问卷了。通过就证明问卷可以继续分析,α值越接近一则证明信度越高。

效度分析:效度分析通常是指问卷量表的有效性和正确性,即分析问卷题目的设计是否合理。

效度分析结果主要看KMO值和sig.(显著性),若KMO>0.7,则说明问卷中设计的自变量之间具有一定的联系,问卷是有效的;0.6-0.7之间尚可:0.5-0.6之间表示差:0.5下应该放弃,通过KMO值检验说明了题项变量之间是存在相关性的,符合因子分析要求,sig.<0.001说明该问卷符合做因子分析,下一步则可以进行因子分析。

操作步骤如上一致,在spsspro选择对应的分析模型,将变量拖入框中,一键输出分析结果

首先进行KMOBartlett的检验:

对于KMO检验,0.9上非常合适做因子分析:0.8-0.9之间比较适合:0.7-0.8之间适合:0.6-0.7之间尚可:0.5-0.6之间表示差:0.5下应该放弃,通过KMO值检验说明了题项变量之间是存在相关性的,符合因子分析要求;

指标聚合分析

通过效度分析后,我们基于研究目的,会设置多个题目收集意见,多个题目其实线性相关,表达的都是同一个看法,所以通过指标归类分析可以把这几个题目浓缩为一个整体,这时可以采用因子分析或者主成分分析进行因子归类浓缩,以便后面进行回归分析。操作如上一致,拖入变量就可以输出结果

本文采用因子分析法分析评价指标的公共因子,本论文评价指标数据共提取出四个特征值大于 1 的公共因子,且四个公共因子累积贡献率为86.66%,也充分证明问卷评价指标和维度设计的合理性

根据上表显示,筛选之后由七个维度减少为四个维度。接着分析其中三个维度减少的原因,此处省略......

SPSSPRO提供的两种方法

① 探索性因子分析

② 验证性因子分析

三、描述性统计:样本特征行为分析

前面验证完了调研的样本群体的有效性、问卷的信度与效度后,接下来就是要分析调研群体对各个选项、量表的选择情况了。

一般来说,这里主要用到的是一些假设检验以及各种交叉分析,其中最核心的是多重响应交叉分析与多重响应频率分析,说起来有点绕,简单的说:

多重响应频率分析:研究的是多选题,调研群体的选择比例情况。

多重响应交叉分析:研究的是各类题目的交叉选择情况。

多重响应频率分析【多选题分析】

多重响应频率分析【多选题分析】

这里其实就是以第一个多选题为分组项,研究第二个多选题的选择情况。

多重响应频率(交叉)分析【多选题为分组项,单选题为分析项】

多重响应频率(交叉)分析【单选题为分组项,多选题为分析项】

四、推断统计:研究核心

推断统计是问卷分析的研究核心,因为到这里才会真正去运用一些较为深入的方法,例如回归分析,假设检验以及综合评价等等。按统计模型类型可以划分为以下6类算法:

差异性检验

单样本指的是:

比较样本数据与一个特定数值之间的差异情况

如:一家食品生产企业以生产罐装食品为主,每瓶的标准重量应该是100g。为了对装罐过程进行监测,企业质检部门要进行抽检,以分析每瓶重量是否符合要求。现从某天生产的一批食品中随机抽取了50瓶,测得每瓶重量。试检验该批次食品重量是否符合要求

配对样本指的是:

同一批样本不同时间的结果是否有差异,数学上表示就是样本数相同的连续变量X1与连续变量X2之间的差异情况。

如:检验某医院30个病人注射某药剂前后血压是否一致

独立样本指的是:

分析一个定类变量与一个或者多个定量变量之间有无明显差异,数学上表示就是样本数不一定相同的多组连续变量X1X2X3......之间的差异情况。

:研究不同学校的学生(各学校学生数不一定相等)高考成绩是否存在差异性。

事后多重分析指的是:

知道多组连续变量X1X2X3......之间存在差异情况,想探究是哪两两变量存在差异?

:已知不同学校的学生(各学校学生数不一定相等)高考成绩存在差异性,探究具体哪两个学校存在差异。

相关分析

相关分析是对变量两两之间的相关程度进行分析。相关分析的计算方式有三种,分别是Pearson相关系数(适用于定量数据,且数据满足正态分布)、Spearman相关系数(数据不满足正态分布时使用)。Kendall's tau -b相关系数(有序定类变量)。

 

示例:人的身高和体重之间;空气中的相对湿度与降雨量之间的相关关系都是相关分析研究的问题

输入输出描述

输入:两个或者两个以上的定量变量或有序定类变量

输出:两两变量之间是否呈现显著性相似以及相似的程度

指标聚合

指标聚合指的是将多个选择题变量合并为同一类型的因子。

指标聚合后通常用于做线性回归或者中介、调节、路径分析。

回归分析

回归分析包含统计学里的线性回归,机器学校里面的树模型回归,如xgboost、决策树与随机森林等等,以及深度学校的回归,是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。如在线性回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。

示例:通过自变量(房子年龄、是否有电梯、楼层高度、房间平方)拟合预测因变量(房价)

输入输出描述

输入:自变量X至少一项或以上的定量变量或二分类定类变量,因变量Y要求为定量变量(若为定类变量,请使用逻辑回归)。

输出:模型检验优度的结果,自变量对因变量的线性关系等等

中介调节

中介作用是指在研究XY之前的影响时,通过什么变量M能对X->Y起影响作用,打个比方:

X是参赛学生,Y是市调国赛获奖,通过什么样的变量M,参赛学生才能获奖,这个M可以是通过阅读答主的市调攻略,所以【M:阅读答主的市调攻略】这个变量就是中介变量

而调节作用研究是指研究X->M->Y起影响作用这个关系中,M在什么时候能起到作用,起多大的作用。打个比方:

例如,针对变量【M:阅读答主的市调攻略】,能衍生一个新变量【阅读后理解程度】,100%理解和10%的理解对M发挥作用起着很大的影响关系。

因此,调节变量对中介变量起者调节,它就像一个有正负项的系数,控制了M影响X->Y的方向与程度。

这类模型通常基于指标聚合后,进行分析。如将多个选择题糅合为工作条件,分析公司满意度等等

转自“毅懂学术”微信公众号,本文仅作为学术交流分享,如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com