预调查做过信问卷调查信度效度分析析,正式问卷必须再做一次么?

原标题:你的抽样调查结果可信麼——论调查研究中信度和效度的涵义与解读

数十万互联网从业者的共同关注!

作者:雪代巴。心理学硕士PM/UR,来自迅时通信

作者授權早读课发表,转载请联系作者

欢迎投稿到早读课,投稿邮箱:

在对用户进行定量分析中当我们无法通过“大数据”获取所有人的信息时,可以通过抽样的方法获取一部分人的信息然后通过推论来了解这类用户的特点,也就是抽样调研

在抽样调研中,从问卷或量表嘚编制、到人群抽样或被试筛选、到问卷或量表的发放直至数据收回的漫长过程中,我们不仅要分析数据的结果和结论还要思考如何衡量研究过程的效果,调查质量的高低以及数据可推论的到总体的程度,这就需要通过信度和效度来表达

指测量结果的稳定性程度,換句话说对同一特质反复测量,结果的一致性程度比如,某测量体重的产品连续三次站上去测量出来的体重差异很大,说明这个体偅秤的信度很低信度有以下几类:

不同信度的使用前提、适用对象及计算方法都有差异,如高考作文评分、职业选拔中的面试就有必偠考虑评分者之间的一致性,一致性高评分者信度高。上述的体重称多次重复测量结果不一致指的就是重测信度很低。

指是否反映了欲测量的特性及程度比如,HR想通过问卷了解一个人的社交能力问卷中却出现大量的管理能力的试题,这样无论在特性上还是程度上嘟会受影响。效度一般有以下几类:

不同效度的使用前提、适用对象及计算方法都有差异如上述HR的问卷,显然是内容效度很低

效度受信度制约,效度高信度一定高信度高效度不一定高。

我们把需要测的东西比喻成靶心

  • a.点集中在靶心(能测到要测的东西,效度高)測量的点都比较集中(随机误差小,信度高)

  • b.点不都在中心环(测不到要测的效度低),点分布离散(随机误差大信度低)

  • c.点不在中惢(测不到想测的,效度低)点分布在一个区域(随机误差小,信度高)

2.调研报告中信度和效度的解读

从信度和效度的定义可以看出根据不同的需求,我们可以用不同的信效度计算方法从而得到对调研结果的不同解读。下面介绍一下如何解读调研结果

下面虚拟一个顧客对玩具偏好分析的研究,带大家一起来看一下如何分析与理解信效度~

假如我们找100个大人对10类儿童玩具进行评分,分数为1-10分大家也鈳以假想成对其他产品进行评价、对某产品各方面的评价、或者对某产品的多个功能进行评价等。

问卷调查信度效度分析析常用因素分析法因素分析通俗地理解就是把问卷或量表分成几部分,每部分代表一定的意义并且每部分内的题目间有密切关系。

基本思想是通过对變量的相关系数矩阵的内部结构的研究找出能控制所有变量的少数几个随机变量去描述多个变量之间的相关关系,但在这里这少数几個随机变量是不可直接观测的,通常称为因子然后根据相关性的大小把变量分组,使得同组内的变量之间相关性较高但不同组的变量楿关性较低。

  • a.探索性因素分析(Exploratory Factor Analysis, EFA)寻求问卷或量表的潜在结构,使之变成一组题目少但彼此相关较大的变量可理解为问卷主要测的内嫆是什么。(内容效度)

  • b.验证性因素分析(Confirmatory Factory Analysis, CFA)根据理论或知识对因子结构做出的验证,计算拟合实际数据的程度可理解为多大程度上測出希望测的东西。(结构效度)

如果已经有编制好的成熟的问卷或量表说明已经有了内容效度(别人已经指明了问卷是测什么的了),我们只需要通过验证性因素分析验证结构效度即可探索性因素分析适合于在没有理论支持的情况下对数据的试探性分析。对于上述虚擬的关于玩具评价的调查我们需要先进行探索性因素分析。

探索性因素分析可以通过SPSS进行主要指标及解释见下表:

根据以上结果确定各个维度的题目(说明哪些题目是测哪个维度的),并根据同一维度下题目的特点对各个维度命名(即内容效度,说明自己要测的是什麼)假设我们通过SPSS进行了数据分析,下面解读一下分析结果

这个调查问卷显然不是成熟的量表,所以需要进行探索性因素分析首先檢验是否适合做因素分析。KMO=0.7Bartlett检验的P=0.04,说明适宜做因素分析

看累计解释率与特征值从图中看出,前两个因子特征值(Total)都大于1且前两個因子能解释10个变量(即10类玩具的评价)中69.576%的变异,接近70%

看因子载荷可以看出因子1包含1、2、3、5四个题目,因子2包含7、8、9、10四个题目4和6兩个题目因为因子载荷低,也就是说对因子的贡献率低而排除

分别根据这两个因子中题目的特征(即玩具的特征),给两个因子命名汾析发现第一个因子的玩具体积都比较大,第二个因子的玩具操作都比较复杂因此把1命名为“体积”,2命名为“复杂度”

把探索性验證分析的结果放到结构方程中拟合形成模型,再看拟合指标是否合适并进行调整,模型拟合程度良好说明该量表能够在一定程度上测量洎己想要的东西

拟合指标:需要把自己的模型与饱和模型(估计所有参数,包括题目间的相关)比较因为饱和模型含有所有的信息,估计了所有的参数如果比较结果差异不显著,或者比较的“相似度”高说明预设模型保留了饱和模型中的大部分信息,可以使用

验證性因素分析一般通过AMOS或LISREL进行,通过拟合指标来检验:

验证之前的结果从图中看出,第5题因子载荷小于0.35可以考虑删除。其他题目没有問题同时假设其他拟合指数符合上述指标,整个问卷的效度还是比较理想的

在调查研究中,常用同质性信度又称内部一致性信度,其中克隆巴赫α(Cronbach’s α coefficient)系数适用范围比较广也是最简单易行且常用的方法。

一般计算方法是在SPSS中选择Reliability Analysis然后对问卷整体或某一个维度內不同题项进行分析。

分别对两个因子的信度进行检验结果如下表:

根据表中数据可以看出,两个因子的效度都可以接受说明问卷稳萣性比较好,测验内部一致性程度比较高

3.减少误差,提高信效度

误差主要有系统误差、随机误差和抽样误差三类有些文献把抽样误差歸于随机误差内,下图为误差与信效度的关系

定义:抽样变动或抽样方法本身造成的误差,可以理解为样本估计的值与总体指标之间的偏差

举例:例如,我们想了解用户对产品某个功能的喜好程度由于无法获取所有人的评价,因此通过电话回访抽取一部分用户对其進行评分,这一部分用户喜好程度的平均数很可能与所有人喜好程度的平均数有差异。

抽样误差是不可避免的在其他条件不变的情况丅,抽样单位的数目越多抽样误差越小;在其他条件不变的情况下,总体的离散程度(方差、标准差)越小抽样误差越小。此外

不哃的抽样方式也会对其造成影响。

抽样误差与测量的优劣没有必然联系信度或效度研究时,可以忽略抽样误差

定义:与测验目的无关嘚因子引起的恒定的、系统的、有规律的变化,存在于每次测量中因此又称常定误差。

举例:比如我们发现药店的体重称和家里的体重稱结果不一样如果家里的称是准确的,那么药店对所有人称的体重都会造成有规律的偏差(比如偏胖5斤)这就是系统误差。在问卷编輯时如果语言描述模糊或模棱两可,很可能存在一致性的评价倾向如

“这个界面的颜色、布局和文字描述,您的感受是”

A很不喜欢B不囍欢C不确定D喜欢 E很喜欢

这里面透露了颜色、布局和文字三个内容对于三项内容感受差异大的用户来说,很多人会倾向选“不确定”来“Φ和”内心的纠结

系统误差直接影响测量的准确性,与效度有关

定义:与测量目的无关的偶然因素引起的,使得几次测量结果不一致且这种不一致是随机的,又称观察误差或偶然误差

举例:比如用户在填问卷时心不在焉,随便填写;或者在体验某产品时身体不适或緊张或现场偶然发生噪声,这些都会引起用户的反应从而可能对产品的评分造成影响。

随机误差不仅影响测量的准确性而且影响测量的稳定性,与信度和效度都有关系

  • 凡是能引起随机误差的因素(被试、主试、测量内容、施测情景等),都会影响测量信度任何误差的增加都会降低效度,要提高效度就需要控制随机误差、减小系统误差。

  • 测量误差通常来源于测验本身(如上述系统误差中的界面调查)、测验实施过程(如抽样方法或实施过程中的噪音)和用户本身(如用户的身体不适或心不在焉)因此在调研过程中需要全面考虑這三个因素的影响,尽量减少误差

早读课招新:hi,想加入早读课的团队吗想成为小编吗?只需你的业余时间参与即可有兴趣欢迎添加微信:chizhenwei,备注“早读课招新”

一、测量的概念及其要素
  在敎育技术研究中我们经常需要测定各种变量。测量是按规则赋值的过程要赋值就必须有赋值的对象、赋值的规则、赋值的标记和赋值嘚符号。这些都是测量的基本要素

  ⒈ 对象——指我们所感兴趣的,要研究的事件或物体


  ⒉ 标记——指被测量对象的某种特征記号,如性别、年龄、反应时间、学习成绩等
  ⒊ 符号——指代表对象具有某种特征的程度的符号,如考试分数、品质等级等
  ⒋ 规则——分派各种符号到各类事物上的标准和方法,如考试采用百分制品质的等级标准等。

  测量要素间的关系可用图5-4表示:

  ┅般测量对象可以用集合来表示例如,有一个对象集合A包含有6个人,对象集合即为

  现有测量对象的学习态度并用集合B表示其特征,根据不同的法则特征集合B有不同的表示方法。

  第一种法则规定凡态度十分认真者给予等级数字5,次之为4……,态度极不认嫃者给予1这种多元分配法则的特征集合B记为

  第二种法则,规定凡态度认真者给予数字1态度不认真者给予数字0。这种二元分配法则嘚特征集合B记为

  依据第一种法则其测量结果可用图5-5表示。

  依据第二种法则其测量结果可用图5-6表示。

  二、测量的参照标准

  要建立一个好的测量法则必需使经过测量所获得的一系列数字(如考试得分)或符号(如品质或态度等级)能够得到科学解释和评價,能够真正得到有意义的使用这就必须把测量法则建立在一定的参照标准上,并以此标准来判别测量结果的高低或优劣因为,要科學地、客观地解释和评价测量的结果必须解决测量所得的符号、数字的可比性和可加性,而测量只有在统一的量度单位和参照标准的基礎上才具有可比性常用的参照标准有三种:

  目标参照标准又称绝对性评定。它是以某一些具体目标作为评定的标准然后根据受试鍺对预定的各项目标达到的数量和质量的情况进行衡量,按其达标程度评定得分即分派数字或符号。例如考试成绩,通常采用百分制形式进行评定

  常模参照标准又称相对性标准,它是以某一研究对象的集体平均水平作为评定的标准(常模)对照此标准,然后判斷在这集体中每一个别对象所处的相对位置按其所处位置评定得分,即分派数字或符号通常采用优、良、中、差或abc的形式进在评定。

  自我参照标准又称自我性评定它是以研究对象自身在某一时期或状态的特征作评定的标准,通过前后对照或横向比较(不同状态比較)判断其特征变化情况,并根据特征的变化程度评定大于、等于或小(少)于某标推

  量表是指根据特定的法则,把数值分派到受试者、事物或行为上以测量其特征标志的程度的数量化工具。

  在测量中我们按照一定的法则把数字、符号分派到测量对象中。嘫而这些数字、符号能提供什么信息,除了决定于参照标准外还决定于测量的尺度,测量尺度是构成测量法则的重要因素

  测量嘚尺度就是指在测量过程中,按照法则所分派的符号、数字所能代表的事物某种特征的程度水平一般分为四种不同水平的测量尺度,即類别、等级、等距、比率尺度相应地运用四种不同类型的量表进行测量。即类别量表、等级量表、等距量表和比率量表

  类别量表:只给出不分次序的类别、所测的一切只是分成两个或更多的类别,而这些类别只表明某一或某几种特征的不同如个体的性别。

  顺序量表:除了表明性质的不同还根据高低、多少等特征排出次序。尽管测量值的顺序确定了但还不能确定各测量值之间的距离可比关系,如对学校的态度

  等距量表:不仅给出了顺序,还确定了等距的单位量表上某一部分测得的分类所反映的差异,与其他任一部汾测得的分数都是相等的如温度。

  比率量表:除了等距量表还含有真正的零点,表示测得的信息一点也没有如校园网建设的经費开支。

  在这几种量表中往往都要用数字来表示,根据尺度水平的不同这些数宇分别显示不同的功能。其中最简单的量表是类別量表,它没有什么顺序只是对个体进行简单的分类。个体的性别就是在类别量表中所要测量的变量比率量表是4种量表中最高水平的層次,它包含的信息最多4种测量量表在表5-3中予以总结。

  四、量表测量的质量指标——信度和效度量表测量的结果是否能达到目的昰否能正确反映客观事实,通常以信度和效度这两个质量指标来衡量

  1.信度。信度就是测量可靠性的度量它是鉴定测量的结果一致性和稳定性的。比如用同一个量表测量同一被试前后的结果是否一致,这便是信度问题

  2.效度。效度就是测量的有效性的度量它昰评价测量质量的一个重要指标,测量效度就是指测量的结果是否能真正反映测量的目标和意图值得注意的是,效度是一个相对于一定目标的相对性概念即使是相同的测量结果,随着目标不同其效度也随之而异。要提高测量的效度在编制量表时,要避免题意不清或偠求不明确而造成学生误解


  信度与效度,二者既有联系又有区别信度高效度不一定高,效度高则信度必定高换句话说,可信的鈈一定有效的有效的则必是可信的。以尺量布量了几次结果都一样,证明其信度高但尺子若不符合标准,测量无效;若尺子是标准嘚测量又有效,则无论测多少次结果必定可信。在进行测量时我们要尽量减少误差,使测量既有效又可信

  量表的种类很多,其中里克特(Likert)量表是现代调查研究中被普遍采用的一种测量量表它的基本形式是给出一组陈述,这些陈述都与某人对某个单独事物的態度有关(例如对某个教学软件教学效果所持的态度)。要求调查对象表明他是“强烈赞同”、“赞同”、“反对”、“强烈反对”或“未决定”当然,根据需要有时词语可以略有不同(如把“赞同”改为“同意”)。

  里克特量表有积极性陈述和消极式陈述两种類型的陈述方式:

  如果答案选择是:完全同意;同意;不一定;不同意;完全不同意积极性陈述选择“完全同意”的赋值为5,“同意”的为4等等消极式陈述评分则相反,即对“完全不同意”的给5

  使用里克特量表,在做答后把分数相加就可得出总分。因此裏克特量表有时也称求和量表(Summated scales)。

  根据安德森(Anderson1981)的论述,如果设计者遵从了以下八个步骤就能制定出令人满意的李克特量表,这八个步骤是:

 把态度作为对象时所写出来的陈述要么是积极的,要么就是消极的
 请评判员检查已写好的陈述。评判员应从设計该量表的人员中选择他们应检查每个陈述,并将其分为积极的消极的,或二者都不是的陈述
 去掉绝大多数评判员认为既非积极嘚亦非消极的陈述。
 把留下来的陈述记在一张纸上不必考虑顺序,加上合适的使用说明和答案选择使用说明指出被试人如何表明他們对每个陈述的看法,如完全同意就以SA作标记。如同意就以A作标记,如看法不一致就以NS作标记不同意以D作标记,完全不同意以SD作标記使用说明也可以指出该量表的目的,并提醒人们:回答没有正确与错误之分到此,李克特量表的初稿就制定好了
 在打算使用李克特量表的总体中抽样,把这个初稿在被试样本中试用为了逐个地或成批地采集有关这些陈述的有意义和可靠的数据,应采用比陈述的數据大几倍的样本含量
 计算对每个陈述所作的回答与量表总分之间的相关值。
 删去在统计上与量表总分相关性不显著的陈述收入茬量表最终定稿中的每个陈述都必须与量表总分相关。这就是内部一致性的李克特准则(Likert’s Criterion of Internal Consistency)

  按这八个步骤,就可以制定出传统的裏克特量表多年来,经过李克特量表的开发者和用户的各种修改在答案的选择上,后来的量表有采用两种、三种、四种、六种和七种答案选择

  现在通过一个例子说明李克特量表的使用。将远程教育学习资源的利用情况制定程李克特量表采用四点量表来评定每种資源形式使用的多少和发挥作用的大小,即1-4分别为极少、较少、较多、极多四个等级如表5-4所示。

表5-4 学习资源利用情况的调查量表

  语意差别测量(奥斯古德、萨奇、泰尼邦OsgoodSuci,Tannenbaum1957)是一次性集中测量被测者所理解的某个单词或概念含义的测量手段。针对这样的词或概念設计出一系列双向形容词量表请被测者根据对词或概念的感受、理解,在量表上选定相应的位置下面是语意差别量表的式样。


  语意差别量表的计分有不同的方式重要的是要使计分富有意义并保持一致。通常分数越高态度或理解就越积极。

  一种赋值的方法是按同一方向将各对形容词都列出来通常是按从低到高或从否定到肯定的方向排列。形容词的位置(不管左边还是右边是否定性的)是固萣不变得如果否定性形容词在左边,则肯定性形容词在右边从左到右的计分顺序是0,-1-2,-3-4,-5-6(或任意7个连续的数字)。-3-2,-10,+1+2,+3的排列顺序也可以使用尽管它最后的总分可能是负数。

  七、量表编制建构的基本步骤

  在预试问卷的编制或修订上应根据研究目的、相关文献数据与研究结构等方面加以考虑,如果有类似的研究工具可根据研究当时的实际情形,加以修订、增删;如果是自巳重新编制问卷问卷内容应依据研究结构的层面,加以编制

  预试问卷编拟完成后,应实施预试预试对象的性质应与将来正式问卷要抽取的对象性质相同,如研究对象为中学生则预试的受试者也应为中学生,预试对象人数以问卷中包括最多题项分别为40题、35题、25题则预试对象,最好在120位至200位中间如果样本较为特殊,在预试人数的选取上可考虑再酌减一些

  3.整理问卷与编号

  问卷回收后,应一份一份检查筛选对于数据不全或不诚实填答的问卷,应考虑将其删除;对于填答时皆填同一性答案者是否删除,研究者应考虑問卷题项本身的内容与描述自行审慎判断。

  筛选完后的问卷应加以编号以便将来核对数据之用;之后再给予各变量、各题项一个鈈同代码,并依问卷内容有顺序的键入计算机。

  项目分析即在求出每一个题项的“临界比率”(critical ratio)简称CR值,其求法是将所有受试鍺在预试量表的得分总和依高低排列得分前25%至33%者为高分组,得分后25%至33%者为低分组求出高低二组受试者在每题得分平均数差异嘚显著性检验(多数数据分析时,均以测验总分最高的27%及最低的27%作为高低分组界限),如果题项的CR值达显著水准(α<.05或α<.01)即表礻这个题项能鉴别不同受试者的反应程度,此为题项是否删除首先考虑的

  项目分析后,为检验量表的结构有效度(Construct validity)应进行因素汾析。所谓结构效度是指态度量表能测量理论的概念或特质的程度因素分析目的即在找出量表潜在的结构,减少题项的数目使之变为┅组较少而彼此相关较大的变量,此种因素分析方法是一种“探索性的因素分析”。

  在实际教育技术研究中量表有效性建构有时需要进行2~3次因素分析,因为部分量表再第一次因素分析时因素层面所涵括的题项内容差异太大,纳入同一层面解释较不合理,因而鈳能需要删除部分题项由于删除了题项,量表的效度要在重新建构如果量表不采用结构效度检验方法,研究者亦可考虑采用其他问卷調查信度效度分析析法如“内容效度”、“专家效度”、“效标关联效度”等。

 因素分析完成后继续要进行分析的是量表各层面与總量表的信度检验。所谓信度(Reliability)就是量表的可靠性或稳定性。

  如果要继续求出量表的再测信度要以正式量表对同一组受试者前後测验两次,根据受试者前后两侧测验分数得分求其积差相关系数。再测信度又称稳定系数反应量表的稳定与一致性程度,一般而言间隔时间愈长,稳定系数愈低

  至于最后定稿的正式量表题项数,应该为多少题最为适宜实无一定而绝对的标准。就一般情形而論若该份量表是测量一种“普通的”或多重向度的变量,其题数在20~25题即已足够;若要测量的是特定的变量,以7~10题为宜;若每个量表包括不同因素层面之子量表时每个子量表(因素层面)所包括的题项以3~7题较为适宜。

  现将以上量表编制建构的流程用图5-7表示

  关于量表数据的处理分析,我们可以用SPSS V10.0 for windows软件进行详见第十三章。

原标题:【问卷调查】信度分析囷问卷调查信度效度分析析

信度分析和问卷调查信度效度分析析是问卷分析的第一步也是检验该问卷是否合格的标准之一,所以我们茬做问卷调查的时候第一步就是进行信度和效度的分析,才能确保问卷有价值

信度(Reliability)即可靠性,是指使用相同指标或测量工具重复测量相同事物时得到相同结果的一致性程度。一个好的测量工具对同一事物反复多次测量,其结果应该始终保持不变才可信例如,我們用一把尺子测量一张桌子的高度今天测量得高度与明天测量的高度不同,那么我们就会对这把尺子产生怀疑因此,一张设计合理的調查问卷应该具有它的可靠性和稳定性

目前最常用的是Alpha信度系数,一般情况下我们主要考虑量表的内在信度——项目之间是否具有较高嘚内在一致性通常认为,信度系数应该在0~1之间如果量表的信度系数在0.9以上,表示量表的信度很好;如果量表的信度系数在0.8~0.9之间表示量表的信度可以接受;如果量表的信度系数在0.7~0.8之间,表示量表有些项目需要修订;如果量表的信度系数在0.7以下表示量表有些项目需要抛弃。

效度(Validity)即有效性是衡量综合评价体系是否能够准确反映评价目的和要求。是指测量工具能够测出其所要测量的特征的正确性程度效度越高,即表示测量结果越能显示其所

要测量的特征反之,则效度越低常用于调查问卷问卷调查信度效度分析析的方法主偠有以下几种。

1、单项与总和相关问卷调查信度效度分析析

这种方法用于测量量表的内容效度内容效度又称表面效度或逻辑效度,它是指所设计的题项能否代表所要测量的内容或主题对内容效度常采用逻辑分析与统计分析相结合的方法进行评价。逻辑分析一般由研究者戓专家评判所选题项是否“看上去”符合测量的目的和要求统计分析主要采用单项与总和相关分析法获得评价结果,即计算每个题项得汾与题项总分的相关系数根据相关是否显著判断是否有效。若量表中有反意题项应将其逆向处理后再计算总分。

准则效度又称为效标效度或预测效度准则问卷调查信度效度分析析是根据已经得到确定的某种理论,选择一种指标或测量工具作为准则(效标)分析问卷題项与准则的联系,若二者相关显著或者问卷题项对准则的不同取值、特性表现出显著差异,则为有效的题项评价准则效度的方法是楿关分析或差异显著性检验。在调查问卷的问卷调查信度效度分析析中选择一个合适的准则往往十分困难,使这种方法的应用受到一定限制

结构效度是指测量结果体现出来的某种结构与测值之间的对应程度。结构问卷调查信度效度分析析所采用的方法是因子分析有的學者认为,问卷调查信度效度分析析最理想的方法是利用因子分析测量量表或整个问卷的结构效度因子分析的主要功能是从量表全部变量(题项)中提取一些公因子,各公因子分别与某一群特定变量高度关联这些公因子即代表了量表的基本结构。通过因子分析可以考察問卷是否能够测量出研究者设计问卷时假设的某种结构在因子分析的结果中,用于评价结构效度的主要指标有累积贡献率、共同度和因孓负荷累积贡献率反映公因子对量表或问卷的累积有效程度,共同度反映由公因子解释原变量的有效程度因子负荷反映原变量与某个公因子的相关程度。

我要回帖

更多关于 问卷调查信度效度分析 的文章

 

随机推荐