当前位置:首页 > 艾尔巴比笔记
4.给每种属性都贴上一个数字标签 (3)数据登陆
除了将资料转化成定量形式之外,想进行定量分析的研究还需要将资料转化成机读格式,使得电脑能够读取并处理资料。
2、单变量分析——出于描述的目的,对单个变量进行分析。频次分布,平均值和离散趋势测量都是单变量分析,跟双变量分析和多变量分析形成对照。 (1)分布
频次分布——对一样本中变量的不同属性出现次数的描述。比如说,样本的53%是男性,47%是女性。另外一个例子可以是15个被研究的城市人口在1万以下;23个城市的人口在1万到2.5万之间等等。 (2)集中趋势
平均数(集中趋势)——代表集中趋势——典型性或常规性——的一个含糊术语。算术平均值,中位数和众数都是数学平均数的具体例子。
平均值——加总多个观察,除以观察单位总数所得到一个平均值。(定距变量) 众数——代表着最常出现的观察值或者属性。(适合定类变量)
中位数——在观察属性排列中位于“中间”的那个个案的值。(适合定序变量)
(3)离散趋势——围绕中心值——比如平均数——的值的分布。极差就是个简单例子。比如我们可以报告说平均年龄是37.9,范围从12岁到89岁。
标准差——对围绕平均值的离散趋势的测量。本质上,标准差是某套资料的变异程度的指标。高的标准差意味着资料比较离散,低的标准差意味着资料比较聚集。
(4)连续变量和离散变量
连续变量——其属性逐步、稳定增加的变量。 离散变量——其属性彼此隔离,或者说不连续的变量。
(5)细节可处理性——资料的完整与方便之间的矛盾
3、子群比较——以来描述子群之间子某些变量上的相似性和差异
4、双变量分析——为了决定两个变量之间的经验关系而同时对两个变量进行分析。探讨的是自变量和因变量之间的统计相关,其目的通常是解释而不是描述。 (1)百分比表格 (2)建立和解读双元表格
制作解释性双变量表格的步骤: 1.按照自变量的属性将样本分组
2.按照因变量的属性来描述这些分组好的子群体
3.按照因变量属性将自变量的子群相比较,以解读这个表格
列联表——用百分比分布来表示变量关系的格式,因变量必须依靠自变量值而定。 原则:1.表格必须要有表头或标题,以简洁地描述表中的内容。
2.变量原来的内容必须清楚说明——如果可能的话,可呈现在表格中,或者写在正文中,再加一段附于表中。当变量是取自于对态度问题的回答时,这个信息尤为重要,因为答案的意义主要取决于问题的问法。
3.每一个变量的属性必须清楚地说明。
4.当在表格中使用百分比时,必须说明计算标准。
5.若因缺失资料而必须将某些样本删除,其数量必须标于表格中。
5、多变量分析——对几个变量之间的关系的同时分析。
三、详析模式
详析模式——通过控制第三个变量的影响来理解两变量之间的关系的逻辑模式,其主要时拉扎斯菲尔德发展出来的。详析模式的多种结果时复证、辨明、阐明和标明。
详析模式是一种适用于社会研究的多变量分析方法,基本上是逻辑模型,它可以说明其他多变量方法的基本逻辑。详析模式是一种很好的逻辑工具用来对资料进行展开分析。
1.将样本按照检验变量(或者说控制变量——在进一步澄清其他两变量之间的关系时保持不变的变量。)分成几个子变量。
2.两个原始变量间的关系在两分样本中被分别重新计算。按照这种方式所建立的表格被称为净关系——详析模式中,控制两第三个变量的情况下,两个变量在子群中的相关关系,有时也称偏相关。 3.将这个净关系与在所有样本中发现的原有关系——也就是零阶关系(在详析模式中,也就是在不引入控制变量的情况下,两变量之间的初始关系),表示还没有控制其他变量时两变量之间的关系——进行比较。 1、详析范式
(1)复证——跟详析模式相关的一个术语,指的是引入变量之后,原有的两变量关系并没有改变。进一步加强了原关系为真的信心
(2)辨明——两变量之间的初始关系被证实是虚假的——因为引入控制变量后原关系消失了——这样一种详析模式结果。
必须具备条件:1.检验变量必须先导于自变量与因变量 2.净关系必须是零或明显小于原有关系
(3)阐明——跟详析模式相关联的一个术语。表示的研究结果是说控制变量是原初相关关系中的中间变量,也就是说,自变量通过影响控制变量和影响因变量。
(4)标明——详析模式中用到的一个技术术语,宝石的详析结果是说引入控制变量之后,两变量之间的初始关系在某些子群中继续存在,而在另外一些子群中则不复存在,这个时候,就要标明初始关系存在的条件:比如,存在于男性中,而不存在女性中。
(5)范式的调整
1.基本的范式假定两变量间有一个初始关系,在一个更复杂的模型中,区分正相关关系于负相关关系是很有用处的,单即使初始关系为零,也可运用详析模式。
抑制变量——在详析模式中,使得初始关系不能显现的检验变量。
2.基本模型的焦点在于净关系是否与原有关系相等或比其弱,但它没有提出任何指导原则,以辨明是什么构成了原有关系与净关系之间的显著差异。
3.基本范式局限于人为净关系等同或弱于原有关系,这就忽略了两种可能性:净关系可以比原有关系更强,或者,就根本与原有关系相反。
曲解变量——在详析模式中,颠倒零阶关系的方向的变量。
4.基本范式主要着重于二分式检验变量。实际上,详析模式并非局限于此——不论式理论上还是实用上——但如果检验变量将样本分成三个或更多个子样本,则基本范式会变得更复杂。此外,同时使用一个以上的检验变量时,范式也会变得复杂。
2、详析与事后假设
事后假设——在证实性的资料已经收集起来之后才提出的假设。由于不存在证伪的可能性,所以这种假设时没有意义的。
事后假设并不妨碍我们对任何观察到的关系进行推论;只是我们不能将这些推论弄成“假设”形式。更重要的是,一个已观察到的关系及其可能的推论,很可能引出有关其他变量间尚未被验证的关系假设。
四、社会统计(见统计研究运用)
1、描述统计——或者描述样本属性,或者描述样本中的变量关系的统计计算。其只是对样本观察的总结,而推论统计则超越特定的描述而对样本所代表的总体性进行推论。 (1)资料简化 (2)相关性测量
消减误差比例(PRE)——评估关系强度的一个逻辑模型,其原理是知道了一个变量的值之后,再去猜测另一变量的值所能减少的误差。
2、回归分析——用等式(也称作回归方程式)的形式来表示变量之间关系的一种资料分析方法 (1)线性回归——一种统计分析模型,它寻求能够最佳描述两个定比变量之间关系的直线模式。 (2)多元回归分析——这种统计分析模型寻求代表了两个或更多的自变量对单个因变量影响等式 (3)偏回归——在这种回归分析中,某个或者多个变量的作用被控制住了。跟详析模式很像。 (4)曲线回归分析——在曲线回归分析中,利用曲线而不是直线来表达变量之间的关系。
(5)回归分析注意事项
用回归分析作统计推论根据的是相关分析中使用的相同假设:简单随机抽样、抽样误差的存在以及连续性的定距资料。
回归线对内推(估算介于观察到到样本之间的值)很有用,但对外推的使用上却不太可靠。在外推上有两个重要的限制:1.可能会碰到那种看似不合逻辑推论的的回归方程。2.如果研究者超越了这个限制而进行外推,就可以据此批评他们。
3、其他多变量方法
(1)路径分析——一种用图表格式来表达变量之间的因果关系的多变量分析模型。 (2)时间序列分析——对一历史变量的分析。
(3)因素分析——用来判断存在于一组具体观察内部的因素或者一般维度的复杂的代数方法。
标准:1.该因素必须能够解释变量的绝大部分变异 2.每个因素彼此间多少应该互相独立。 优点:1.是找出大量变量间关系模式的有效方法 2.可以将资料以读者或研究者可判读的形式表达
缺点:1.因素的产生并没有任何实际意义。研究者常会发现一组实质上相去甚远的变量却在同一因素上有很高的荷载量。
2.从哲学的立场看,因素分析也常被批判。一个假设必须是可以被推翻的,如果一个研究者无法确立假设可能被推翻的情况是什么,那么该假设实际上不是自我重复就是毫无用处
4、统计推论——即从样本观察的发现推论到总体的统计方法。 (1)单变量推理(社会研究方法P450)
必须注意几个假设:1.样本必须来自需要推理的总体。从一本电话号码中抽出的样本,并不能正当地作为一个城市人口的推理基础。
2.推论统计假定样本由简单随机抽样得到,但实际上,在抽样调查中不可能做到这一点 3.推论统计只针对抽样误差,而不考虑非抽样误差——即来自抽样误差之外的资料质量的瑕疵。其中包括受访者对问题的误解、访谈者的错误记录、编码和打孔错误等。
(2)统计显著性——指的是样本中所观察到到关系能够归因于抽样误差的可能性。
统计显著性检验——该类统计计算揭示的是样本所观察到到关系能够归因于抽样误差的可能性。
(3)统计显著性的逻辑
显著水平——在统计显著性检验中,观察到的经验关系能够归因于抽样误差的可能性。如果其出于抽样误差的可能性不超过5%,那么就可以说在.05水平上该关系是显著的。
(4)卡方
在社会科学界经常用来检验显著性,根据是虚无假设(或零假设):假设在总体中者两变量间无任何关系。有了两个变量观察值的分布,我们可以计算出如果两变量没关系时的期望值的共同分布,这样的结果在列联表中被称为“期望频次”,然后将这些期望频次分布与实际从样本中得到的频次进行比较,接着确定两者之间的差异完全因为抽样误差的概率由多少。
计算方法:在表中的每一格1.用观察值减去期望频次 2.将上一步所得的值平方 3.用平方后的值除以期望频次。这些步骤在表中每一格都要做,然后将每一格所得之结果全部加总,最后的加总值就是卡方。
这个值表示样本观察值的联合分布与当两个变量不相关时的预期值之间的总差异。当然,仅发现差异无法证明两变量间的相关性,因为常态抽样误差也会造成差异,即使整个总体的变量间没有关系也使如此。然而,卡方值的大小却可以让我们估算相关性发生的概率。
1.自由度
2.注意事项
首先,我们时检验“统计显著性”,并没有检验客观的显著性。
其次,不应该计算从总体资料中观察到的抽样假设与计算置信区间的相同。
3.显著性检验的误导:
(1)显著性检验让实际抽样设计根本无法满足抽样假设
(2)显著性检验所依据的是没有非抽样误差的假设,这在大多数实际的实证测量中是相当令人质疑的
(3)事实上,显著性检验经常被用于测量相关性。而相关测量却又是在违反那些假设的情况下计算出来的
(4)统计显著性经常被误解为“相关强度”或实质显著性,后者指观察到的相关性很强、很重要、很有意义。
共分享92篇相关文档