搜索
您的当前位置:首页正文

SPSS学习心得

来源:知库网


SPSS应用

交叉频数表: 统计量 用卡方检验,观察实际频数、期望频数、剩余(观察频数-期望频数)、标准化剩余

卡方检验:一般要求列联表中的期望频数小于5的格子数不超过20%,否则会夸大卡方值,容易得出拒绝结论,可以合并单元格。

样本书对卡方有影响可以用修正的卡方检验

phi系数和V系数(0~1)之间,越大表示行列变量地相关性越大。

单因素方差分析的多重比较:总体均值存在差异时,F检验不能说明那个水平造成了观察变量的显著差异,多重比较对每个水平的均值逐对进行比较检验。

多重比较方法选择:一般如果存在明确的对照组,要进行的是验证性研究,即计划好的某两个或几个组间(和对照组)的比较。宜用Bonferroni(LSD)法;若需要进行多个均数间的两两比较(探索性研究),且各组个案数相等,适宜用Tukey法;其他情况宜用Scheffe法。

聚类分析: 变量的选择——无关变量有时会引起严重的错分,应当只引入在不同类间有显著差别的变量,尽量只使用相同类型的变量进行分析

共线性问题——对记录聚类结果有较大的影响,最好先进行预处理

变量的标准化——变量变异程度相差非常大时需要进行,标准化后会消弱有

用变量的作用

异常值——影响较大,还没有比较好的解决办法,尽力避免

分类数——从实用角度讲,2~8 类比较合适

K-means Cluster 过程——样本量大于100时有必要考虑,只能使用连续性变量

Hierarchical Cluster 过程——一旦观测、变量被划定类别,其分类结果就不会在进行更改;可以对变量或记录进行聚类;变量可以为连续或分类变量;提供的距离测量方法非常丰富;运算速度较慢

具体的分类数不明时,需要输出全部结果;方差和均数相差不大,无需进行标准化

判别分析 Fisher判别法——与主成份分析有关;对分布、方差等都没有什么限制

Bayes 判别——计算该样品落入各个子域的概率;强项是进行多类判别;要求总体呈多元正态分布

判别分析适用条件——各变量为连续性或有序分分类变量;样本来自一个多元正态总体(该前提几乎做不到);各组的协方差矩阵相等(类似与方差分析中的方差齐性);变量间独立,无共线性;违反条件影响也不大

主成份分析

因子负荷——即表达式中个因子的系数值,用于反映因子和各个变量间的密切程度,

其实质是两者间的相关系数

公因子方差比(Communalitise)指提取公因子后,变量中信息分别被提取出的比例,或者说原变量的方差中由公因子决定的比例

特征根——可以被看成是主成份影响力度的指标,代表引入该因子、主成分后可以解释平均多少原始变量的信息。

分析实例——相关系数考察相关性;散点图直接考察;根据信息提取的比列确定主成分数量;碎石图;因子得分系数阵

使用条件——样本量与变量数的比列应该在5:1以上,不得少于100;各变量间必须有相关性:KMO统计量:0.9最佳,0.7尚可,0.6很差,0.5以下放弃。也可以用Bartlett's 球星检验

公因子数量的确定——主成份的累积贡献率:80-85%以上,特征根:大于1,综合判断,因子分析时更重要的是因子的可解释性

对应分析法 对应分析(Correspondence analysis)也称关联分析、R-Q型因子分析,是近年新发展起来的一种多元相依变量统计分析技术,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。主要应用在市场细分、产品定位、地质研究以及计算机工程等领域中。原因在于,它是一种视觉化的数据分析方法,它能够将几组看不出任何联系的数据,通过视觉上可以接受的定位图展现出来。

对应分析是由法国人Benzenci于1970年提出的,起初在法国和日本最为流行,然后引入到美国。对应分析法是在R型和Q型因子分析的基础上发展起来的一种多元统计分析方法,因此对应分析又称为R-Q型因子分析。在因子分析中,如果研究的对象是样品,则需采用Q型因子分析;如果研究的对象是变量,则需采用R型因子分析。但是,这两种分析方法往往是相互对立的,必须分别对样品和变量进行处理。因此,因子分析对于分析样品的属性和样品之间的内在联系,就比较困难,因为样品的属性是变值,而样品却是固定的。于是就产生了对应分析法。对应分析就克服了上述缺点,它综合了R型和Q型因子分析的优点,并将它们统一起来使得由R型的分析结果很容易得到Q型的分析结果,这就克服了Q型分析计算量大的困难;更重要的是可以把变量和样品的载荷反映在相同的公因子轴上,这样就把变量和样品联系起来便于解释和推断。

对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。它最大特点是能把众多的样品和众多的变量同时作到同一张图解上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性。另外,它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程,可以从因子载荷图上对样品进行直观的分类,而且能够指示分类的主要参数(主因子)以及分类的依据,是一种直观、简单、方便的多元统计方法。

对应分析法整个处理过程由两部分组成:表格和关联图。对应分析法中的表格是一个二维的表格,由行和列组成。每一行代表事物的一个属性,依次排开。列则代表不同的事物本身,它由样本集合构成,排列顺序并没有特别的要求。在关联图上,各个样本都浓缩为一个点集合,而样本的属性变量在图上同样也是以

点集合的形式显示出来。

对应分析用于展示两个或者多个分类变量各类间的关系,研究较多分类变量间的关系时较好,各个变量的类别较多时较佳。

方法:Optimal Scaling 过程——可以同时分析多个分类变量间的关系,并同样用图形表示出来;在变量种类上给家丰富,已可以处理各种类型的变量(无序多分类分析、有序多分类变量和连续性变量同时进行分析的问题);不能够自动筛选变量,需要用户根据经验和分析结果进行耐心筛选

Categorical Regression(CATREG)——分类资料的回归分析,分类变量越多优势越明显

Homogeneity(HOMALS)——同质性分析,即多重对应分析,以图形化方式展示多个分类变量间的关系

Categorical Principal Components (CatPCA)——其实质为分类变量的主成分分析;当一些变量为名义测量外的其它

Nonlinear Canonical

Correlation (OVERALS)——非线性典型相关方法;用于分析两个或多个变量集之间的关系;允许变量为任何类型测量(有序分类或连续性变量)时使用;也就是MR中常用的多维偏好分析

Nonlinear Canonical Correlation (OVERALS)——非线性典型相关方法;用于分析两个或多个变量集之间的关系;允许变量为任何类型

生存分析

方法分类:参数法——首先要求观察的生存时间t服从某一特定的分布,采用估计分布中参数的方法获得生存率p(X>t)的估计值;生存时间的分布可能为指数分布、Weibull分布、对数正态分布等,这些分布曲线都有相应的生存率函数形式。只需求得相应参数的估计值,即可获得p(X>t)的估计值和曲线。

非参数法——实际工作中,多数生存时间的分布不符合上述所指的分布,就不宜用参数法进行分析,应当用非参数法;这类方法的检验假设与以往所学的非参数法一样,假设两组或多组的总体生存率曲线分布相同,而不论总体的分布形式和参数如何;非参数法是随访资料的常用分析方法。

半参数法——只规定了影响因素和生存状况间的关系,但是没有对时间(和风险函数)的分布情况加以限定;这种方法主要用于分析生存率的影响因素,属多因素分析方法,其典型方法是Cox比例风险模型。

Nonliner过程——可以针对任何种类的时间分布加以拟和

Life tables过程——分析分组生存资料;主要用于计算寿命表

Kaplan-Meier过程——用于未分组生存资料

Ebeta——相对危险度(RR,Relative Risk);表示两种情况下发病密度或者说发病概率之比;显然,如果RR>1则说明相应的自变量取值增加,会导致个体的发病/死亡风险增加若干倍;因此RR在医学中得到了极为广泛的应用,其使用价值也高于OR;可以针对任何种类的时间分布加以拟和

因篇幅问题不能全部显示,请点此查看更多更全内容

Top