维普资讯 http://www.cqvip.com Journal of Mathematica1 Medicine Vok 2O No.4 2007 文章编号:1004—4337(2007)04-0450-02 中图分类号:R311 文献标识码:B ・方法评介・ 偏最小二乘回归原理、分析步骤及程序 秦浩 林志娟 (山东省潍坊医学院预防医学系摘陈景武 潍坊261042) 要:介绍偏最小二乘回归处理多重共线性问题的原理、分析步骤,并给出了相应的SAS程序。 关键词:偏最小二乘回归;原理;SAS程序 分析变量间依存变换关系时,如自变量x较多,它们之间 容易存在多重相关性,相应矩阵(X’x)为奇异阵,无法求逆; 并且普通多元回归需要样本含量是变量数的10 ̄20倍,在实 际问题中,有时很难再扩大样本含量。鉴于以上两方面原因, 不宜采用基于最小二乘法的普通多元回归建模。此问题的解 决办法通常有岭回归(Ridge Regression,RR)、主成分回归 (Principal Component Regression,PCR)及偏最小二乘回归 (Partial Least Squares Regression,PLSR)。岭回归、主成分 回归应用较多,偏最小二乘回归在卫生领域运用的相对较少。 本研究主要对偏最小二乘回归原理、分析步骤进行探讨。 偏最zI ̄Z.乘回归由化学界的伍德、阿巴诺等人在1983年 提出,这种方法是在普通多元回归的基础上柔和进主成分分 Ul一 lYl+…+ pXp= ’Y 其中oh.一( l,…,c )’为模型效应权重(Model Effect Weights), :( 一, 口)’为因变量权重(Dependent Varia— ble Weights)。为保证丁l、U 各自尽可能多地提取所在变量 组的变异信息,同时保证两者之间的相关程度达到最大,据成 分的协方差可由相应成分的得分向量的内积来计算的性质, 上述提取第一成分的要求转化为求条件极值问题。 f( l,“>=(Xo ,Yo >一 ’Xo’Yo’ul’一最大 I ’ 一l ll 一1,tlh’ 一l lll。=1 其中 、U-为由样本求得的第一对成分的得分向量,X0、 y0为初始变量。利用拉格朗日乘子法,上述问题转化为求单 位向量 和 ,使 一 ’Xo’y0 一最大,即求矩阵X0’ y0’ 的特征值和特征向量,其最大特征值为 ,相应的单 1 析、典型相关分析的思想,很好地解决了自变量问多重共线性 问题。密西根大学(Michigan University)的弗耐尔(Fomel1) 教授称偏最小二乘回归为第二代回归分析方法。偏最小二乘 可用如下等式表明其分析原理,即偏最小二乘回归一主成分 位特征向量就是所求的解 ,而u 由公式 一 Yo’Xo 得 U 到。 分析+典型栩关分析+普通多元线性回归。偏最小二乘的算 法基础是最小二乘法(LS),在尽可能提取包含自变量更多信 2建立回归方程 息的成分的基础上,保证了提取成分与因变量间最大相关性, 即偏爱与因变量有关的部分,所以称其为偏最小二乘回归。 2.1首先足建立初始变量对 的方程 f Xo— l口l’-4-El I y0一 l ’-4-Fl 据因变量个数,分为单变量和多变量的偏最小二乘回归, 前者是一个因变量对多个自变量建模,后者是多个因变量对 多个自变量建模。也可把前者可作是后者的特例,下面是基 于成分提取思想下的多变量偏最小二乘回归分析步骤。 1提取第一对成分。并使之相关性最大 其中zl意义同前,口 ’一(口 …,口l ), ’一( 一, ) 为仅一个自变量 时的参数向量,E 、F 分别为 ×m和 × P残差阵。按照普通最小二乘法(Ordinary Least Square, 0LS)可求得系数向量a 、A,其中a 称为模型效应载荷量 (Model Effect Loadings)。 设有m个自变量X 一,X埘,P个因变量y 一,y。,共i ( =1,…, )个观测值的数据集。为叙述方便,且不失一般性, 所有变量均进行了标准化变换。T、U分别为从自变量与因变 量中提取的成分,这里提取的成分通常称为偏最小二乘因子。 从原始变量集中提限第一对成分丁l、 的线性组合为: Tl一 1X1+…+ X = ’X 2.2建立最终回归方程 如提取的第一成分不能达到回归模型的精度,运用残差 阵E 、F 代替x0、y0,重复1、2步继续提取成分,依次类推。 假设最终提取了r个成分,x0、y0对r个成分的回归方程为: fXo— l口l’+…+t atf ’+E IYo— lA’+…+ ’+Fr 收稿日期:2006-01-07 *山东省潍坊医学院基础部 ・450・ 维普资讯 http://www.cqvip.com 数理医药学杂志 2007年第2O卷第4期 把第一步分析所得自变量中提取成分 (忌一1,…,r)线 最小二乘因子的个数,没有明确的规定,常用的是“舍一交叉 验证方法”。 5总结 性组合带入因变量对r个成分建立的回归方程,即把t,= x1+…+ x 带入 =£1 +…+£ ( 一1,…,户),即得 标准化变量的回归方程 =n X,+…+n加X ,然后还原成 原始变量的回归方程即可。 3模型评价 偏最小二乘的软件较多,并有专门的SIMCA-P软件。为 了更好地应用偏最小二乘回归,并鉴于SAS是目前最为常用 的统计软件之一,编写如下SAS程序供研究者参考,其它软件 的使用可参考有关书籍。 回归模型确定后,需要对模型评价。除象普通多元线性 回归,评价从回归方程的决定系数(R ),及对各个回归系数的 检验外,还应考虑所提取的各个成分对各个变量(自变量与因 data a;input Xl一 1一 @@;cards;原始数据集; proc standard mean=O std=1 out=b;proc print ̄ 变量)的解释能力以及累积解释能力,具体的评价过程不再赘 述。 由以上偏最小二乘回归分析过程来看:第一步采用主成 分分析与典型相关分析的思想提取成分,不仅保证了提取的 成分尽可能多地保留原始变量的信息且保持相互独立,而且 自变量与因变量的相关性最大;第二步采用普通最小二乘法 建立回归方程,因成分间已不存在多重共线性,此时采用普通 最小二乘估计所得结果稳定性较好;第三步对模型的评价同 样包含了这三种统计方法的评价内容。由此可见,偏最小二 乘回归集中了主成分分析、典型性相关分析及普通多元回归 分析的优点。 4成分确定方法 以上分析过程中有一个小小的问题,就是成分的确定方 法。同主成分分析,偏最小二乘回归同样采用截尾的方式选 择前几个重要的成分。事实上,如果后续的成分已经不能为 解释因变量提供更有意义的信息时,采用过多的成分只会破 坏对统计趋势的认识,得出错误的预测结论。究竟提取多少 成分就可保证模型的较好的精度?可按照交叉验证法(cross validation)来进行抽取。 交叉验证法是衡量所建模型预测能力标准,可分为:①舍 一交叉验证法;②分批交叉验证法;③分裂样本交叉验证法; ④随机样本交叉验证法。交叉验证顾名思义,每个观测值既 参与模型的建立,又参与模型的评价,以此来求得残差平方和 (Prediction Residual Error Sum of Squ ̄res,PRESS,其体现了 观测点的变动所引起的扰动误差),最后求得所有残差平方和 的合计值作为总的残差平方和。就拿“分批交叉验证方法”来 说,每次扣留连续的q个观测作为检验数据集,剩余的观测建 立模型,当g=1时就是“舍一交叉验证方法”。PR联 值越 大,所建模型越不稳定,最后按照预测残差平方和最小的原则 确定提取成分个数。在实际问题中究竟采用哪种方法确定偏 proc pls data=a nfac--2 cv=one varss censcale details; model yl一 一丑一 /solution;run: 其中程序ST DARD对数据进行标准化,程序print要 求打印输出标准化数据。程序PLS进行偏最小二乘回归分 析,其语句说明如下:nfac=2要求提取成分为2个,缺省时提 取成分个数与自变量个数相同;cv=one采用“舍一交叉验证 法”估计提取成分数的残差平方和,如果把one换作split、 block或random,分别采用分裂样本交叉验证法、分批交叉验 证法、随机样本交叉验证法,且采用cv语句所输出的偏最小 二乘回归方程仅包含第一对成分,此时nfac规定的提取成分 数无效;varss提取成分对各个原始变量及总的自变量和因变 量解释变异程度,缺省时只给出所提取成分总的自变量和因 变量的解释比例;censcale输出标准化变换时的均数和标准 差;details输出模型效应的载荷量、模型效应和因变量的权 重;solution输出偏最小二乘回归方程原始变量和标准化变量 的参数估计。 参考文献 1高惠璇,著.应用多元统计分析.北京:北京大学出版社,2005,1. 2王惠文,著.偏最小二乘回归方法及其应用.北京:国防工业出版 社,1999,4. 3任若恩,王惠文.多元统计数据分析——理论、方法、实例.北京: 国防工业出版社,1997,6. 4何晓群.回归分析与经济数据建模.北京:中国人民大学出版社, 1997.5. 5高惠璇.实用统计方法与SAS系统.北京:北京大学出版社, 2001.10. ・451 ・