偏最小二乘回归通俗理解

如题所述

偏最小二乘回归(英语:Partial least squares regression, PLS回归)是一种统计学方法,与主成分回归有关系,但不是寻找响应变量和自变量之间最大方差的超平面,而是通过投影分别将预测变量和观测变量投影到一个新空间,来寻找一个线性回归模型。因为数据X和Y都会投影到新空间,PLS系列的方法都被称为双线性因子模型(bilinear fator models)。当Y是分类数据时称为“偏最小二乘判别分析(英语:Partial least squares Discriminant Analysis, PLS-DA)”。

研究认为,集多元线性回归分析、典型相关分析、主因子分析等方法于一体的偏最小二乘回归方法( PLS) 更适用于FM 分析, 可以避免数据非正态分布、因子结构不确定性( factor indeterminacy) 和模型不能识别等潜在问题。

偏最小二乘用于查找两个矩阵(X和Y)的基本关系,即一个在这两个空间对协方差结构建模的隐变量方法。偏最小二乘模型将试图找到X空间的多维方向来解释Y空间方差最大的多维方向。偏最小二乘回归特别适合当预测矩阵比观测的有更多变量,以及X的值中有多重共线性的时候。相比之下,标准的回归在这些情况下不见效(除非它是Tikhonov正则化)。

偏最小二乘算法被用在偏最小二乘路径建模中,一个建立隐变量(原因不能没有实验和拟实验来确定,但一个典型的模型会基于之前理论假设(隐变量影响衡量指标的表现)的隐变量模型)这种技术是结构方程模型的一种形式,与经典方法不同的是基于组件而不是基于协方差。

偏最小二乘来源于瑞典统计学家Herman Wold,然后由他的儿子Svante Wold发展。偏最小二乘的另一个词(根据Svante Wold)是投影到潜在结构,但偏最小二乘法依然在许多领域占据着主导地位。尽管最初的应用是在社会科学中,偏最小二乘回归被广泛用于化学计量学和相关领域。它也被用于生物信息学,sensometrics,神经科学和人类学。而相比之下,偏最小二乘回归最常用于社会科学、计量经济学、市场营销和战略管理。

偏最小二乘法是集主成分分析、典型相关分析和多元线性回归分析3种分析方法的优点于一身。它与主成分分析法都试图提取出反映数据变异的最大信息,但主成分分析法只考虑一个自变量矩阵,而偏最小二乘法还有一个“响应”矩阵,因此具有预测功能。

温馨提示:答案为网友推荐,仅供参考