文章

一个主成分回归中隐藏的思维陷阱

主成分回归中隐藏的思维陷阱——排名靠前的成分可能和要研究的问题无关。

一个主成分回归中隐藏的思维陷阱

最近在对某些经济数据应用主成分回归时遇到一件怪事:变量 $X_1$、$X_2$ 和 $X_3$ 做 $Y$ 的解释变量,回归系数是显著的,提取 $X_1$、$X_2$ 和 $X_3$ 的首个主成分 $P_1$,$P_1$ 做 $Y$ 的解释变量却是不显著的,咄咄怪事。

事后想明白了,这其实是应用主成分回归的过程中隐藏的一个思维陷阱。

应用主成分回归的常规流程

  1. 根据业务知识或者回归分析找到因变量 $Y$ 的若干解释变量 $X_1,X_2, \dots$
  2. 提取解释变量排名靠前的少数主成分 $P_1,P_2,\dots$
  3. 用 $P_1,P_2,\dots$ 做解释变量,对 $Y$ 应用回归分析

上述三步便是应用主成分回归的常规流程,但是其中隐藏里一个思维陷阱,即 $Y$ 必然可以和排名靠前的少数主成分建立起回归关系,这其实是一个先入为主的错误观念。

事实上,$Y$ 可能只能和排名靠后的主成分建立起回归关系

构造一个例子

$P_1$、$P_2$ 和 $P_3$ 是三个独立的随机变量,方差依次降低。$X_1$、$X_2$ 和 $X_3$ 均是 $P_1$、$P_2$ 和 $P_3$ 的线性组合:

\[\begin{bmatrix} X_1\\ X_2\\ X_3 \end{bmatrix} = A \times \begin{bmatrix} P_1\\ P_2\\ P_3 \end{bmatrix}\]

其中 $A$ 是可逆的矩阵。

如果对 $X_1$、$X_2$ 和 $X_3$ 做主成分分析的话,得到的主成分就是 $P_1$、$P_2$ 和 $P_3$。

如果 $Y = P_3 + \varepsilon$,$\varepsilon$ 和 $P_1$、$P_2$ 和 $P_3$ 独立。很显然,$X_1$、$X_2$ 和 $X_3$ 和 $Y$ 可以建立起回归关系,但是 $Y$ 和第一个主成分 $P_1$ 是不存在任何关系的。

应对办法

为了避免跌落陷阱,对提取出来的所有主成分做“逐步回归”可能是一个不错的办法,由于主成分之间的正交性,逐步回归的结果应该会非常稳健。

本文由作者按照 CC BY 4.0 进行授权