《高级投资组合优化》阅读笔记-第四章

第四章

在本章中,我们将解释如何构建风险因子模型,试图将资产收益表现作为风险因子表现的函数来解释。然后,基于这些模型,我们可以将资产收益的预期收益向量和协方差矩阵估计为风险因子的函数,这些风险因子可以是显性的(外生变量)或隐性的(外生变量的主成分)。与仅使用基于样本的参数估计作为投资组合优化模型的输入相比,这些新的估计方法往往能产生更多样化和稳健的投资组合。

4.1 一般风险因子模型 (General Risk Factor Models)

作为资本资产定价模型 (CAPM) 的替代方案,Ross (1976) 基于套利理论推导出了一个资产定价模型,称为套利定价理论 (APT)。APT 认为资产的预期收益与多个风险因子线性相关,这与 CAPM 仅将其与单一风险因子(市场超额收益)相关联的观点不同。

APT 的优势在于它不具体规定这些风险因子是什么,只假设资产收益与风险因子之间存在线性关系。这使得风险建模比 CAPM 更为灵活,同时该方法允许消除非系统性风险,使得投资者仅因承担系统性风险因子而获得补偿。

1. 核心思想:多因子解释收益

多风险因子模型的核心思想是:任何资产的收益率都可以被分解为两部分:

  1. 可解释部分(系统性收益 / Systematic Return):由一系列共同的风险因子 (Common Risk Factors) 及其该资产对因子的敏感度 (暴露程度) 所决定。例如利率变化、通货膨胀、行业景气度等。这种风险无法通过分散化投资来消除,因此投资者承担这部分风险时,会要求相应的回报补偿。
  2. 不可解释部分(非系统性收益 / Idiosyncratic Return):资产特有的、随机的回报部分 ( idiosyncratic return),该部分与所有风险因子无关。

2. 模型的数学表达

假设有 nn 个资产,每个资产的收益率可以表示为:

ri=αi+βi,1f1+βi,2f2++βi,kfk+ϵi=αi+j=1Kβi,jfj+ϵi(4.1) r_{i} = \alpha_{i} + \beta_{i,1}f_{1} + \beta_{i,2}f_{2} + \ldots + \beta_{i,k}f_{k} + \epsilon_{i} = \alpha_{i} + \sum_{j = 1}^{K}\beta_{i,j}f_{j} + \epsilon_{i} \tag{4.1}

其中:

  • rir_i:第 ii 个资产的收益率。
  • αi\alpha_i:第 ii 个资产的截距项或者说。在严格无套利条件下,αi\alpha_i应为零;在实证或主动管理语境下称其为“Alpha”。
  • fjf_j:第 jj共同风险因子的收益率或变化值(例如,GDP增长率、利率变化、油价波动等)。
  • βi,j\beta_{i,j}:第 ii 个资产对第 jj 个风险因子的敏感度因子暴露 (Factor Loading)。它衡量的是当因子 fjf_j 变动 1% 时,资产 ii 的收益率平均变动多少,或者说资产 ii 回报的敏感程度。
  • ϵi\epsilon_i:第 ii 个资产的特质性收益​ (Idiosyncratic Return) 或残差项,代表无法被共同风险因子解释的部分。

模型的关键假设

  1. E[ϵi]=0\mathrm{E}[\epsilon_{i}] = 0:特质性收益的期望值为零。
  2. E[ϵiϵj]=0,ij\mathrm{E}[\epsilon_{i}\epsilon_{j}] = 0, \forall i\neq j:任何两个不同资产的特质性收益不相关
  3. E[ϵifj]=0\mathrm{E}[\epsilon_{i}f_{j}] = 0:任何资产的特质性收益与所有风险因子不相关

将所有资产的方程堆叠在一起,可以得到简洁的矩阵形式:

R=α+FB+ϵ(4.2) R = \alpha +FB^{\prime} + \epsilon \tag{4.2}

R=[r1r2rn],α=[α1α2αn],B=[β1,1β1,2β1,kβ2,1β2,2β2,kβn,1βn,2βn,k],F=[f1f2fk],ϵ=[ϵ1ϵ2ϵn](4.3) R = \left[ \begin{array}{c}r_{1}\\ r_{2}\\ \vdots \\ r_{n} \end{array} \right]^{\prime},\alpha = \left[ \begin{array}{c}\alpha_{1}\\ \alpha_{2}\\ \vdots \\ \alpha_{n} \end{array} \right]^{\prime},B = \left[ \begin{array}{c}\beta_{1,1}\beta_{1,2}\dots \beta_{1,k}\\ \beta_{2,1}\beta_{2,2}\dots \beta_{2,k}\\ \vdots \vdots \ddots \vdots \\ \beta_{n,1}\beta_{n,2}\dots \beta_{n,k} \end{array} \right],F = \left[ \begin{array}{c}f_{1}\\ f_{2}\\ \vdots \\ f_{k} \end{array} \right]^{\prime},\epsilon = \left[ \begin{array}{c}\epsilon_{1}\\ \epsilon_{2}\\ \vdots \\ \epsilon_{n} \end{array} \right]^{\prime} \tag{4.3}

其中:

  • RR:资产收益率向量 (n×1n \times 1)
  • α\alpha:资产截距项向量 (n×1n \times 1)
  • BB因子载荷矩阵 (n×kn \times k),每一行代表一个资产,每一列代表该资产对相应因子的敏感度。包含了所有资产对所有因子的敏感度 βi,j\beta_{i,j}。这是模型的核心矩阵。
  • FF:风险因子收益率向量 (k×1k \times 1)
  • ϵ\epsilon:特质性收益向量 (n×1n \times 1)

3. 模型的统计性质

基于模型表达式和基本假设,我们可以推导出资产回报的期望和协方差。

  • 期望收益向量 (μFM\mu_{\mathrm{FM}}): 对公式 (4.2) 两边取期望,并利用 E[ϵ]=0\mathrm{E}[\epsilon]=0E[F]=μF\mathrm{E}[F] = \mu_F

    μFM=E[R]=α+BμF(4.4) \mu_{\mathrm{FM}} = \mathrm{E}[R] = \alpha + B \mu_{F} \tag{4.4}

    结论:资产的预期回报由两部分构成:其自身的Alpha (α\alpha),以及它所承担的各种系统性风险的预期回报之和 (BμFB\mu_{\mathrm{F}})。其中 BB 是因子载荷矩阵,μF\mu_F 是风险因子的预期回报向量。

    含义:资产的预期收益等于其截距项加上其因子暴露与因子预期收益的加权和。

  • 协方差矩阵 (ΣFM\Sigma_{\mathrm{FM}}): 资产收益率的协方差矩阵由两部分构成:

    ΣFM=BΣFB+Σϵ(4.5) \Sigma_{\mathrm{FM}} = B \Sigma_{F} B^{\prime} + \Sigma_{\epsilon} \tag{4.5}
    • BΣFBB \Sigma_{F} B^{\prime}系统性风险(系统性协方差矩阵)。由共同因子的波动 (ΣF\Sigma_F) 及其资产对因子的敏感度 (BB) 共同决定。这部分风险是不可分散的。
    • Σϵ\Sigma_{\epsilon}非系统性风险(特质性风险)。根据模型假设,Σϵ\Sigma_{\epsilon} 是一个对角矩阵,因为不同资产的特质性收益互不相关。这部分风险是可分散的(通过构建投资组合)。

4. 优点与缺点

优点

  1. 经济直觉强:模型试图捕捉收益产生的根本经济来源(风险因子)。
  2. 估计稳健:相较于完全依赖历史数据的样本估计,基于因子模型的参数估计通常更稳健,尤其当资产数量很大时。
  3. 降维高效:在估计大量资产的协方差矩阵时,因子模型只需估计因子协方差矩阵 ΣF\Sigma_F(维度k×k)和特质方差矩阵 Σϵ\Sigma_\epsilon(对角矩阵),大大减少了待估参数的数量。

缺点与挑战

  1. 因子选择难题 (Factor Specification):模型本身并未指明应包含哪些风险因子。选择不同的因子集会导致完全不同的结果,如果因子选择错误,模型会被错误设定。
  2. 正定性问题 (Positive Definiteness):由于估计误差,根据公式 (4.5) 计算出的协方差矩阵 ΣFM\Sigma_{\mathrm{FM}} 可能不是正定矩阵,而这对于许多投资组合优化算法(如均值-方差模型)是必需条件。解决方法通常是寻找最近的半正定矩阵进行替代,或者回退到样本协方差矩阵。
  3. 近似处理:在实践中,有时会忽略特质性风险项,近似地使用 ΣFMBΣFB\Sigma_{\mathrm{FM}}\approx B\Sigma_{F}B^{\prime}。虽然简化了计算,但需要后续调整以确保矩阵的正定性。

4.2 显性因子模型 (Explicit Factors Models)

显性因子模型是一类特殊的多因子模型,其核心特征是所使用的风险因子具有明确的经济或市场含义,并且通常有可直接观测或构建的代理变量。这些因子不是通过统计方法(如主成分分析)从数据中提取的,而是基于特定的金融或经济理论预先定义好的。

4.2.1 Fama-French 三因子模型

最著名的显性风险因子模型是Fama-French三因子模型,由 Eugene Fama 和 Kenneth French 于1993年提出。该模型是对资本资产定价模型 (CAPM) 的重大扩展,它认为股票的超额收益不仅由市场风险解释,还受到公司规模估值两个重要风险因子的驱动。

1. 核心思想:市场、规模与价值

Fama-French模型的核心思想是,投资者因承担三种系统性风险而获得补偿:

  1. 市场风险 (Market Risk):承担整体市场波动的风险(源自CAPM)。
  2. 规模风险 (Size Risk):投资于小市值公司所带来的特有风险。实证发现,小公司通常比大公司有更高的预期收益。
  3. 价值风险 (Value Risk):投资于价值股(相对于成长股)所带来的风险。实证发现,低估值公司通常比高估值公司有更高的预期收益。

该模型认为,除了承担整体市场的系统性风险外,投资者还额外承担了两种风险:规模风险价值风险。因此,一项资产的超额回报,应该由它在这三个风险因子上的暴露程度共同决定。

该模型通过构建两个特殊的投资组合来捕捉后两种风险:

  • SMB (Small Minus Big)规模因子。它代表做多一个小市值公司投资组合的同时做空一个大市值公司投资组合的收益。正的SMB收益意味着小盘股表现优于大盘股。
  • HML (High Minus Low)价值因子。它代表做多一个高账面市值比(价值型)公司投资组合的同时做空一个低账面市值比(成长型)公司投资组合的收益。正的HML收益意味着价值股表现优于成长股。

2. 模型的数学表达

对于任一资产 ii,其超额收益可以被表示为以下三个因子的线性函数:

rirf=αi+βi,M(rmrf)+βi,SSMB+βi,VHML+ϵi(4.6) r_{i} - r_{f} = \alpha_{i} + \beta_{i,M}(r_{m} - r_{f}) + \beta_{i,S}\mathrm{SMB} + \beta_{i,V}\mathrm{HML} + \epsilon_{i} \tag{4.6}

其中:

  • rirfr_{i} - r_{f}:资产 ii超额收益 (Excess Return),即资产回报率减去无风险利率。这是我们希望解释的变量。
  • rmrfr_{m} - r_{f}市场风险溢价 (Market Risk Premium)。这是 CAPM 中唯一的因子,代表了持有市场投资组合所获得的、超越无风险利率的回报。
  • SMB\mathrm{SMB}:规模因子收益。
  • HML\mathrm{HML}:价值因子收益。
  • αi\alpha_{i}截距项。在模型被正确设定的情况下,它应接近于零,表示无法被三个因子解释的平均超额收益。
  • βi,M,βi,S,βi,V\beta_{i,M}, \beta_{i,S}, \beta_{i,V}:资产 ii 分别对市场、规模、价值三个因子的敏感度(因子载荷)
  • ϵi\epsilon_{i}残差项,代表资产特有的、不能被三个共同因子解释的收益部分。

为了与一般因子模型(公式4.2)的矩阵形式保持一致,我们可以进行如下设定:

R=α+FB+ϵ R = \alpha + F B^{\prime} + \epsilon

其中:

  • R=[r1rfr2rfrnrf]R = \begin{bmatrix} r_{1} - r_{f} \\ r_{2} - r_{f} \\ \vdots \\ r_{n} - r_{f} \end{bmatrix}^{\prime}资产超额收益向量
  • α=[α1α2αn]\alpha = \begin{bmatrix} \alpha_{1} \\ \alpha_{2} \\ \vdots \\ \alpha_{n} \end{bmatrix}^{\prime}各资产的Alpha向量
  • B=[β1,Mβ1,Sβ1,Vβ2,Mβ2,Sβ2,Vβn,Mβn,Sβn,V]B = \begin{bmatrix} \beta_{1,M} & \beta_{1,S} & \beta_{1,V} \\ \beta_{2,M} & \beta_{2,S} & \beta_{2,V} \\ \vdots & \vdots & \vdots \\ \beta_{n,M} & \beta_{n,S} & \beta_{n,V} \end{bmatrix}因子载荷矩阵
  • F=[rmrfSMBHML]F = \begin{bmatrix} r_{m} - r_{f} \\ \mathrm{SMB} \\ \mathrm{HML} \end{bmatrix}^{\prime}因子收益向量
  • ϵ=[ϵ1ϵ2ϵn]\epsilon = \begin{bmatrix} \epsilon_{1} \\ \epsilon_{2} \\ \vdots \\ \epsilon_{n} \end{bmatrix}^{\prime}残差向量

3. 模型的统计性质与应用

Fama-French模型作为一般因子模型的一个特例,其统计性质完全遵循4.1节中的推导。

  • 期望收益

    E[R]=α+BE[F] \mathrm{E}[R] = \alpha + B \mathrm{E}[F]

    资产的预期超额收益等于其Alpha值加上其因子暴露与因子预期收益的加权和。

  • 协方差矩阵

    ΣR=BΣFB+Σϵ \Sigma_{R} = B \Sigma_{F} B^{\prime} + \Sigma_{\epsilon}

    资产收益的总风险由因子风险 (BΣFBB \Sigma_{F} B^{\prime}) 和特质风险 (Σϵ\Sigma_{\epsilon}) 构成。

主要应用

  1. 业绩归因:将基金或投资组合的超额收益分解为来自市场择时(Alpha)、市场风险暴露、规模因子暴露和价值因子暴露的贡献。一个显著的正Alpha通常被视为基金经理的选股能力。
  2. 风险建模:更精确地估计大量资产的协方差矩阵,用于投资组合优化和风险管理。
  3. 学术研究:作为检验市场有效性和资产定价理论的基准模型。

4. 优点与局限性

优点

  • 强大的解释力:相较于单因子的CAPM,该模型对股票横截面收益率的解释力显著增强,能更好地捕捉平均收益的差异。
  • 经济直觉清晰:规模与价值因子具有明确的经济含义,易于理解和沟通。
  • 操作性强:因子的构建方法(基于市值和账面市值比排序)公开透明,数据易于获取,便于学术检验和实际应用。

局限性与批评

  • 理论基础薄弱:模型主要源于实证发现而非先验的理论推导。SMB和HML因子究竟代表了何种根本性经济风险(Source of Risk),至今仍在争论。
  • 数据挖掘嫌疑:有批评认为,这些因子可能是数据过拟合的结果,其有效性在未来样本外可能无法持续(样本外有效性问题)。此外,因子的成功也导致了因子拥挤的风险,大量资金采用类似策略会侵蚀超额收益。
  • 因子缺失:模型未能完全解释所有的市场异象,最著名的便是动量效应(后被Carhart四因子模型纳入)。这也引出了为何最初是这三个因子,而非其他因子的疑问。
  • 机理解释存疑:价值溢价和规模溢价的来源尚无定论,无法区分究竟是源于无法分散的宏观经济风险(风险补偿),还是源于投资者的行为偏差(非理性定价)。

尽管如此,Fama-French三因子模型因其开创性的贡献,至今仍是金融学界和业界最重要、应用最广泛的多因子模型之一,为后续的因子研究奠定了坚实的基础。

4.2.2 债券的关键利率久期与凸性模型

除了股票,显性因子模型同样广泛应用于固定收益领域。关键利率久期与凸性模型 (Key Rate Durations and Convexities Model) 就是一个典型的例子,它将债券的收益(或价格变动)解释为一系列关键点利率变化的函数。

该模型是对传统久期概念的深化。传统的久期(如修正久期)衡量的是债券价格对整个收益率曲线平行移动的敏感度,这是一个过于简化的假设。而在现实中,收益率曲线的变动是复杂的,可能变陡、变平或扭曲。关键利率久期模型正是为了捕捉这种非平行移动的风险。

1. 核心思想:分解收益率曲线风险

该模型的核心思想是将债券对利率的总体敏感性分解为对收益率曲线上几个**“关键利率点” (Key Rates)** 变化的敏感性之和。常用的关键利率点包括2年、5年、10年、30年等期限的利率。

债券价格的变动,可以近似地看作是其对每个关键点利率变化的反应的线性叠加,并通过凸性项进行二阶修正,从而更精确地捕捉由收益率曲线形态变化所带来的风险。

模型的构建基于对债券定价函数的泰勒展开:

  1. 一阶项 (久期):使用关键利率久期 (Key Rate Duration, KRD) 来衡量债券价格对某一个特定关键利率点变化的敏感度,同时假设曲线上其他点利率保持不变。
  2. 二阶项 (凸性):使用关键利率凸性 (Key Rate Convexity, KRC) 来修正久期在利率发生较大变化时的线性近似误差,提升模型的精度。

2. 模型的数学表达

对于任一债券 ii,其价格的百分比变动可以表示为:

Vi,ΔrV0V0j=1k(KRDi,jΔrj+12KRCi,jΔrj2)+ϵi(4.9)\frac{V_{i,\Delta r}-V_{0}}{V_{0}} \approx \sum_{j=1}^{k} \left( -KRD_{i,j} \cdot \Delta r_{j} + \frac{1}{2} \cdot KRC_{i,j} \cdot \Delta r_{j}^{2} \right) + \epsilon_{i} \tag{4.9}

其中:

  • Vi,ΔrV0V0\frac{V_{i,\Delta r}-V_{0}}{V_{0}}:债券 ii持有期回报率或价格的百分比变动。这是被解释变量。
  • kk:所选取的关键利率点的个数。
  • Δrj\Delta r_{j}:第 jj 个关键利率的变化量。这是模型的风险因子
  • KRDi,jKRD_{i,j}:债券 ii 对第 jj 个关键利率的关键利率久期。它衡量了在其他利率不变的情况下,第 jj 个关键利率变动1%时,债券价格的百分比变动。
  • KRCi,jKRC_{i,j}:债券 ii 对第 jj 个关键利率的关键利率凸性
  • ϵi\epsilon_{i}残差项,代表无法被关键利率变化解释的价格变动部分。

该模型可以表示为更一般的风险因子模型(公式4.2)的矩阵形式,但需要注意其特定的结构。其矩阵形式为:

R=FB+ϵ(4.10) R = F B^{\prime} + \epsilon \tag{4.10}

其中:

  1. 债券价格变化向量 RRR=[ΔV1,Δr%ΔV2,Δr%ΔVn,Δr%] R = \begin{bmatrix} \Delta V_{1,\Delta r} \% \\ \Delta V_{2,\Delta r} \% \\ \vdots \\ \Delta V_{n,\Delta r} \% \end{bmatrix}^{\prime}
    • 维度:1×n1 \times n
    • 这是nn只债券价格的百分比变化组成的行向量ΔVi,Δr%=Vi,ΔrV0V0\Delta V_{i,\Delta r} \% = \frac{V_{i,\Delta r} - V_0}{V_0} 表示第ii只债券的价格变化百分比
  2. 因子载荷矩阵 BBB=[KRD1,1KRD1,kKRC1,1KRC1,kKRD2,1KRD2,kKRC2,1KRC2,kKRDn,1KRDn,kKRCn,1KRCn,k] B = \begin{bmatrix} KRD_{1,1} & \cdots & KRD_{1,k} & KRC_{1,1} & \cdots & KRC_{1,k} \\ KRD_{2,1} & \cdots & KRD_{2,k} & KRC_{2,1} & \cdots & KRC_{2,k} \\ \vdots & \ddots & \vdots & \vdots & \ddots & \vdots \\ KRD_{n,1} & \cdots & KRD_{n,k} & KRC_{n,1} & \cdots & KRC_{n,k} \end{bmatrix}^{\prime}
    • 维度:(2k)×n(2k) \times n
    • 这是因子载荷矩阵的转置,其元素是债券对各因子的敏感度(即经过符号和系数调整的KRD和KRC)
    • 每列对应一个债券:前kk个元素是它的关键利率久期(KRD),后kk个元素是它的关键利率凸性(KRC)
  3. 因子变化向量 FFF=[Δr1ΔrkΔr12Δrk2] F = \begin{bmatrix} \Delta r_{1} \\ \vdots \\ \Delta r_{k} \\ \Delta r_{1}^{2} \\ \vdots \\ \Delta r_{k}^{2} \end{bmatrix}^{\prime}
    • 维度:1×(2k)1 \times (2k),代表因子收益率。它由关键利率的变化及其平方项构成。
    • 包含所有关键利率的一次项变化(Δrj\Delta r_j)和二次项变化(Δrj2\Delta r_j^2)
  • F=[Δr1ΔrkΔr12Δrk2]F = \begin{bmatrix} \Delta r_{1} & \cdots & \Delta r_{k} & \Delta r_{1}^{2} & \cdots & \Delta r_{k}^{2} \end{bmatrix}:一个 1×2k1 \times 2k 的行向量,代表因子收益率。它由关键利率的变化及其平方项构成。
  • ϵ\epsilon残差向量

在此特定模型中,没有截距项 α\alpha。因为当所有关键利率变化为零时,债券价格的预期变化应为零。

4.3 隐性因子模型 (Implicit Factor Models)

隐性因子模型与显性因子模型的关键区别在于,其风险因子并非预先由经济理论定义,而是通过统计方法从资产收益数据中提取推断出来的。这些因子代表了数据中存在的、共同驱动资产收益变化的潜在力量。

4.3.1 主成分回归 (Principal Components Regression, PCR)

主成分回归是一种结合了主成分分析(PCA)和多元回归的技术,主要用于解决预测变量之间存在多重共线性的问题。在金融领域,多重共线性是普遍存在的,因为许多宏观经济变量和风格因子之间高度相关。PCR通过将原始的相关变量转换为一组不相关的“主成分”来克服这一难题。

0. 什么是主成分分析 (PCA)?

想象一下,你有一组关于很多人的数据,比如每个人的“身高”和“体重”。这两个变量是相关的(通常个子高的人体重也更重)。现在,我给你一张图,上面每个点代表一个人(x轴是身高,y轴是体重),你的任务是:找到一个新的视角来看这些数据,使得这个新视角能最好地展示出人们之间的差异

主成分分析 (PCA) 就是做这件事的数学工具。它会为你找到一组新的坐标轴(称为“主成分”),这组新坐标轴有两个关键特性:

  1. 彼此垂直(正交):这意味着新的坐标轴之间完全没有相关性。第一个新轴(主成分1)捕捉了数据中最主要的变化方向(即身高和体重共同变动的趋势)。第二个新轴(主成分2)必须与第一个垂直,并捕捉剩余的最主要变化。
  2. 按重要性排序:第一个主成分(PC1)是那个从新视角看,数据点分布最分散(方差最大)的方向。第二个主成分(PC2)是与PC1垂直的方向中,数据点最分散的,依此类推。

在金融中的比喻: 假设你的因子是“GDP增长率”和“消费者信心指数”,它们很可能同时向好或向坏(即高度相关)。PCA会生成两个新的因子:

  • PC1 (宏观景气因子):可能 ≈ 0.7 * GDP增长 + 0.7 * 消费者信心。它捕捉了“整体经济好坏”这个最主要的共同趋势。
  • PC2 (微观差异因子):可能 ≈ 0.7 * GDP增长 - 0.7 * 消费者信心。它捕捉了“GDP和消费者信心不同步”的次要趋势(例如,GDP增长但人们却悲观)。

所以,PCA就是一个数据旋转和重新投影的工具,目的是找到数据内部隐藏的、不相关的“主驱动方向”。

1. 核心思想:降维与去相关

PCR的核心思想分为两步:

  1. 降维 (Dimensionality Reduction):使用PCA从kk个可能存在多重共线性的原始风险因子中,提取出少数pp个(p<kp < k主成分。这些主成分是原始变量的线性组合,能够捕捉原始数据中绝大部分的变异信息。
  2. 回归 (Regression):使用这pp个互不相关的主成分作为新的预测变量,对资产收益进行回归。由于主成分之间是正交的(不相关),彻底消除了多重共线性的影响。

最终,我们将从“主成分世界”得到的估计结果,转换回“原始变量世界”进行解释。

2. 模型的数学表达与步骤

PCR的建模过程包含一系列标准化的数据处理和变换步骤。

步骤 1: 定义原始模型 我们从包含kk个原始风险因子的标准线性回归模型开始,该模型用于解释第ii个资产的收益:

yi=β0+β1xi,1++βkxi,k+ϵiY=1Tβ0+Xβ+ϵ(4.12) \begin{array}{l}{{y_{i}=\beta_{0}+\beta_{1}x_{i,1}+\cdot\cdot\cdot+\beta_{k}x_{i,k}+\epsilon_{i}}}\\ {{Y={\bf 1}_{T}\beta_{0}+X\beta+\epsilon}}\end{array} \tag{4.12}

其中YY是资产收益向量,XX是原始因子矩阵,1T\mathbf{1}_{T}是元素为1的列向量。

步骤 2: 标准化变量 为了消除量纲影响并确保PCA结果不受变量尺度的影响,对原始预测变量进行标准化:

xjS=xjxˉjSj(4.13) \begin{array}{l}{{x_{j}^{S}=\frac{x_{j}-\bar{x}_{j}}{S_{j}}}}\\ \end{array} \tag{4.13}

其中SjS_{j}是变量xjx_j的样本标准差。得到标准化后的矩阵XSX^S

步骤 3: 标准化回归模型 将标准化后的变量代入原模型,得到等价的标准化回归模型:

yi=β0S+β1S[xi,1xˉ1S1]++βkS[xi,kxˉkSk]+ϵiY=1Tβ0S+XSβS+ϵ(4.14) \begin{array}{l}{{y_{i}=\beta_{0}^{S}+\beta_{1}^{S}\left[\frac{x_{i,1}-\bar{x}_{1}}{S_{1}}\right]+\cdot\cdot\cdot+\beta_{k}^{S}\left[\frac{x_{i,k}-\bar{x}_{k}}{S_{k}}\right]+\epsilon_{i}}}\\ {{Y={\bf 1}_{T}\beta_{0}^{S}+X^{S}\beta^{S}+\epsilon}}\end{array} \tag{4.14}

标准化系数 βS\beta^{S} 与原始系数 β\beta 可以通过公式(4.15)进行转换。

βj=βjSSj , j=1,2,,kβ0=β0Sβ1Sxˉ1S1βkSxˉkSkβ0S=yˉ(4.15) \begin{array}{l}{{\beta_{j}=\frac{\beta_{j}^{S}}{S_{j}}\ ,\ j=1,2,\cdots,k}}\\ {{\beta_{0}=\beta_{0}^{S}-\frac{\beta_{1}^{S}\bar{x}_{1}}{S_{1}}-\cdots-\frac{\beta_{k}^{S}\bar{x}_{k}}{S_{k}}}}\\ {{\beta_{0}^{S}=\bar{y}}}\end{array} \tag{4.15}

步骤 4: 计算主成分 对标准化后的因子矩阵XSX^S进行主成分分析。求解XSXSX^{S^{\prime}}X^{S}矩阵的特征值和特征向量:

λ=[λ1λ2λk]V=[v1v2vk](4.16) \begin{array}{r l} & {\lambda = [\lambda_{1}\lambda_{2}\dots \lambda_{k}]}\\ & {V = [v_{1}v_{2}\dots v_{k}]}\\ \end{array} \tag{4.16}

其中特征值按大小降序排列(λ1>λ2>...>λk\lambda_1 > \lambda_2 > ... > \lambda_k),vjv_j是对应的单位特征向量,且不同特征向量相互正交。主成分ZZ则由XSX^S投影到这些特征向量上得到:

Z=XSV(4.17) Z=X^{S}V \tag{4.17}

每个主成分zjz_j都是原始标准化变量的线性组合,且各主成分之间互不相关。

为什么要求解 XSXSX^{S^{\prime}}X^{S} 的特征值和特征向量?

这里的 XSXSX^{S^{\prime}}X^{S} 是一个非常关键的矩阵。在我们对原始数据 XX 进行标准化(均值为0,标准差为1)后,XSXSX^{S^{\prime}}X^{S} 有一个特殊的名字:协方差矩阵

  • 这个矩阵的对角线元素是每个变量自身的方差(因为标准化过,所以都等于1)。
  • 这个矩阵的非对角线元素是不同变量两两之间的协方差(即相关性)。

我们的目标是:找到一组新的、不相关的坐标轴(主成分)。 “不相关”在数学上意味着“正交”。而特征向量(Eigenvectors) 天然的数学性质就是正交的!

求解 XSXSX^{S^{\prime}}X^{S} 的特征值和特征向量,实际上就是在问:

“协方差矩阵 XSXSX^{S^{\prime}}X^{S},你的主要‘拉伸’方向是哪几个?这些方向上的‘拉伸’力度又有多大?”

  • 特征向量 (VV) 的回答是:“我的主要拉伸方向是这些……”。每一个特征向量 vjv_j 就定义了一个主成分的方向XSX^S 投影到 vjv_j 上就得到了第 jj 个主成分 zj=XSvjz_j = X^S v_j
  • 特征值 (λ\lambda) 的回答是:“在这个方向上,数据分布的方差(分散程度)有这么大……”。特征值 λj\lambda_j 的大小直接衡量了其对应的主成分 zjz_j 所包含的信息量(方差)

总结: 求解协方差矩阵 XSXSX^{S^{\prime}}X^{S} 的特征系统和特征值,是为了自动地、数学地找出数据方差最大的那些正交方向,这些方向就是我们想要的主成分。

步骤 5 & 6: 主成分回归与降维 利用主成分和其正交性,我们将原模型重写并选择前pp个主成分(通常根据特征值大于1或累计贡献率>85%的标准)来构建一个新的、无多重共线性的回归模型:

Y=1Tβ0S+Zpαp+ϵ(4.19) Y={\bf 1}_{T}\beta_{0}^{S}+Z_{p}\alpha_{p}+\epsilon \tag{4.19}

其中Zp=XSVpZ_p = X^S V_pVpV_p由前pp个特征向量组成。

步骤 7: 系数转换 最后,我们将基于主成分得到的系数估计αp\alpha_p转换回原始标准化变量的系数βpcS\beta_{pc}^{S},进而通过公式(4.20)转换回原始尺度下的系数βpc\beta_{pc}进行最终解释。

βj,pc=βj,pcSSj , j=1,2,,kβ0,pc=β0,pcSβ1,pcSxˉ1S1βkSxˉkSkβ0,pcS=yˉ(4.20) \begin{array}{l}{{\beta_{j,p c}=\frac{\beta_{j,p c}^{S}}{S_{j}}~,~j=1,2,\cdots,k}}\\ {{\beta_{0,p c}=\beta_{0,p c}^{S}-\frac{\beta_{1,p c}^{S}\bar{x}_{1}}{S_{1}}-\cdots-\frac{\beta_{k}^{S}\bar{x}_{k}}{S_{k}}}}\\ {{\beta_{0,p c}^{S}=\bar{y}}}\end{array} \tag{4.20}

3. 作为风险因子模型

在金融风险建模的语境下,PCR为我们提供了一种构建隐性因子模型的方法。提取出的主成分ZpZ_p本身就是一组隐性风险因子

  • 因子F=ZpF = Z_p,即前pp个主成分。它们是不可直接观测的、统计推导出的共同风险驱动因子。
  • 因子载荷BB矩阵中的元素βi,j,pc\beta_{i,j,pc}衡量了资产ii对第jj个主成分因子(隐性风险)的暴露程度。

因此,资产的收益可以被表示为:

R=α+FB+ϵ(4.21) R = \alpha + F B^{\prime} + \epsilon \tag{4.21}

其中,RR是资产收益向量,α\alpha是截距项向量,FF是主成分因子收益矩阵,BB是由PCR最终估计出的因子载荷矩阵。

4. 主要应用

  1. 处理高度共线性的因子:当候选因子集高度相关时(如一系列估值因子),PCR可以提取出其中独立的共同趋势。
  2. 降维与简化模型:用少数几个主成分替代大量原始变量,使模型更简洁、稳定。
  3. 估计高维协方差矩阵:当资产数量nn很大时,直接估计n×nn \times n的样本协方差矩阵非常困难且不准确。使用PCR,只需估计少数主成分的协方差矩阵ΣF\Sigma_F和残差协方差矩阵Σϵ\Sigma_\epsilon,再通过ΣR=BΣFB+Σϵ\Sigma_R = B \Sigma_F B' + \Sigma_\epsilon重构资产协方差矩阵,大幅提高了估计效率和稳健性。

5. 优点与局限性

优点

  • 彻底解决多重共线性:产生正交的预测变量,使得系数估计稳定且唯一。
  • 避免过拟合:通过保留主要成分、舍弃次要成分,降低了模型对噪声的敏感度,提高了样本外预测能力。
  • 计算高效:PCA和回归都有成熟且高效的计算算法。

局限性

  • 解释性差:主成分是原始变量的线性组合,其经济含义往往模糊不清,难以像“价值”、“规模”那样直接解释。
  • 信息损失:舍弃后kpk-p个主成分必然会导致部分信息损失。主成分的选择(pp值的确定)具有一定的主观性。
  • 对标准化的依赖:结果严重依赖于变量的标准化。如果某个重要变量的方差很小,它可能在主成分中的贡献被低估。