衡泰研究 | 衡泰多因子风险模型介绍及A股市场实证

多因子风险模型是投资组合分析的有力工具,能够大大减少计算量,有效提高风险预测的准确度。


本文将详细介绍衡泰多因子模型方法理论和实证结果。我们参考Barra CNE5模型的十大风格因子,将全球行业分类替换为更适合中国资本市场的申万行业分类,构建衡泰多因子风险模型,并在A股市场进行实证。



全文7,911字,

预计阅读时间25分钟。





01
多因子模型简介




1.1  投资组合风险与收益


投资管理是平衡风险与收益的决策过程,无论是资产配置、主动组合管理、被动组合管理、亦或是定性和定量投资,投资者在追求高额收益的同时需要合理控制风险。超额收益本质是对承担额外风险的补偿,我们在评价超额收益的同时也要分析组合承担的风险。


风险衡量投资收益率的不确定性,可以定义为资产收益率分散或波动程度。业界最标准的风险定义是采用收益率的标准差。马科维茨首次采用统计方法对投资风险进行量化,并证明组合的风险不大于其成分证券的风险总和。但是马科维兹的均值方差风险模型存在一定局限性,假设组合有  只股票构成,股票收益率协方差矩阵参数个数则为  ,随着  的增长,计算复杂度将以  级别增长。


随着风险模型的不断发展,投资组合风险分析体系日趋完善,多因子风险模型应运而生并发展成为投资组合分析的有力工具。多因子模型本质是降维,将对于高维股票的收益/风险预测转换为对于低维因子的收益/风险预测,不仅可以大大减少计算量,还能够有效提高风险预测的准确度。风险归因是多因子模型所特有的分析方法,传统的Brinson归因只能做绩效归因。



1.2  多因子模型


根据Barra最新版的USE4风险模型,我们可以把任何股票的收益率归因到几个不同的风险因子上,包括市场(国家)因子、风格因子和行业因子,具体公式如下:

 

其中,  是市场(国家)因子的收益,  是行业因子i的收益,  是风格因子  的收益,  ,  是各行业和风格因子的暴露,  是个股的特质收益,USE4中采用加权最小二乘回归法WLS估计因子收益,其假设个股特质收益的方差为市值平方根的倒数(源于股票的特质风险随公司市值增加而减小的经验观察)。

       

值得注意的是,在模型中引入市场因子(国家因子,截距项)会导致其与行业因子之间存在共线性,导致最后方程的求解不唯一。因此,为了得到唯一的回归结果,必须施加约束。USE4给定的约束条件为,市值加权的所有行业因子的收益和为0,即:


中,  表示行业  中所有股票流通市值占全市场股票流通市值的比例,约束条件的选择不会影响模型拟合,也不会影响模型的解释力,但其会对因子解释产生直接的影响。这个约束条件其实有比较直观的解释:考虑一个流通市值加权的投资组合  ,持仓股票的权重记为  ,投资组合的收益  可以写成:


  是风格因子  的因子暴露,然而,由(1.2)可知,行业因子收益和为0,方程(1.3)的第一个求和项(  )为0,类似的风格因子市值加权也被标准化到均值为0,即(1.3)的第二个求和项(  )也为0,最后一个求和项(  )对应于一个分散化投资组合的特质收益率,因此其和也接近0,因此,(1.3)可以近似等价为  。换句话说,市场因子(国家因子,截距项)代表了市值加权的全市场组合收益。


然后我们根据(1.1)和(1.2)使用加权最小二乘法WLS进行模型估算,因子收益率的估计值可由(1.4)给出:

其中,  为回归权重(对角线矩阵),  ,其中  为第  只股票的流通市值,  是风险因子的因子暴露,  是股票的个股收益率。


个股权重为  (  为  x1的矩阵)的投资组合的波动率如下:

其中,  表示  只个股在  个风险因子上的因子载荷矩阵(  ),  表示因子收益率的协方差矩阵(  ),

  

  表示因子的特异收益率方差矩阵(  的对角阵)。

  


02
衡泰多因子模型



我们参考Barra CNE5模型的十大风格因子,将全球行业分类替换为更适合中国资本市场的申万行业分类,构建衡泰多因子风险模型。使用横截面回归计算因子收益率和特异性收益率,进而估计因子收益协方差矩阵和特异性收益方差矩阵。在计算因子暴露的过程中,我们的研究团队对每一个因子,每一个descriptor的计算细节保持了极致的细致,总是使用双重或多重复核,确保因子暴露计算的准确性。因子暴露的计算是多因子风险模型的基石,是后续绩效风险归因和组合优化的重要基础!



2.1  因子分类及数据处理方法


风格因子分类及释义如下表所示:



行业因子采用本土化的申万行业分类:



部分风格因子的构成方式并非单一指标,而是由多个明细因子(descriptor)加权组合构成,为保证数据的纲量一致,我们需要对因子进行标准化处理。为避免极端值(outlier)对标准化的影响,采用“中位数去极值法(MAD)”计算上下阈值,同时将超过阈值的极端值用阈值替代(拉回到阈值)。

   :序列  的中位数

  :序列  的中位数

  :  去极值修正后的值


对于去极值后的数据再进行缺失值替换和标准化,此处均值采用市值加权均值,标准差采用等权标准差。整个数据处理全流程包括去极值,缺失值替换,标准化,和正交化四个步骤。

 

  :序列   的均值

  :序列  的标准差

  :序列  标准化之后的值



2.2 多因子模型回归


传统多因子模型回归过程中同时加入风格因子、国家因子、行业因子,为消除国家因子和行业因子间共线性的影响,我们采用无截距项回归,计算出行业因子绝对收益率,再采用行业市值加权计算国家因子收益率,最后的行业因子收益率需减去国家因子收益率,得到行业超额因子收益率。


    :股票  在  期的收益率

  :股票在  期的风格因子  上的暴露度

  :  期的风格因子  的收益率

  :股票    期行业因子  上的暴露度

  :  期的行业因子  的收益率

  :股票  在  期的残差收益率


上式给出的行业因子收益率是假设国家因子为0(无截距项),且不约束行业因子收益率。所以,必须按照如下进一步计算国家因子      为个股流通市值占全市场股票流通市值的比例):

 




03
衡泰多因子A股市场实证



3.1  风险因子模评估体系


Alpha因子通常是对股票的预期收益率有稳定预测能力的因子;而风险因子通常与Alpha因子相反,指的是对未来收益没有预测能力,需要在组合投资中进行控制暴露的因子。两者的区别在于因子是否被大多数市场投资者所认知。风险因子其实是系统因子(Systematic Factor)或Beta因子,风险因子的前身是Alpha因子,Alpha因子被市场里越来越多的投资者所认知和运用之后,则变成一种系统性的可解释的行为,于是就变成了风险因子。比如中国市场的市值因子近年来开始显露其风险属性,而这此之前曾被很多投资者当做为 Alpha因子。由于中国资本市场并不成熟,成熟市场的Beta风险因子里肯定有些在中国市场是属于Alpha因子。


我们可以从下面几个方面来评估风险因子:


1)因子值的稳定性和是否存在共线性。风险因子数值的稳定性可以用前后两个横截面上因子数值的相关性来度量,BARRA建议这个相关系数应不低于 0.9,实证可以看出 A 股市场上这个系数可以设为不低于 0.8。而与其它风险因子的相关性可以用VIF(方差膨胀因子)来衡量,VIF不高于5则代表该因子与其他因子没有较强的相关性。方差膨胀系数(VIF),通过对每个因子,用其他N个因子进行回归(t期对t期)解释来计算各个因子的VIF,公式如下,其中 R2(i)为第i个因子被其他所有因子解释的拟合优度,VIF(i) = 1 / [1 – R2(i)]。


2)因子收益率的波动较大。因子收益率波动大,说明该因子会增加组合的波动风险,应该被归为风险因子,而因子收益率波动小的因子或者某些波动大但Sharpe值较高的因子会被归类为Alpha因子。


3)因子解释力的显著性和稳健性。多因子模型要求风险因子应满足在每期横截面上的因子收益率较显著。具体方法是用每期的个股收益率对多个因子暴露度做回归,得到每个因子的T值再求出各期绝对值的均值,检验因子回归系数是否显著(T值绝对值的平均值较大,一般设为2),再看显著的月份占比有多少(一般计算|T值|大于2的占比)。


4)新增因子对原有风险模型提供新增信息。我们可以参考Fama-MacBeth检验流程,在横截面上用个股收益率对新因子和原有风险因子一起做多元回归,看新因子加入后回归方程的Total R-square 是否有增加(或增加幅度较大),有则纳入风险因子库,说明新增因子能够带来新增信息。


5)因子对A股收益率的整体解释度:调整后拟合优度(Adj Total R-Square)。这里需要特别强调的是Barra对调整R-Square是用“非中心化”拟合优度(Total R-Square)来定义的,而常规计量学中的定义为“中心化”拟合优度(Relative R-Square)。


计量常用定义:Relative R-Square = 中心化拟合优度 = 1 - 残差平方和 / 离差平方和

Barra模型定义:Total R-Square = 非中心化拟合优度 = 1 - 残差平方和 / y的平方和


从经验上,非中心化拟合优度要比中心化拟合优度数值大一些。Adjust R2和R2的关系如下:


其中n是股票数量,p是回归自变量的数量。因为股票数量远大于自变量数量,Adj-Total-R2和Total-R2基本一样;同样地,Adj-Relative-R2和Relative-R2基本一样。



3.2  衡泰风险因子在A股市场的回归显著性检验


为检测模型的有效性,我们分别在全市场,中证全指,沪深300,中证500,中证800,中证1000的成分股范围内计算模型日频回归的滚动252天拟合度(Adjust Total R-Square),样本覆盖时间区间为2007年1月至2022年4月。总体看来, 衡泰多因子模型的全市场整体平均拟合度Adj-Total-R2达到34.8%。该风险模型对沪深300代表的大盘股解释度最高,Adj-Total-R2达到46.2%,其次是中证800和中证500,Adj-Total-R2均值分别为40%和35%。中证1000指数的开始时间为2014年10月,中证全指指数的开始时间为2011年8月,两者样本内拟合度时间序列图接近,平均Adj-Total-R2分别为29%和31%。


图1:日频拟合度滚动均值


数据来源:衡泰一数通、财汇、衡泰研究中心


衡泰全市场模型的拟合度与Barra非常一致。我们对比Barra的12m-滚动拟合度图可以发现,从2008-2011年,衡泰版本全市场模型的Adj-Total-R2与MSCI Barra CNE5非常相似,处于40%-50%之间,平均值约为45%。


同时我们发现,在2013之后的近9年时间里,CNE5模型的解释力出现了较为明显的中枢持续下移趋势。值得进一步研究为什么CNE5 模型的解释性会出现周期性波动,并且其解释力似乎自2013起开始有所衰减。


图2:Barra滚动12个月拟合度图


数据来源:The Barra China Equity Model(CNE5)


对于回归的因子显著性进行统计,样本池分别选择全市场、中证全指、沪深300、中证500、中证800和中证1000的指数成分股。采用回归显著的周期数量除以总回归周期数量得到显著占比数据(即回归T值绝对值大于2的占比)。如图所示,全市场和中证全指的回归显著周期占比最高,均值达到62%,其次为中证1000和中证800,分别为45%和47%,沪深300的回归显著占比有所下降,约34%。


图3:回归显著性占比%


数据来源:衡泰一数通、财汇、衡泰研究中心



3.3  风险因子收益率的年化波动率


我们对A股市场的10个风格因子和申万31个一级行业分类因子进行分析,计算月频纯因子横截面回归收益率的年化波动率,除了成长因子和杠杆因子的年化波动率小于3%,其余风格因子和行业因子的年化波动率均大于3%,说明这些因子做为风险因子是合适的。


图4:因子年化波动率%


数据来源:衡泰一数通、财汇、衡泰研究中心


由上图可知,相对于风格因子,行业因子的风险和显著性占比更高,行业因子最低的年化波动率(6.5%)依旧高于风险最高的风格因子(6%)。其次是Size和Beta因子,风险和显著性均高于其他风格因子,年化波动率分别达到6%和4%,在全市场模型的回归显著性占比高达62%和64%,因此投资中如果想降低组合波动率,控制行业、市值、和Beta的风险最有效果。



3.4 行业+3个风格因子能解释95%的风险


通过传统的逐步回归法(Fama-MacBeth),即第一遍对行业+1个因子(遍历10个因子)做回归找到最优的第一个因子,然后第二遍对行业+已找到的一个因子+另外一个因子(遍历剩余9个因子)做回归找到最优的第二个因子,诸如此类,我们可以得到各因子对收益率解释度的重要性排序。按照这个重要性排序,我们使用行业+N个因子对收益率做横截面回归,结果如下图所示。如果行业+10个因子对个股收益率的解释度计为100%的话,那么行业+3个因子(size,liquidity,和momentum)对个股收益率的解释度可以占到95%。回归区间为2011-2022年。


图5:全市场模型风格因子Total R-Square 增量


数据来源:衡泰一数通、财汇、衡泰研究中心



3.5  国家因子收益率统计


对于全市场流通市值加权组合,对国家因子的暴露度为1,因此全市场流通市值加权组合的收益率应该和国家因子收益率接近。我们以中证全指代表市场市值组合收益率,计算国家因子月收益率和中证全指月收益率的基差。如图所示,该基差围绕0上下波动,均值为0.14%,最大差值绝对值不超过3.5%。


图6:国家因子收益率与中证全指收益差值(%)


数据来源:衡泰一数通、财汇、衡泰研究中心


为了更精确的表示两者关联,我们构建国家因子收益率累计净值曲线,中证全指月收益率累计净值曲线,市场加权组合月收益率净值曲线进行对比。可以发现三者的净值趋势图基本一致,且国家因子收益率净值和市场组合净值非常接近,与中证全指的细微差别是受指数构建的规则影响(指数是自由流通市值加权且使用分级靠档,国家因子收益率则是流通市值加权),整体差异符合预期。


图7:国家因子累计净值、中证全指累计净值和市值加权组合累计净值对比


数据来源:衡泰一数通、财汇、衡泰研究中心



3.6  纯风格因子收益率统计


统计各期的横截面回归T值,检测因子对股价收益率的影响显著性,一般|T|>2代表有显著影响,|T|>2的周期占总周期的比例代表因子是否有稳定的显著影响。另外两个评价因子效果的指标是因子平稳系数(Factor Satbility Coefficient,FSC)和方差膨胀因子(Variance Inflation Factor,VIF),一般要求平稳性大于0.8,VIF小于5。


因子平稳系数计算公式如下:

  :  时期因子  的平稳性值

  :  时期因子  股票  上的暴露度

  :  时期因子  的暴露度加权均值

  :  时期股票  的回归权重


方差膨胀因子反应因子之间是否存在共线性问题,我们采用横截面单因子对剩余风格因子回归的方式计算模型拟合度,该拟合度反应其他风格因子对因变量因子的解释度,数值越小代表因子间的关联越小,风格越显著。我们计算多期的VIF值,取均值作为各风格因子的VIF值:


  


  : 股票  在因子  上的暴露度

  : 因子  的回归拟合度


衡泰风格因子在因子解释力显著性、稳定度以及共线性角度均不逊于Barra CNE5官方测试结果。具体来看:



1) 从因子解释力显著度角度:衡泰版本各风格因子的|t|值的均值为 2.75,略高于官方文档的2.4;所有10个因子的|T|都大于1.8GrowthLeverage|T|的均值略小于2,说明这些因子对A股市场具有较高的解释度。

2) 从因子解释力的稳健度角度:衡泰版本各风格因子“|t|值大于2占比”均值为55%,略高于官方文档的45%;


3) 从因子共线性角度:通过测算,衡泰版本中风格因子的VIF均值为1.93,略高于官方文档的1.7。因为“VIF=1.9”与“VIF<5说明共线性问题不严重”这一标准距离较远,因此共线性测试结果是比较满意的。


表1:风格因子信息统计(2011年9月-2022年3月,按照年化收益率排序)


数据来源:衡泰一数通、财汇、衡泰研究中心


长期以来,A股市场普遍存在“小市值效应”、“低估值效应”以及“流动性风险溢价”,如图所示,市值(SIZE)因子的累计收益率整体向下,趋势符合预期;除2017年有所回升(2017年市场风格由白马股主导,小市值效应不明显),其余时间呈现波动性下降。估值(VALUE)因子为B/P,因此估值越低,数值越大;估值因子收益率整体为正,A股低估值策略长期跑赢市场。受市场风格切换影响,2020下半年整体A股偏向成长风格,估值因子收益率净值出现回撤。“流动性风险溢价”表现在低流动性的股票未来相对可获得正收益,流动性(LIQUIDITY)因子越大,说明流动性越好,流动性因子净值曲线走势向下,说明符合流动性风险溢价的市场认知。


非线性规模(NON_LINE),流动性(LIQUIDITY),市值(SIZE),动量(MOMENTUM)四个因子的信息比率绝对值都超过1,尤其是非线性规模和流动性因子的年化波动率较低,因此在A股市场很多投资者还是倾向于认为这两个因子是alpha因子而非风险因子。规模因子在2017年之前一直普遍被认定为alpha因子,但近年来A股的风格切换使得规模因子的波动率加大,风险属性加强,因此规模因子做为风险因子已经被越来越多的投资者做认可。动量因子为过去2年的收益率,不管是美股还是A股,有研究发现股价在长期尺度(5年以上)上呈现反转效应,在中期尺度(1-2年)上呈现动量效应,我们的结果与这个认知一致。在短期尺度(3个月)上美股呈现动量效应,但A股则呈现反转效应,不过这个结论有待进一步研究。


图8:风格因子累计净值


数据来源:衡泰一数通、财汇、衡泰研究中心



3.7  纯行业因子收益率统计


行业因子方面,行业因子收益率是剔除了国家因子收益率的,因此下图计算的是行业因子年化超额收益率,近一半的行业相对市场有超额收益,其中信息比例排名靠前的5位分别是计算机、电子、国防军工、医药生物、电力设备。整体看来TMT行业、消费、医疗近10年在A股有显著超额收益,相对于风格因子,行业因子整体年化波动率较高,行业因子年化波动率均值是风格因子年化波动率均值的3.5倍。因此控制行业风险在选股配置中不容忽视。


从因子解释力显著性维度,行业因子的解释力显著性高于MSCI官方披露结果。具体来看,31个申万一级行业因子中除了美容护理(2021 年出现的新行业)外,所有行业因子在2007-2022年的月度收益率|  值|的均值都大于2,且31个行业的平均值为4.58,超过 MSCI Barra2012年发布的平均值1.64。


从行业因子解释力稳定性维度,行业因子的稳定性优于 MSCI 官方披露结果。具体来看,除了美容护理(2021 年才出现的新行业)外,所有行业因子在2007-2022 年|t值|大于2的概率超过57%(31个行业的平均值为 70%),较大幅度超过MSCI披露的该指标平均值29.3%。


这里我们想要强调的是,虽然我们与2012年MSCI CNE5官方文档的测算区间不完全相同,但在一定程度上证明申万一级行业因子具有合意的解释显著性和解释稳健度,且效果并不弱于基于GICS标准划分的因子。


表2:行业因子信息统计(2011年9月-2022年3月,按照年化收益率排序)


数据来源:衡泰一数通、财汇、衡泰研究中心


图9:行业因子净值图汇总


数据来源:衡泰一数通、财汇、衡泰研究中心


图10:净值排名前10行业因子净值图汇总


数据来源:衡泰一数通、财汇、衡泰研究中心



3.8  纯风格因子收益率和多空组合收益率差


市场里现有的多因子选股体系一般包括全市场选股,市值中性选股,和行业中性选股。我们则构建风格因子的等权多空组合,即每月初根据上个月底的因子暴露度的排序数据,做多排名前20%的股票并做空排名后20%的股票,等权持有一个月后平仓,计算多空组合收益率净值。后续我们将会研究市值等权和加权(按照市值分为20组,每组内做多前20%做空后20%,各组等权或者使用市值组权重做加权)的多空组合收益率差,以及行业等权和加权(按照行业分类,每个行业内做多前20%做空后20%,各行业等权或者使用沪深300指数的行业权重做加权)的多空组合收益率差。


图11:Size因子净值与市值等权组合净值对比


数据来源:衡泰一数通、财汇、衡泰研究中心


图12:Momentum因子净值与市值等权组合净值对比



图13:Beta因子净值与市值等权组合净值对比


数据来源:衡泰一数通、财汇、衡泰研究中心


图14:Residual Volatility因子净值与市值等权组合净值对比


数据来源:衡泰一数通、财汇、衡泰研究中心


图15:Liquidity因子净值与市值等权组合净值对比


数据来源:衡泰一数通、财汇、衡泰研究中心


图16:Value因子净值与市值等权组合净值对比


数据来源:衡泰一数通、财汇、衡泰研究中心


图17:Growth因子净值与市值等权组合净值对比


数据来源:衡泰一数通、财汇、衡泰研究中心


图18:Leverage因子净值与市值等权组合净值对比


数据来源:衡泰一数通、财汇、衡泰研究中心


图19:Earning 因子净值与市值等权组合净值对比


数据来源:衡泰一数通、财汇、衡泰研究中心


图20:None Liner 因子净值与市值等权组合净值对比


数据来源:衡泰一数通、财汇、衡泰研究中心




04
    结论    



风险模型对投资组合分析主要有如下的作用:降低投资组合的风险暴露,实现更精确的风险管理,提供更准确的组合优化结果,进行更有效的绩效归因和风险归因。本文主要对衡泰多因子模型方法理论和模型实证结果做了详细介绍。我们参考Barra的CNE5模型,使用十大风格因子,同时将行业替换为符合中国本土市场的申万行业分类,构建衡泰多因子模型,并在A股市场进行实证。实证结果主要从以下5个方面阐述:因子对A股收益率的整体解释度,因子值的稳定性和是否存在共线性,因子收益率的波动率,因子解释力的显著性和稳健性,以及新增因子对原有风险模型提供新增信息。


从2007-2022,全市场模型平均拟合度Adj-Total-R2达到34.8%。衡泰全市场模型的拟合度与Barra非常一致。我们对比Barra的12m-滚动拟合度图可以发现,从2008-2011年,衡泰版本全市场模型的Adj-Total-R2与MSCI Barra CNE5非常相似,处于40%-50%之间,平均值约为45%。衡泰模型的因子自相关性均大于0.9且VIF均小于5,说明因子稳定性较好且因子之间的相关性较弱。风格因子在因子解释力显著性、稳定度以及共线性角度均不逊于Barra CNE5官方测试结果,行业因子在因子解释力显著性、稳定度均优于MSCI官方披露结果。虽然我们与2012年MSCI CNE5官方文档的测算区间不相同,但实证结果证明申万一级行业因子具有较为满意的解释显著性和解释稳健度,效果并不弱于基于GICS标准划分的因子,且更加符合A股本土投资人的习惯。


综合通过对横截面回归拟合度,国家因子收益率,因子收益波动率,行业与风格因子的显著性、解释度稳健性,以及因子共线性和VIF测试,从实证结果可知,衡泰版本模型的结果与MSCI CNE5模型非常一致。



返回列表 Previous:冲刺在即,投行人不能不知道的提效神器 Next:新一代结算直联接口,首批上线!