衡泰多因子风险模型
完成新一轮升级
xCN3 ➡️ xCN4
为更精准刻画风险来源,在延续xCN3框架的基础上,xCN4新增三个具有中国市场特征的风格因子——
国有持股因子(SOE):量化国有股权的制度性影响。
机器学习因子(ML):使用神经网络模型挖掘非线性收益关系。
拥挤度因子(CROWD):衡量极端市场情绪下的收益预期。
实证研究显示,xCN4模型的滚动R2全程高于xCN3,显示新增因子贡献的增量信息。三个新因子带来的增量R2仅为 0.0037,说明xCN4模型的风险解释力相对于xCN3模型有一定程度的提升,但不是非常显著。
我们对标国际经典模型,通过针对性的因子设计,加强对中国市场特有风险结构的刻画。三个新增因子与现有因子的相关性及方差膨胀因子(VIF)均处于较低水平,展现出良好的独立特性。
以下为衡泰多因子风险模型xCN4的构建方法与实证结果的详细介绍。
PART 01
模型背景
中国A股市场的结构、驱动因素与投资者行为持续演化,这要求多因子风险模型也必须随之迭代,以更精准地刻画风险来源。衡泰多因子模型本次升级,我们引入三个具有中国市场特征与前沿方法论意义的风格因子,即反映所有权结构特征的国家持股因子(SOE)、利用非线性方法挖掘残差收益的机器学习因子(ML),和刻画交易情绪极值的拥挤度因子(CROWD)。
我们结合国内市场的实际数据可得性与结构特征,构建了对应的因子定义与计算流程,目标是增强模型对“中国特色”风险溢价(如国有股权影响)、复杂非线性关系以及市场情绪泡沫的捕捉能力,从而为组合风险归因、绩效评估与优化等提供更稳健敏锐的分析工具。
PART 02
新增因子
2.1 SOE因子(State Owned Enterprise,国有持股 )
2.1.1 因子算法
我们使用前十大股东持股表计算国有持股的情况。由于国有股东持股量一般较大,所以可以认为国有股东属于前十大股东。使用财务报表披露的十大股东名单表计算国有持股比例的和,即为 SOE因子。
2.1.2 因子表现
图表 1 展示了国家持股SOE因子自2008年至2025年的历史累计收益率和252日|t|的滚动平均值。此SOE因子收益率为all styles的 SOE因子收益率(即模型为国家因子+行业因子+13个风格因子)。我们观察到该因子的累积收益整体呈现下跌趋势,这表明国有持股比例高的公司的收益表现整体落后于国有持股比例低的公司。在累计收益率总体的下行趋势中,因子的累计收益率从2021年至2024年呈现阶段性上升。使用月频回归的结果,SOE因子|t|全程平均值为 2.32,|t|>2的占比为 46%。
我们也计算了singe style 单风格SOE 因子(即模型国家因子+行业因子+单个 SOE因子)的因子收益率(年化波动率scale为 1%),结果如图表2所示。
图表1:SOE因子的累积收益率与滚动|t|值

图表2:SOE因子标准化至年化波动率1%的累积收益率

2.2 ML因子(Machine Learning,机器学习)
xCN3 模型捕捉了各个风格因子与个股收益率之间的线性关系,但是实际上因子和收益率之间存在非线性关系,如图表 3所示。为了捕捉这个非线性关系,我们增加了机器学习ML 因子。ML 因子暴露通过神经网路学习而得到,它是传统风格因子和残差收益率的非线性组合。
图表3:xCN3因子的线性解释与实际的非线性情况

2.2.1 因子算法
传统因子使用基本面数据(基本面因子)或者量价数据(技术因子)来计算,ML因子则通过神经网络学习来计算,一个基本的全连接神经网络结构如图表4。
图表4:神经网络的结构

在计算得到 ML 因子之后,它就和其他因子一起做正常的横截面回归。ML因子计算过程需要做两次横截面回归。第一遍回归(无ML因子,即xCN3模型的回归)为计算ML因子提供数据输入,第二遍回归(包含 ML因子)是 xCN4 模型的回归。
2.2.2 因子表现
图表 5 显示机器学习因子的日频历史累积收益率和|t|值的情况。因子累计收益率呈现出几乎单调的上升趋势,日频因子收益率的平均年化收益率为4.88%。这表明,使用日频数据训练的神经网络模型能较好地预测下一日的股票收益率。在2015年上半年因子的累积收益率增长很快,说明在剧烈震荡市场里机器学习更容易捕捉到非线性关系。使用日频数据训练得到的每月底的 ML 因子和其它因子对下个月的个股月度收益率做回归,所得到的因子月频累积收益率和|t|值显示在图表6里。月频因子收益率的平均年化收益率仅为0.35%,说明日频数据训练得到的ML 因子不能用来预测月频的个股收益率。
使用月频回归的结果,ML因子|t|全程平均值为1.59,|t|>=2占比为29%。ML因子的Single Style回归和All Styles回归的对比如图表7所示。
图表5:ML因子的日频累积收益率与滚动|t|值

图表6:ML因子的月频累积收益率与滚动|t|值

图表7:ML因子标准化至年化波动率1%的累积收益率

2.3 CROWD因子(拥挤度)
当投资者对某只股票过热的时候,股票会呈现出高估值、高成交量、高波动率、高动量的特点,通常在这种情况下股票收益率预期较低。特别值得注意的是,CROWD因子衡量一支股票在时间序列中的拥挤度水平,而非它相对于所有股票在一个时间截面上的拥挤度水平。
图表8:股票拥挤度的衡量

2.3.1 因子算法
xCN3中的VALUE, LIQUIDITY, RESID_VOL, MOMENTUM分别衡量了股票的估值、成交量、波动率、动量的情况。要计算CROWD 因子,首先计算每只股票的这些因子在历史中的分位值:

将以上四个分位数线性组合起来,得到 CROWD:
![]()

2.3.2 因子表现
图表9展示了拥挤度因子的累积收益率和|t|值走向。累计因子收益率呈现长期下跌趋势,这意味着投资者情绪高涨/交易拥挤的股票,因子收益率较差,符合预期。值得注意的是,累计收益率下行曲线并非平缓。在两个市场剧烈震荡时期,2008-2009年以及2015年下半年至2016年初期间,CROWD因子收益率都呈现斜率比较陡峭的下跌。
使用月频回归的结果,CORWD因子|t|平均值为2.14,|t|>=2的占比为 47%。CROWD因子的Single Style回归和 All Styles回归的对比如图表10所示。
图表9:CROWD因子的日频累积收益率与滚动|t|值

图表10:CROWD因子标准化至年化波动率1%的累积收益率

PART 03
模型检验与对比
图表11展示xCN3和xCN4模型252日滚动窗口的Total-R²均值(样本覆盖时间区间为2008年1月至2026年1月)。xCN4的平均拟合度持续高于xCN3,显示新因子具有贡献增量信息的能力。
图表11:xCN4和xCN3模型的滚动R²对比

图表12展示衡泰xCN4和xCN3的Total-R²的累计差值。从2008/01/15至2026/01/12,Total-R²的累计差值为16.1。
图表12:xCN4和xCN3的Total-R²的累计差值

图表 13 展示衡泰模型的平均Total-R²。xCN4 的全程平均Total-R²比xCN3平均高出0.0037 (区间为2008/01/15-2026/02/27)。CNEX的Total-R²比CNE6平均高出0.0099,为0.357。
图表13:衡泰模型的Total-R²

通过传统的逐步回归法(Fama-MacBeth),即第一遍对行业+1个因子(遍历 13个因子)做回归找到最优的第一个因子,然后第二遍对行业+已找到的一个因子+另外一个因子(遍历剩余12个因子)做回归找到最优的第二个因子,诸如此类,我们可以得到各因子对收益率解释度的重要性排序。按照这个重要性排序,我们使用行业+N个因子对收益率做横截面回归,结果如图表14所示。如果行业+13个因子对个股收益率的解释度计为100%的话,那么行业+3个因子(size, liquidity,和momentum)对个股收益率的解释度可以占到 92.9%。
SOE+EARNING+CROWD+LEVERAGE+GROWTH+ML 这6个因子的总增量 R2为 0.95%,仅占全模型解释度的2.5%。回归区间为2008年3月至2026年2月。
图表14:全市场模型风格因子Total R-Square 增量

统计各期的横截面回归T值,检测因子对股价收益率的影响显著性,一般|T|>2代表有显著影响,|T|>2的周期占总周期的比例(显著性占比)代表因子是否有稳定的显著影响。如图表15所示,13个风格因子的|T|均值为2.94,显著性占比平均为 54.7%;31个行业因子的|T|均值为 4.89,显著性占比平均为 68.9%。值得一提的是,如果行业分类选择GICS,那么|T|均值大约为 1.6,显著性占比平均为 29%。这显示行业分类标准对模型的重要性。
图表15:回归显著性占比

图表16显示因子收益率的年化波动率。风格因子中,SIZE,RESID_VOL,和BETA的波动率最高,大约为 5-6%。行业因子的波动率都高于8%,显示行业选择对投资组合波动率的重要性。投资中如果想降低组合波动率,控制行业、市值、波动率,和Beta的风险最有效果。
图表16:因子年化波动率%

对于全市场模型(模型的股票池为全市场股票),因为风格因子暴露的流通市值加权均值为0,全市场的流通市值加权收益率之和(即全市场组合收益率)等于国家因子收益率加上流通市值加权的残差收益率之和。因为流通市值加权的残差收益率之和几乎为0,全市场组合收益率基本等于国家因子收益率。我们以中证全指收益率代表全市场组合收益率,计算国家因子月收益率和中证全指月收益率的差值。从2008年2月至2026年2月,差值围绕0上下波动,均值为 0.08%,最大差值绝对值不超过 4.0%,符合预期。
图表17:国家因子收益率与中证全指收益差值(%)

为了更精确的表示两者关联,我们构建国家因子收益率,中证全指,和全市场组合累计净值进行对比。可以发现三者的走势基本一致,且国家因子收益率净值和全市场组合净值非常接近,与中证全指净值的细微差别是受指数构建的规则影响(指数收益率是自由流通市值加权且使用分级靠档,国家因子收益率则是流通市值加权),整体差异符合预期。从2008年2月底至2026年2月底,国家因子的年化收益率为2.93%,中证全指的年化收益率为1.75%,市场组合的年化收益率为3.48%。国家因子和全市场组合的微小差异0.55%是因为流通市场加权的残差收益率之和不严格等于0。全市场组合收益率比中证全指高1.73%,这是因为指数构建不考虑现金分红。
图表18:国家因子、中证全指和市值加权组合累计净值对比

另外 两 个 评 价 因 子 效 果 的 指 标 是 因 子 平 稳 系 数 ( Factor Satbility Coefficient,FSC)和方差膨胀因子(Variance Inflation Factor,VIF),一般要求平稳性大于0.8,VIF小于5。因子平稳系数计算公式如下:

方差膨胀因子反应因子之间是否存在共线性问题,我们采用横截面单因子对剩余风格因子回归的方式计算模型拟合度,该拟合度反应其他风格因子对因变量因子的解释度,数值越小代表因子间的关联越小,风格越显著。我们计算多期的VIF值,取均值作为各风格因子的VIF值

图表19展示xCN4 模型各风格因子的统计结果。从因子解释力显著度角度,各风格因子的|t|值的均值为2.94。从因子解释力的稳健度角度,|T|值大于2占比的均值为55%。从因子共线性角度,风格因子的VIF均值为1.76,VIF<5说明共线性问题不严重。从稳健度来看,各风格因子的平稳度均值为0.87,较为稳健。在三个新增因子中,SOE_F,ML_F的VIF非常低,表明它们和其它因子的共线性很低。ML因子的平稳度基本为0,这是因为ML因子是从xCN3模型的收益率残差训练而来,横截面之间的相关系数很低。
图表19:风格因子信息统计
(2008.03-2026.02,按照年化收益率排序)

图表20显示日频模型和月频模型的指标对比。月频模型里的ML因子也是使用日频数据训练得到的。月频因子收益率的平均年化收益率仅为0.35%,说明日频数据训练得到的ML因子不能用来预测月频的个股收益率。ML因子一个显著特点是平稳度很差,即前一日和下一日的ML因子相关性几乎为0,这说明 ML 因子不合适做为alpha因子,因子的超额收益率无法覆盖极高的换手率而导致的交易费用。
图表20:风格因子信息统计,
日频和月频的对比(2008.03-2026.02)

长期以来,A股市场普遍存在“小市值效应”、“低估值效应”以及“流动性风险溢价”。如图表21-22 所示,市值(SIZE)因子的累计收益率整体向下,趋势符合预期;除2017年有所回升(2017年市场风格由白马股主导,小市值效应不明显),其余时间呈现波动性下降。估值(VALUE)因子为B/P,估值越低,数值越大。估值因子收益率整体为正,A股低估值策略长期跑赢市场。受市场风格切换影响,2019、2020和2025年整体 A股偏向成长风格,估值因子收益率净值出现回撤。“流动性风险溢价”表现在低流动性的股票未来相对可获得正收益。流动性(LIQUIDITY)因子越大,说明流动性越好。流动性因子净值曲线走势向下,说明符合流动性风险溢价的市场认知。
非线性市值(NON_LINE),流动性(LIQUIDITY),市值(SIZE),动量(MOMENTUM),和EARNING五个因子的信息比率绝对值都超过1。在A股市场很多投资者倾向于认为前三个因子是alpha 因子而非风险因子。市值因子在2017年之前一直普遍被认定为alpha因子,但近年来A股的风格切换使得市值因子的波动率加大,风险属性加强。动量因子为过去2年的收益率,不管是美股还是A股,有研究发现股价在长期尺度(5年以上)上呈现反转效应,在中期尺度(1-2年)上呈现动量效应,我们的结果与这个认知一致。在短期尺度(3个月)上美股呈现动量效应,但A股则倾向呈现反转效应。
从年化收益率和夏普指标来看,三个新增因子相对于其它因子并非特别突出。结合增量R²(图表14),可知xCN3模型的十个因子对个股风险的解释度已相当充分,新增因子对模型的贡献有限。
图表21: 排名前7的风格因子收益率净值

图表22: 排名后6的风格因子收益率净值

图表 23展示xCN4 模型各行业因子的统计结果。行业因子收益率是剔除了国家因子收益率的,因此可以理解为行业因子年化超额收益率。15个行业相对市场有超额收益,其中信息比例排名靠前的4位分别是国防军工、通信、计算机、电子;排名靠后的2位是纺织服饰和交通运输。相对于风格因子,行业因子整体年化波动率较高,行业因子年化波动率均值是风格因子年化波动率均值的4.0 倍。因此控制行业风险在选股配置中不容忽视。
从因子解释力显著度角度,各行业因子的|t|值的均值为4.89。从因子解释力的稳健度角度,|T|值大于2占比的均值为69%。
图表23:行业因子信息统计
(2008.03-2026.02,按照年化收益率排序)

图表24:排名前6的行业因子收益率净值

图表25:排名后6的行业因子收益率净值

图表26展示了13 个风格因子在全历史样本内、基于日频收益率计算的相关系数矩阵。SOE因子与大部分因子相关性微弱,绝对值普遍低于0.2,与LIQUIDITY(corr=0.37)和GROWTH corr=-0.30)的相关性相对较高。这显示高SOE 的公司具有更好的流动性,但成长性较低。
ML因子与所有因子的相关性都很低,相关性绝对值均未超过0.11。它与SIZE的相关性最高,为0.11。这说明ML因子能挖掘出传统风格因子之外的,基于残差预测的风险来源。
CROWD因子收益率与RESID_VOL及MOMENTUM的相关系数分别为-0.30 和-0.16。尽管CROWD因子使用残差波动率因子、动量因子、估值因子和流动性因子计算,但由于CROWD因子捕捉的是后4个因子在时间序列上的历史分位值,而后四个因子反应的是它们在时间横截面上的分位值,所以CROWD因子收益率和RESID_VOL及 MOMENTUM的相关系数并不一定为正。
图表26:xCN4风格因子收益率相关性矩阵

PART 04
结论
我们通过引入SOE、ML 和CROWD三个新因子,构建多因子风险模型xCN4。
从收益来源的角度,SOE因子刻画出“国有股权”这一制度性特征所带来的系统性收益,ML 因子成功捕获传统线性模型无法处理的个股收益率和传统因子之间的非线性关系,CROWD 因子则描述交易情绪在时间序列而非横截面上的分位数对个股收益率的影响。
从模型解释力的角度,xCN4 模型的Total-R²持续高于 xCN3模型,说明新因子具有贡献增量信息的能力。
从增量Total-R²的角度,新增三个因子仅提高R²0.0037,从0.3487到0.3524。
总而言之,相对于xCN3模型,xCN4模型的风险解释力有一定程度的提升,但不是非常显著。我们对标经典多因子模型,通过针对性的因子设计,加强对中国市场特有风险结构的刻画。

声明:以上内容仅供研究交流,不构成任何投资建议、投资要约或承诺,亦不作为买卖证券或其他金融产品的决策依据。投资者应自主判断、审慎决策并承担全部风险,我司不对基于本内容的任何投资行为承担责任。
