晶羽科技-解读点评影视小说作品

微信
手机版

炒股一共可以建多少仓(炒股交易费一共有多少)

2022-01-15 02:35 作者:华泰金工林晓明团 围观:

林晓明S0570516010001

SFC No.BPY4211 研究员

何 康S0570520080004 研究员

李子钰S0570519110003 研究员

陈 伟 S0570121070169 联系人

报告发布时间:2022年1月05日

摘要

基于业绩公告相关文本的SUE.txt因子可以刻画PEAD效应

盈余后价格漂移效应(PEAD)是指股价在盈余公告发布后有较大概率向业绩高于或低于预期的方向漂移。传统SUE因子基于公告财务数据来衡量PEAD效应并预测股票的异常收益,而本文尝试从纯文本的角度出发构建文本SUE.txt因子,对文本进行解构从而挖掘alpha信息。基于业绩预告与相关研报文本的数据实证表明,SUE.txt因子具有较强的选股能力,机器学习模型对文本的拆分和解构与直观逻辑相符,模型可信度较高。最后使用华泰金工因子库对SUE.txt基础池进行增强,20130104-20211231回测期年化收益43.47%,相对中证500超额年化收益29.98%;2021年收益52.79%。

滚动训练构建SUE.txt因子,特征为词频矩阵,标签为公告前后2日AR

本文使用的公告为业绩预告,相关文本为分析师点评业绩预告研报文本标题和摘要。在对上述文本进行分词后,保留给定词性并选择样本内标题出现次数最多的100词和摘要出现次数最多的500词构建词频矩阵,作为模型的训练特征。同时计算业绩预告发布前后2个交易日相对中证500的超额收益,将其分为“上涨”、“震荡”、“下跌”三类,作为训练标签。最后,本文分别测试了Logistic模型和XGBoost模型,将模型预测的上涨和下跌类别的log-odds值之差,在进行指数衰减后,作为最终的SUE.txt因子。

SUE.txt因子分层选股效果优秀,XGBoost模型优于Logistic模型

每月末追溯过去一季度业绩预告并计算相应的SUE.txt因子进行分5层回测。从结果来看,基于XGBoost模型和Logistic模型分别构建的SUE.txt因子分层表现均较为优秀,其中XGBoost模型的多头端收益与分层效果均优于Logistic模型,两者在第一层股票池的年化收益分别为27.62%与24.68%,回测期为20130104-20211231。此外,本文使用构建训练标签的2日AR特征,在进行同样的指数衰减处理后直接作为因子进行回测,发现SUE.txt因子在盈利能力和分层能力上均显著强于2日AR因子,说明SUE.txt因子对2日AR因子具有明显的增益效果。

模型可解释性探索:词重要性分析结果与直观逻辑相符合

本文参考Yano等(2012)提出的词重要性和Meursault等(2021)采用的段落重要性概念,对模型的可解释性进行了探索。对词重要性分析的结果表明,“上调”、“预增”、“景气”等词对SUE.txt有较大的正面影响,而“下调”、“下滑”、“亏损”等词则有较大的负面影响,与直观逻辑相符。进一步本文构建了包含财报、运营、宏观环境和战略四大类的分类词典,将文本段落按其所包含的关键词进行分类。分析发现,描述宏观环境的段落占比最低,对SUE.txt有较大的正面影响;描述运营的段落占比最高,对SUE.txt有较大的负面影响;此外,描述财报的段落则包含较多好坏参杂的重要信息。

利用华泰金工因子库对SUE.txt股票池进行增强

本文选取SUE.txt因子的第一层股票分层作为基础池,选择华泰金工因子中分层效果较好且多头收益明显的因子对股池内的股票进行等权合成打分,并选择得分最高的30只股票作为增强池。在回测期20130104-20211231内,增强池年化收益43.47%,夏普比率1.57;相对中证500年化超额收益29.98%,2021年绝对收益52.79%,超额收益36.19%。对成分股分析表明,SUE.txt基础池与增强池在各板块的股票数量分布较为均衡,未出现板块明显超配的情况。

风险提示:通过机器学习模型构建选股策略是历史经验的总结,存在失效的可能。人工智能模型可解释程度较低,使用须谨慎。量化因子的效果与宏观环境和大盘走势密切相关,历史结果不能预测未来,敬请注意。

文本PEAD选股框架

PEAD效应回顾

盈余后价格漂移效应(Post Earnings Announcement Drift, PEAD)最早由芝加哥大学Ray Ball和Philip Brown在1968年提出,指的是盈利高于预期的股票会有较大概率在盈余公告后3个月内出现正向超额收益,而亏损高于预期的股票则会有较大概率在公告后的3个月内出现负向超额收益。PEAD效应主要可归因于投资者反应不足,即由于其注意力的有限性,无法及时对公司盈利信息做出充分解读和反应,由此导致了PEAD现象的产生和持续。

作为广泛存在于各个时间区间和各个股票市场的异常现象,PEAD效应自被提出以来便受到了业界和学术界的广泛关注。在过去的近50年间,投资者通常使用过往财报和分析师预期等财务数据计算标准化预期外盈利(Standardized Unexpected Earnings, SUE)指标来衡量PEAD效应,其计算方式为

「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一

文本SUE.txt因子的提出思路

传统基于财务数据计算的SUE因子不是本文关注的重点,本文重点关注与盈余公告相关的文本数据中蕴含的alpha信息。传统SUE因子主要基于公告财务指标来预测股票的异常收益,其内含逻辑为财务指标在预期之外的好坏能一定程度上影响投资者未来的行为,并可以此推断股票是否会有异常收益。公告相关的文本数据与此类似,以分析师对业绩预告解读的文本为例,其更为直接地体现了分析师对业绩预告的理解和对公司未来盈利能力的预判,同样也能帮助预测股票是否会有异常收益。两种方法各有千秋,而本文将主要讨论后者。

具体来说,本文借鉴Meursault等(2021)的做法,构建了一种基于盈余公告相关文本数据的新型SUE因子(下文简称SUE.txt)。藉由盈余公告发布以后的相关文本与个股的异常收益,通过训练监督式机器学习分类模型的方式来实现对股票预期之外收益能力的预测。与传统SUE因子的计算方式不同,基于文本的方法不对盈余公告及相关文本中提及的任何财务数字进行计算,而仅侧重于语义拆解,通过对文本中提及的最常见词的分析,来挖掘对应股票产生公告后正向价格漂移的能力。

「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一

Meursault等(2021)尝试使用如上框架在美股构建了SUE.txt因子,实证效果表明SUE.txt因子不逊色于传统SUE因子。在该文中,作者使用沃顿数据(Wharton Research Data Services,WRDS) 平台上的美股上市公司盈余公告说明本文(Presentation)和问答(Q&A)环节的对话文本数据,采用词袋模型将上述文本词向量化,并构建词频矩阵,作为模型训练的特征(X);同时将盈余公告发布后1日异常收益特征三等分并进行标签化处理(“上涨”、“震荡”、“下跌”),作为模型训练的标签(y)。最后使用正则化逻辑回归模型,以滚动的形式(8季度训练+1季度测试)进行模型训练,并基于模型的“上涨”和“下跌”分类的log-odds值计算最终的SUE.txt因子。

业绩公告与文本数据

A股的业绩公告主要有业绩预告、业绩快报和定期报告三类。各类型业绩公告的时间线如下图所示。下面我们展开描述三类业绩公告的具体内容。

「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一

定期报告

定期报告,即正式的季报、半年报和年报,为强制性披露,其主要反映了上市公司在该报告期内的经营和财务状况,包含公司的基本情况、主要会计数据和财务指标等信息。与业绩预告和业绩快报相较,定期报告内容最为详实、信息最为丰富、且披露要求最为严格。

业绩预告

业绩预告为上市公司在定期公告发布前,经营业绩有超常情况,达到披露条件而强制被动披露或者自愿披露的业绩预先报告,其主要披露了公司对下一季度(年度)的盈利预计情况。业绩预告可以单独进行披露,也可以在定期报告内对下一季度内的业绩进行预告,例如在正式的一季报内披露二季度的业绩预告。此外,如公司发现披露的业绩预告与实际业绩发生盈亏变化、预告金额或幅度差异较大等情况时,需要进行业绩预告修正。

「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一

业绩快报

业绩快报通常在定期报告前单独发布,主要披露内容包括当年及上年同期主营业务收入、主营业务利润、利润总额、净利润、总资产、净资产、每股收益净资产收益率等数据和指标。业绩快报不强制要求披露:上证主板的上市公司可以在年度报告和中期报告披露前发布业绩快报;深圳主板鼓励上市公司在定期报告披露前主动披露快报,且对于拟发布第一季度报告业绩预告但其上年年报尚未披露的上市公司,应当在发布业绩预告的同时披露其上年度的业绩快报。

「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一

相关文本

不同业绩公告的具体内容差别较大,涉及到的相关文本数据也有所不同。具体来说主要包括以下几类:

1. 公告后的卖方分析师点评文本:个股发布业绩公告以后市场上的卖方分析师会及时发布点评或解读,这类文本数据包含较为明显的情感倾向;

2. 业绩公告本身的陈述文本:这类文本主要是指年报/半年报中的管理层讨论与分析文本,为公司管理层对财务报告与经营情况的解释分析,及对公司未来发展所面临的挑战和机遇进行说明;

3. 业绩公告相关的业绩说明会问答文本:上市公司发布业绩说明以后召开的业绩说明会会回答投资者对公司业绩及经营状况的相关提问,基于此所形成的问答文本也是一类重要业绩公告相关文本,可能包含无法书面说明的公司信息;

4. 其他文本:如业绩公告后的新闻文本、舆情文本等。

本文将主要使用业绩预告与相对应的分析师研报点评文本。

「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一

SUE.txt因子构建

本章主要介绍基于文本的SUE.txt因子的构建与回测,主要分为数据预处理、机器学习模型训练、分层回测和结果的可解释性分析等部分。

数据预处理

数据来源

本文使用的公司业绩预告数据来自于万得底表AShareProfitNotice,每条样本为一条预告,其数据包含了每支股票业绩预告的发布时间、预告财报期、预期净利润增速上下限、预期净利润上下限等字段。本文使用的卖方分析师研报文本数据来自于朝阳永续盈利预测数据库中的个股报告基础信息表DER_REPORT_RESEARCH,数据回溯区间为2011-01-01至2021-12-31,每条样本为一篇报告,其数据包含股票代码、研报标题、研报摘要、研报发布时间等字段。两组数据的示例如以下两张图表所示。

「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一

数据匹配

由于难以精确定位与业绩预告相关的所有研报,因此我们假设业绩预告发布后的5个自然日内的所有个股相关研报都是对该业绩预告作出的评论和解读。

「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一

匹配过程中,我们首先读取万得的公司业绩预告数据,对于其中每一条业绩预告,我们根据其发布时间从朝阳永续的个股报告基础信息表中匹配未来5个自然日内的研报数据。同时,我们也对股票业绩预告发布前、后两个交易日内的收盘价进行了匹配,并以中证500同一时间段内的收益作为基准,计算该股票该次业绩预告的两日异常收益(Abnormal Return, AR)。

「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一

文本分词

完成数据匹配后,我们使用Jieba分词对研报的文本和摘要数据进行分词处理。利用Jieba分词的词性标注功能,本文对分词后的文本根据其词性仅保留普通名词、专有名词、动词、副动词、动名词、形容词、副词对应的词语作为清洗后的数据。

「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一

模型训练与测试

本文使用滚动的形式进行模型训练,训练与测试流程分为以下几个步骤:

1. 数据集划分:每轮滚动确定样本内数据集与样本外数据集;

2. 特征与标签生成:对样本内文本进行词向量化并生成特征X与标签Y,记录使用的词语;

3. 训练:样本内进行K折交叉验证训练,寻找最优参数;

4. 样本外预处理:对样本外文本进行词向量化,基于样本内所使用的词语;

5. 预测及因子构建:使用交叉验证得到的最优模型对样本外进行预测,并构建原始SUE.txt因子;

6. 因子衰减:将原始SUE.txt因子衰减至截面期得到调整后SUE.txt因子。

数据集划分

每次滚动样本内为过去24个月,样本外为未来12个月。例如对于某轮样本外的首月T月来说,我们将T-24至T-1月的数据作为样本内,T月至T+11月的数据作为样本外;下一迭代期则以T-12月至T+11月的数据作为样本内,T+12至T+23月的数据作为样本外;以此类推。

「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一

特征处理与标签提取

我们使用Python Scikit-learn包中的CountVectorizer对分词结果进行向量化处理。CountVectorizer是一个常见的文本特征提取方法,对于给定的训练文本,它可以计算每个词的出现频数,并将整个文本转换为对应的词频矩阵。每次滚动,我们以样本内的所有样本为整体,提取其研报标题出现频率最高的100个词、研报摘要出现频率最高的500个词,将文本转换为词频矩阵;上述做法的理由在于标题和摘要蕴含的信息量及词域丰富程度不同,因此选择的词语数量不同。最后将两个词频矩阵拼接,下图展示了文本数据转换为词频向量的结果。

「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一

计算出词频矩阵后,我们使用以下公式计算log词频,作为我们训练模型的输入特征。

「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一

对于样本外,我们做与样本内类似的处理,唯一不同之处是在使用CountVectorizer对其分词后的文本向量化的过程中,我们使用样本内(而非样本外)频率最高的100和500个词作为词典,构造log词频矩阵。这是为了避免用到样本外的未来信息,同时保证样本内与样本外的文本分词词域相同。

对于样本内中此前计算的相对中证500两日超额收益特征(不进行中性化处理),我们按以下方式将其分为三类后作为样本的训练标签:

1. 上涨(y = 1):较大的正向超额收益,即样本的超额收益位于整体的前30%;

2. 震荡(y = 0):较低的正向或负向超额收益,即样本的超额收益位于整体的前30%-70%;

3. 下跌(y = -1):较大的负向超额收益,即样本的超额收益位于整体的后30%。

逻辑回归模型与超参数选择

逻辑回归是广义线性模型的一种,用来解决有关“分类”的问题,其损失函数为:

「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一

本文采用了弹性网络(elasticnet)正则化对逻辑回归模型的复杂度进行约束,模型的整体损失函数为:

「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一

同时,由于本文处理的问题为多分类问题,我们使用OvR(one-vs-rest)策略进行判别,即对第K类的分类决策,我们把所有该类样本作为正例,其他所有样本作为负例,在此基础上做二元逻辑回归,得到第K类的分类模型。其他类别的分类模型同理。

XGBoost模型与超参数选择

极端梯度提升(XGBoost)是一种Boosting集成算法,是通过将多个弱学习器(如决策树)以串联的方式组合起来的一个强学习器,其方式是通过弱学习器间的迭代,来不断缩小损失函数,XGBoost训练流程示意如下。关于XGBoost模型的详细介绍可参考《华泰人工智能系列之六:人工智能选股之Boosting模型》(20170911)。

「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一

与逻辑回归模型相同,我们对XGBoost分类器的全部超参数组合进行网格搜索,使用5折交叉验证选择验证集平均AUC最高的一组超参数作为模型最终的超参数。超参数设置如下表所示。

「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一

SUE.txt因子计算

「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一

单因子分层回测

因子覆盖度

根据前文所述做法,月度各截面期的SUE.txt因子覆盖度如下图所示,整体来看SUE.txt因子占全A股的覆盖度不高,全历史均值在15%左右,绝对数量均值约450只;近年来随着A股数量的持续增加,SUE.txt因子覆盖股票数量却并未明显上涨,意味着A股覆盖的分析师数量并未显著增多,因此覆盖度占比逐渐走低。

「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一

回测框架

依照因子值对股票进行打分,并以此构建投资组合进行回测,是衡量该因子对股票池是否有区分能力的最直观手段。我们按以下方式构建回测模型:

1. 股票池:每个截面期内SUE.txt因子有覆盖的股票;

2. 回溯区间:2013-01-31至2021-12-31;

3. 换仓期:根据每个自然月的因子值,在下个自然月的首个交易日按vwap价格调仓;

4. 数据处理:因子值为空的股票不参与分层;

5. 停牌、退市修正:对于在调仓日处于停牌状态的股票,则保持当期持仓与上一期相同;对于已退市但上一期有持仓的股票,则对其进行平仓。

回测结果

下述四张图展示了XGBoost模型和Logistic模型的分层回测结果,从结果上看XGBoost模型表现优于Logistic模型,前者多头第一层的年化收益为27.62%,第1层相对第5层的对冲收益为20.80%;后者则为24.68%和16.01%;在多头收益水平与分层能力上XGBoost表现均优于Logistic,模型层面的优化较为显著,这也提示我们:若要进一步优化SUE.txt因子,模型层面的优化可能仍有提升空间。

「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一

读者可能会有疑惑:在每个月月末计算SUE.txt因子时,我们实际上已经可以观测到过去一个季度所有业绩预告的已实现2日AR,为何还要使用预测模型对2日AR进行预测?增益信息体现在何处?

我们尝试对此进行解释。模型训练时将词频特征与2日AR标签联系在一起,暗含假设是:业绩预告前后两日AR显著超越基准的股票将发生PEAD现象,而这个假设建立在预告样本足够多的基础上。在模型训练时,我们使用了8个季度的预告数据作为样本内,大样本条件下上述基础满足,因此机器学习模型较好地建立了词频—AR—PEAD的联系;而样本外在预测时,我们仅追溯过去1个季度的预告样本,样本数量相对较少,导致公告预喜的样本未必产生明显的AR(统计不显著),此时词频特征就是AR的替代,由此带来了增量信息,筛选出AR不显著但仍有可能发生PEAD效应的股票。参考论文作者并未就上述处理方法做出解释,这里仅尝试提出笔者的理解,抛砖引玉。

模型可解释性分析

本文所挖掘的文本PEAD效应本质上解构的是盈余公告发布以后卖方分析师对盈余公告的解读。从传统SUE因子的角度来理解,若盈余公告业绩表现优秀,分析师可能会给出“超预期”、“预期之外”等情感表达十分强烈的词语;而除了“超预期”等表述之外,“上调”、“景气”、“看好”等偏正向的词语可能也蕴含分析师对上市公司未来表现的强烈看好,从而带来PEAD效应。那么本文构建的SUE.txt因子是否与逻辑直觉相符?

本小节我们尝试打开机器学习的“黑箱”,帮助读者了解SUE.txt因子的“思考”过程,提升对模型及预测结果的信任程度。我们将从Logistic回归模型的系数入手,构建分析师文本中的每个关键词、每个段落对最后结果贡献的重要程度指标。

单词重要性

本文使用Yano等(2012)提出的词重要性(word impact)概念。与传统特征重要性不同,词重要性不但能体现每个关键词对模型最后预测结果的重要程度,也同时可以反映词对最后结果的影响方向:例如在理想情况下,“上涨”、“上升”等词对结果应有较大的正面影响,而“下跌”、“下调”等词应对结果有较大的负面影响。

词重要性的计算由两部分构成:回归系数和词频。回归系数反映了单个词的每次出现对最终结果的影响方向和力度,而词频则体现了文本中每个关键词的出现次数。因此,词重要性被定义为逻辑回归模型“上涨”分类系数与“下跌”分类系数之差和词频之乘积:

「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一

子图所示。为便于观察,在绘图时我们按其中系数差绝对值最大的点的值,对数据做标准化处理。

「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一

段落重要性

在对单词重要性进行解读后,我们自然而然的会想到一个问题:如果一个段落中同时包含了多个正向词和负向词,最后该段对于预测结果的重要性与方向该如何计算?原论文构建了基于段落的SUE.txtP来解读不同类型的段落所蕴含的信息:

「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一

SUE.txt股票池增强

本章我们考虑对基于SUE.txt构建的股票池进行增强(以下简称为SUE.txt股票池),基础SUE.txt股票池为SUE.txt因子的第一层分层。增强的思路为:令备选因子在SUE.txt股票池内进行回测,优选分层效果明显或多头端收益较强的因子,进而对股票池内的股票进行集成打分,备选因子为华泰因子库因子。

华泰金工因子分层回测

华泰因子库见附录,在进行分层回测时华泰因子库的因子均进行过行业市值中性处理。各因子分3层回测的业绩表现如下表所示:

「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一

根据分层回测结果,以下因子在SUE.txt基础池内分层表现较好:

1. 成长类因子:营业收入同比增长率(Sales_G_q)、净利润同比增长率(Profit_G_q)表现较好,其中净利润同比增长率因子分层能力稍逊;

2. 财务质量类因子:毛利率的季度变化(grossprofitmargin_q_g)、净利率的季度变化(netprofitmargin_q_g)、经营性现金流/净利润(operationcashflowratio_ttm)表现较好,其中净利率增长率的季度变化因子分层效果略差;

3. 杠杆类因子:流动比率(currentratio),多头端收益优秀,第2、3层区分不明显;

4. 波动率类因子:近6个月、12个月波动率因子(std_Nm)表现较好,其中近6个月波动率多头收益显著,近12个月波动率分层效果较好;

5. 股价因子:对数股价(ln_price)多头端表现优秀,第2、3层区分不明显;

6. 换手率类因子:个股最近N个月内日均换手率除以最近2年内日均换手率再减1(bias_turn_Nm),N取1、3、6、12时多头端表现均十分优秀,说明该因子整体在SUE.txt股池内的有效性受窗口期影响较小;N取1和3时分层效果也较优;

7. 股东因子:户均持股比例的同比增长率(holder_avgpctchange),该因子多头收益良好, 分层表现优秀。

因子等权合成

综合考虑各因子在SUE.txt基础池内的的多头收益与分层效果,我们选择了Sales_G_q、grossprofitmargin_q_g、operationcashflowratio_ttm、currentratio、std_6m、ln_price、bias_turn_1m、bias_turn_3m、holder_avgpctchange等因子进行集成,集成方法为计算等权均值,根据等权均值对SUE.txt股票池进行排序,筛选靠前的N=30只股票构成最终的文本PEAD增强股票池,30只股票等权持有,月频调仓,交易手续费双边千三,回测净值如下图所示:

「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一

成分股分析

本小节我们对SUE.txt基础池及增强池的成分股进行分析,统计历史各期持仓在各板块的分布及在各宽基指数的覆盖度。从板块分布来看,SUE.txt股票池未出现明显高配某个板块的情况,整体上科技板块的占比略微高于其他板块。从宽基指数覆盖度来看,覆盖度从高到低为:中证1000 > 中证500 > 沪深300,持仓偏中小市值,SUE.txt原始池的数量均值约为90只。

「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一

总结与讨论

盈余后价格漂移效应(PEAD)指的是股票价格在盈余公告发布后有较大概率向业绩高于或低于预期的方向漂移。传统SUE因子主要基于公告财务数据来衡量PEAD效应并预测股票的异常收益,而本文尝试从纯文本的角度出发构建文本SUE因子,希望对相关文本进行解构从而挖掘alpha信息。基于业绩预告与相关研报点评文本的数据实证表明,文本SUE因子具有较强的选股能力,机器学习模型对文本的拆分和解构与直观逻辑相符,模型可信度较高。最后使用华泰金工因子库对文本SUE基础池进行增强,回测期年化收益43.47%,相对中证500超额年化收益29.98%;2021年收益52.79%。

在文本SUE.txt因子构建环节,我们使用的公告为业绩预告,相关文本为分析师点评业绩预告研报文本的标题和摘要。在对上述文本进行分词后,保留给定词性并选择样本内标题出现次数最多的100词和摘要出现次数最多的500词构建词频矩阵,作为模型的训练特征。同时计算业绩预告发布前后2个交易日相对中证500的超额收益,将其分为“上涨”、“震荡”、“下跌”三类,作为训练标签。最后,我们分别测试了Logistic模型和XGBoost模型,将模型预测的上涨和下跌类别的log-odds值之差,在进行指数衰减后,作为最终的SUE.txt因子。实证结果表明基于XGBoost构建的SUE.txt因子分层效果与多头收益能力均优于Logistic模型。

对词重要性分析的结果表明,“上调”、“预增”、“景气”等词对SUE.txt有较大的正面影响,而“下调”、“下滑”、“亏损”等词则有较大的负面影响,与直观逻辑相符。进一步本文构建了包含财报、运营、宏观环境和战略四大类的分类词典,将文本段落按其所包含的关键词进行分类。分析发现,描述宏观环境的段落占比最低,对SUE.txt有较大的正面影响;描述运营的段落占比最高,对结果有较大的负面影响;此外,描述财报的段落则包含较多好坏参杂的重要信息。

最后我们选取SUE.txt因子的第一层股票分层作为基础池,选择华泰金工因子中在SUE.txt基础池内分层效果较好且多头收益明显的因子对股池内的股票进行等权合成打分,并选择得分最高的30只股票作为增强池。回测期内,增强池年化收益43.47%,夏普比率1.57;相对中证500年化超额收益29.98%,2021年绝对收益52.79%,超额收益36.19%。对成分股分析表明,SUE.txt基础池与增强池在各板块的股票数量分布较为均衡,未出现板块明显超配的情况。

值得说明的是,文本PEAD效应的刻画不仅仅局限于本文所提到的业绩预告和卖方分析师研报文本,本文仅基于上述两组文本提出了刻画文本PEAD效应的另一可行途径,但还存在以下值得改进之处:

1. 业绩预告作为一类重要的业绩公告,在全A股的覆盖度较低,在单独使用时只适合独立作为一个选股策略,难以融入传统多因子选股体系;若要融入多因子体系,可以尝试以正式的定期财报作为基础,仍以卖方分析师研报文本作为相关解读文本构建SUE.txt因子,或可提高因子覆盖度;

2. 分析师研报主要受众为机构投资者,因此对分析师研报的解读更可能影响机构,对个人投资者影响相对更小,而舆情文本则可以反应个人投资者对业绩公告的解读,因此相关文本数据仍存在局限性;

3. 对SUE.txt基础池的增强,本文使用的华泰金工因子为更偏低频的基本面与量价类因子,增强效果或许仍然有限,高频因子作为量价信息更密集的因子,或许可以为SUE.txt基础池提供额外的增量信息。

参考文献

Liang P J , Meursault V , Routledge B B , et al. PEAD.txt: Post-Earnings-Announcement Drift Using Text[J]. Working Papers, 2021.

Yano T , Smith N A , Wilkerson J D . Textual Predictors of Bill Survival in Congressional Committees[J]. 2012.

风险提示

通过机器学习模型构建选股策略是历史经验的总结,存在失效的可能。人工智能模型可解释程度较低,使用须谨慎。量化因子的效果与宏观环境和大盘走势密切相关,历史结果不能预测未来,敬请注意。

附录:华泰因子库

「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一

免责声明与评级说明

「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一「华泰金工林晓明团队」文本PEAD选股策略——华泰人工智能系列之五十一

公众平台免责申明

本公众号不是华泰证券股份有限公司(以下简称“华泰证券”)研究报告的发布平台,本公众号仅供华泰证券中国内地研究服务客户参考使用。其他任何读者在订阅本公众号前,请自行评估接收相关推送内容的适当性,且若使用本公众号所载内容,务必寻求专业投资顾问的指导及解读。华泰证券不因任何订阅本公众号的行为而将订阅者视为华泰证券的客户。

本公众号转发、摘编华泰证券向其客户已发布研究报告的部分内容及观点,完整的投资意见分析应以报告发布当日的完整研究报告内容为准。订阅者仅使用本公众号内容,可能会因缺乏对完整报告的了解或缺乏相关的解读而产生理解上的歧义。如需了解完整内容,请具体参见华泰证券所发布的完整报告。

本公众号内容基于华泰证券认为可靠的信息编制,但华泰证券对该等信息的准确性、完整性及时效性不作任何保证,也不对证券价格的涨跌或市场走势作确定性判断。本公众号所载的意见、评估及预测仅反映发布当日的观点和判断。在不同时期,华泰证券可能会发出与本公众号所载意见、评估及预测不一致的研究报告。

在任何情况下,本公众号中的信息或所表述的意见均不构成对任何人的投资建议。订阅者不应单独依靠本订阅号中的内容而取代自身独立的判断,应自主做出投资决策并自行承担投资风险。订阅者若使用本资料,有可能会因缺乏解读服务而对内容产生理解上的歧义,进而造成投资损失。对依据或者使用本公众号内容所造成的一切后果,华泰证券及作者均不承担任何法律责任。

本公众号版权仅为华泰证券所有,未经华泰证券书面许可,任何机构或个人不得以翻版、复制、发表、引用或再次分发他人等任何形式侵犯本公众号发布的所有内容的版权。如因侵权行为给华泰证券造成任何直接或间接的损失,华泰证券保留追究一切法律责任的权利。华泰证券具有中国证监会核准的“证券投资咨询”业务资格,经营许可证编号为:91320000704041011J。

林晓明

执业证书编号:S0570516010001

金融周期系列研究(资产配置)

【华泰金工林晓明团队】2020年中国市场量化资产配置年度观点——周期归来、机会重生,顾短也兼长20200121

【华泰金工林晓明团队】量化资产配置2020年度观点——小周期争明日,大周期赢未来20200116

【华泰金工林晓明团队】风险预算模型如何度量风险更有效-改进风险度量方式稳定提升风险模型表现的方法

【华泰金工林晓明团队】周期双底存不确定性宜防守待趋势——短周期底部拐头机会渐增,待趋势明朗把握或更大20191022

【华泰金工林晓明团队】二十年一轮回的黄金投资大周期——黄金的三周期定价逻辑与组合配置、投资机会分析20190826

【华泰金工林晓明团队】如何有效判断真正的周期拐点?——定量测度实际周期长度提升市场拐点判准概率

【华泰金工林晓明团队】基钦周期的长度会缩短吗?——20190506

【华泰金工林晓明团队】二十载昔日重现,三四年周期轮回——2019年中国与全球市场量化资产配置年度观点(下)

【华泰金工林晓明团队】二十载昔日重现,三四年周期轮回——2019年中国与全球市场量化资产配置年度观点(上)

【华泰金工林晓明团队】周期轮动下的BL资产配置策略

【华泰金工林晓明团队】周期理论与机器学习资产收益预测——华泰金工市场周期与资产配置研究

【华泰金工林晓明团队】市场拐点的判断方法

【华泰金工林晓明团队】2018中国与全球市场的机会、风险 · 年度策略报告(上)

【华泰金工林晓明团队】基钦周期的量化测度与历史规律 · 华泰金工周期系列研究

【华泰金工林晓明团队】周期三因子定价与资产配置模型(四)——华泰金工周期系列研究

【华泰金工林晓明团队】周期三因子定价与资产配置模型(三)——华泰金工周期系列研究

【华泰金工林晓明团队】周期三因子定价与资产配置模型(二)——华泰金工周期系列研究

【华泰金工林晓明团队】周期三因子定价与资产配置模型(一)——华泰金工周期系列研究

【华泰金工林晓明团队】华泰金工周期研究系列 · 基于DDM模型的板块轮动探索

【华泰金工林晓明团队】市场周期的量化分解

【华泰金工林晓明团队】周期研究对大类资产的预测观点

【华泰金工林晓明团队】金融经济系统周期的确定(下)——华泰金工周期系列研究

【华泰金工林晓明团队】金融经济系统周期的确定(上)——华泰金工周期系列研究

【华泰金工林晓明团队】全球多市场择时配置初探——华泰周期择时研究系列

行业指数频谱分析及配置模型:市场的周期分析系列之三

【华泰金工林晓明团队】市场的频率——市场轮回,周期重生

【华泰金工林晓明团队】市场的轮回——金融市场周期与经济周期关系初探

周期起源

【华泰金工林晓明团队】金融经济周期的耗散结构观——华泰周期起源系列研究之十

【华泰金工林晓明团队】经济系统中有序市场结构的进化——华泰周期起源系列研究报告之九

【华泰金工林晓明团队】企业间力的产生、传播和作用效果——华泰周期起源系列研究之八

【华泰金工林晓明团队】耦合振子同步的藏本模型——华泰周期起源系列研究之七

【华泰金工林晓明团队】周期在供应链管理模型的实证——华泰周期起源系列研究之六

【华泰金工林晓明团队】不确定性与缓冲机制——华泰周期起源系列研究报告之五

【华泰金工林晓明团队】周期是矛盾双方稳定共存的结果——华泰周期起源系列研究之四

【华泰金工林晓明团队】周期是不确定性条件下的稳态——华泰周期起源系列研究之三

【华泰金工林晓明团队】周期趋同现象的动力学系统模型——华泰周期起源系列研究之二

【华泰金工林晓明团队】从微观同步到宏观周期——华泰周期起源系列研究报告之一

中观基本面轮动

【华泰金工林晓明团队】行业配置落地:指数增强篇——华泰中观基本面轮动系列之十

【华泰金工林晓明团队】行业配置策略:拥挤度视角——华泰中观基本面轮动系列之九

【华泰金工林晓明团队】行业配置策略:景气度视角——华泰中观基本面轮动系列之八

【华泰金工林晓明团队】行业配置策略:趋势追踪视角——华泰中观基本面轮动系列之七

【华泰金工林晓明团队】行业配置策略:宏观因子视角——华泰中观基本面轮动系列之六

【华泰金工林晓明团队】行业全景画像:投入产出表视角——华泰中观基本面轮动系列之五

【华泰金工林晓明团队】行业全景画像:改进杜邦拆解视角——华泰中观基本面轮动系列之四

【华泰金工林晓明团队】行业全景画像:风格因子视角 ——华泰中观基本面轮动系列之三

【华泰金工林晓明团队】行业全景画像:宏观因子视角 ——华泰中观基本面轮动系列之二

【华泰金工林晓明团队】确立研究对象:行业拆分与聚类——华泰中观基本面轮动系列之一

【华泰金工林晓明团队】华泰单因子测试之成长类因子——华泰多因子系列之三

【华泰金工林晓明团队】华泰单因子测试之估值类因子——华泰多因子系列之二

【华泰金工林晓明团队】华泰多因子模型体系初探——华泰多因子系列之一

基金评价

ETF季度盘点

【华泰金工林晓明团队】2021Q2中国ETF市场盘点回顾

【华泰金工林晓明团队】2021Q1中国ETF市场盘点回顾

【华泰金工林晓明团队】2020Q4中国ETF市场全景回顾——总规模创新高,行业主题类ETF渐成市场新主角20210112

【华泰金工林晓明团队】2020年三季度中国ETF市场回顾——产品百花齐放、投资者结构日渐成熟,规模创新高20201021

【华泰金工林晓明团队】ETF产品细分差异化或成突围之道——2020二季度中国ETF市场全景回顾盘点与展望20200803

【华泰金工林晓明团队】ETF规模数量大涨品类不断丰富——2020一季度中国ETF市场全景回顾盘点

相关文章