设正点财经为首页     加入收藏
首 页 财经新闻 主力数据 财经视频 研究报告 证券软件 内参传闻 股市学院 指标公式
你的位置: > 正点财经 > 研究报告 > 正文

华泰人工智能系列之二十二:基于CSCV框架的回测过拟合概率

类型:投资策略  机构:华泰证券股份有限公司   研究员:林晓明,陈烨  日期:2019-06-18
http://www.zdcj.net      点击收藏此报告
    

基于CSCV框架计算三组量化研究案例的回测过拟合概率

    本文基于组合对称交叉验证(CSCV)框架,以三组量化研究为案例展示回测过拟合概率(PBO)的计算流程,发现两组多因子选股模型的PBO较低,择时模型的PBO较高。案例1为7种机器学习模型的多因子选股策略,指数增强组合PBO大多在15%~50%,“XGBoost表现最佳”的结论大概率不是回测过拟合。案例2为6种交叉验证方法的多因子选股策略,多空组合PBO在20%~50%,“分组时序交叉验证表现最佳”的结论大概率不是回测过拟合。案例3为双均线50ETF择时策略,PBO在50%~90%,“参数组合[11,30]和[11,24]表现最佳”的结论可能为回测过拟合。

    过拟合可分为两个层次:训练过拟合和回测过拟合

    华泰人工智能系列多项研究探讨过拟合。过拟合可分为训练过拟合和回测过拟合两个层次。训练过拟合是机器学习语境下偏狭义色彩的过拟合,是指机器学习模型在训练集表现好,在测试集表现差,产生原因是模型超参数选择不当或者模型过度训练,解决方案是采用合理的交叉验证方法选择模型超参数或迭代次数。回测过拟合是量化研究语境下偏广义色彩的过拟合,是指量化模型在回测阶段表现好,在实盘阶段表现差,产生原因是市场规律发生变化,或者对回测期数据噪音的过度学习。回测过拟合难以根除,相对合理的解决方案是借助量化指标检验回测过拟合程度。

    核心思想是计算“训练集”夏普比率最高的策略在“测试集”的相对排名

    CSCV框架下回测过拟合概率的核心思想是:计算“训练集”夏普比率最高的策略,在“测试集”中的相对排名,如果相对排名靠前,代表回测过拟合概率较低,反之则代表回测过拟合概率较高。“训练集”和“测试集”的划分基于组合的思想,将全部回测时间划分成S份,任取其中S/2份拼接得到“训练集”,剩余S/2份拼接得到“测试集”,分别计算各条策略的夏普比率,进而得到相对排名,并重复多次,将相对排名大于50%即排在后一半的概率视作回测过拟合概率。回测过拟合概率的计算相对简单,不仅适用于机器学习策略,还能推广到其它类型的量化策略。

    探讨回测过拟合概率计算过程中的各项细节

    回测过拟合概率的计算过程中包含多项细节。将长度为T的全部回测时间划分成S份,每份回测时间长度为T/S。T/S越小,组合次数越大,计算时间开销越大;T/S越大,组合次数越小,策略排名结果受偶然性因素影响更大,实际使用时建议采用较小的T/S比。对策略进行排名时一般采用夏普比率,也可以根据实际需要选择其它评价指标,例如本文的指数增强组合采用信息比率进行排名更为合理。

    风险提示:多因子选股和择时等量化模型都是对历史投资规律的挖掘,若未来市场投资环境发生变化,则量化投资策略存在失效的可能。回测过拟合概率是将历史回测表现的时间序列经过简单打乱重排计算得到,忽略回测的路径依赖特性,存在过度简化的可能。

赞助商链接
   
  • 如果不能阅读报告,请点击下载阅读器
关于我们 | 商务合作 | 联系投稿 | 联系删稿 | 合作伙伴 | 法律声明 | 网站地图
正点网财经声明︰所载资讯仅代表作者个人观点。不保证该信息(包括但不限于文字、数据及图片)全部或者部分内容的准确性、真实性、完整性、及时性、原创性等,若有侵权,请第一时间告知删除。内容仅供投资者参考,并不构成投资建议,投资者据此操作,风险自担。