机器学习与资产定价-技术圈

作者：石川，北京量信投资管理有限公司创始合伙人，清华大学学士、硕士，麻省理工学院博士。《因子投资：方法与实践》领衔作者。

未经授权，严禁转载。

摘

要

一本大数据时代的实证资产定价方法前沿，请查收。

大数据时代，与资产预期收益率相关的协变量数量与日俱增。资产定价已然步入了协变量的高维数时代。在这个背景下，传统计量经济学方法在利用诸多协变量以及它们的非线性变换来预测预期收益率方面稍显逊色，而擅长处理这类问题的机器学习算法已悄然走进了实证研究和量化投资实践之中。

然而，面对收益率数据低信噪比、不满足平稳性等问题，在其他领域大放异彩的机器学习算法在资产定价中并非即插即用。大到算法选择，中到超参数调优，小到变量预处理，每一个决策都会影响机器学习算法在资产定价应用中的效果。为了获得样本外更好的结果，人们又应该依据什么来做出上述决策呢？

为了回答这些问题，让我们从理论和实证资产定价的发展说起。

资产定价研究的核心目标之一是解释不同资产预期收益率在截面上的差异。自 20 世纪 50 年代以来，学术界就该问题在理论和实证两方面取得了大量的成果。在理论方面，研究表明了随机贴现因子、均值—方差有效投资组合以及多因子模型之间的等价性；而在实证方面，以资本资产定价模型和 Fama-French 三因子模型为代表的因子模型更是引领了数十年的研究。

学术界在理论和实证方面的双管齐下也为业界的投资实务建立了必要的秩序，使之从最初充斥着华尔街逸闻趣事或者“某某一夜暴富”的头条故事的杂乱无章，演化至当前在金融经济学框架内，使用严谨的数据分析和统计检验已经成为业界的研究范式。从多因子模型衍生出来的因子投资在投资实务中已经占据了举足轻重的地位，而利用诸如价值、规模、盈利、动量等因子区分不同资产预期收益率的差异、获得更高的风险调整后收益这样的认知更是深入人心。资产定价已然成为金融领域内一个理论和实践紧密联系、相互交融的典型代表。

然而，在这片有序之下也并非没有“暗流涌动”。首先，在实证方面，在过去的 10～20 年中，在发表偏差所导致的 p-hacking 问题驱使下，学术界制造了大量所谓的“市场异象”，它们中的每一个都在特定的实证设定下获得了超额收益。仿佛就在一夜之间，成百上千个能为解释资产预期收益率截面差异提供增量贡献的协变量便如雨后春笋一般涌现出来。但这诸多变量到底代表了何种系统性风险？它们之间的相关性和带有的预测信息的冗余度几何？哪些能够作为真正的定价因子？因子的风险价格又究竟是多少？与众多协变量形成鲜明对比的是，人们对上述问题的理解却十分贫瘠，这无疑令人尴尬。

数据量的激增进一步加剧了上述实证挑战。如今，被用来预测收益率的潜在协变量的数量与日俱增。传统的包括历史量价数据、财务报表数据、分析师一致预期数据，以及另类的包括新闻舆情数据、文本分析数据、卫星图像数据等均能够被拿来加工成各式各样的预测变量。毫不夸张地说，就资产定价的研究而言，我们已经步入了预测变量的高维数时代。而这样一个大数据时代对传统的计量经济学方法提出了巨大的挑战——试想一下当协变量个数超过观测样本个数时，OLS 的无能为力。为了通过计量经济学方法得出可靠的结果，人们只能退而求其次在实证分析中施加人为的稀疏性假设，这意味着在多因子模型中仅考虑有限个因子，或在研究收益率截面预测问题中只同时考虑很少的变量。

类似的挑战也存在于资产定价的理论方面。已有的、被学界和业界广泛认可的统计检验方法和统计推断结果均是建立在理性预期假设（即投资者已知现金流生成模型以及模型的参数）之上的。这意味着事后样本内检验发现的收益率可预测性可以被安全地归因为系统性风险补偿或由投资者行为偏差而导致的错误定价。可是，如果理性预期假设不满足又会如何呢？在如今的大数据时代，既然对市场数据进行事后分析的统计者们面临着高维预测变量问题，那么我们有同样的理由相信在金融市场中实际交易的投资者（他们的交易行为产生了实实在在的价格数据）也一定面临类似的高维预测问题。而已有的资产定价理论模型并未将投资者置于如此复杂的环境之中，因为在该环境中理性预期假设不再成立。面对这种进退两难的情形，我们是否真的无能为力？一旦在模型中放弃理性预期假设，对事后样本内统计推断又会有什么影响呢？除了风险补偿和错误定价，事后检验中存在的收益率可预测性背后的原因是否还有第三种可能？

面对实证和理论两方面的困境，好不容易建立起秩序的资产定价再一次陷入了无序之中。人们又回到了需要重新建立新秩序的起点。而无论是实证检验还是理论建模，为了应对协变量的高维数问题，擅于处理高维问题和非线性关系的机器学习方法自然而然地成为弥补传统计量经济学方法不足的不二之选。各种机器学习方法已经在资产定价之外的其他领域（如图像识别）取得了巨大的成功，让人们对它们在资产定价方面的表现充满期待。不幸的是，机器学习算法并非“即插即用”。大量实证结果表明，将现成的机器学习算法简单粗暴地应用于资产定价领域的数据并不能在样本外取得优秀的表现。这是否意味着人们的希望破灭了呢？幸运的是，答案亦是否定的。

资产定价领域的数据，诸如资产收益率，较机器学习擅长发挥作用的其他领域的数据具有一些与生俱来不同的属性，例如信噪比极低、难以满足平稳性及预测误差直接影响投资组合的风险收益特征等。这些特殊属性的存在阻碍着现成机器学习算法发挥其威力。然而，一旦知道了问题所在，我们便能够有的放矢，针对资产定价数据的属性选择和调整机器学习算法及其参数，使它们充分发挥所长。

虽然目标明确，但这条利用机器学习拓展资产定价研究的道路仍然十分曲折。好消息是，在这条道路上，已经有人为我们勾勒出了系统性的、可操作的蓝图。这张蓝图就是由身为芝加哥大学金融学教授、金融领域顶级期刊 Journal of Finance 执行主编的 Stefan Nagel 教授所撰写的 Machine Learning in Asset Pricing。该书高屋建瓴，逻辑缜密，推理严谨，得到了 John Campbell、Bryan Kelly、Allan Timmermann 和范剑青四位大咖的联袂推荐。

作为资产定价领域的领军学者之一，Stefan Nagel 教授以预测股票截面收益率中所遇到的各种问题为例，在书中体系化地讨论了如何将机器学习方法成功地引入实证和理论资产定价研究之中，从而有效解决前文提到的挑战。比如，该书通过理论推导和实证分析表明分别以 $R^2$ 和投资组合表现为准则进行机器学习超参数优化时，会得到截然不同的结论及其背后的原因；又如它通过将专业投资者建模为使用机器学习工具的经济主体，指出投资者对现金流内在生成过程的学习问题会导致样本内虚假的可预测性，这为近年来日益扩充的“因子动物园”提供了另一种令人信服的解释。

资产定价应用中数据的低信噪比意味着人们不应指望在灵活的框架下，仅依靠“数据自己发声”便能取得良好的结果。因此，为了实现在实证和理论方面的突破，需要对机器学习算法的选择以及参数的设定施加必要的结构性约束。为此，将资产定价数据属性背后的内在经济学原理注入机器学习的应用就变得尤为重要。在这方面，贝叶斯统计提供了一个天然的框架。通过指定关于风险和收益机会的先验分布，该研究框架允许人们在收益率预测问题中加入具有经济学动机的约束条件，它们对机器学习的成功应用至关重要。通过贝叶斯框架使得机器学习在资产定价中发挥更大的作用正是 Machine Learning in Asset Pricing 的一大特色。该书的另一个特色是强调开放性问题而非提供明确的答案。通过指出尚待解决的重要问题，Stefan Nagel 教授展望了资产定价研究的未来。

对业界投资实务来说，该书描绘的理论前沿进展极具价值。当下，人们似乎站在这样一个十字路口之中，即传统的基于人为稀疏性假设的多因子模型越来越难以获得可观的风险调整后收益。这背后的原因是，传统实证资产定价研究和业界的投资实务的目标之间存在错配。前者的目标是提出简约的静态模型并为模型中的因子提供合理的依据，而后者的目标则是最大化样本外投资组合的条件风险收益特征。在这种错配下，投资实务亟需来自学术研究的全新方法的指引，而注入经济学推理的机器学习方法就是最好的答案。该书介绍的理论方法以及相应的实证结果很好地扩展了因子投资的前沿。

毫不夸张地说，Machine Learning in Asset Pricing 是一本资产定价领域划时代的引领之作，同时也我最近两年的最爱。书中所展示的机器学习在资产定价中的应用前景也极大地开阔了我的研究眼界和思路；而将书中阐述的前沿观点和实证结果介绍给公众号的小伙伴也成为我今年最大的心愿。今天，这个愿望终于实现：我和北大经院的王熙老师合作，翻译出版了该书的中文版：《机器学习与资产定价》。

作为译者，特别感谢 Stefan Nagel 教授以及普林斯顿大学出版社的同意和信任，让我们有机会将其引入国内。能有机会参与本书的翻译，我们深感荣幸，同时也明白身上担负的使命和责任。在翻译过程中，我们反复讨论和修订，力争做到在文字意义忠于原著的前提下，行文更加符合中文的表述习惯。此外，我们还在中文版中加入了大量的译者注，希望以此起到两个作用：（1）给原著提供必要的背景知识，帮助读者掌握上下文的行文逻辑；（2）原著中的第 3 至 5 章均涉及大量公式，我们为其中绝大多数公式提供了推导过程，帮助读者加深对贝叶斯统计框架的理解。为了区分译者注和原著自带的脚注，译者注采用了独立的编号且使用了楷体。希望这些努力能够使中文版读者更好地体会到原著的魅力。

在翻译过程中，我们有幸得到了学界和业界很多专家的热情帮助，感谢芝加哥大学布斯商学院修大成教授以及嘉实基金首席科学家张自力博士为中译版撰写精彩的序言。此外，本书的出版也离不开电子工业出版社的全力支持，在此向各位编辑老师表示感谢。

在各位读者开始这段令人兴奋的机器学习与资产定价之旅之前，我们还想给出一些小小的忠告。虽然原著旨在介绍机器学习在资产定价中的应用，但它并不涵盖机器学习方法的最新进展，也并没有在计算问题方面花费太多篇幅。另外，原著也并没有致力于提供关于哪个机器学习方法更好的“神秘配方”或“灵丹妙药”。机器学习不是纯粹的调包，不是幻想能毫无阻碍地揭示数据中的规律。毫无章法的使用机器学习会带来如辛普森悖论一样的悖论。唯有基于已有资产定价理论，将机器学习方法有机的融合理论视角，才能使得我们在验证既有理论时有更强大的方法，并且使用理论框架约束机器学习的过拟合过程。

但是，如何有机的将机器学习融合进资产定价，人们并没有一个“万能公式”，而是需要根据所研究问题的特性，创造性的使用机器学习及其思想。原著在如何将机器学习运用至数个经典的资产定价问题上，给研究者们提供了一系列精美绝伦的设计，很好地回答了“机器学习方法是否适用于资产定价”以及“如何基于经济学推理更合理地应用机器学习方法”这些本质的问题。

希望通过该书中文版的出版，能够帮助资产定价的研究者和量化投资的实践者们在未来见微知著，突破传统框架约束，为自己所感兴趣的研究问题设计出有针对性的机器学习解决方案。

以下是一组中文版实物的精美图片。本书为精装书，纸张选用 80g 纯质纸，实物拿到手里的质感非常好，希望内容和制作能给各位带来双重享受。

同时，为了确保新老朋友不迷路，我也将 www.factorwar.com 的首页由《因子投资：方法与实践》暂时换为《机器学习与资产定价》。未来，这本中译版中如有 typos，也会一并披露在网站的相应页面。

本书现已在京东预售，预计未来一到两周内陆续发货。在此特地奉上专属于公众号小伙伴的限时 6 折福利（请扫描以下专属二维码直达），一般人我不告诉他。

回顾过去半个世纪的资产定价研究，不禁让人感慨万千。学术研究也许就是这样，在无序中建立秩序，秩序又被新的问题打破并重新被建立，周而复始。在大数据时代研究资产定价，我们不仅要拥抱机器学习，而且要正确、科学、有效地拥抱机器学习。Stefan Nagel 教授的 Machine Learning in Asset Pricing 使我们朝着这个目标迈出坚实的一步。该书不仅是对最新前沿成果的精彩梳理，更是一种面对未来的整装待发。相信每个关注资产定价的人都会因此而深受启发。

免责声明：入市有风险，投资需谨慎。在任何情况下，本文的内容、信息及数据或所表述的意见并不构成对任何人的投资建议。在任何情况下，本文作者及所属机构不对任何人因使用本文的任何内容所引致的任何损失负任何责任。除特别说明外，文中图表均直接或间接来自于相应论文，仅为介绍之用，版权归原作者和期刊所有。

▼点击阅读原文，了解本书详情~