ChatGPT优于人类股票预测者

几天前（5月21日），芝加哥大学的研究人员发表了论文《使用大型语言模型进行财务报表分析》。下面是这篇论文的摘要：

我们研究 LLM 是否能以类似于专业人类分析师的方式成功执行财务报表分析。我们向 GPT4 提供标准化和匿名的财务报表，并指示模型对其进行分析以确定未来收益的方向。即使没有任何叙述或行业特定信息，LLM 在预测收益变化的能力方面也优于财务分析师。在分析师往往陷入困境的情况下，LLM 表现出比人类分析师更优的优势。此外，我们发现 LLM 的预测准确性与经过严格训练的最先进的 ML 模型的性能相当。LLM 预测并非源于其训练记忆。相反，我们发现 LLM 会生成有关公司未来表现的有用叙述见解。最后，我们基于 GPT 预测的交易策略比基于其他模型的策略产生更高的夏普比率和阿尔法值。总之，我们的结果表明 LLM 可能在决策中发挥核心作用。

这里要注意的是，GPT4语言模型不具备人类分析师可以借鉴的任何行业背景。，也不了解财务报表数据以外的具体公司细节。然而，GPT4的表现优于普遍预期。它的表现和更好的公共行业模型相当，甚至更好。预测收益是增加还是减少的总体准确率约为60%。

GPT4还能够使用 2022 年的数据得出 2023 年的类似结果，这表明GPT4并非以某种方式借鉴历史表现的实际检索。研究人员之所以能够知道这一点，是因为公司在 2024 年披露的 2023 年结果超出了GPT4的训练窗口。

有趣的是，GPT4的预测准确率高于 GPT3.5。谷歌的Google GeminiPro1.5虽然是在较有限的样本上进行测试的，但与GPT4大致相似。

然而，研究人员无法准确指出模型在做什么，从而导致预测准确度。尽管如此，研究人员确实评估了模型输出中最常用的描述词，发现“营业利润率”和“流动比率”等术语在广泛的术语集中更常用。

研究人员还怀疑，人类和人工智能模型的结合可能会产生更好的预测，因为人类可以提供LLM目前可能无法获得的额外见解，而LLM可以避免常见的人类偏见并进行稳健而全面的分析。

研究人员发现，如果根据该模型的预测形成年度投资组合，并每月衡量其表现，该模型的表现可能会优于大盘。该策略的夏普比率优于以等权重为基础的收益预测训练的人工神经网络，尽管人工神经网络在价值加权基础上的夏普比率优于ChatGPT模型。

该模型的回报大部分（尤其是在近期）似乎来自其多头仓位而非空头仓位。此外，近几十年来，预测准确度似乎有所下降，尽管其他模型也是如此，结果通常仍高于人类的共识预测。

当然，许多有用的股票市场模型并不公开，因为从中获利的投资者几乎没有动力公开分享它们。因此，可能会有GPT4无法超越的优秀模型。

尽管如此，GPT4在利用相对有限的财务数据预测盈利方向方面取得的成功，以及相对于GPT3.5而言的显著性能提升，令人印象深刻。与许多领域一样，AI很可能会在财务分析和预测领域发挥越来越大的颠覆性和有效性。

下面是这篇文章的链接：

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4835311