Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >基于『大语言模型』和『新闻数据』的股票预测研究

基于『大语言模型』和『新闻数据』的股票预测研究

作者头像
量化投资与机器学习微信公众号
发布于 2024-08-01 10:48:14
发布于 2024-08-01 10:48:14
4640
举报
作者: Tian Guo、Emmanuel Hauptmann

前言

量化投资依赖于从各种数据源(包括市场价格、经济指标、财务文本等)提取定量特征或信号,以构建和优化投资组合。近年来,由于自然语言处理(NLP)技术的发展,使用文本数据进行量化投资的趋势显著增长。特别是,大语言模型(LLMs)在各种语言理解和生成任务上展示了卓越的性能,并且微调技术允许将预训练的LLMs适应于量化投资。

本文专注于使用财务新闻进行股票预测以进行选股。传统使用财务新闻数据应用于选股方法涉及,如下图a所示,包括特征标注(例如,情感、主题、受欢迎程度等),提取特征(例如,训练财务情感分类模型),并通过统计分析或构建预测模型来验证提取特征的预测能力。这个过程可能是耗时的,并且需要额外的数据(例如,标记的财务情感数据)和持续的改进。

本文探索了通过微调LLMs使用新闻直接进行股票收益预测,如上图b所示:

1、我们设计了一个包含文本表示和预测模块的基于LLM的收益预测模型。

2、我们假设,仅包含编码器的和仅包含解码器的大型语言模型在预训练和微调阶段对文本序列的处理方式不同,因此它们的文本表示性能可能会有所差异;基于此,我们提出比较仅使用编码器的模型(如DeBERTa)和仅使用解码器的模型(如Mistral和Llama3)作为预测模型中的文本表示模块。

3、考虑到LLM生成的文本表示在Token级别,我们提出了两种简单的方法将Token表示集成到预测模块中:bottleneck表示和aggregated表示。

4、我们在真实的财务新闻和各种股票池上进行实验。除了评估预测误差外,我们还通过在样本外时期进行回测来评估基于收益预测构建的两种类型的投资组合。对仅包含编码器的和仅包含解码器的LLMs的实验,为识别适合不同投资策略和市场的文本表示提供了帮助。

具体介绍

下图为使用大模型基于新闻数据进行股票收益预测的流程:

我们知道大语言模型大部分是基于Transformer结构,其中又分为encoder-only(仅使用编码器部分),decoder-only(仅使用解码器部分)和encoder-decoder。本文中对encoder-only和decoder-only两类大语言模型的预测效果进行了对比。

Encoder-Only LLMs(编码器LLMs):

这类模型主要关注于学习输入文本的上下文嵌入(contextual embeddings)。它们通过预训练阶段的掩码语言建模(masked-language modeling)来实现这一目标。

在掩码语言建模中,文本序列中的一些标记(tokens)会被随机遮蔽(mask),然后模型的任务是预测这些被遮蔽的标记。这个过程使得模型学习到的每个标记的向量表示能够结合其左侧和右侧的上下文信息。

一个著名的例子是(BERTBidirectional Encoder Representations from Transformers),它通过这种方式生成输入文本的双向表示。

在预训练中,模型会看到如“[MASK]”这样的特殊标记,并尝试根据周围的上下文来预测这个位置原本的词。

Decoder-Only LLMs(解码器LLMs):

decoder-onlyLLMs在预训练中使用下一个词预测任务(next-token prediction task),它们被训练来生成文本,通过预测序列中下一个词来建模。

这类模型的预训练目标是自回归地(autoregressively)建模输入序列,即每个词的预测都依赖于之前已经看到的词。

为了模拟序列的第一个词,通常会在序列开始处添加一个特殊的开始序列标记(BOS,Beginning-of-Sequence token)。

一个例子是GPT-3(Generative Pretrained Transformer 3),它通过这种方式生成文本,并能够捕捉序列的流动性和连贯性。

作者还提到了两种将LLMs生成的标记级(token-level)向量表示整合到预测模块的方法:瓶颈表示(bottleneck representations)和聚合表示(aggregated representations)。这两种方法都旨在将LLMs生成的文本表示转化为能够用于预测股票回报的形式,但它们在如何整合序列信息方面采取了不同的策略。瓶颈表示通过一个单一的向量来捕捉整个序列的信息,而聚合表示则通过综合考虑序列中所有标记的信息来实现。论文的实验结果表明,这两种方法在不同的投资领域和不同的LLMs中表现各有优劣。

瓶颈表示(Bottleneck Representations):

1、这种方法的核心思想是在微调(fine-tuning)过程中,促使LLMs将整个文本序列的信息压缩成一个单一的向量表示。

2、实际操作中,通过在输入序列的末尾添加一个序列结束(End-of-Sequence, EOS)标记来实现。由于EOS标记在所有序列中都是相同的,它的向量表示将依赖于序列中的实际标记。

3、在微调过程中,EOS标记的向量表示被送入预测模块,并在训练过程中通过反向传播(backpropagation)来调整,以总结序列中实际标记的表示。

4、对于encoder-only LLMs,这种方法与预训练阶段的掩码语言建模任务一致,可能有助于更有效地总结序列级特征。

聚合表示(Aggregated Representations):

1、与瓶颈表示不同,聚合表示不是将信息压缩成一个单一的向量,而是允许预测模块综合考虑序列中所有标记的向量表示。

2、这种综合可以通过简单的方法实现,例如对所有标记的向量表示进行平均,或者使用更复杂的方法,如注意力机制(attention mechanisms)。

3、论文中选择了简单的平均方法,因为它不需要训练额外的参数,并且可以清晰地与瓶颈表示进行比较。

4、对于decoder-onlyLLMs,使用聚合表示可能会增加预训练和微调之间的差异,因为每个标记的表示是基于上下文和自身,而不是预训练中的掩码标记。

5、对于decoder-only LLMs,平均所有标记的表示可能会导致对输入序列中早期标记的偏见,因为在自回归设置中,早期标记会反复合并到后续所有标记的表示中。

实证结果

作者使用了2003年至2019年间的公司级财务新闻流数据,这些数据由一家金融数据供应商提供。每条新闻都包含一个或多个公司标识符,表示新闻主要关注的公司。测试范围为北美、欧洲及新兴市场。

模型训练和验证数据覆盖了2003年至2014年,剩余的数据用于样本外测试(out-of-sample testing)。模型训练使用了32的批量大小(batch size)、1e-5的学习率。微调LLMs时,所有线性层都应用了秩为4的低秩适应(Low-Rank Adaptation, LoRA)技术。所有模型都在两个A100 GPU上进行了10个epoch的训练。

此外,我们还将基于预测的投资组合与传统基于情感分析的投资组合进行了比较,使用了FinBERT和FinVader这两种情感分析方法来构建基于情感的投资组合,并使用相同的方法,但以情感值为排名标准。通过这些设置和指标,作者能够全面评估不同LLMs和表示方法在股票回报预测任务上的有效性。

上门的两幅图和表格揭示了在北美市场进行股票收益预测时,大语言模型(LLMs)的实证研究成果。研究表明,聚合表示法(Aggregated Representations)通常在生成增强多头仓位和长空头仓位投资组合表现的回报预测方面优于瓶颈表示法(Bottleneck Representations)。具体来说,在顶部分位数(如第9分位数)上,聚合表示法能够产生更高的回报,这对多头仓位投资组合有利。然而,瓶颈表示法在某些情况下,如Llama模型,也能展现出与聚合表示法相当的性能。

在不同模型的对比中,Mistral模型在多个投资领域展现出了更为稳健的表现,尤其是在使用聚合表示法时。DeBERTa模型虽然在某些情况下表现良好,但在大型投资领域中,其基于瓶颈表示法的预测模型表现不如基于聚合表示法的模型。Llama模型虽然在某些分位数上表现不俗,但在整体的一致性和稳健性方面似乎不如Mistral。

表格内容进一步证实了这些发现,显示基于预测的投资组合在年化收益和夏普比率上普遍优于传统的基于情感分析的投资组合。这表明,直接从LLMs的文本表示中派生出的回报预测是一个强有力的信号,能够有效地支持量化投资组合的构建,超越了传统的基于情感的分析方法。

上图是在北美市场对不同大语言模型(LLMs)的性能进行了深入的比较分析,揭示了研究的关键发现。首先,第一幅图展示了encoder-only和decoder-only LLMs在适合的表示方法下的表现。结果表明,decoder-only模型Mistral和Llama在预测高回报(第9分位数)和低回报(第0分位数)方面表现突出,这直接反映在多头仓位和长空头仓位投资组合的优越表现上。特别是,decoder-only模型在长空头仓位投资组合中的表现尤为显著,这强调了在投资组合的多头和空头两边都进行有效股票选择的重要性。

第二幅图进一步将基于预测的投资组合与基于情感分析的投资组合进行了对比。基于LLM的预测型投资组合不仅在年化收益和夏普比率上超越了情感型投资组合,而且在累积收益图表中也显示出更优的曲线。特别是,基于LLM预测的多空头仓位投资组合的收益曲线比多头仓位投资组合更为平滑,这表明空头部分有助于降低整体投资组合的波动性。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量化投资与机器学习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
LLM2Vec介绍和将Llama 3转换为嵌入模型代码示例
嵌入模型是大型语言模型检索增强生成(RAG)的关键组成部分。它们对知识库和用户编写的查询进行编码。
deephub
2024/05/10
7910
LLM2Vec介绍和将Llama 3转换为嵌入模型代码示例
论文推荐:大语言模型在金融领域的应用调查
这篇论文总结了现有LLM在金融领域的应用现状,推荐和金融相关或者有兴趣的朋友都看看
deephub
2024/01/30
4540
论文推荐:大语言模型在金融领域的应用调查
AI论文速读 | 计时器(Timer):用于大规模时间序列分析的Transformer
题目:Timer: Transformers for Time Series Analysis at Scale
时空探索之旅
2024/11/19
2580
AI论文速读 | 计时器(Timer):用于大规模时间序列分析的Transformer
LLMs大模型在金融投资领域的15个具体应用场景
传统的股票时间序列预测主要依赖统计和计量经济学方法,如自回归滑动平均模型(ARMA-GARCH)、向量自回归模型(VAR)、状态空间模型、扩散模型和误差修正向量模型(VECM)。这些模型通过识别金融系列中的模式和波动性,对市场进行分析和预测。随着机器学习的发展,决策树、支持向量机(SVM)等方法逐渐受到重视。近年来,深度学习技术如循环神经网络(RNN)、卷积神经网络(CNN)和Transformer模型的应用显著提升了股票时间序列预测的精度和效率。GPT-3、GPT-4和LLaMA等大型语言模型在解析复杂数据关系方面表现出色,推动了时间序列数据转化为文本序列的创新。
AIGC部落
2024/07/22
2560
Python用langchain、OpenAI大语言模型LLM情感分析苹果股票新闻数据及提示工程优化应用
本文主要探讨了如何利用大语言模型(LLMs)进行股票分析。通过使用提供的股票市场和金融新闻获取数据,结合Python中的相关库,如Pandas、langchain等,实现对股票新闻的情感分析。利用大语言模型构建情感分析模型,通过提示工程等技术优化模型,最终通过可视化展示股票市场的情感倾向,为股票投资决策提供参考。
拓端
2025/02/07
1620
Python用langchain、OpenAI大语言模型LLM情感分析苹果股票新闻数据及提示工程优化应用
万字长文——这次彻底了解LLM大语言模型
自然语言处理领域正在经历着一场又一场的革命,各类技术层出不穷,不断的改变我们对文本的理解方式和文本生成方式。类似与蝴蝶效应,这场革命不仅提高了机器翻译、文本摘要、文本分类等任务的性能,还在各行各业引发了巨大的变革。越来越 多的行业AI化、智能化。在本小节,将介绍一些语言模型中的核心概念,为更好的理解大语言模型做铺垫。
聪明鱼
2023/12/07
6.3K2
Data+AI时代下,如何权衡俩者之间的关系?
在当今信息爆炸的时代,每秒都会产⽣海量数据,各⾏各业万花筒式的开展,导致结构化数据与⾏为追踪数据⼤量涌⼊我们的视野。
一臻数据
2025/01/13
1000
Data+AI时代下,如何权衡俩者之间的关系?
LLM主要类别架构
💫LLM分类一般分为三种:自编码模型(encoder)、自回归模型(decoder)和序列到序列模型(encoder-decoder)。
@小森
2024/06/04
4840
Transformer 架构—Encoder-Decoder
最初的Transformer是基于广泛应用在机器翻译领域的Encoder-Decoder架构:
JOYCE_Leo16
2024/03/19
9480
Transformer 架构—Encoder-Decoder
大语言模型的预训练[1]:基本概念原理、神经网络的语言模型、Transformer模型原理详解、Bert模型原理介绍
预训练属于迁移学习的范畴。现有的神经网络在进行训练时,一般基于反向传播(Back Propagation,BP)算法,先对网络中的参数进行随机初始化,再利用随机梯度下降(Stochastic Gradient Descent,SGD)等优化算法不断优化模型参数。而预训练的思想是,模型参数不再是随机初始化的,而是通过一些任务进行预先训练,得到一套模型参数,然后用这套参数对模型进行初始化,再进行训练。
汀丶人工智能
2023/07/17
6.3K0
大语言模型的预训练[1]:基本概念原理、神经网络的语言模型、Transformer模型原理详解、Bert模型原理介绍
让预训练语言模型读懂数字:超对称技术发布 10 亿参数 BigBang Transformer [乾元]金融大规模预训练语言模型
4.创新的预训练方法可大幅提高语言模型准确度:Similarity Sampling 和Source Prompt
AI科技大本营
2022/09/04
9630
让预训练语言模型读懂数字:超对称技术发布 10 亿参数 BigBang Transformer [乾元]金融大规模预训练语言模型
解码器架构:构建智能语言模型的核心设计
在现代自然语言处理领域,Decoder-only(解码器)架构是构建语言模型的重要设计之一。这种架构尤其适合生成任务,例如对话生成、自动摘要、代码补全等。为了更全面地理解这一架构,我们需要从其理论基础、实现原理到实际应用进行深入探讨。
编程小妖女
2025/01/12
2000
解码器架构:构建智能语言模型的核心设计
从零开始构建大语言模型(MEAP)
像 ChatGPT 这样的大型语言模型(LLM)是在过去几年中开发的深度神经网络模型。它们引领了自然语言处理(NLP)的新时代。在大型语言模型出现之前,传统方法擅长于分类任务,如电子邮件垃圾分类和可以通过手工制作的规则或简单模型捕获的简单模式识别。然而,在需要复杂理解和生成能力的语言任务方面,例如解析详细说明、进行上下文分析或创建连贯且上下文适当的原始文本时,它们通常表现不佳。例如,以前的语言模型无法根据关键字列表编写电子邮件-这对于当代 LLM 来说是微不足道的任务。
ApacheCN_飞龙
2024/05/24
1.1K0
从零开始构建大语言模型(MEAP)
探索大语言模型在图学习上的潜力
图是一种非常重要的结构化数据,具有广阔的应用场景。在现实世界中,图的节点往往与某些文本形式的属性相关联。以电商场景下的商品图(OGBN-Products数据集)为例,每个节点代表了电商网站上的商品,而商品的介绍可以作为节点的对应属性。在图学习领域,相关工作常把这一类以文本作为节点属性的图称为文本属性图(Text-Attributed Graph, 以下简称为TAG)。TAG在图机器学习的研究中是非常常见的, 比如图学习中最常用的几个论文引用相关的数据集都属于TAG。除了图本身的结构信息以外,节点对应的文本属性也提供了重要的文本信息,因此需要同时兼顾图的结构信息、文本信息以及两者之间的相互关系。然而,在以往的研究过程中,大家往往会忽视文本信息的重要性。举例来说,像PYG与DGL这类常用库中提供的常用数据集(比如最经典的Cora数据集),都并不提供原始的文本属性,而只是提供了嵌入形式的词袋特征。在研究过程中,目前常用的 GNN 更多关注于对图的拓扑结构的建模,缺少了对节点属性的理解。
NewBeeNLP
2023/08/28
4030
探索大语言模型在图学习上的潜力
RAG 修炼手册|一文讲透 RAG 背后的技术
今天我们继续剖析 RAG,将为大家详细介绍 RAG 背后的例如 Embedding、Transformer、BERT、LLM 等技术的发展历程和基本原理,以及它们是如何应用的。
Zilliz RDS
2024/04/11
1.8K0
RAG 修炼手册|一文讲透 RAG 背后的技术
自然语言处理中的迁移学习(上)
本文转载自公众号「哈工大SCIR」(微信ID:HIt_SCIR),该公众号为哈尔滨工业大学社会计算与信息检索研究中心(刘挺教授为中心主任)的师生的信息分享平台,本文作者为哈工大SCIR 徐啸。
AI科技评论
2019/10/23
1.4K0
自然语言处理中的迁移学习(上)
LLM4Rec:当推荐系统遇到大语言模型
大模型LLM在越来越多的领域开始崭露头角,前段时间我们整理了大模型在推荐系统中的应用 survey,当时留了一些坑没填上,今天补上。
NewBeeNLP
2024/01/17
3.3K0
LLM4Rec:当推荐系统遇到大语言模型
一文读懂“大语言模型”
本文基于谷歌云的官方视频:《Introduction to Large Language Models》 ,使用 ChatGPT4 整理而成,希望对大家入门大语言模型有帮助。
明明如月学长
2023/05/23
2.8K0
一文读懂“大语言模型”
大语言模型-2.2/3-主流模型架构与新型架构
本博客内容是《大语言模型》一书的读书笔记,该书是中国人民大学高瓴人工智能学院赵鑫教授团队出品,覆盖大语言模型训练与使用的全流程,从预训练到微调与对齐,从使用技术到评测应用,帮助学员全面掌握大语言模型的核心技术。并且,课程内容基于大量的代码实战与讲解,通过实际项目与案例,学员能将理论知识应用于真实场景,提升解决实际问题的能力。
用户2225445
2025/03/24
1640
大语言模型-2.2/3-主流模型架构与新型架构
图解BERT模型:从零开始构建BERT
本文首先介绍BERT模型要做什么,即:模型的输入、输出分别是什么,以及模型的预训练任务是什么;然后,分析模型的内部结构,图解如何将模型的输入一步步地转化为模型输出;最后,我们在多个中/英文、不同规模的数据集上比较了BERT模型与现有方法的文本分类效果。 1. 模型的输入/输出 BERT模型的全称是:BidirectionalEncoder Representations from Transformer。从名字中可以看出,BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的Repre
腾讯Bugly
2019/01/30
46.9K3
图解BERT模型:从零开始构建BERT
推荐阅读
相关推荐
LLM2Vec介绍和将Llama 3转换为嵌入模型代码示例
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档