前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >结合LLMs与TPPs:通过文本事件描述和时间嵌入提升事件序列建模能力 !

结合LLMs与TPPs:通过文本事件描述和时间嵌入提升事件序列建模能力 !

作者头像
AIGC 先锋科技
发布于 2024-11-04 05:54:35
发布于 2024-11-04 05:54:35
2730
举报
文章被收录于专栏:AIGC 先锋科技AIGC 先锋科技

时空点过程(TPPs)广泛应用于诸如社交网络、交通系统和电子商务等领域的事件时序和发生的建模。在本文中,作者提出了TPP-LLM,这是一个将大型语言模型(LLMs)与TPPs相结合的新颖框架,旨在捕捉事件序列的语义和时序方面。 与传统方法依赖的事件类型表示不同,TPP-LLM直接利用事件类型的文本描述,使模型能够捕获文本中丰富的语义信息。 尽管LLM在理解事件语义方面表现出色,但在捕捉时序模式方面则稍显不足。为了解决这个问题,TPP-LLM引入了时序嵌入,并采用了参数高效的微调(PEFT)方法,以有效地学习时序动力学,而无需进行广泛的再训练。 这种方法提高了预测准确性和计算效率。在多个真实世界数据集上的实验结果表明,TPP-LLM在序列建模和事件预测方面超过了最先进的 Baseline ,突显了将LLM与TPPs相结合的优势。

1 Introduction

时间点过程(Temporal point processes, TPPs)(Shchur等,2021年)是建模事件随时间发生的有力的工具,广泛应用于社交网络、城市动态学、交通、自然灾害和电子商务等领域。预测未来事件类型和时间的挑战,导致了越来越复杂的模型的发展。传统的TPP模型通常依赖于手工制作的特征或关于时间依赖性的特定假设,这限制了它们在实际数据集中捕获复杂事件模式的能力。最近的技术进步,如神经TPP,利用深度学习的表示能力,克服了其中一些限制,但许多仍需要从头开始进行广泛的特定任务训练。

随着强大的大语言模型(LLMs)如 GPT-4 和Llama-3 的出现,使用LLMs来理解和预测事件序列,通过捕捉丰富的语义和上下文信息,已经出现了新的机会。受到它们在基于文本的任务(Zhao等,2023)和时间序列预测成功的影响,作者提出了一种新颖的框架TPP-LLM1(图1),该框架将LLMs与TPPs相结合,用于同时模拟事件序列的时序和语义方面。通过利用预训练的LLMs,TPP-LLM可以直接利用事件类型的文本描述,超越了依赖分类表示的传统方法。为了确保模型捕获时间动态,作者在此同时引入了时间嵌入与这些事件描述。为了有效地将LLMs适应于TPP建模,作者采用了低秩适应(LoRA),这是一种参数高效的微调(PEFT)方法,允许作者调整一小部分LLM参数,在降低计算成本的同时保持高性能。通过在真实世界数据集上的广泛实验,作者证明了TPP-LLM在序列建模和下一事件预测方面始终优于最先进的 Baseline 。

本文的主要贡献如下:

(1)作者提出了一种新颖的方法,将LLMs与TPPs相结合,通过利用文本事件描述和时间嵌入来提高事件序列建模。

(2)作者证明了PEFT在TPP建模方面的有效性,允许TPP-LLM在不从头开始进行完整模型再训练的情况下,适应预训练的LLMs。

(3)作者在多个真实世界数据集上进行了广泛实验,结果显示TPP-LLM相较于现有的神经TPP模型取得了优越的性能。

在接下来的部分,作者将讨论相关工作,详细描述作者的方法,呈现实验结果,并总结研究未来的方向。

2 Related Work

神经时间点过程近年来,神经时间点过程(TPPs)取得了重要进展,引入了许多利用深度学习技术来捕获复杂时间依赖性和事件交互的模型。许多这些模型使用循环神经网络(RNNs)或自注意力机制来根据事件历史学习事件强度。例如,RMTPP(Du等人,2016)和NHP 使用RNNs学习时间影响,而较新的方法如SAHP 和THP 则利用自注意力来捕捉长期依赖性。其他模型,如基于神经ODEs 、注意力机制、扩散过程、元学习和Mamba模型(Gao等人,2024),为连续时间中的离散事件提供了灵活且高保真的建模。这些方法通过模拟复杂交互和动态事件关系,显著提高了TPPs的性能。

近年来,已有研究将大型语言模型(LLMs)整合到事件序列预测任务中(Jin等人,2023b)。石等人提出LAMP,该框架利用LLMs进行归因推理,以提高事件序列预测。薛等人(2023b)引入了PromptTPP,该方法将连续学习集成到神经时间点过程中,以实现对 Stream 事件序列的适应性和高效学习。

Song等人(2024年)提出了LaTee模型,该模型利用了一种摊销期望最大化的框架,其中逻辑树作为潜在变量,并使用可学习的GFlowNet生成逻辑树样本,以实现更有效的event reasoning。

3 Preliminaries

在本节中,作者将介绍关于时间点过程及其扩展使用神经网络建模复杂事件序列所必需的背景知识。

Temporal Point Processes

时间点过程(TPPs)(Hawkes, 1971; Laub et al., 2015) 是一类用于模拟连续时间上离散事件发生的随机过程。带有 Token 的 TPP 通过将每个事件与发生时间和类型( Token )相关联,扩展了这一框架,使其在需要同时理解事件类型及其发生时间的关键领域具有高度适用性。

在显著的TPP(Traditional Planning Problem)中,对于一个观察窗口内的多个事件序列,可以表示为:, 其中表示第个事件的时间,表示来自离散集合中的相应事件类型。目标是基于前一个事件的历史,预测下一个事件的开始时间和类型概率。

TPP中的关键功能是条件强度函数 ,它定义了在时间和历史条件下,类型的事件的瞬时发生率。

正式定义如下:

表示截至时间之前的事件历史,是表示在时间之前发生的事件数的计数过程。这个强度函数提供了在历史的条件下,在时间内预期发生的事件的数量。联合概率密度表示在时间具有类型的下一个事件发生的可能性,在历史的条件下。它表示为:,其中积分表示在最后的事件和当前时间之间没有发生任何事件,捕捉到事件的时间和类型依赖关系。

为了评估一个 Token 时间序列潜在模型(TPP)对观测数据的拟合度,通常使用对数似然函数。在 Token TPP下观察到一个事件序列的对数似然性可以表示为:

首先,我将原文中的英文翻译为简体中文:

在观测到的过程中,第一个项求和,第二个项在时间上积分并考虑所有可能的事件类型k,以反映在观测之间没有事件发生的可能性。

请注意,翻译后的内容已经忠实于原文,同时保持了学术论文的专业性和格式。

Neural Temporal Point Processes

近年来TPP的进步引入了基于神经的网络模型,这些模型利用深度学习的表示能力来捕获复杂的事件序列。这些模型通常使用神经网络来参数化条件强度函数,从而使他们可以直接从数据中学习时间依赖性和事件类型分布。

在神经时间平行的过程中,对于每个事件,通过基于事件时间和事件类型的嵌入层计算一个嵌入向量。

然后,将当前事件的嵌入向量和先前的隐藏状态相结合,更新隐藏状态:,其中是一个神经网络,通常实现为循环神经网络(RNN)(Hochreiter,1997)或更先进的注意力机制(Vaswani等人,2017)。更新后的隐藏状态用于从条件概率分布中采样下一个事件时间和事件类型:。

不同的神经时间平行的模型使用各种架构来定义状态更新函数。早期的方法使用RNN来捕捉事件之间的时间依赖性,而更近期的模型用注意力机制替换了循环结构,允许进行更好的长程交互。这些基于神经的方法增强了时间平行的灵活性,从复杂的数据集中以数据驱动的方式学习事件依赖性。

4 Methodology

在本节中,作者介绍了一种名为TPP-LLM的框架,该框架利用大型语言模型(LLM)来模拟时间点过程(TPP)。TPP-LLM如图1所示,它将预训练的LLM集成起来,以捕捉事件类型的语义丰富性,并使用时间嵌入来处理事件序列的时间动态。

Event and Prompt Embeddings

TPP-LLM 模拟事件的序列 , 其中每个事件 包括一个时间 和相应的事件类型 。与传统的 TPP 模型不同,TPP-LLM 直接使用预训练的 LLM 处理事件类型的文本描述,而无需使用离散的事件类型。这使得模型可以从事件文本中捕获更丰富的语义信息,同时学习时间依赖性。

事件类型 表示为一系列 Token (tokens)。令 为事件类型 的 Token 序列,其中 是 Token 事件类型的长度。每个 Token 通过预训练的LLM的嵌入层 (其中 是词汇量, 是嵌入维度)映射到实数向量 。除了事件类型表示外,TPP-LLM 还包含一个时间嵌入来捕捉时间动力学。每个事件时间 使用嵌入层 映射到一个时间嵌入 :,其中 可以是线性层或位置编码。在本研究中,作者使用时间位置编码:

其他编码方法(张等,2020;高和戴,2024)也可以应用。

为了模拟事件类型及其时间的联合动力学,作者将事件类型表示 与时间嵌入 相结合。对于每个事件 ,其 ConCat 表示为: 或 ,具体取决于事件类型和时间顺序。

除了特定事件的嵌入之外,作者还将一个 Prompt 作为一个 Token 序列,这个序列通过LLM的嵌入层被转换为嵌入:. Prompt 嵌入,以及拼接的事件类型和时间嵌入,形成了一个统一的嵌入序列:, 其中表示 Prompt 嵌入,表示一个事件的事件类型和时间嵌入。

History Vectors and Intensity Function

整个序列经过LLM后,可以得到每个 Token 的上下文隐藏状态:。处理后,作者提取每个事件最后一个嵌入向量的隐藏状态。例如,事件的隐藏状态。选择的隐藏状态表示事件历史直到时间(包含):。这些历史向量随后用于建模TPPs。

在作者的模型中,强度函数通过历史向量参数化,该向量编码了从初始时间到时间的事件历史。为了计算在时间和之间的强度函数,作者对隐藏状态应用线性变换。对于事件类型,强度函数(Zuo等人,2020;高和戴,2024)被建模为:

λk(t|HT) = λ(t,k|HT) = fk(αk(t - ti) + ωkTi+bk), (4) 其中,fk = log(1 + exp(x)) 是软plus函数,αk∈R,ωk∈R^H,bk∈R 是可学习的参数。软plus激活确保强度函数非负。

Event Prediction

对于每个事件,来自LLM输出的历史向量编码了事件历史,其中既包括事件类型,也包括从时间到当前时间的动态信息。遵循之前的研究(Zuo等人,2020;高和戴,2024),作者利用这个隐式表示,通过单独的层来预测下一个事件类型和时间。

为了预测事件类型,作者对隐状态应用线性层和softmax激活,将其映射到可能的事件类型概率分布:,其中和是线性层的权重和偏置,是事件类型数量,是隐状态维度。预测的事件类型是具有最大概率的事件类型:。同样地,为了预测下一个事件时间,作者对隐状态应用另一个线性层,得到一个表示下一个时间的标量值:,其中和是这个层的权重和偏置。

Fine-Tuning

为了高效地将预训练的LLM适应到TPP任务,作者采用了低秩自适应(LoRA)(胡等人,2021年)和参数高效的微调(PEFT)(刘等人,2022年)方法。作者不是微调LLM的所有参数,而是引入了低秩矩阵到LLM权重。具体而言,作者修改了一个目标模块的权重矩阵:,其中是原始权重,和是可学习的低秩矩阵。仅通过微调这些低秩矩阵,作者可以显著减少可训练参数的数量,从而在不降低性能的情况下提高适应性。除了LoRA之外,其他PEFT方法(刘等人,2022年;张等人,2023年)也可以应用于进一步优化微调过程。

为了同时调整LLM和额外的 Head 层,作者定义了一个包含观测事件对数似然度、事件类型预测损失和事件时间预测损失的联合损失函数。基于条件强度函数的方程2进行了调整:

在蒙特卡罗或数值积分方法下,非事件积分的计算是可行的(Zuo等人,2020)。事件类型损失的定义是真实和预测事件类型的交叉熵:,其中是 GT 的one-hot编码。事件时间损失的定义是真实和预测事件时间的均方误差:。

训练目标定义为所有序列的负对数似然度,以及事件类型和时间损失的总和:

β类型和β时间是事件类型和时间损失的系数。

5 Experiments

在本节中,作者提出了作者提出的TPP-LLM模型的实验评估。作者详细介绍了数据集、使用的 Prompt 、基准模型、实验设置、结果和消融分析。

Datasets

作者在五个真实世界的数据集上进行了实验:Stack Overflow,Chicago Crime,NYC Taxi Trip,U.S. Earthquake和Amazon Review。它们在表1中的统计数据如下。这些数据集涵盖了各种应用,并在之前的TPP研究中得到了广泛使用,因此它们非常适合评估作者的模型的性能。然而,由于目前可用的版本缺少TPP-LLM所需的事件类型文本,作者对数据进行了预处理,包括这些关键的文本描述。这些多样化的数据集使作者能够评估模型在不同域间的泛化能力,处理长度不同的序列,事件类型和时间分辨率。更详细的信息请参见附录A。

Prompt Design

作者设计了 Prompt ,为模型提供结构化的指导,帮助其有效地理解和处理任务及事件序列。 Prompt 中包括关键的细节信息,如事件类型的具体细节,以便模型能够专注于需要处理的关键部分进行准确预测。 Prompt 的一般结构如下: "{Sequence Description} {Event Description} {Task Description}" 其中任务描述针对预测任务进行定制。当事件类型在嵌入序列中出现在时间之前时,任务被描述为: "根据这个序列,预测下一个事件类型和对应的时间。" 另一种情况是,当事件时间首先出现时,任务变为: "根据这个序列,预测下一个事件时间和对应的事件类型。" 作者在实验中使用的数据集的具体序列和事件描述,列在附录C中。

Baselines and Evaluation Metrics

作者将作者的模型TPP-LLM与几个最先进的(SOTA) Baseline 进行比较,以评估其在不同任务上的性能。 Baseline 包括神经哈kes过程(NHP)(Mei和Eisner,2017),自注意力哈kes过程(SAHP)(张等,2020),变换哈kes过程(THP)(左等,2020),以及注意力的神经哈kes过程(AttNHP)(杨等,2022)。这些模型代表了神经TPP建模的前沿方法。 Baseline 的详细描述见附录B。

为了评估模型性能,作者使用了以下评估指标:对数似然值衡量模型如何拟合观察到的序列 ,计算公式为 5,使用强度函数。

准确率 用于评估事件类型预测的准确性,衡量正确预测的事件类型的比例:准确率 ,其中 是真实的事件类型, 是预测的事件类型, 是指示函数。

均方根误差(RMSE) 用于衡量预测事件时间误差。它计算如下:,其中 是真实的事件时间, 是预测的事件时间。

Experimental Setup

作者使用两个基础模型进行TPP-LLM实验:TinyLlama-1.1B-Chat-v1.0(张等人,2024a)和Gemma-2-2B-IT,两者都被量化到4位精度(Dettmers等人,2024),以提高GPU内存使用效率。为了捕捉时间动态,作者使用时间位置编码(Zuo等人,2020),首先处理事件类型嵌入,然后处理每个事件的时间嵌入。

对对数似然中的非事件积分项,作者使用蒙特卡罗积分(Zuo等人,2020)处理,每个时间间隔使用20个样本,在各模型中保持一致。

在微调中,作者采用LoRA(Hu等人,2021),通过调整注意力模块的权重矩阵,带有dropout但无偏置。Adam优化器(Kingma,2014)用于优化LoRA层和预测层。在EasyTPP框架(Xue等人,2023a)中实现的 Baseline 被使用,其超参数进行了调整以进行公平比较。实验结果在五个带有早期停止的运行中平均,附加的超参数请参见附录D。

在 Baseline 中,作者使用单个NVIDIA A10或A100 GPU,而在TPP-LLM中使用单个H100 GPU。

Experiment Results

作者在五个真实世界数据集上评估了TPP-LLM与基准之间的性能。其中包含两个TPP-LLM模型:TPP-Llama(TinyLlama-1.1B-Chat-v1.0)和TPP-Gemma(Gemma-2-2B-IT)。

对数似然性能。在对数似然性(表2)方面,TPP-LLM模型(TPP-Llama和TPP-Gemma)在大多数数据集上表现出竞争力的性能。TPP-Llama在Stack Overflow上表现最佳,而AttNHP在芝加哥犯罪、纽约出租车行程和亚马逊评论等数据集上超越了所有模型。

然而,TPP-LLM模型在大多数数据集上仍然表现强劲,除了美国地震数据集,在那里SAHP获得最高分。这些结果突显了TPP-LLM有效模拟复杂事件序列的能力,尤其是在LLM捕获事件语义方面受益匪浅。尽管在某些数据集上表现不如其他模型,但TPP-LLM模型总体上仍然具有很高的竞争力。

事件类型预测准确率。对于下一事件类型预测准确率(见表3和图2),TPP-LLM在所有数据集上都优于或等于 Baseline 性能。TPP-Llama在Stack Overflow和Amazon Review上达到最高准确率,而TPP-Gemma在NYC Taxi Trip和U.S. Earthquake上表现出色。

两种变体在其他 Baseline 中取得了显著的改进,特别是在处理像Stack Overflow和Amazon Review这样的数据集时,LLM可以利用丰富的event-type语义来提高预测准确率。这突显了TPP-LLM将事件文本信息集成到预测过程中的能力,相比传统TPP模型具有明显的优势。

事件时间预测RMSE。在评估下一个事件时间预测(表3和图3)时,TPP-LLM再次展现出强大的性能。TPP-Gemma在Stack Overflow,NYC Taxi Trip和Amazon Review上的RMSE最低,而TPP-Llama在Chicago Crime上的表现最佳。

两种变体在很大程度上超过了 Baseline ,特别是在Stack Overflow,Chicago Crime和Amazon Review等时间模式较少的数据集上。这表明TPP-LLM中的基于LLM的时间嵌入有效捕捉了时间动态,从而导致更准确的事件时间预测。

总体而言,TPP-LLM在所有数据集上都表现出强大的性能和一致性。包括事件文本处理和理解,LLM的引入使得模型能够利用更丰富的上下文信息,从而提高事件类型预测的准确性。

此外,时间嵌入的集成有助于捕捉复杂的时间依赖关系,这在事件时间预测的模型强大RMSE性能中得到体现。结果证实,TPP-LLM是一种有效和适应性强的模型,适用于各种TPP任务,在实际场景中实现领先性能。

Few-Shot Learning

在仅使用训练数据的2%的少量实验中,TPP-LLM模型(TPP-Llama和TPP-Gemma)在各个数据集上表现出色。在对数似然率(见表4)方面,TPP-Llama在Stack Overflow和Amazon Review上表现优异,而TPP-Gemma在NYC Taxi Trip上占据主导地位。AttNHP在Chicago Crime和U.S. Earthquake上表现最好,TPP-Llama在其余数据集上保持竞争力。

在下一事件类型准确性(见表5)方面,TPP-Gemma在Stack Overflow、NYC Taxi Trip和Amazon Review上占据主导地位,TPP-Llama在U.S. Earthquake上位居首位。与NHP和SAHP等 Baseline 相比,TPP-LLM模型在少量数据场景下具有显著优势,有效利用预训练知识。

这些发现突显了TPP-LLM在少量数据场景下的强大适应性,有效地利用了预训练知识。

Ablation Studies

为了理解TPP-LLM中不同组件的贡献,作者进行了一系列的消融研究。通过系统性地移除或更改模型中的关键部分,作者分析每个元素如何影响整体性能,并确定哪些配置能够获得最佳结果。

5.7.1 Foundation Models

表格6中的性能比较显示了不同LLM对TPP-LLM性能的影响。TinyLlama-1.1B-Chat-v1.0和TinyLlama-1.1B-Intermediate在对数似然度和精确度得分上相似,但Chat在Stack Overflow和U.S. Earthquake的下一个事件类型预测上略胜一筹。Gemma-2-2B-IT在NYC Taxi Trip和U.S. Earthquake的事件时间预测上实现了最佳RMSE,突显了其在建模时间动态方面的优势。总体而言,TinyLlama和Gemma表现出色,各自在不同的指标上脱颖而出。各模型的一致性能强调了TPP-LLM的稳健性。

5.7.2 Temporal Embeddings

如图7所示,嵌入类型和顺序的选择会影响模型性能。位置编码在大多数指标上通常优于线性嵌入。当事件时间嵌入首先处理时,位置编码实现了最佳的事件类型预测准确性和有竞争力的RMSE值。

线性嵌入也表现良好,当事件时间首先出现时,其对美国地震的log-likelihood最佳。结果表明,在处理类型之前处理事件时间可以提高事件类型预测,而将时间放在最后可以提高时间预测准确性。这些发现突出了模型设计中嵌入顺序的重要性。

5.7.3 Prompt Settings

表8显示,使用结构化 Prompt (用“Y”表示)通常可以提高Stack Overflow上TinyLlama模型对对数似然分数,尽管省略 Prompt (用“N”表示)在事件类型预测的准确率上略有提高,尤其是在美国地震上。

RMSE结果参差不齐, Prompt 在Stack Overflow上提供较小优势,而在美国地震上没有优势。虽然 Prompt 可以带来适度的对数似然收益,但它们对准确率和RMSE的影响不一致。然而,添加 Prompt 可以提高模型的灵活性,特别是对于多任务场景。

5.7.4 Fine-Tuning Settings

表9和图4说明了不同LoRA排名配置对性能的影响。在仅训练 Head 层的情况下,模型在对数似然率(log-likelihood)和准确率(accuracy)上出现了显著的下降,这突显了需要调整预训练的LLM(语言模型)。

较高的LoRA排名通常可以提高结果,其中32位排名在美国地震数据集上实现了最高的准确率和对数似然率,而较低的排名在对数似然率和事件时间预测方面表现良好。使用LoRA进行微调可以持续提高性能,较高的排名对于更复杂的任务更有利,而较低的排名在计算成本较低的情况下可以提供具有竞争力的结果。

6 Conclusion

在本文中,作者提出了TPP-LLM,这是一个利用大型语言模型(LLMs)预训练知识来建模时间点过程(TPP)的新颖框架。通过将LLMs与时间嵌入相结合,作者的方法有效地捕获了复杂事件序列的事件语义和时间动态。

通过在真实世界数据集上的广泛实验,作者证明了TPP-LLM在序列建模和下一事件预测方面超过了最先进的 Baseline 。

此外,作者的消融研究揭示了基础模型、时间嵌入、 Prompt 设计和微调策略对整体性能的贡献。TPP-LLM在多种数据集和任务上的鲁棒性突显了其在TPP建模方面的更广泛应用潜力。

未来的工作可以探索其他微调技术和嵌入策略,并将此方法扩展到多任务设置。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-11-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC 先锋科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
LlavaGuard与GPT-4o mini:ShieldGemma 2的4B参数模型与对抗性数据生成技术 !
视觉语言模型(VLMs)近年来取得了快速进展,在理解和生成视觉内容方面展现出令人印象深刻的能力(Achiam等人,2023;Dubey等人,2024;Gemini团队等人,2023;Li等人,2023)。这些模型提供了广泛的功能,包括图像描述生成、视觉问答(VQA)、视觉对话、图像编辑、图像生成等。此类进展的例子包括:
未来先知
2025/06/09
700
LlavaGuard与GPT-4o mini:ShieldGemma 2的4B参数模型与对抗性数据生成技术 !
LLM-Mixer 用于时间序列预测的LLMs中的多尺度混合,性能SOTA !
时间序列预测在众多领域中具有重要意义,包括金融、能源管理(马丁等,2010年)、医疗保健、气候科学(穆德,2019年)和工业运营(王等,2020年)。传统的预测模型,如自回归整合移动平均(ARIMA)(盒等,2015年)和指数平滑技术(海曼,2018年),广泛用于简单的预测任务。然而,这些模型假设平稳性和线性,这限制了它们在应用于复杂、非线性和多变量时间序列时的有效性(陈等,2015年)。深度学习的出现极大地推动了时间序列预测的发展。卷积神经网络(王等,2023年;唐等,2020年;基尔西克和卡加利·约尔库,2022年)被用于捕捉时间模式,而循环神经网络(萨米-纳米尼等,2019年;张等,2019年;卡米等,2019年)擅长建模时间状态转换。然而,卷积神经网络和循环神经网络在捕捉长期依赖性方面存在局限性。最近,Transformer结构(瓦萨万尼等,2017年)在处理局部和长期依赖性方面表现出强大的能力,使其适用于时间序列预测。
AIGC 先锋科技
2024/10/30
2430
LLM-Mixer 用于时间序列预测的LLMs中的多尺度混合,性能SOTA !
全面!时间序列和时空数据大模型综述!
大型语言模型(LLM)和预训练基础模型(PFM)在自然语言处理(NLP)、计算机视觉(CV)等领域有广泛应用。时间序列和时空数据本质上都是时间数据,将这两个广泛且内在联系的数据类别的研究结合起来至关重要。尽管深度学习和自监督预训练方法在时间序列和时空数据分析领域逐渐取得进展,但统计模型仍占主导地位。
算法进阶
2024/03/18
4.4K0
全面!时间序列和时空数据大模型综述!
近三年时间序列大模型相关工作合集汇总
论文标题:ChatTS: Aligning Time Series with LLMs via Synthetic Data for Enhanced Understanding and Reasoning(VLDB25)
科学最Top
2025/05/26
3670
近三年时间序列大模型相关工作合集汇总
LLMs大模型在金融投资领域的15个具体应用场景
传统的股票时间序列预测主要依赖统计和计量经济学方法,如自回归滑动平均模型(ARMA-GARCH)、向量自回归模型(VAR)、状态空间模型、扩散模型和误差修正向量模型(VECM)。这些模型通过识别金融系列中的模式和波动性,对市场进行分析和预测。随着机器学习的发展,决策树、支持向量机(SVM)等方法逐渐受到重视。近年来,深度学习技术如循环神经网络(RNN)、卷积神经网络(CNN)和Transformer模型的应用显著提升了股票时间序列预测的精度和效率。GPT-3、GPT-4和LLaMA等大型语言模型在解析复杂数据关系方面表现出色,推动了时间序列数据转化为文本序列的创新。
AIGC部落
2024/07/22
3260
大模型(LLMs)算法工程师相关的面试题和参考答案
需要注意的是,复读机问题是大型语言模型面临的一个挑战,解决这个问题是一个复杂的任务,需要综合考虑数据、训练目标、模型架构和生成策略等多个因素。目前,研究人员和工程师们正在不断努力改进和优化大型语言模型,以提高其生成文本的多样性和创造性。
机器学习AI算法工程
2023/11/13
7.5K0
大模型(LLMs)算法工程师相关的面试题和参考答案
南洋理工提出简单如精细理念,通过双向负反馈损失进行LLM定位 !
直接偏好优化(DPO)作为一种比从人类反馈中学习的强化学习(RLHF)更具有计算效率的替代方案,结合了接近策略优化(PPO),消除了奖励模型和在线采样的需求。
AIGC 先锋科技
2025/01/01
1530
南洋理工提出简单如精细理念,通过双向负反馈损失进行LLM定位  !
NeurIPS’23 Paper Digest | 如何把 LLM 的推理能力应用于事件序列预测?
为期一周的人工智能和机器学习领域顶级会议 NeurlPS 正在美国路易斯安那州新奥尔良市举办中。蚂蚁集团有 20 篇论文被本届会议收录,其中《Language
可信AI进展
2024/01/08
3430
NeurIPS’23 Paper Digest | 如何把 LLM 的推理能力应用于事件序列预测?
GUIDE:通过注意力分数优化LLMs指令对齐的简单有效方法 !
大型语言模型(LLMs)是目前大多数自然语言处理(NLP)任务的最新技术。尽管取得了成功,但预训练的LLM有时难以准确理解不同用户指令,可能生成与人类预期不符的输出。此外,LLM可能产生偏见或虚构的事实,这可能限制其实际应用价值。
AIGC 先锋科技
2024/10/25
1760
GUIDE:通过注意力分数优化LLMs指令对齐的简单有效方法 !
牛津大学提出 Ensemble SuperICL ,超越 BaselineEn在 自然语言理解任务中表现卓越 !
语义学习(ICL)是一种有效的方法,可以将大型语言模型(LLM)调整到执行特定任务,而无需通过微调更新模型参数(Brown等人,2020年)。它涉及用少量的训练示例 Prompt LLM,并提供一个测试输入,使LLM能够从提供的上下文中推理出正确的输出。
AIGC 先锋科技
2024/11/27
980
牛津大学提出 Ensemble SuperICL ,超越 BaselineEn在 自然语言理解任务中表现卓越 !
SMU/NUS/复旦/南洋理工提出简单而有趣的解决方案 , LLM 大型语言模型中的逆向建模 !
近年来,许多自然语言处理任务(NLP)和超出NLP范畴的能力得到了令人瞩目的表现。这些能力主要归因于学习涵盖了通用世界知识的广泛语料库。这些语料库是人类社会创造的,通常表现出人类的偏见,包括固有的向前看的认知,例如,在大多数情况下,大学数学数据集(Mitra等人,2024)中,原因可能先于结果和解决方案可以从给定的信息中推导出来。
AIGC 先锋科技
2024/10/29
1540
SMU/NUS/复旦/南洋理工提出简单而有趣的解决方案 , LLM 大型语言模型中的逆向建模 !
VATT多模态框架实现可控视频到音频生成,凭音频字幕解锁新应用,性能远超现有方法 !
人类感知和认知的结合代表了一种“多模态”的场景处理和解释方式。例如,当作者面对一个喷泉表演的无声视频时,作者的解释可能会将视觉场景转化为一种听觉体验,其中视觉场景在语义上被处理并转化为作者内心相应的声音叙事。因此,作者可能会将伴有人们交谈和笑声的喷泉水花声与可能与喷泉同步的背景音乐联系起来。
AIGC 先锋科技
2025/02/26
1311
VATT多模态框架实现可控视频到音频生成,凭音频字幕解锁新应用,性能远超现有方法 !
AI论文速读 | TPLLM:基于预训练语言模型的交通预测框架
论文标题:TPLLM: A Traffic Prediction Framework Based on Pretrained Large Language Models
时空探索之旅
2024/11/19
2760
AI论文速读 | TPLLM:基于预训练语言模型的交通预测框架
全面增强LLM的多领域性能,新型微调框架,实现LLM的跨领域知识均衡 !
大型语言模型(LLMs)已成为人工智能(AI)领域的基石,特别是在自然语言处理任务方面,改变了AI研究和应用的领域,如法律、医疗、金融、科学和编程。为了进一步激励这些领域的能力,LLM通常会在特定数据集上进行监督微调(SFT)阶段。
AIGC 先锋科技
2024/12/30
3070
全面增强LLM的多领域性能,新型微调框架,实现LLM的跨领域知识均衡 !
推理加速策略对 LLMs 偏差的影响 !
现代的LLM(如LLaMA和GPT-4)展示了惊人的语言生成能力,导致它们的受欢迎程度和采用率激增。然而,由于它们的巨大大小,部署这些模型可能会具有挑战性,甚至对于消费级设备来说可能不可行。大量的研究提出了加速策略,如量化剪枝,以实现高效推理。这些策略的目标通常是在保持预测性能的同时减少模型大小。随着时间的推移,这些策略越来越普遍,并集成到了流行的库(如HuggingFace)和库(如vLLM)中。
AIGC 先锋科技
2024/11/25
1100
推理加速策略对 LLMs 偏差的影响 !
上交| 提出一致性大模型:CLLMs,提升3倍生成速度,降低内存成本!
来自上海交通大学、加利福尼亚大学的研究团队展示了预训练的LLMs可以轻松地被教导成为高效的并行解码器,并介绍了一种新的并行解码器族,称为一致性大语言模型(CLLMs),能够通过在每个推断步骤中高效地解码一个n -token序列来降低推断延迟。
ShuYini
2024/05/11
5870
上交| 提出一致性大模型:CLLMs,提升3倍生成速度,降低内存成本!
当 LLMs 步入3D世界,通过多模态大语言模型对3D任务的调查和元分析 !
大型语言模型的出现标志着自然语言处理领域的一个变革性时代,使机器能够以前所未有的方式理解、生成和与人类语言互动。然而,作者周围的现实世界本质上是三维的,理解三维空间环境对于涉及在这些三维空间内进行感知、导航和交互的许多现实世界应用至关重要。随着近期的发展,LLM的应用已经远远超出了文本领域。将LLM与3D数据结合为计算模型理解和与物理世界互动提供了独特的机会,从而在包括自主系统、增强现实、机器人导航和机器人操作在内的多个领域引发创新。
AIGC 先锋科技
2024/07/31
5720
当 LLMs 步入3D世界,通过多模态大语言模型对3D任务的调查和元分析 !
Meta无限长文本大模型来了:参数仅7B,已开源
Transformers 的二次复杂度和弱长度外推限制了它们扩展到长序列的能力,虽然存在线性注意力和状态空间模型等次二次解决方案,但从以往的经验来看,它们在预训练效率和下游任务准确性方面表现不佳。
用户9861443
2024/04/19
1750
Meta无限长文本大模型来了:参数仅7B,已开源
SeNER:结合双向机制与 LogNScaling,轻量级 NER 技术高效提取长文本实体 !
命名实体识别(NER)是信息抽取(IE)领域的一项基础任务,旨在识别表示特定类型实体的跨度。它是关系抽取(Miwa和Bansal,2016年)、知识图谱构建(Xu等人,2017年)和问答系统(Molla、Van Zaanen和Smith,2006年)等众多下游任务的基础。
AIGC 先锋科技
2025/03/24
3260
SeNER:结合双向机制与 LogNScaling,轻量级 NER 技术高效提取长文本实体 !
清华提出 VoCo-LLaMA | 使用LLMs 进行视觉压缩,FLOPs 减少 94.8%,推理时间加快 69.6% !
视觉语言模型的出现导致了视觉理解的显著进步。特别是,高分辨率图像编码[7; 8]和更多视频帧的融合[9; 10]分别提高了大型视觉语言模型和大型视频语言模型的能力。然而,大量的视觉标记占据了大型语言模型宝贵的上下文窗口的大部分,导致了高昂的计算成本,如图1(a)所示。例如,在使用LLaVA-1.6[7]中的高分辨率图像输入时,一个分辨率为672×672的单个图像被划分为四个较小的块,每个块以336×336的分辨率进行编码。这个过程产生了包含2304个视觉标记的图像表示,占据了超过一半的上下文长度。此外,随着输入图像数量的增加,文本的上下文窗口将进一步受限。例如,Vicuna-1.5[11]在其4k上下文长度内只能处理大约7帧(7×576=4032个标记),考虑到文本输入。[9, 10]研究了将上下文长度扩展到百万级以缓解这个问题的影响,但这需要昂贵的计算资源(例如,[9]需要超过1000个v4 TPU)以及数据准备和框架开发方面的工程努力。
AIGC 先锋科技
2024/07/08
4050
清华提出 VoCo-LLaMA | 使用LLMs 进行视觉压缩,FLOPs 减少 94.8%,推理时间加快 69.6% !
推荐阅读
LlavaGuard与GPT-4o mini:ShieldGemma 2的4B参数模型与对抗性数据生成技术 !
700
LLM-Mixer 用于时间序列预测的LLMs中的多尺度混合,性能SOTA !
2430
全面!时间序列和时空数据大模型综述!
4.4K0
近三年时间序列大模型相关工作合集汇总
3670
LLMs大模型在金融投资领域的15个具体应用场景
3260
大模型(LLMs)算法工程师相关的面试题和参考答案
7.5K0
南洋理工提出简单如精细理念,通过双向负反馈损失进行LLM定位 !
1530
NeurIPS’23 Paper Digest | 如何把 LLM 的推理能力应用于事件序列预测?
3430
GUIDE:通过注意力分数优化LLMs指令对齐的简单有效方法 !
1760
牛津大学提出 Ensemble SuperICL ,超越 BaselineEn在 自然语言理解任务中表现卓越 !
980
SMU/NUS/复旦/南洋理工提出简单而有趣的解决方案 , LLM 大型语言模型中的逆向建模 !
1540
VATT多模态框架实现可控视频到音频生成,凭音频字幕解锁新应用,性能远超现有方法 !
1311
AI论文速读 | TPLLM:基于预训练语言模型的交通预测框架
2760
全面增强LLM的多领域性能,新型微调框架,实现LLM的跨领域知识均衡 !
3070
推理加速策略对 LLMs 偏差的影响 !
1100
上交| 提出一致性大模型:CLLMs,提升3倍生成速度,降低内存成本!
5870
当 LLMs 步入3D世界,通过多模态大语言模型对3D任务的调查和元分析 !
5720
Meta无限长文本大模型来了:参数仅7B,已开源
1750
SeNER:结合双向机制与 LogNScaling,轻量级 NER 技术高效提取长文本实体 !
3260
清华提出 VoCo-LLaMA | 使用LLMs 进行视觉压缩,FLOPs 减少 94.8%,推理时间加快 69.6% !
4050
相关推荐
LlavaGuard与GPT-4o mini:ShieldGemma 2的4B参数模型与对抗性数据生成技术 !
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档