Transformers 4.37 中文文档（三十九）

ApacheCN_飞龙

发布于 2024-06-26 16:14:25

760

发布于 2024-06-26 16:14:25

文章被收录于专栏：信数据得永生信数据得永生

原文：huggingface.co/docs/transformers

Jukebox

huggingface.co/docs/transformers/v4.37.2/en/model_doc/jukebox

概述

Jukebox 模型在 Jukebox: A generative model for music 中由 Prafulla Dhariwal, Heewoo Jun, Christine Payne, Jong Wook Kim, Alec Radford, Ilya Sutskever 提出。它引入了一个生成音乐模型，可以生成可以根据艺术家、流派和歌词进行条件化的一分钟长样本。

论文摘要如下：

我们推出了 Jukebox，这是一个在原始音频领域生成带有歌唱的音乐的模型。我们使用多尺度 VQ-VAE 来压缩原始音频的长上下文为离散代码，并使用自回归 Transformers 对其进行建模。我们展示了规模上的组合模型可以生成高保真度和多样化的歌曲，连贯性可达多分钟。我们可以根据艺术家和流派来引导音乐和声音风格，并根据不对齐的歌词来使歌唱更可控。我们发布了数千个非精选样本，以及模型权重和代码。

如下图所示，Jukebox 由 3 个仅解码器模型的 priors 组成。它们遵循使用稀疏 Transformers 生成长序列中描述的架构，经过修改以支持更长的上下文长度。首先，使用自编码器对文本歌词进行编码。接下来，第一个（也称为 top_prior）prior 关注从歌词编码器提取的最后隐藏状态。先前的 priors 通过 AudioConditionner 模块分别连接到前一个 priors。AudioConditioner 将先前 prior 的输出上采样到特定音频帧每秒的原始标记。元数据，如 艺术家、流派和时间，以起始标记和时间数据的位置嵌入的形式传递给每个 prior。隐藏状态被映射到 VQVAE 中最接近的码书向量，以将它们转换为原始音频。

该模型由 Arthur Zucker 贡献。原始代码可以在这里找到。

使用提示

该模型仅支持推理。这主要是因为训练需要大量内存。欢迎提交 PR 并添加缺失的内容，以实现与 Hugging Face Trainer 的完全集成！
该模型非常慢，使用 V100 GPU 上的 5b 顶部 prior 生成一分钟长的音频需要 8 小时。为了自动处理模型应在其上执行的设备，请使用 accelerate。
与论文相反，prior 的顺序从 0 到 1，因为这样更直观：我们从 0 开始采样。
基于预先采样（在原始音频上进行采样）需要比祖先采样更多的内存，并且应该将 fp16 设置为 True。

该模型由 Arthur Zucker 贡献。原始代码可以在这里找到。

JukeboxConfig

transformers.JukeboxConfig 类

< source >

( vqvae_config = None prior_config_list = None nb_priors = 3 sampling_rate = 44100 timing_dims = 64 min_duration = 0 max_duration = 600.0 max_nb_genres = 5 metadata_conditioning = True **kwargs )

参数

vqvae_config (JukeboxVQVAEConfig, 可选) — JukeboxVQVAE 模型的配置。
prior_config_list (List[JukeboxPriorConfig], 可选) — 模型中每个 JukeboxPrior 的配置列表。原始架构使用了 3 个 priors。
nb_priors (int, 可选, 默认为 3) — 将依次采样标记的先前模型数量。每个 prior 都是条件自回归（解码器）模型，除了顶部 prior 可以包括歌词编码器。可用的模型是使用顶部 prior 和 2 个上采样 prior 进行训练的。
sampling_rate (int, optional, defaults to 44100) — 原始音频的采样率。
timing_dims (int, optional, defaults to 64) — JukeboxRangeEmbedding 层的维度，相当于传统的位置嵌入层。定时嵌入层将当前采样音频中的绝对位置和相对位置转换为长度为timing_dims的张量，该张量将添加到音乐标记中。
min_duration (int, optional, defaults to 0) — 生成音频的最小持续时间
max_duration (float, optional, defaults to 600.0) — 生成音频的最大持续时间
max_nb_genres (int, optional, defaults to 5) — 可用于调节单个样本的最大流派数量。
metadata_conditioning (bool, optional, defaults to True) — 是否使用元数据调节，对应于艺术家、流派和最小/最大持续时间。

这是一个配置类，用于存储 JukeboxModel 的配置。

配置对象继承自 PretrainedConfig，可用于控制模型输出。阅读来自 PretrainedConfig 的文档以获取更多信息。使用默认值实例化配置将产生类似于openai/jukebox-1b-lyrics架构的配置。

下采样和步幅用于确定输入序列的下采样。例如，下采样 = (5,3)，步幅 = (2, 2) 将使音频下采样为 2⁵ = 32，以获得第一级代码，以及 2**8 = 256，以获得第二级代码。这在训练顶层先验和上采样器时通常是正确的。

示例：

>>> from transformers import JukeboxModel, JukeboxConfig

>>> # Initializing a Jukebox configuration
>>> configuration = JukeboxConfig()

>>> # Initializing a model from the configuration
>>> model = JukeboxModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

`from_configs`

< source >

( prior_configs: List vqvae_config: JukeboxVQVAEConfig **kwargs ) → export const metadata = 'undefined';JukeboxConfig

JukeboxConfig

配置对象的一个实例

从剪辑文本模型配置和剪辑视觉模型配置实例化一个 JukeboxConfig（或派生类）的实例。

JukeboxPriorConfig

`class transformers.JukeboxPriorConfig`

< source >

( act_fn = 'quick_gelu' level = 0 alignment_head = 2 alignment_layer = 68 attention_multiplier = 0.25 attention_pattern = 'enc_dec_with_lyrics' attn_dropout = 0 attn_res_scale = False blocks = 64 conv_res_scale = None num_layers = 72 emb_dropout = 0 encoder_config = None encoder_loss_fraction = 0.4 hidden_size = 2048 init_scale = 0.2 is_encoder_decoder = True lyric_vocab_size = 80 mask = False max_duration = 600 max_nb_genres = 1 merged_decoder = True metadata_conditioning = True metadata_dims = [604, 7898] min_duration = 0 mlp_multiplier = 1.0 music_vocab_size = 2048 n_ctx = 6144 n_heads = 2 nb_relevant_lyric_tokens = 384 res_conv_depth = 3 res_conv_width = 128 res_convolution_multiplier = 1 res_dilation_cycle = None res_dilation_growth_rate = 1 res_downs_t = [3, 2, 2] res_strides_t = [2, 2, 2] resid_dropout = 0 sampling_rate = 44100 spread = None timing_dims = 64 zero_out = False **kwargs )

参数

act_fn (str, optional, defaults to "quick_gelu") — 激活函数。
alignment_head (int, optional, defaults to 2) — 负责歌词和音乐之间对齐的头部。仅用于计算歌词到音频的对齐
alignment_layer (int, optional, defaults to 68) — 负责歌词和音乐之间对齐的层的索引。仅用于计算歌词到音频的对齐
attention_multiplier (float, optional, defaults to 0.25) — 用于定义注意力层隐藏维度的乘数系数。0.25 表示将使用模型宽度的 0.25。
attention_pattern (str, optional, defaults to "enc_dec_with_lyrics") — 解码器使用的注意力模式
attn_dropout (int, optional, defaults to 0) — 解码器中注意力层后的丢弃概率。
attn_res_scale (bool, optional, defaults to False) — 是否在注意力调节器块中缩放残差。
blocks (int, optional, defaults to 64) — block_attn 中使用的块数。长度为 seq_len 的序列在JukeboxAttention层中被分解为[blocks, seq_len // blocks]。
conv_res_scale (int, optional) — 是否要在条件块中缩放残差。由于顶层先验没有条件块，因此默认值为None，不应修改。
num_layers (int, optional, 默认为 72) — 变压器架构的层数。
emb_dropout (int, optional, 默认为 0) — 歌词解码器中使用的嵌入丢失。
encoder_config (JukeboxPriorConfig, optional) — 对歌词先验进行建模的编码器配置。
encoder_loss_fraction (float, optional, 默认为 0.4) — 用于歌词编码器损失前面的乘法因子。
hidden_size (int, optional, 默认为 2048) — 注意力层的隐藏维度。
init_scale (float, optional, 默认为 0.2) — 先验模块的初始化比例。
is_encoder_decoder (bool, optional, 默认为True) — 先验是否为编码器-解码器模型。如果不是，并且nb_relevant_lyric_tokens大于 0，则应为歌词编码指定encoder参数。
mask (bool, optional, 默认为False) — 是否要屏蔽注意力中的先前位置。
max_duration (int, optional, 默认为 600) — 生成歌曲的最大支持持续时间（以秒为单位）。
max_nb_genres (int, optional, 默认为 1) — 可用于条件模型的最大流派数量。
merged_decoder (bool, optional, 默认为True) — 解码器和编码器输入是否合并。这用于分离的编码器-解码器架构
metadata_conditioning (bool, optional, 默认为True) — 是否要在艺术家和流派元数据上进行条件。
metadata_dims (List[int], optional, 默认为[604, 7898]) — 用于训练先验模型的嵌入层的流派数量和艺术家数量。
min_duration (int, optional, 默认为 0) — 模型训练的生成音频的最小持续时间。
mlp_multiplier (float, optional, 默认为 1.0) — 用于定义 MLP 层隐藏维度的乘数系数。0.25 表示将使用模型宽度的 0.25。
music_vocab_size (int, optional, 默认为 2048) — 不同音乐标记的数量。应与JukeboxVQVAEConfig.nb_discrete_codes类似。
n_ctx (int, optional, 默认为 6144) — 每个先验的上下文标记数量。上下文标记是在生成音乐标记时所关注的音乐标记。
n_heads (int, optional, 默认为 2) — 注意力头的数量。
nb_relevant_lyric_tokens (int, optional, 默认为 384) — 在采样长度为n_ctx的单个窗口时使用的歌词标记数量
res_conv_depth (int, optional, 默认为 3) — 用于在JukeboxMusicTokenConditioner中上采样先前采样音频的JukeboxDecoderConvBock的深度。
res_conv_width (int, optional, 默认为 128) — 用于在JukeboxMusicTokenConditioner中上采样先前采样音频的JukeboxDecoderConvBock的宽度。
res_convolution_multiplier (int, optional, 默认为 1) — 用于缩放JukeboxResConv1DBlock的hidden_dim的乘数。
res_dilation_cycle (int, optional) — 用于定义JukeboxMusicTokenConditioner的扩张周期。通常类似于 VQVAE 相应级别中使用的周期。第一个先验不使用它，因为它不是基于上一级标记的。
res_dilation_growth_rate (int, optional, 默认为 1) — 用于JukeboxMusicTokenConditioner的每个卷积块之间的扩张增长率
res_downs_t (List[int], optional, 默认为[3, 2, 2]) — 音频调节网络中使用的下采样率
res_strides_t (List[int], optional, 默认为[2, 2, 2]) — 音频调节网络中使用的步幅
resid_dropout (int, optional, defaults to 0) — 注意力模式中使用的残差丢失。
sampling_rate (int, optional, defaults to 44100) — 用于训练的采样率。
spread (int, optional) — summary_spread_attention模式中使用的扩展
timing_dims (int, optional, defaults to 64) — 时间嵌入的维度。
zero_out (bool, optional, defaults to False) — 初始化时是否将卷积权重归零。

这是配置类，用于存储 JukeboxPrior 的配置。根据指定的参数实例化JukeboxPrior，定义模型架构。使用默认值实例化配置将产生类似于 openai/jukebox-1b-lyrics -1b-lyrics)架构顶级先验的配置。

配置对象继承自 PretrainedConfig，可用于控制模型输出。阅读 PretrainedConfig 的文档以获取更多信息。