Transformers 4.37 中文文档（七十八）

ApacheCN_飞龙

发布于 2024-06-26 17:35:36

1070

发布于 2024-06-26 17:35:36

文章被收录于专栏：信数据得永生信数据得永生

原文：huggingface.co/docs/transformers

Speech2Text2

原始文本：huggingface.co/docs/transformers/v4.37.2/en/model_doc/speech_to_text_2

概述

Speech2Text2 模型与 Wav2Vec2 一起用于大规模自监督和半监督学习的语音翻译中提出的语音翻译模型，作者为 Changhan Wang，Anne Wu，Juan Pino，Alexei Baevski，Michael Auli，Alexis Conneau。

Speech2Text2 是一种仅解码器变换器模型，可与任何语音仅编码器一起使用，例如 Wav2Vec2 或 HubERT 用于语音到文本任务。请参考 SpeechEncoderDecoder 类，了解如何将 Speech2Text2 与任何语音仅编码器模型结合使用。

此模型由Patrick von Platen贡献。

原始代码可以在这里找到。

使用提示

Speech2Text2 在 CoVoST 语音翻译数据集上取得了最先进的结果。有关更多信息，请参阅官方模型。
Speech2Text2 始终在 SpeechEncoderDecoder 框架内使用。
Speech2Text2 的分词器基于fastBPE。

推理

Speech2Text2 的 SpeechEncoderDecoderModel 模型接受来自语音的原始波形输入值，并利用 generate()将输入语音自回归地翻译为目标语言。

Wav2Vec2FeatureExtractor 类负责预处理输入语音，Speech2Text2Tokenizer 解码生成的目标标记为目标字符串。Speech2Text2Processor 将 Wav2Vec2FeatureExtractor 和 Speech2Text2Tokenizer 封装成单个实例，用于提取输入特征和解码预测的标记 ID。

逐步语音翻译

>>> import torch
>>> from transformers import Speech2Text2Processor, SpeechEncoderDecoderModel
>>> from datasets import load_dataset
>>> import soundfile as sf

>>> model = SpeechEncoderDecoderModel.from_pretrained("facebook/s2t-wav2vec2-large-en-de")
>>> processor = Speech2Text2Processor.from_pretrained("facebook/s2t-wav2vec2-large-en-de")

>>> def map_to_array(batch):
...     speech, _ = sf.read(batch["file"])
...     batch["speech"] = speech
...     return batch

>>> ds = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
>>> ds = ds.map(map_to_array)

>>> inputs = processor(ds["speech"][0], sampling_rate=16_000, return_tensors="pt")
>>> generated_ids = model.generate(inputs=inputs["input_values"], attention_mask=inputs["attention_mask"])

>>> transcription = processor.batch_decode(generated_ids)

通过管道进行语音翻译自动语音识别管道也可用于仅使用几行代码翻译语音

>>> from datasets import load_dataset
>>> from transformers import pipeline

>>> librispeech_en = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
>>> asr = pipeline(
...     "automatic-speech-recognition",
...     model="facebook/s2t-wav2vec2-large-en-de",
...     feature_extractor="facebook/s2t-wav2vec2-large-en-de",
... )

>>> translation_de = asr(librispeech_en[0]["file"])

查看model hub以查找 Speech2Text2 检查点。

资源

因果语言建模任务指南