Transformers 4.37 中文文档（八十六）

ApacheCN_飞龙

发布于 2024-06-26 18:43:57

1080

发布于 2024-06-26 18:43:57

文章被收录于专栏：信数据得永生信数据得永生

原文：huggingface.co/docs/transformers

DePlot

原文：huggingface.co/docs/transformers/v4.37.2/en/model_doc/deplot

概述

DePlot 是由 Fangyu Liu, Julian Martin Eisenschlos, Francesco Piccinno, Syrine Krichene, Chenxi Pang, Kenton Lee, Mandar Joshi, Wenhu Chen, Nigel Collier, Yasemin Altun 在论文DePlot: One-shot visual language reasoning by plot-to-table translation中提出的。

该论文的摘要如下：

图表等视觉语言在人类世界中无处不在。理解图表和图表需要强大的推理能力。先前的最先进（SOTA）模型至少需要数万个训练示例，它们的推理能力仍然非常有限，特别是对于复杂的人类编写的查询。本文提出了视觉语言推理的第一个一次性解决方案。我们将视觉语言推理的挑战分解为两个步骤：（1）图表到文本的翻译，以及（2）对翻译文本进行推理。该方法的关键是一个名为 DePlot 的模态转换模块，它将图表或图表的图像转换为线性化表格。然后可以直接使用 DePlot 的输出来提示预训练的大型语言模型（LLM），利用 LLM 的少量推理能力。为了获得 DePlot，我们通过建立统一的任务格式和度量标准，对绘图到表格任务进行了标准化，并在此任务上端到端地训练 DePlot。然后可以将 DePlot 与 LLM 一起以即插即用的方式使用。与在超过 28k 数据点上微调的 SOTA 模型相比，DePlot+LLM 仅通过一次提示就实现了对人类编写查询的图表 QA 任务的微调 SOTA 的 24.0%的改进。

DePlot 是使用Pix2Struct架构训练的模型。您可以在Pix2Struct 文档中找到有关Pix2Struct的更多信息。DePlot 是Pix2Struct架构的视觉问答子集。它在图像上呈现输入问题并预测答案。

使用示例

目前 DePlot 有一个检查点可用：

google/deplot：在 ChartQA 数据集上微调的 DePlot

from transformers import AutoProcessor, Pix2StructForConditionalGeneration
import requests
from PIL import Image

model = Pix2StructForConditionalGeneration.from_pretrained("google/deplot")
processor = AutoProcessor.from_pretrained("google/deplot")
url = "https://raw.githubusercontent.com/vis-nlp/ChartQA/main/ChartQA%20Dataset/val/png/5090.png"
image = Image.open(requests.get(url, stream=True).raw)

inputs = processor(images=image, text="Generate underlying data table of the figure below:", return_tensors="pt")
predictions = model.generate(**inputs, max_new_tokens=512)
print(processor.decode(predictions[0], skip_special_tokens=True))

微调

要微调 DePlot，请参考 pix2struct 的fine-tuning 笔记本。对于Pix2Struct模型，我们发现使用 Adafactor 和余弦学习率调度程序对模型进行微调可以实现更快的收敛：

from transformers.optimization import Adafactor, get_cosine_schedule_with_warmup

optimizer = Adafactor(self.parameters(), scale_parameter=False, relative_step=False, lr=0.01, weight_decay=1e-05)
scheduler = get_cosine_schedule_with_warmup(optimizer, num_warmup_steps=1000, num_training_steps=40000)

DePlot 是使用Pix2Struct架构训练的模型。有关 API 参考，请参阅Pix2Struct文档。

Donut

原文链接：huggingface.co/docs/transformers/v4.37.2/en/model_doc/donut

概述

Donut 模型是由 Geewook Kim、Teakgyu Hong、Moonbin Yim、Jeongyeon Nam、Jinyoung Park、Jinyeong Yim、Wonseok Hwang、Sangdoo Yun、Dongyoon Han、Seunghyun Park 提出的，用于执行文档理解任务，如文档图像分类、表单理解和视觉问答的图像变压器编码器和自回归文本变压器解码器。

该论文的摘要如下：

理解文档图像（例如发票）是一项核心但具有挑战性的任务，因为它需要复杂的功能，如阅读文本和对文档的整体理解。当前的视觉文档理解（VDU）方法将阅读文本的任务外包给现成的光学字符识别（OCR）引擎，并专注于使用 OCR 输出进行理解任务。尽管这种基于 OCR 的方法表现出有希望的性能，但它们存在以下问题：1）使用 OCR 的计算成本高；2）OCR 模型在语言或文档类型上的不灵活性；3）OCR 错误传播到后续过程。为了解决这些问题，在本文中，我们介绍了一种名为 Donut 的新型无 OCR VDU 模型，代表文档理解变压器。作为无 OCR VDU 研究的第一步，我们提出了一个简单的架构（即变压器）和一个预训练目标（即交叉熵损失）。Donut 在概念上简单而有效。通过大量实验和分析，我们展示了一个简单的无 OCR VDU 模型 Donut，在速度和准确性方面在各种 VDU 任务上取得了最先进的性能。此外，我们提供了一个合成数据生成器，帮助模型在各种语言和领域中进行灵活的预训练。

Donut 高层概述。摘自原始论文。

此模型由nielsr贡献。原始代码可在此处找到。

使用提示

开始使用 Donut 的最快方法是查看教程笔记本，展示了如何在推理时使用模型以及在自定义数据上进行微调。
Donut 始终在 VisionEncoderDecoder 框架内使用。

推理示例

Donut 的VisionEncoderDecoder模型接受图像作为输入，并利用 generate()来自动生成给定输入图像的文本。

DonutImageProcessor 类负责预处理输入图像，[XLMRobertaTokenizer/XLMRobertaTokenizerFast]解码生成的目标标记为目标字符串。DonutProcessor 将 DonutImageProcessor 和[XLMRobertaTokenizer/XLMRobertaTokenizerFast]包装成一个单一实例，既提取输入特征又解码预测的标记 ID。

逐步文档图像分类

>>> import re

>>> from transformers import DonutProcessor, VisionEncoderDecoderModel
>>> from datasets import load_dataset
>>> import torch

>>> processor = DonutProcessor.from_pretrained("naver-clova-ix/donut-base-finetuned-rvlcdip")
>>> model = VisionEncoderDecoderModel.from_pretrained("naver-clova-ix/donut-base-finetuned-rvlcdip")

>>> device = "cuda" if torch.cuda.is_available() else "cpu"
>>> model.to(device)
>>> # load document image
>>> dataset = load_dataset("hf-internal-testing/example-documents", split="test")
>>> image = dataset[1]["image"]

>>> # prepare decoder inputs
>>> task_prompt = "<s_rvlcdip>"
>>> decoder_input_ids = processor.tokenizer(task_prompt, add_special_tokens=False, return_tensors="pt").input_ids

>>> pixel_values = processor(image, return_tensors="pt").pixel_values

>>> outputs = model.generate(
...     pixel_values.to(device),
...     decoder_input_ids=decoder_input_ids.to(device),
...     max_length=model.decoder.config.max_position_embeddings,
...     pad_token_id=processor.tokenizer.pad_token_id,
...     eos_token_id=processor.tokenizer.eos_token_id,
...     use_cache=True,
...     bad_words_ids=[[processor.tokenizer.unk_token_id]],
...     return_dict_in_generate=True,
... )

>>> sequence = processor.batch_decode(outputs.sequences)[0]
>>> sequence = sequence.replace(processor.tokenizer.eos_token, "").replace(processor.tokenizer.pad_token, "")
>>> sequence = re.sub(r"<.*?>", "", sequence, count=1).strip()  # remove first task start token
>>> print(processor.token2json(sequence))
{'class': 'advertisement'}

逐步文档解析

>>> import re

>>> from transformers import DonutProcessor, VisionEncoderDecoderModel
>>> from datasets import load_dataset
>>> import torch

>>> processor = DonutProcessor.from_pretrained("naver-clova-ix/donut-base-finetuned-cord-v2")
>>> model = VisionEncoderDecoderModel.from_pretrained("naver-clova-ix/donut-base-finetuned-cord-v2")

>>> device = "cuda" if torch.cuda.is_available() else "cpu"
>>> model.to(device)
>>> # load document image
>>> dataset = load_dataset("hf-internal-testing/example-documents", split="test")
>>> image = dataset[2]["image"]

>>> # prepare decoder inputs
>>> task_prompt = "<s_cord-v2>"
>>> decoder_input_ids = processor.tokenizer(task_prompt, add_special_tokens=False, return_tensors="pt").input_ids

>>> pixel_values = processor(image, return_tensors="pt").pixel_values

>>> outputs = model.generate(
...     pixel_values.to(device),
...     decoder_input_ids=decoder_input_ids.to(device),
...     max_length=model.decoder.config.max_position_embeddings,
...     pad_token_id=processor.tokenizer.pad_token_id,
...     eos_token_id=processor.tokenizer.eos_token_id,
...     use_cache=True,
...     bad_words_ids=[[processor.tokenizer.unk_token_id]],
...     return_dict_in_generate=True,
... )

>>> sequence = processor.batch_decode(outputs.sequences)[0]
>>> sequence = sequence.replace(processor.tokenizer.eos_token, "").replace(processor.tokenizer.pad_token, "")
>>> sequence = re.sub(r"<.*?>", "", sequence, count=1).strip()  # remove first task start token
>>> print(processor.token2json(sequence))
{'menu': {'nm': 'CINNAMON SUGAR', 'unitprice': '17,000', 'cnt': '1 x', 'price': '17,000'}, 'sub_total': {'subtotal_price': '17,000'}, 'total': {'total_price': '17,000', 'cashprice': '20,000', 'changeprice': '3,000'}}

逐步文档视觉问答（DocVQA）

>>> import re

>>> from transformers import DonutProcessor, VisionEncoderDecoderModel
>>> from datasets import load_dataset
>>> import torch

>>> processor = DonutProcessor.from_pretrained("naver-clova-ix/donut-base-finetuned-docvqa")
>>> model = VisionEncoderDecoderModel.from_pretrained("naver-clova-ix/donut-base-finetuned-docvqa")

>>> device = "cuda" if torch.cuda.is_available() else "cpu"
>>> model.to(device)
>>> # load document image from the DocVQA dataset
>>> dataset = load_dataset("hf-internal-testing/example-documents", split="test")
>>> image = dataset[0]["image"]

>>> # prepare decoder inputs
>>> task_prompt = "<s_docvqa><s_question>{user_input}</s_question><s_answer>"
>>> question = "When is the coffee break?"
>>> prompt = task_prompt.replace("{user_input}", question)
>>> decoder_input_ids = processor.tokenizer(prompt, add_special_tokens=False, return_tensors="pt").input_ids

>>> pixel_values = processor(image, return_tensors="pt").pixel_values

>>> outputs = model.generate(
...     pixel_values.to(device),
...     decoder_input_ids=decoder_input_ids.to(device),
...     max_length=model.decoder.config.max_position_embeddings,
...     pad_token_id=processor.tokenizer.pad_token_id,
...     eos_token_id=processor.tokenizer.eos_token_id,
...     use_cache=True,
...     bad_words_ids=[[processor.tokenizer.unk_token_id]],
...     return_dict_in_generate=True,
... )

>>> sequence = processor.batch_decode(outputs.sequences)[0]
>>> sequence = sequence.replace(processor.tokenizer.eos_token, "").replace(processor.tokenizer.pad_token, "")
>>> sequence = re.sub(r"<.*?>", "", sequence, count=1).strip()  # remove first task start token
>>> print(processor.token2json(sequence))
{'question': 'When is the coffee break?', 'answer': '11-14 to 11:39 a.m.'}

查看model hub以查找 Donut 检查点。