Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >在NLP项目中使用Hugging Face的Datasets 库

在NLP项目中使用Hugging Face的Datasets 库

作者头像
deephub
发布于 2021-07-01 03:05:06
发布于 2021-07-01 03:05:06
3.1K00
代码可运行
举报
文章被收录于专栏:DeepHub IMBADeepHub IMBA
运行总次数:0
代码可运行

数据科学是关于数据的。网络上有各种来源可以为您的数据分析机器学习项目获取数据。最受欢迎的来源之一是 Kaggle,我相信我们每个人都必须在我们的数据旅程中使用它。

最近,我遇到了一个新的来源来为我的 NLP 项目获取数据,我很想谈谈它。这是 Hugging Face 的数据集库,一个快速高效的库,可以轻松共享和加载数据集和评估指标。因此,如果您从事自然语言理解 (NLP) 工作并希望为下一个项目提供数据,那么 Hugging Face 就是您的最佳选择。?

本文的动机:Hugging Face 提供的数据集格式与我们的 Pandas dataframe不同,所以最初使用 Hugging Face 数据集可能看起来令人生畏?。但是 Hugging Face 有很好的文档,虽然信息量很大。? 这篇文章绝不是详尽无遗的,如果你想对你的数据集做更多的事情,我强烈建议你查看他们的文档。

让我们先了解一下 Hugging Face 和数据集库,然后通过一个例子来了解如何使用这个库中的数据集。?

Hugging Face ? 是自然语言处理 (NLP) 技术的开源提供商。您可以使用最先进的Hugging Face 模型(在 Transformers 库下)来构建和训练您自己的模型。您可以使用拥抱人脸数据集库来共享和加载数据集。您甚至可以将此库用于评估指标。

数据集库

根据 Hugging Face 网站,Datasets 库目前拥有 100 多个公共数据集。? 数据集不仅有英语,还有其他语言和方言。? 它支持大多数这些数据集的数据加载器,并且只需一行代码就可以实现,这使得加载数据成为一项轻松的任务。?? 根据网站上提供的信息,除了可以轻松访问数据集之外,该库还有以下有趣的功能:

  • 在大型数据集的发展使得数据集自然地将用户从 RAM 限制中解放出来,所有数据集都使用高效的零序列化成本后端 (Apache Arrow) 进行内存映射
  • 智能缓存:永远不要将数据处理多次。
  • 轻量级和快速的透明和 pythonic API(多处理/缓存/内存映射)。
  • 与 NumPy、pandas、PyTorch、Tensorflow 2 和 JAX 的内置互操作性。

哇!这是相当多的好处。?

在本文中,我将展示我们通常在数据科学或分析任务中执行的一些步骤,以了解我们的数据或将我们的数据转换为所需的格式。所以,让我们快速深入这个库并编写一些简单的 Python 代码。? 请注意,本文仅涵盖数据集而非指标。

数据集版本:1.7.0

使用pip安装

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 !pip install datasets

导入包

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 from datasets import list_datasets, load_dataset
 from pprint import pprint

从数据集库中,我们可以导入list_datasets来查看这个库中可用的数据集列表。打印模块提供了“漂亮打印”的功能。

截至2021年6月7日,数据集库有928个数据集。我们可以使用以下代码看到可用的数据集列表:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 datasets = list_datasets()
 print("Number of datasets in the Datasets library: ", len(datasets), "\n\n")
 
 #list of datasets in pretty-print format
 pprint(datasets, compact=True)

如果在下载数据集之前就想知道它的属性,该怎么办呢?我们可以使用一行代码来实现这一点。☝️只需将索引设置为数据集的名称,就可以了!

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 #dataset attributes 
 squad = list_datasets(with_details=True)[datasets.index('squad')]
 
 #calling the python dataclass
 pprint(squad.__dict__)

加载数据集

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 squad_dataset = load_dataset('squad')

这句代码下面发生了什么??datasets.load_dataset()执行了以下操作:

  1. 从hugs Face GitHub repo或AWS桶中下载并导入SQuAD python处理脚本(如果它还没有存储在库中)。
  2. 运行SQuAD脚本下载数据集。处理和缓存的SQuAD在一个Arrow 表。
  3. 基于用户要求的分割返回一个数据集。默认情况下,它返回整个数据集。

让我们理解一下我们得到的数据集。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 print(squad_dataset)

数据集分为两部分:训练和验证。feature对象包含关于列的信息——列名和数据类型。我们还可以看到每次拆分的行数(num_rows)。很丰富!

我们也可以在加载数据集时指定分割。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 squad_train = load_dataset('squad', split='train')
 squad_valid = load_dataset('squad', split='validation')

这会将训练集保存在squad_train中,验证集保存在squad_valid中。

但是,您会意识到加载一些数据集会抛出一个错误,在检查错误时,可能得到需要第二个参数配置的错误。

下面是一个例子:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 amazon_us_reviews = load_dataset('amazon_us_reviews')

一些数据集包含几个配置,这些配置定义了需要被选择的数据集的子部分。

解决方案:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 amazon_us_reviews = load_dataset('amazon_us_reviews', 'Watches_v1_00')

这将使用配置加载amazon_us_reviews数据集。

让我们来看看我们的数据集。??

我们看到了数据集信息中的行数。我们甚至可以用标准的len函数得到它。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 print("Length of training set: ", len(squad_train))

训练集长度:87599

检查数据集

要查看数据集的示例:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 print("First example from the dataset: \n")
 pprint(squad_train[0])

要获得带有几个示例的切片,代码与我们使用的pandas dataframe相同。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 print("Two examples from the dataset using slice operation: \n")
 pprint(squad_train[14:16])

想在列中看到值?用列名索引数据集。下面是“question”栏目的一部分。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 print("A column slice from the dataset: \n")
 pprint(squad_train['question'][:5])

可以看到,行切片给出了一个字典,而列切片给出了一个列表。getitem方法根据查询的类型返回不同的格式。例如,数据集[0]之类的条目将返回一个元素字典,数据集[2:5]之类的切片将返回一个元素列表字典,而数据集[' question ']之类的列或列的slice将返回一个元素列表。这起初看起来很令人惊讶,但hug Face做到了这一点,因为它实际上更容易用于数据处理,而不是为每个视图返回相同的格式。

请看这个有趣的例子:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 print(squad_train[‘question’][0])
 print(squad_train[0][‘question’])

输出:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 To whom did the Virgin Mary allegedly appear in 1858 in Lourdes France?
 To whom did the Virgin Mary allegedly appear in 1858 in Lourdes France?

两者都返回相同的输出。让我们验证!?

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 print(squad_train['question'][0] == squad_train[0]['question'])

输出为True。好了!我们在使用pandas dataframe时经常犯的一个错误,但是在这里却不是!

注意:数据集由一个或几个Apache Arrow表支持,这些表是类型化的,允许快速检索和访问。您可以加载任意大小的数据集,而不必担心内存限制,因为数据集在RAM中不占用空间,并且在需要时直接从驱动器读取。

让我们进一步检查数据集。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 print("Features: ")
 pprint(squad_train.features)print("Column names: ", squad_train.column_names)
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 print("Number of rows: ", squad_train.num_rows)
 print("Number of columns: ", squad_train.num_columns)
 print("Shape: ", squad_train.shape)

输出:

  • 行数:87599
  • 列数:5
  • 形状:(87599 5)

注意,您也可以使用len函数获得行数。

数据集操作

添加/删除一个新列

添加一个名为“new_column”的列,条目为“foo”。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 new_column = ["foo"] * len(squad_train)
 squad_train = squad_train.add_column("new_column", new_column)
 print(squad_train)

现在让我们删除这一列。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 squad_train = squad_train.remove_columns("new_column")

重命名一个列

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 squad_train = squad_train.rename_column("title", "heading")
 print(squad_train)

修改/更新数据集

要修改或更新数据集,可以使用dataset.map。map()是一个强大的方法,灵感来自于tf.data.Dataset map方法。我们可以将这个函数应用于一个例子,甚至一批例子,甚至生成新的行或列。

通过示例修改示例:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 updated_squad_train = squad_train.map(lambda example: {'question': 'Question: ' + example['question']})
 pprint(updated_squad_train['question'][:5])

输出

让我们使用现有列添加新列并删除旧列。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 updated_squad_train = squad_train.map(lambda example: {'new_heading': "Context: " + example['heading']}, remove_columns=['heading'])
 pprint(updated_squad_train.column_names)
 pprint(updated_squad_train['new_heading'][:5])

输出

列 " new_heading "已经使用列 " heading "的内容进行了填充,列" heading "已经从数据集中移除

您可以使用映射对数据集执行多个操作。根据你的需求尝试新事物。?

除此之外,您还可以批量处理数据。

我们总是希望我们的数据集是一个格式良好的表格,就像我们看到一个pandas dataframe一样。我们可以将数据集转换为相同的格式。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 import random
 import pandas as pd
 from IPython.display import display, HTMLdef display_random_examples(dataset=squad_train, num_examples=5):
     assert num_examples < len(dataset)
     
     random_picks = []
     for i in range(num_examples):
         random_pick = random.randint(0,len(dataset)-1)
         random_picks.append(random_pick)
     
     df = pd.DataFrame(dataset[random_picks])
     display(HTML(df.to_html()))
         
 display_random_examples(squad_train, 3)

输出是一个格式很好的表格。?

这就是本文的全部内容。从这里开始,您可以根据项目需求对数据进行预处理,并构建模型或创建良好的可视化效果。不可能在一篇文章中涵盖所有内容。然而,通过阅读本文,您可以了解如何使用数据集库中的可用方法。如果需要对数据集做更多操作,请查看文档。还有很多很多的方法,比如排序,洗牌,分片,选择,过滤,连接数据集等等。您还可以为PyTorch、Tensorflow、Numpy和Pandas格式化数据集。

如果你想看代码,请参考这个链接到我的Github : https://github.com/chetnakhanna16/huggingface_datasets/blob/main/HuggingFace_Datatsets_Library_TDS.ipynb

作者:Chetna Khanna

原文地址:https://towardsdatascience.com/use-the-datasets-library-of-hugging-face-in-your-next-nlp-project-94e300cca850

deephub翻译组

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-06-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DeepHub IMBA 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
如何使用Hugging Face中的datasets
https://huggingface.co/datasets 我们选择其中的一个数据集:cail2018
西西嘛呦
2021/08/10
1.5K0
transformers快速上手:实体识别和词性标注
大家好,我是多多,最近在学习整理预训练模型和transformers。这是本系列的第3篇。文字和代码较多,建议点赞、在看、收藏食用。
AI部落联盟
2021/05/11
2.9K0
transformers快速上手:实体识别和词性标注
Huggingface🤗NLP笔记6:数据集预处理,使用dynamic padding构造batch
从这一集,我们就正式开始使用Transformer来训练模型了。今天的部分是关于数据集预处理。
beyondGuo
2021/10/08
5.1K2
精通 Transformers(一)
在过去的 20 年间,我们在自然语言处理(NLP)领域已经见证了巨大的变化。在此期间,我们经历了不同的范式,最终进入了由神奇的Transformers架构主宰的新时代。这种深度学习架构是通过继承多种方法而形成的。诸如上下文词嵌入、多头自注意力、位置编码、可并行化的架构、模型压缩、迁移学习和跨语言模型等方法都在其中。从各种基于神经网络的自然语言处理方法开始,Transformers架构逐渐演变成为一个基于注意力的编码器-解码器架构,并持续至今。现在,我们在文献中看到了这种架构的新成功变体。有些出色的模型只使用了其编码器部分,比如 BERT,或者只使用了其解码器部分,比如 GPT。
ApacheCN_飞龙
2024/05/24
4400
精通 Transformers(一)
好评or坏评?AI用Hugging Face和PyTorch解码答案
huggingface的官网,一般都是打不开的状态。首先,我们来介绍一个huggingface的镜像:
Tom2Code
2024/02/22
2940
好评or坏评?AI用Hugging Face和PyTorch解码答案
Hugging Face模型训练步骤及开发示例
Hugging Face是一个非常活跃且重要的开源社区和技术平台,主要专注于自然语言处理(NLP)领域,并逐渐扩展到了计算机视觉和其他机器学习领域。
用户7353950
2024/11/23
4730
Hugging Face模型训练步骤及开发示例
TensorFlow可以“预装”数据集了,新功能Datasets出炉
训练机器学习模型的时候,需要先找数据集、下载、装数据集……太麻烦了,比如MNIST这种全世界都在用的数据集,能不能来个一键装载啥的?
量子位
2019/04/23
1.4K0
TensorFlow可以“预装”数据集了,新功能Datasets出炉
【AI大模型】Transformers大模型库(十一):Trainer训练类
这里的Transformers指的是huggingface开发的大模型库,为huggingface上数以万计的预训练大模型提供预测、训练等服务。
LDG_AGI
2024/08/13
1.2K0
仅用250美元,Hugging Face技术主管手把手教你微调Llama 3
我们知道,Meta 推出的 Llama 3、Mistral AI 推出的 Mistral 和 Mixtral 模型以及 AI21 实验室推出的 Jamba 等开源大语言模型已经成为 OpenAI 的竞争对手。
zenRRan
2024/05/11
4190
仅用250美元,Hugging Face技术主管手把手教你微调Llama 3
聊聊Hugging Face
HuggingFace是一个开源社区,提供了开源的AI研发框架、工具集、可在线加载的数据集仓库和预训练模型仓库。HuggingFace提出了一套可以依照的标准研发流程,按照该框架实施工程,能够在一定程度上规避开发混乱、开发人员水平不一致的问题,降低了项目实施的风险及项目和研发人员的耦合度,让后续的研发人员能够更容易地介入,即把HuggingFace的标准研发流程变成所有研发人员的公共知识,不需要额外地学习。
Ryan_OVO
2023/10/19
1.3K0
聊聊Hugging Face
从头预训练一只超迷你 LLaMA 3
这次打算用 Hugging Face 的 API 来写一份预训练大(小)模型的代码,也就是用 Trainer 来做预训练。由于只是想练习一下,因此打算选一个极小模型 + 小数据集。为了贴近主流,于是打算预训练一个 LLaMA 3——不过是超迷你版本,大小仅不到 20M。
NewBeeNLP
2024/06/04
1K0
从头预训练一只超迷你 LLaMA 3
datasets: 便捷的数据集管理和处理工具
datasets库是由Hugging Face开发的一个轻量级、易于使用的开源库,旨在为研究人员和开发者提供便捷的数据集管理和处理工具。它支持多种格式的数据集,并且与Hugging Face的Transformers库无缝集成,极大地方便了NLP任务的处理。
luckpunk
2025/02/05
3710
datasets: 便捷的数据集管理和处理工具
【AI大模型】Transformers大模型库(十二):Evaluate模型评估
这里的Transformers指的是huggingface开发的大模型库,为huggingface上数以万计的预训练大模型提供预测、训练等服务。
LDG_AGI
2024/08/13
4550
适用于NLP自然语言处理的Python:使用Facebook FastText库
在本文中,我们将研究FastText,它是用于单词嵌入和文本分类的另一个极其有用的模块。
拓端
2020/09/25
1K0
【AI大模型】Transformers大模型库(十三):Datasets库
这里的Transformers指的是huggingface开发的大模型库,为huggingface上数以万计的预训练大模型提供预测、训练等服务。
LDG_AGI
2024/08/13
2990
5分钟 NLP :Hugging Face 主要类和函数介绍 🤗
来源:Deephub Imba本文约2200字,建议阅读9分钟本文包含其主要类和函数的概述以及一些代码示例。可以作为该库的一个入门教程 。 主要包括Pipeline, Datasets, Metrics, and AutoClasses HuggingFace是一个非常流行的 NLP 库。本文包含其主要类和函数的概述以及一些代码示例。可以作为该库的一个入门教程 。 Hugging Face 是一个开源库,用于构建、训练和部署最先进的 NLP 模型。Hugging Face 提供了两个主要的库,用于模型的t
数据派THU
2022/03/14
4.3K0
Transformers 4.37 中文文档(五)
目标检测是计算机视觉任务,用于检测图像中的实例(如人类、建筑物或汽车)。目标检测模型接收图像作为输入,并输出检测到的对象的边界框的坐标和相关标签。一幅图像可以包含多个对象,每个对象都有自己的边界框和标签(例如,它可以有一辆汽车和一座建筑物),每个对象可以出现在图像的不同部分(例如,图像可以有几辆汽车)。这个任务通常用于自动驾驶,用于检测行人、道路标志和交通灯等。其他应用包括在图像中计数对象、图像搜索等。
ApacheCN_飞龙
2024/06/26
4890
Transformers 4.37 中文文档(五)
hugging face-基于pytorch-bert的中文文本分类
wget http://52.216.242.246/models.huggingface.co/bert/bert-base-uncased-vocab.txt
西西嘛呦
2020/12/22
3.9K0
hugging face-基于pytorch-bert的中文文本分类
问答AI模型训练前的必做功课:数据预处理
翻译完了UDL这本书之后放松了一个多礼拜没有更新文章了,主要最近也在学习一些微调上面的知识,平时晚上还需要跑跑代码看看视频啥的,因此也一直没太有空写文章,UDL的翻译整理成PDF的工作都没空整。(虽然实际最近也花了很长时间在打游戏(。・_・。))。又到周末了,再拖着不干点正事我也过意不去了,今天就写点关于最近学习的一些关于微调方面的东西好了,因为我也是初学者,可能会有些错误,希望有大佬可以批评指正。
叶子的技术碎碎念
2025/04/08
1300
问答AI模型训练前的必做功课:数据预处理
AI新手村:Huggingface
Hugging Face 最早作为 NLP 模型的社区中心,成立于 2016 年,但随着 LLM 的大火,主流的 LLM 模型的预训练模型和相关工具都可以在这个平台上找到,此外,上面也有很多计算机视觉(Computer Vision)和音频相关的模型。
dsy
2025/04/11
1250
AI新手村:Huggingface
相关推荐
如何使用Hugging Face中的datasets
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验