前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >在NLP项目中使用Hugging Face的Datasets 库

在NLP项目中使用Hugging Face的Datasets 库

作者头像
deephub
发布于 2021-07-01 03:05:06
发布于 2021-07-01 03:05:06
3.1K00
代码可运行
举报
文章被收录于专栏:DeepHub IMBADeepHub IMBA
运行总次数:0
代码可运行

数据科学是关于数据的。网络上有各种来源可以为您的数据分析机器学习项目获取数据。最受欢迎的来源之一是 Kaggle,我相信我们每个人都必须在我们的数据旅程中使用它。

最近,我遇到了一个新的来源来为我的 NLP 项目获取数据,我很想谈谈它。这是 Hugging Face 的数据集库,一个快速高效的库,可以轻松共享和加载数据集和评估指标。因此,如果您从事自然语言理解 (NLP) 工作并希望为下一个项目提供数据,那么 Hugging Face 就是您的最佳选择。?

本文的动机:Hugging Face 提供的数据集格式与我们的 Pandas dataframe不同,所以最初使用 Hugging Face 数据集可能看起来令人生畏?。但是 Hugging Face 有很好的文档,虽然信息量很大。? 这篇文章绝不是详尽无遗的,如果你想对你的数据集做更多的事情,我强烈建议你查看他们的文档。

让我们先了解一下 Hugging Face 和数据集库,然后通过一个例子来了解如何使用这个库中的数据集。?

Hugging Face ? 是自然语言处理 (NLP) 技术的开源提供商。您可以使用最先进的Hugging Face 模型(在 Transformers 库下)来构建和训练您自己的模型。您可以使用拥抱人脸数据集库来共享和加载数据集。您甚至可以将此库用于评估指标。

数据集库

根据 Hugging Face 网站,Datasets 库目前拥有 100 多个公共数据集。? 数据集不仅有英语,还有其他语言和方言。? 它支持大多数这些数据集的数据加载器,并且只需一行代码就可以实现,这使得加载数据成为一项轻松的任务。?? 根据网站上提供的信息,除了可以轻松访问数据集之外,该库还有以下有趣的功能:

  • 在大型数据集的发展使得数据集自然地将用户从 RAM 限制中解放出来,所有数据集都使用高效的零序列化成本后端 (Apache Arrow) 进行内存映射
  • 智能缓存:永远不要将数据处理多次。
  • 轻量级和快速的透明和 pythonic API(多处理/缓存/内存映射)。
  • 与 NumPy、pandas、PyTorch、Tensorflow 2 和 JAX 的内置互操作性。

哇!这是相当多的好处。?

在本文中,我将展示我们通常在数据科学或分析任务中执行的一些步骤,以了解我们的数据或将我们的数据转换为所需的格式。所以,让我们快速深入这个库并编写一些简单的 Python 代码。? 请注意,本文仅涵盖数据集而非指标。

数据集版本:1.7.0

使用pip安装

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 !pip install datasets

导入包

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 from datasets import list_datasets, load_dataset
 from pprint import pprint

从数据集库中,我们可以导入list_datasets来查看这个库中可用的数据集列表。打印模块提供了“漂亮打印”的功能。

截至2021年6月7日,数据集库有928个数据集。我们可以使用以下代码看到可用的数据集列表:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 datasets = list_datasets()
 print("Number of datasets in the Datasets library: ", len(datasets), "\n\n")
 
 #list of datasets in pretty-print format
 pprint(datasets, compact=True)

如果在下载数据集之前就想知道它的属性,该怎么办呢?我们可以使用一行代码来实现这一点。☝️只需将索引设置为数据集的名称,就可以了!

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 #dataset attributes 
 squad = list_datasets(with_details=True)[datasets.index('squad')]
 
 #calling the python dataclass
 pprint(squad.__dict__)

加载数据集

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 squad_dataset = load_dataset('squad')

这句代码下面发生了什么??datasets.load_dataset()执行了以下操作:

  1. 从hugs Face GitHub repo或AWS桶中下载并导入SQuAD python处理脚本(如果它还没有存储在库中)。
  2. 运行SQuAD脚本下载数据集。处理和缓存的SQuAD在一个Arrow 表。
  3. 基于用户要求的分割返回一个数据集。默认情况下,它返回整个数据集。

让我们理解一下我们得到的数据集。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 print(squad_dataset)

数据集分为两部分:训练和验证。feature对象包含关于列的信息——列名和数据类型。我们还可以看到每次拆分的行数(num_rows)。很丰富!

我们也可以在加载数据集时指定分割。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 squad_train = load_dataset('squad', split='train')
 squad_valid = load_dataset('squad', split='validation')

这会将训练集保存在squad_train中,验证集保存在squad_valid中。

但是,您会意识到加载一些数据集会抛出一个错误,在检查错误时,可能得到需要第二个参数配置的错误。

下面是一个例子:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 amazon_us_reviews = load_dataset('amazon_us_reviews')

一些数据集包含几个配置,这些配置定义了需要被选择的数据集的子部分。

解决方案:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 amazon_us_reviews = load_dataset('amazon_us_reviews', 'Watches_v1_00')

这将使用配置加载amazon_us_reviews数据集。

让我们来看看我们的数据集。??

我们看到了数据集信息中的行数。我们甚至可以用标准的len函数得到它。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 print("Length of training set: ", len(squad_train))

训练集长度:87599

检查数据集

要查看数据集的示例:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 print("First example from the dataset: \n")
 pprint(squad_train[0])

要获得带有几个示例的切片,代码与我们使用的pandas dataframe相同。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 print("Two examples from the dataset using slice operation: \n")
 pprint(squad_train[14:16])

想在列中看到值?用列名索引数据集。下面是“question”栏目的一部分。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 print("A column slice from the dataset: \n")
 pprint(squad_train['question'][:5])

可以看到,行切片给出了一个字典,而列切片给出了一个列表。getitem方法根据查询的类型返回不同的格式。例如,数据集[0]之类的条目将返回一个元素字典,数据集[2:5]之类的切片将返回一个元素列表字典,而数据集[' question ']之类的列或列的slice将返回一个元素列表。这起初看起来很令人惊讶,但hug Face做到了这一点,因为它实际上更容易用于数据处理,而不是为每个视图返回相同的格式。

请看这个有趣的例子:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 print(squad_train[‘question’][0])
 print(squad_train[0][‘question’])

输出:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 To whom did the Virgin Mary allegedly appear in 1858 in Lourdes France?
 To whom did the Virgin Mary allegedly appear in 1858 in Lourdes France?

两者都返回相同的输出。让我们验证!?

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 print(squad_train['question'][0] == squad_train[0]['question'])

输出为True。好了!我们在使用pandas dataframe时经常犯的一个错误,但是在这里却不是!

注意:数据集由一个或几个Apache Arrow表支持,这些表是类型化的,允许快速检索和访问。您可以加载任意大小的数据集,而不必担心内存限制,因为数据集在RAM中不占用空间,并且在需要时直接从驱动器读取。

让我们进一步检查数据集。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 print("Features: ")
 pprint(squad_train.features)print("Column names: ", squad_train.column_names)
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 print("Number of rows: ", squad_train.num_rows)
 print("Number of columns: ", squad_train.num_columns)
 print("Shape: ", squad_train.shape)

输出:

  • 行数:87599
  • 列数:5
  • 形状:(87599 5)

注意,您也可以使用len函数获得行数。

数据集操作

添加/删除一个新列

添加一个名为“new_column”的列,条目为“foo”。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 new_column = ["foo"] * len(squad_train)
 squad_train = squad_train.add_column("new_column", new_column)
 print(squad_train)

现在让我们删除这一列。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 squad_train = squad_train.remove_columns("new_column")

重命名一个列

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 squad_train = squad_train.rename_column("title", "heading")
 print(squad_train)

修改/更新数据集

要修改或更新数据集,可以使用dataset.map。map()是一个强大的方法,灵感来自于tf.data.Dataset map方法。我们可以将这个函数应用于一个例子,甚至一批例子,甚至生成新的行或列。

通过示例修改示例:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 updated_squad_train = squad_train.map(lambda example: {'question': 'Question: ' + example['question']})
 pprint(updated_squad_train['question'][:5])

输出

让我们使用现有列添加新列并删除旧列。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 updated_squad_train = squad_train.map(lambda example: {'new_heading': "Context: " + example['heading']}, remove_columns=['heading'])
 pprint(updated_squad_train.column_names)
 pprint(updated_squad_train['new_heading'][:5])

输出

列 " new_heading "已经使用列 " heading "的内容进行了填充,列" heading "已经从数据集中移除

您可以使用映射对数据集执行多个操作。根据你的需求尝试新事物。?

除此之外,您还可以批量处理数据。

我们总是希望我们的数据集是一个格式良好的表格,就像我们看到一个pandas dataframe一样。我们可以将数据集转换为相同的格式。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 import random
 import pandas as pd
 from IPython.display import display, HTMLdef display_random_examples(dataset=squad_train, num_examples=5):
     assert num_examples < len(dataset)
     
     random_picks = []
     for i in range(num_examples):
         random_pick = random.randint(0,len(dataset)-1)
         random_picks.append(random_pick)
     
     df = pd.DataFrame(dataset[random_picks])
     display(HTML(df.to_html()))
         
 display_random_examples(squad_train, 3)

输出是一个格式很好的表格。?

这就是本文的全部内容。从这里开始,您可以根据项目需求对数据进行预处理,并构建模型或创建良好的可视化效果。不可能在一篇文章中涵盖所有内容。然而,通过阅读本文,您可以了解如何使用数据集库中的可用方法。如果需要对数据集做更多操作,请查看文档。还有很多很多的方法,比如排序,洗牌,分片,选择,过滤,连接数据集等等。您还可以为PyTorch、Tensorflow、Numpy和Pandas格式化数据集。

如果你想看代码,请参考这个链接到我的Github : https://github.com/chetnakhanna16/huggingface_datasets/blob/main/HuggingFace_Datatsets_Library_TDS.ipynb

作者:Chetna Khanna

原文地址:https://towardsdatascience.com/use-the-datasets-library-of-hugging-face-in-your-next-nlp-project-94e300cca850

deephub翻译组

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-06-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DeepHub IMBA 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
『C语言』题集 of ⑩
🚩write in front🚩 🔎大家好,我是謓泽,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎 🏅2021年度博客之星物联网与嵌入式开发TOP5~2021博客之星Top100~阿里云专家 ^ 星级博主~掘金⇿InfoQ创作者~周榜77»总榜1766🏅 🆔本文由 謓泽 原创 CSDN首发 🙉 如需转载还请通知⚠ 📝个人主页-謓泽的博客_CSDN博客💬 🎁欢迎各位→点赞👍 + 收藏⭐️ + 留言📝​ 📣系列专栏-【C】题目_謓泽的博客-CSDN博客🎓 ✉️我们并非登上我们所选择
謓泽
2022/12/12
5750
『C语言』题集 of ⑩
【C语言】题集 of ⑦
其实每个人对递归的理解都是有不同的,这种最终还是需要你去多多练习相对应题目才行。
謓泽
2022/12/12
8780
【C语言】二维数组
练习1:一个学习小组有 5 个人,每个人有三门课的考试成绩。求全组分科的平均成绩和 各科总平均成绩。
謓泽
2022/12/12
1.8K0
【C语言】二维数组
C语言:深入理解指针(2)
    通过深入理解指针(1),我们对指针有了一个初步的了解,还了解了指针变量类型的意义、指针的运算、assert断言、const修饰变量、野指针………………下面我们继续深入学习。
小陈在拼命
2024/02/17
1540
C语言:深入理解指针(2)
【C语言】题集 of ⑧
🚩write in front🚩 🔎大家好,我是謓泽,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎 🏅2021年度博客之星物联网与嵌入式开发TOP5~2021博客之星Top100~阿里云专家^星级博主~掘金⇿InfoQ创作者~周榜34»总榜2005🏅 🆔本文由 謓泽 原创 CSDN首发🙉如需转载还请通知⚠ 📝个人主页:打打酱油desuCSDN博客💬 📣系列专栏:【C】题目_謓泽的博客-CSDN博客[〇~①]🎓 ✉️我们并非登上我们所选择的舞台,演出并非我们所选择的剧本📩  『
謓泽
2022/12/12
5540
初识C语言·指针(2)
结果是整个数组的大小,那么就说明了sizeof()里面的数组名不是首元素地址的含义,代表的是整个数组。
_lazy
2024/10/16
480
初识C语言·指针(2)
【C语言新手村】刷副本
学习过程中,我们需要不断练习一些题目来提高我们的水平,而一道题目的解法也不止有一种,在C语言中,我们除了要会写这道编程题,更要精益求精,尽量把自己的代码写到最好,这样才能提升我们写代码的能力
f狐o狸x
2024/11/19
570
【C语言新手村】刷副本
【C语言经典例题】——程序员必须会的经典基础例题(三)
思路: 我们可以看到,三角的两边都是1,并且从第二行(从0开始算)开始,两边之间的数字,都是上一行的两位数字之和,比如第三行的数字3,等于上一行的1+2,等等。如此,把它看成一个二维数组,便可直接入手
诺诺的包包
2023/02/20
6980
抽丝剥茧C语言(中阶)数组
本章会详细的讲解数组,以前因为数组的困惑会迎刃而解。 数组的作用是储存大量元素,不用不停的创建变量。
有礼貌的灰绅士
2023/03/28
5970
抽丝剥茧C语言(中阶)数组
c语言qsort函数的模拟实现
回调函数就是⼀个通过函数指针调用的函数。 如果你把函数的指针(地址)作为参数传递给另⼀个函数,当这个指针被用来调用其所指向的函数时,被调用的函数就是回调函数。回调函数不是由该函数的实现方直接调用,而是在特定的事件或条件发生时由另外的一方调用的,用于对该事件或条件进行响应。 这样讲也许会有点抽象,等下面讲到实际案例时再具体介绍:>
用户11029269
2024/03/19
1130
c语言qsort函数的模拟实现
【C语言】题集 of ⑤
🚀write in front🚀   📝个人主页:打打酱油desu_泽En_CSDN博客 🆔本文由 泽En 原创 CSDN首发🐒 如需转载还请通知⚠ 🏅2021年度博客之星物联网与嵌入式开发TOP5→作者周榜56→总排名3255🏅  🎁欢迎各位→点赞👍 + 收藏⭐️ + 留言📝​ 📣系列专栏:【C】题目_打打酱油desu-CSDN博客 💬总结:希望你看完之后,能对你有所帮助,不足请指正!共同学习交流 🖊 ✉️我们并非登上我们所选择的舞台,演出并非我们所选择的剧本 ♐  目录 🚀write
謓泽
2022/12/12
6100
【C语言】题集 of ⑤
c语言牛客网64-114题基础练习
如烟花般绚烂却又稍纵即逝
2024/11/26
1670
c语言牛客网64-114题基础练习
如何深入掌握C语言数组(详解)
1、数组必须 先定义,后使用 2、只能逐个引用数组元素,不能一次引用整个数组 3、数组元素表示形式:  数组名[下标]  , 下标可以是常量或整型表达式
用户9645905
2022/11/30
1K0
如何深入掌握C语言数组(详解)
C语言指针超详解——最终篇一
回调函数就是一个通过函数指针调用的函数。 如果你把函数的指针(地址)作为参数传递给另个函数,当这个指针被用来调用其所指向的函数时,被调用的函数就是回调函数。
fhvyxyci
2024/09/24
1180
C语言指针超详解——最终篇一
带你深入了解c语言指针后续
以数组指针为例: 数组指针示例:写一个指向 int arr[10] 数组的数组指针;
初阶牛
2023/03/01
3840
C语言指针——练习
该函数通过一个while循环来遍历字符串,每遍历一个字符,计数器len就加1。当遍历到字符串的结尾字符'\0'时,循环结束,函数返回计数器的值,即字符串的长度。 
小李很执着
2024/06/15
880
C语言指针——练习
C语言进阶-回调函数
目录 前言 回调函数 回调型计算器 回调冒泡排序(模拟qsort库函数) qsort函数原型 compar参数 代码演示  冒泡排序(bubble_sort) ---- 前言 ---- 本文主要讲解 回调函数的理解 回调实现计算器 qsort各种功能的使用 冒泡排序各种功能的实现 回调函数 ---- 定义 回调函数就是一个通过函数指针调用的函数 如果你把函数的指针(地址)作为参数传递给另一 个函数, 当这个指针被用来调用其所指向的函数时,我们就说这是回调函数 回调函数不是由该函数的实现
用户9645905
2022/11/30
9730
C语言进阶-回调函数
C语言—有序序列合并
要求:输入包含三行, 第一行包含两个正整数n, m,用空格分隔。n表示第二行第一个升序序列中数字的个数,m表示第三行第二个升序序列中数字的个数。 第二行包含n个整数,用空格分隔。 第三行包含m个整数,用空格分隔。
用户11369558
2024/11/20
950
C语言——I /深入理解指针(二)
这里我们使用 &arr[0] 的方式拿到了数组第⼀个元素的地址,但是其实数组名本来就是地址,而且是数组首元素的地址,我们来做个测试。
用户11015888
2024/03/11
1150
C语言——I /深入理解指针(二)
【C语言】题集 of ③
 🚀write in front🚀 🔎大家好,我是謓泽,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎 🏅2021年度博客之星物联网与嵌入式开发TOP5,2021博客之星Top100→周榜31→总榜2629🏅 🆔本文由 謓泽 原创 CSDN首发🐒 如需转载还请通知⚠ 📝个人主页:打打酱油desu_泽En_CSDN博客🎓 📢系列专栏:【C】系列_打打酱油desu-CSDN博客📣 ✉️我们并非登上我们所选择的舞台,演出并非我们所选择的剧本📩  目录  🚀write in front
謓泽
2022/12/12
8950
相关推荐
『C语言』题集 of ⑩
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档