首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何用@修饰器来缓存数据预处理结果?

由于公众号改版不再按照作者的发布时间进行推送,为防止各位客官错过月来客栈推送的最新文章,大家可以手动将公众号设置为“星标”以第一时间获得推送内容,感谢各位~

1 引言

各位朋友大家好,欢迎来到月来客栈,我是掌柜空字符。

不知道各位客官在行走江湖的过程中有没有遇到类似这样的问题:由于数据集过于庞大或者说数据结构很复杂,导致每次都需要花费很长的时间来等待数据集的预处理过程。例如掌柜最近在研究SQuAD任务时就发现每次数据预处理都需要等待很长的时间。虽然在这期间掌柜也想过将预处理过后的结果给缓存下来(之前也是这么做的),当下次载入数据集时先进行判断,如果本地存在缓存则直接载入缓存;但是想想这次写了下次换个场景又需要重写这些代码,觉得麻烦又给放弃了。

不过由于最终还是没能忍受等待时间太长,于是思考了一下写了一个通用的缓存方法,这样在任何地方只需要调用该函数便可以实现上述目的。并且为了使得调用方便以及代码简介,掌柜还特地将它实现为了Python中的修饰器。下面,掌柜首先就带着大家简单地了解一下Python中修饰器的作用及用法。

2 修饰器简介

关于什么是修饰器(或装饰器Decorator)掌柜这里就不从Python语法上来做详细的解释了。简单一句话,修饰器的作用的就是在正式执行某个功能函数之前,预先执行你想要执行的某些操作。下面,我们直接从用法的层面来逐步了解Python中的修饰器,因为这样带着目的去学习能够更快的入门。

2.1 修饰器用例

首先来看这样一个场景,假如你已经定义了很多功能函数,但是你现在想在日志文件中同时也打印出当前主程序正在调用哪个功能函数的信息。例如:

要实习这样一个功能,最直接的做法就是在原始的函数里面加上一句函数的输出信息:

这样我们在调用和这两个函数时就能够分别输出对应的信息:

虽然说上面这个做法稍微有点麻烦,但似乎还能接受。不过又过了一会儿,你还想在此基础上打印出进入每个函数时的具体时间该怎么办呢?继续像刚刚那样再加一行代码?万一有100个函数怎么操作?

面对这样一个问题,Python中的修饰器便可以出来大展身手了。在使用修饰器之前,需要先定义一个完成该功能的函数,如下:

可以看到,似乎就像是定义了一个嵌套的函数一样。因此,我们可以通过函数调用的方式来使用方法:

这样,对于后续需要增加的任何操作,只需要在函数中加入即可而不需要在调用的地方进行改动。不过这样调用稍微有点麻烦,需要到每个调用该函数的地方修改函数传入的方式。所以,我们还可以通过一个更加简洁的方式来进行调用,那就是直接在该函数定义的地方将它作为修饰器使用:

这样,我们直接通过调用对应的功能函数就能够实现输出该函数名和时间的信息:

介绍到这里,相信各位客官对于Python中修饰器的定义与使用已经有了一个基本的了解。下面掌柜再来总结一下修饰器的使用方法,简称套路。

2.2 修饰器格式

通过上面的示例介绍可以发现,定义修饰器函数的大致格式如下:

在上述代码中,为修饰器的名称;为使用该修饰器的函数;则为使用该修饰器的函数的相关参数。同时,由于通过符号来将作为修饰器调用本质上只是一种快速简洁的方式,所以还等价于这样的调用方式。因此,通过后者我们还能够更加清晰的认识到整个修饰器的工作流程。

虽然上面掌柜给出了一个定义修饰器的大致格式,但是在理解了整个修饰器的工作流程后,我们还可以根据自己的需要灵活的做出相应的修改。例如需要再统计每个函数的运行时间则可以修改为:

总结起来就是,通过符号来将作为修饰器调用本质上只是一种快速简洁的函数调用方式,因此对于函数内部的整个处理流程依旧等价于普通的函数定义流程。

3 缓存预处理结果

在介绍完修饰器的基本原理及用法之后再来看如何缓存数据预处理结果就变得十分容易了。总结起来就是在正式载入数据集之前首先判断本地是否存在缓存,如果存在则直接载入缓存,如果不存在则再调用函数进行数据预处理并进行缓存。

3.1 定义数据载入类

熟悉掌柜的客官都知道,对于数据预处理部分掌柜一般都喜欢将其定义为一个类,并在各个成员函数内实现相应的处理逻辑。并且通常来说,这个类至少会包含3个方法:、和,其中用来初始化类中的相关参数(如、、数据集路径等等;用来对数据集进行预处理返回预处理后的结果;用来构造最后模型训练时的。

如下所示便是一个简单的数据载入类(实战示例可参考文章):

在上述代码中,第8行方法返回的便是预处理后的结果;第15行代码则是定义的一个缓存文件名的后缀,因为在一些场景中可能会存在可调节的参数(例如NLP处理时对于句子的长度等等),因此对于不同参数对应的缓存应该加以区分。最后,我们只需要将处理后的结果进行缓存即可。

当然,虽然这里是以构造PyTorch中的DataLoader为例进行的代码示例,但是同样的处理逻辑一样可以运用到机器学习中。

3.2 定义缓存修饰器

如下所示便是根据我们实际的需要所定义的一个预处理数据缓存的修饰器。在经过第1节内容的介绍之后,掌柜相信各位客官应该很容易的就能看懂这些代码:

在上述代码中,第3-4行用来通过命名参数获得对应的路径以及缓存文件名的后缀(这就意味着在调用函数时必须以命名参数的形式进行,即;第6-10行则是当缓存文件不存在时,则调用进行数据处理,并缓存处理有的结果;第11-14行则是当对应的缓存文件存在时,直接从本地进行载入;第15行则是返回对应的预处理结果。

在这里可以发现,对于上述缓存修饰器你还可以几乎不加修改的运用到任何一个场景中,而只需要将预处理后的结果构造成一个字典即可。

最后,当第1次通过载入数据集时会看到类似如下的结果:

当后续再次载入同一份数据预处理结果时,则会看到类似如下的结果:

从输出提示来看,当第2次载入同一份数据预处理文件时,会直接从缓存中载入而并不需要再次运行函数中的处理逻辑。

到此,对于如何利用Python修饰器来便捷缓存数据预处理结果的内容就介绍完了。

4 总结

在这篇文章中,掌柜首先从使用示例的角度来介绍了Python修饰器的用法及工作原理,即其本质上只是Python中所支持的一种快速简洁的函数调用方式;然后介绍了在机器学习中数据预处理时的一种可借鉴流程;最后介绍了如何实现一个可通用数据预处理缓存修饰器。有了这个修饰器的加持,相信各位客官在建模过程中一定能够极大的节约数据预处理的等待时间。

本次内容就到此结束,感谢您的阅读!如果你觉得上述内容对你有所帮助,欢迎点赞转发分享三连!若有任何疑问与建议,请添在文末进行留言交流。青山不改,绿水长流,我们月来客栈见

都滑到这里了,给掌柜点个赞再走吧!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20220119A012UL00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券