我们从最常用的Python包入手,去解答这个问题——全球各地的程序员都是怎样使用Python?。最初,我列出过去一年在PyPI 上下载次数最多的Python包。接下来,深入研究其用途、它们之间的关系和它们备受欢迎的原因。
下载次数:8.93亿
Urllib3
是一个Python的HTTP客户端,它拥有Python标准库中缺少的许多功能:
不要被名字所误导,Urllib3
并不是urllib2
的后继者,而后者是Python核心的一部分。如果你想使用尽可能多的Python核心功能,或者你能安装什么东西是受限,那么请查看urlllib.request。
对最终用户来说,我强烈建议使用requests包(参阅列表中的#6)。这个包之所以会排名第一,是因为有差不多1200个包依赖urllib3,其中许多包在这个列表中的排名也很高。
下载次数:7.32亿
six是一个是Python 2和3的兼容性库。这个项目旨在支持可同时运行在Python 2和3上的代码库。
它提供了许多可简化Python 2和3之间语法差异的函数。一个容易理解的例子是six.print_()
。在Python 3中,打印是通过print()
函数完成的,而在Python 2中,print
后面没有括号。因此,有了six.print_()
后,你就可以使用一个语句来同时支持两种语言。
事实:
six
,是因为二乘以三等于六。future
包。虽然我理解它为什么这么受欢迎,但我希望人们能完全放弃Python 2,因为要知道从2020年1月1日起Python 2的官方支持就已停止。
这里,我把相关的几个项目列在一起:
Botocore
是AWS的底层接口。Botocore
是Boto3库(#22)的基础,后者让你可以用Amazon S3和Amazon EC2一类的服务。
Botocore还是AWS-CLI的基础,后者为AWS提供统一的命令行界面。
S3transfer
(#7)是用于管理Amazon S3传输的Python库。它正在积极开发中,其介绍页面不推荐人们现在使用,或者至少等版本固定下来再用,因为它的API可能发生变化,在次要版本之间都可能更改。Boto3
、AWS-CLI
和其他许多项目都依赖s3transfer
。
令人惊讶的是,这些针对AWS库的排名竟如此之高——这充分说明了AWS有多厉害。
相关链接:
下载次数:6.27亿
我想,你们大多数人都知道并且很喜欢pip,它是Python的包安装器。你可以用pip轻松地从Python包索引和其他索引(例如本地镜像或带有私有软件的自定义索引)来安装软件包。
有关pip的一些有趣事实:
pip
是“Pip Installs Packages”的首字母递归缩写。pip
很容易使用。要安装一个包只需pip install <package name>
即可,而删除包只需pip uninstall <package name>
即可。requirements.txt
文件的形式获取。该文件能选择包含所需版本的详细规范。大多数Python项目都包含这样的文件。pip
与virtualenv
(列表中的#57),就可以创建可预测的隔离环境,同时不会干扰底层系统,反之亦然。要了解更多细节,请查看这篇文章:Stop Installing Python Packages Globally — Use Virtual Environments下载次数:6.17亿
python-dateutil
模块提供了对标准datetime
模块的强大扩展。我的经验是,常规的Python datetime
缺少哪些功能,python-dateutil
就能补足那一块。
你可以用这个库做很多很棒的事情。其中,我发现的一个特别有用的功能就是:模糊解析日志文件中的日期,例如:
from dateutil.parser import parse
logline = 'INFO 2020-01-01T00:00:01 Happy new year, human.'
timestamp = parse(log_line, fuzzy=True)
print(timestamp)
# 2020-01-01 00:00:01
下载次数:6.11亿
Requests
建立在我们的#1库——urllib3
基础上。它让Web请求变得非常简单。相比urllib3
来说,很多人更喜欢这个包。而且使用它的最终用户可能也比urllib3
更多。后者更偏底层,并且考虑到它对内部的控制级别,它一般是作为其他项目的依赖项。
下面这个例子说明requests用起来有多简单:
import requests
r = requests.get('https://api.github.com/user', auth=('user', 'pass'))
r.status_code
# 200
r.headers['content-type']
# 'application/json; charset=utf8'
r.encoding
# 'utf-8'
r.text
# u'{"type":"User"...'
r.json()
# {u'disk_usage': 368627, u'private_gists': 484, ...}
相关链接:
这里把#3、#7、#17和#22放在一起介绍,因为它们的关系非常密切。
下载次数:5.52亿
近年来,几乎所有网站都转向SSL,你可以通过地址栏中的小锁符号来识别它。加了小锁意味着与该站点的通信是安全和加密的,能防止窃听行为。
小锁告诉我们此网站已使用SSL保护
加密过程是基于SSL证书的,并且这些SSL证书由受信任的公司或非营利组织(如LetsEncrypt)创建。这些组织使用他们的(中间)证书对这些证书进行数字签名。
你的浏览器使用这些证书的公开可用部分来验证这些签名,这样就能确保你正查看的是真实内容,并且没有人能窥探到通信数据。Python软件也能做同样事情。这就是certifi的用途所在。它与Chrome、Firefox和Edge等网络浏览器随附的根证书集合没有太大区别。
Certifi
是根证书的一个精选集合,有了它,你的Python代码就能验证SSL证书的可信度。
如此处所示,许多项目信任并依赖certifi。这也是该项目排名如此之高的原因所在。
相关链接:certifi PyPI页面、文档、certifi.io
下载次数:5.27亿
根据其PyPI页面,idna
提供了“对RFC5891中指定的应用程序中国际化域名(IDNA)协议的支持。”
可能你像我一样也是一头雾水,不知道Idna
是什么,有什么用!据悉,应用程序中的国际化域名(IDNA)是一种用来处理包含非ASCII字符的域名机制。但是,原始域名系统已经提供对基于非ASCII字符的域名支持。所以,哪有问题?
问题在于应用程序(例如电子邮件客户端和Web浏览器)不支持非ASCII字符。更具体地说,电子邮件和HTTP用的协议不支持这些字符。对许多国家来说,这没什么问题,但是像中国、俄罗斯、德国、希腊和印度尼西亚等国家,这是个问题。最后,来自这些地方的一群聪明人想到IDNA。
IDNA
的核心是两个函数:ToASCII
和ToUnicode
。ToASCII
会将国际Unicode域转换为ASCII字符串。ToUnicode
则逆转该过程。在IDNA
包中,这些函数称为idna.encode()
和idna.decode()
,如以下代码片段所示:
import idna
idna.encode('ドメイン.テスト')
# b'xn--eckwd4c7c.xn--zckzah'
print(idna.decode('xn--eckwd4c7c.xn--zckzah'))
# ドメイン.テスト
如果你是受虐狂,则可以阅读RFC-3490了解这一编码的详细信息。
相关链接:
下载次数:5.25亿
YAML
是一种数据序列化格式。它的设计宗旨是让人类和计算机都能很容易地阅读代码——人类很容易读写它的内容,计算机也可以解析它。
PyYAML
是Python的YAML
解析器和发射器,这意味着它可以读写YAML
。它会把任何Python对象写成YAML
:列表、字典,甚至是类实例都包括在内。
Python提供了自己的配置解析器,但是与Python的ConfigParser
的基本.ini
文件结构相比,YAML提供更多功能。
例如,YAML
可以存储任何数据类型:布尔值、列表、浮点数等等。ConfigParser
会将所有内容存储为内部字符串。如果要使用ConfigParser
加载整数,则你需要指定自己要显式获取一个int
:
config.getint(“section”, “my_int”)
pyyaml
能自动识别类型,所以这将使用PyYAML
返回你的int
:
config[“section”][“my_int”]
YAML
还允许任意的deep trees,虽然不是每个项目都需要这种东西,但是需要时,它就可以派上用场。你可能有自己的偏好,但是许多项目都使用YAML
作为配置文件,所以这个项目是很受欢迎的。
下载次数:5.12亿
像上面的IDNA
一样,这个项目也非常有用:
ASN.1类型和DER/BER/CER编码(X.208)的纯Python实现
所幸这个已有数十年历史的标准有很多信息可用。ASN.1
是Abstract Syntax Notation One的缩写,它就像是数据序列化的教父。它来自电信行业。也许你知道协议缓冲区或Apache Thrift?这就是它们的1984年版本。
ASN.1描述了系统之间的跨平台接口,以及可以通过该接口发送的数据结构。
还记得Certifi(请参阅#8)吗?ASN.1用于定义HTTPS协议和其他许多加密系统中使用的证书格式。它也用在了SNMP、LDAP、Kerberos、UMTS、LTE和VOIP协议中。
这是一个非常复杂的规范,并且某些实现已被证明满是漏洞。你可能还会喜欢关于ASN.1的这个有趣的Reddit帖子。
一个建议,除非你真的需要,否则还是敬而远之吧。但由于它用在很多地方,因此许多包都依赖这个包。
下载次数:5.08亿
Docutils
是一个模块化系统,用来将纯文本文档处理为很多有用的格式,例如HTML、XML和LaTeX等。Docutils
能读取reStructuredText
格式的纯文本文档,这种格式是类似于MarkDown的易读标记语法。
你可能听说过,甚至读过PEP文档。那么什么是PEP文档?最早的PEP文档,PEP-1为我们提供很好的解释:
PEP的意思是Python增强提案。一个PEP就是一个设计文档,用来向Python社区提供信息,或描述Python或其过程或环境的新功能。PEP应该提供该功能的简明技术规范以及功能的原理。
PEP文档使用固定的reStructuredText
模板编写,并使用docutils
转换为格式正确的文档。
Docutils也是Sphinx
的核心。Sphinx
用于创建文档项目。如果Docutils
是一台机器,则Sphinx
就是工厂。它最初是为了构建Python文档而创建的,但其他许多项目也使用它为代码提供文档。你可能已经读过readthedocs.org上的文档,那里的大多数文档都是由Sphinx
和docutils
创建的。
下载次数:5.01亿
你可以用chardet
模块来检测文件或数据流的字符集。比如说,需要分析大量随机文本时,这会很有用。但你也可以在处理远程下载的数据,但不知道用的是什么字符集时使用它。
安装chardet
后,你还有一个名为chardetect
的命令行工具,用法如下:
chardetect somefile.txt
somefile.txt: ascii with confidence 1.0
你还能通过编程方式使用这个库,具体参阅文档。Chardet
是requests
等许多包的需求。我觉得没有多少人会单独使用chardet
,所以它这么流行肯定是因为这些依赖项。
下载次数:4.92亿
rsa
包是一个纯Python的RSA实现。它支持:
它既可以用作Python库,也能在命令行中使用。
一些事实:
以下代码段展示了如何在一个非常简单的用例中使用RSA:
import rsa
# Bob creates a key pair:
(bob_pub, bob_priv) = rsa.newkeys(512)
# Alice ecnrypts a message for Bob
# with his public key
crypto = rsa.encrypt('hello Bob!', bob_pub)
# When Bob gets the message, he
# decrypts it with his private key:
message = rsa.decrypt(crypto, bob_priv)
print(message.decode('utf8'))
# hello Bob!
假设Bob保留自己的私钥private,那么Alice可以确定他是唯一可以阅读该消息的人。 但是,Bob不能确定是Alice发送了该消息,因为任何人都可以获取并使用他的公钥。为证明是她,Alice可以用她的私钥在邮件上签名。Bob可以用她的公钥验证此签名,确保消息的确是她发送的。
诸如google-auth
(#37)、oauthlib
(#54)、awscli
(#17)之类的包都依赖rsa
包。很少有人会将这个工具独立使用,因为有更快、更原生的替代方法。
下载次数:4.73亿
在Python中用JSON非常容易,因为它在Python字典上的映射非常好。对我来说,这是它最好的特性之一。
实话实说——尽管我已经用JSON做过很多工作,但我从未听说过这个包。我只是用json.loads()并从字典中手动获取数据,也许再搞个循环什么的。
JMESPath
,发音为“James path”,使Python中的JSON更容易使用。它允许你声明性地指定如何从JSON文档中提取元素。以下是一些基本示例:
import jmespath
# Get a specific element
d = {"foo": {"bar": "baz"}}
print(jmespath.search('foo.bar', d))
# baz
# Using a wildcard to get all names
d = {"foo": {"bar": [{"name": "one"}, {"name": "two"}]}}
print(jmespath.search('foo.bar[*].name', d))
# [“one”, “two”]
下载次数:4.01亿
它是用于创建Python包的工具。不过,其文档很糟糕。它没有清晰描述它的用途,并且文档中包含无效链接。最好的信息源是这个站点,特别是这个创建Python包的指南。
这里把#3、#7、#17和#22放在一起介绍,因为它们的关系非常密切。
下载次数:3.94亿次
像dateutils
(#5)一样,这个库可帮助你处理日期和时间。有时候,时区处理起来可能很麻烦。幸好有这样的包,可以让事情变得简单些。
我自己关于计算机上处理时间的经验总结来说是:始终在内部使用UTC。仅当生成供人类读取的输出时,才转换为本地时间。
这是pytz
用法的示例:
from datetime import datetime
from pytz import timezone
amsterdam = timezone('Europe/Amsterdam')
ams_time = amsterdam.localize(datetime(2002, 10, 27, 6, 0, 0))
print(ams_time)
# 2002-10-27 06:00:00+01:00
# It will also know when it's Summer Time
# in Amsterdam (similar to Daylight Savings Time):
ams_time = amsterdam.localize(datetime(2002, 6, 27, 6, 0, 0))
print(ams_time)
# 2002-06-27 06:00:00+02:00
请查看PyPI页面以获取更多示例和文档。
下载次数:3.89亿
从Python 3.2开始,python提供current.futures
模块,可帮助你实现异步执行。futures包是该库适用于Python 2的backport。它不适用于Python3用户,因为Python 3原生提供了该模块。
正如我之前提到的,从2020年1月1日起,Python 2的官方支持停止。希望我明年重新再来看的时候,这个包不会再出现在前22名中吧。
下面是futures的基本示例:
from concurrent.futures import ThreadPoolExecutor
from time import sleep
def return_after_5_secs(message):
sleep(5)
return message
pool = ThreadPoolExecutor(3)
future = pool.submit(return_after_5_secs,
("Hello world"))
print(future.done())
# False
sleep(5)
print(future.done())
# True
print(future.result())
# Hello World
如你所见,你可以创建一个线程池并提交一个要由这些线程之一执行的函数。同时,你的程序将继续在主线程中运行。这是并行执行程序的简便方法。
下载次数:3.7亿
使用Colorama,你可以为终端添加一些颜色:
这样做起来非常容易,具体请查看以下示例代码:
from colorama import Fore, Back, Style
print(Fore.RED + 'some red text')
print(Back.GREEN + 'and with a green background')
print(Style.DIM + 'and in dim text')
print(Style.RESET_ALL)
print('back to normal now')
下载次数:3.41亿
原生的json
模块有什么问题,才需要这种高级替代方案呢?并没有!实际上,Python的json
就是simplejson
。但是simplejson
也有一些优点:
你经常会在支持JSON的脚本中看到以下内容:
try:
import simplejson as json
except ImportError:
import json
除非你需要标准库中所没有的内容,否则我只会使用json
。Simplejson
可以比json
快很多,因为它有一些用C实现的部分。除非你正在处理成千上万个JSON文件,否则这种优势对你来说不是什么大事。还可以看看UltraJSON,它应该更快一些,因为它几乎所有的代码都是用C编写的。
这里把#3、#7、#17和#22放在一起介绍,因为它们的关系非常密切。
仅仅介绍这22个包恐怕不够,因为排在后面的许多包都是像我们这样最终用户感兴趣的。
通过制作这份列表,我了解到一些新东西:
英文原文:
领取专属 10元无门槛券
私享最新 技术干货