翻译丨sugarain
https://medium.com/@ageitgey/quick-tip-the-easiest-way-to-grab-data-out-of-a-web-page-in-python-7153cecfca58
假设你在网上搜索某个项目所需的原始数据,但坏消息是数据存在于网页中,并且没有可用于获取原始数据的API。
所以现在你必须浪费30分钟写脚本来获取数据(最后花费 2小时)。
这不难但是很浪费时间。
Pandas库有一种内置的方法,可以从名为read_html()的html页面中提取表格数据:
https://pandas.pydata.org/
就这么简单! Pandas可以在页面上找到所有重要的html表,并将它们作为一个新的DataFrame对象返回。
https://pandas.pydata.org/pandas-docs/stable/dsintro.html#dataframe
输入表格0行有列标题,并要求它将基于文本的日期转换为时间对象:
得到:
是一行代码,数据不能作为json记录可用。
运行下面的代码你将得到一个漂亮的json输出(即使有适当的ISO 8601日期格式):
你甚至可以将数据保存到CSV或XLS文件中:
运行并双击calls.csv在电子表格中打开:
当然,Pandas还可以更简单地对数据进行过滤,分类或处理:
推荐↓↓↓
万水千山总是情,点个 “好看” 行不行
领取专属 10元无门槛券
私享最新 技术干货