首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

爬虫基础教程1–urllib库与使用urllib爬取单个网页

废话不多说,直接进入正题

首先安装python3,把path环境配置好

用win+r运行打开cmd

输入pip install urllib命令回车等待安装urllib库

待安装完成,输入命令python回车,若出现python版本信息,则成功进入ython交互模式

C:\Users\fan>python

Python 3.6.4 |Anaconda, Inc.| (default, Jan 16 2018, 10:22:32) [MSC v.1900 64 bit (AMD64)] on win32

Type “help”, “copyright”, “credits” or “license” for more information.

输入import urllib.request,在该程序中导入urllib.request模块,以使用该模块的相关功能

>>> import urllib.request

>>>

此处timeout值为打开网站超时时间的设定,默认单位为秒,这里设置为10s

接下来爬取该网站的源代码,并将源代码以字符串的形式读取至data1中,输入以下代码实现

data1=file1.read()

此时网站源代码的字符串以byte编码方式储存在data1当中,为将爬取的源代码写入一个网页以html形式存储,我们首先在E:/1/目录创建一个5.html文件并打开该文件,目录与文件名称可自行更改,代码实现如下

fhandle1=open(‘E:/1/5.html’,’wb’)

该行代码创建了一个名为fhandle1的文件对象,代码中的’wb’使得文件以二进制写入的方式打开,以防止出现乱码

之后将之前爬取到的网站源代码数据写入html文件当中,只需对之前创建的fhandle1对象操作即可,代码实现如下

fhandle1.write(data1)

命令行会打印出一个数字,代表其成功写入文件的字符个数

最后,我们通过代码关闭该文件,完成对网站的爬取

fhandle1.close()

现在,我们通过双击该爬取的html,检验爬取的成果如何(本站因服务器带宽较小,请耐心等待网页加载)

爬取结果如下

至此大功告成,一般网站均可通过此方式进行爬取

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180430G02N5300?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券