首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

python高效爬取百度,豆瓣信息

补充知识:正文前我们先看看python的几大优点吧

作为初学python的科班出身的小白,python非常简单,非常适合人类阅读。阅读一个良好的Python程序就感觉像是在读英语一样,尽管这个英语的要求非常严格!Python的这种伪代码本质是它最大的优点之一。它使你能够专注于解决问题而不是去搞明白语言本身。

易学。python虽然是用c语言写的,但是它摈弃了c中非常复杂的指针,简化了python的语法。

Python是FLOSS(自由/开放源码软件)之一。简单地说,你可以自由地发布这个软件的拷贝、阅读它的源代码、对它做改动、把它的一部分用于新的自由软件中。Python希望看到一个更加优秀的人创造并经常改进

可移植性————由于它的开源本质,Python已经被移植在许多平台上(经过改动使它能够工作在不同平台上)。如果你小心地避免使用依赖于系统的特性,那么你的所有Python程序无需修改就可以在下述任何平台上面运行。这些平台包括Linux、Windows、FreeBSD、Macintosh、Solaris、OS/2、Amiga、AROS、AS/400、BeOS、OS/390、z/OS、Palm OS、QNX、VMS、Psion、Acom RISC OS、VxWorks、PlayStation、Sharp Zaurus、Windows CE甚至还有PocketPC、Symbian以及Google基于linux开发的Android平台!

在计算机内部,Python解释器把源代码转换成称为字节码的中间形式,然后再把它翻译成计算机使用的机器语言并运行。事实上,由于你不再需要担心如何编译程序,如何确保连接转载正确的库等等,所有这一切使得使用Python更加简单。由于你只需要把你的Python程序拷贝到另外一台计算机上,它就可以工作了,这也使得你的Python程序更加易于移植。

Python既支持面向过程的函数编程也支持面向对象的抽象编程。在面向过程的语言中,程序是由过程或仅仅是可重用代码的函数构建起来的。在面向对象的语言中,程序是由数据和功能组合而成的对象构建起来的。与其他主要的语言如C++和Java相比,Python以一种非常强大又简单的方式实现面向对象编程。

可扩展性和可嵌入性。如果你需要你的一段关键代码运行得更快或者希望某些算法不公开,你可以把你的部分程序用C或C++编写,然后在你的Python程序中使用它们。你可以把Python嵌入你的C/C++程序,从而向你的程序用户提供脚本功能。

丰富的库。Python标准库确实很庞大。python有可定义的第三方库可以使用。它可以帮助你处理各种工作,包括正则表达式、文档生成、单元测试、线程、数据库、网页浏览器、CGI、FTP、电子邮件、XML、XML-RPC、HTML、WAV文件、密码系统、GUI(图形用户界面)、Tk和其他与系统有关的操作。记住,只要安装了Python,所有这些功能都是可用的。这被称作Python的“功能齐全”理念。除了标准库以外,还有许多其他高质量的库,如wxPython、Twisted和Python图像库等等。

Python确实是一种十分精彩又强大的语言。它合理地结合了高性能与使得编写程序简单有趣的特色。

规范的代码。Python采用强制缩进的方式使得代码具有极佳的可读性。

python的高效是肉眼可见的:

例一:下载百度首页信息

import requests

data = requests.get('https://www.baidu.com/')

data.encoding='utf-8'

print(data.text)

第二节:Requsts+Xpath 爬取豆瓣电影

1.爬取单个元素信息

import requests

from lxml import etree

url = 'https://movie.douban.com/subject/1292052/'

data = requests.get(url).text

s=etree.HTML(data)

file=s.xpath('//*[@id="content"]/h1/span[1]/text()')

print(file)

2.爬取多个元素信息

import requests

from lxml import etree

url = 'https://movie.douban.com/subject/1292052/'

data = requests.get(url).text

s=etree.HTML(data)

film=s.xpath('//*[@id="content"]/h1/span[1]/text()')

director=s.xpath('//*[@id="info"]/span[1]/span[2]/a/text()')

actor=s.xpath('//*[@id="info"]/span[3]/span[2]/a/text()')

time=s.xpath('//*[@id="info"]/span[13]/text()')

print('电影名称:',film)

print('导演:',director)

print('主演:',actor)

print('片长:',time)

第四节:爬取豆瓣图书TOP250信息

from lxml import etree

import requests

import time

for a in range(10):

url = 'https://book.douban.com/top250?start={}'.format(a*25)

data = requests.get(url).text

s=etree.HTML(data)

file=s.xpath('//*[@id="content"]/div/div[1]/div/table')

time.sleep(3)

for div in file:

if len(scrible) > 0:

print("{},{},{},{},{}\n".format(title,href,score,num,scrible[0]))

else:

print("{},{},{},{}\n".format(title,href,score,num))

第五节:爬取豆瓣分类电影信息,解决动态加载页面

import requests

import json

import time

for a in range(3):

url_visit = 'https://movie.douban.com/j/new_search_subjects?sort=T&range=0,10&tags=&start={}'.format(a*20)

file = requests.get(url_visit).json() #这里跟之前的不一样,因为返回的是 json 文件

time.sleep(2)

for i in range(20):

dict=file['data'][i] #取出字典中 'data' 下第 [i] 部电影的信息

urlname=dict['url']

title=dict['title']

rate=dict['rate']

cast=dict['casts']

print('{} {} {} {}\n'.format(title,rate,' '.join(cast),urlname))

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180104A0X8T900?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券