首页
学习
活动
专区
圈层
工具
发布

python爬虫:爬取猫眼电影数据并存入数据库

开始的时候陷入了一个误区,因为打印出的dd内容是标签元素,然后就想着能不能再把它传进beautifulsoup, 生成一个新的beautifulsoup对象,实际证明不行,因为dd的类型已经是bs4...contents[1].string 看一下上述代码打印的内容 打印dd,会把当前爬取页数的电影html中的所有标签全部获取到 dd的类型 其实通过beautiful获取的html标签数据,都是bs4...在爬取电影分数时,先判断下是否存在包含分数的标签,如果包含,则抓取数据,如果不包含,则直接给出“暂无分数” if isinstance(dd.find('p', class_='score'), bs4...BeautifulSoup(html, 'html.parser') dd = soup.find_all('dd') for t in dd: if isinstance(t, bs4...release_time= t.find('p', class_='releasetime').string if isinstance(t.find('p', class_='score'), bs4

2.9K30
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Python3网络爬虫实战-29、解析库

    soup.title.string) print(soup.head) print(soup.p) 运行结果: The Dormouse's story bs4...接下来输出了它的类型,是 bs4.element.Tag 类型,这是 BeautifulSoup 中的一个重要的数据结构,经过选择器选择之后,选择结果都是这种 Tag 类型,它具有一些属性比如 string...嵌套选择 在上面的例子中我们知道每一个返回结果都是 bs4.element.Tag 类型,它同样可以继续调用节点进行下一步的选择,比如我们获取了 head 节点元素,我们可以继续调用 head 来选取其内部的...(list(soup.a.parents)[0]) print(list(soup.a.parents)[0].attrs['class']) 运行结果: Next Sibling: bs4...零基础,进阶,都欢迎 在这里我们调用了 find_all() 方法,传入了一个 name 参数,参数值为 ul,也就是说我们想要查询所有 ul 节点,返回结果是列表类型,长度为 2,每个元素依然都是 bs4

    2.1K30

    Python3中BeautifulSoup的使用方法

    soup.title.string) print(soup.head) print(soup.p) 运行结果: The Dormouse's story bs4...接下来输出了它的类型,是bs4.element.Tag类型,这是BeautifulSoup中的一个重要的数据结构,经过选择器选择之后,选择结果都是这种Tag类型,它具有一些属性比如string属性,调用...嵌套选择 在上面的例子中我们知道每一个返回结果都是bs4.element.Tag类型,它同样可以继续调用标签进行下一步的选择,比如我们获取了head节点元素,我们可以继续调用head来选取其内部的head...element.Tag'> The Dormouse's story 第一行结果是我们调用了head之后再次调用了title来选择的title节点元素,然后我们紧接着打印输出了它的类型,可以看到它仍然是bs4....element.Tag'> 在这里我们调用了find_all()方法,传入了一个name参数,参数值为ul,也就是说我们想要查询所有ul标签,返回结果是list类型,长度为2,每个元素依然都是bs4.

    3.7K50

    Python3中BeautifulSoup的使用方法

    soup.title.string) print(soup.head) print(soup.p) 运行结果: The Dormouse's story bs4...接下来输出了它的类型,是bs4.element.Tag类型,这是BeautifulSoup中的一个重要的数据结构,经过选择器选择之后,选择结果都是这种Tag类型,它具有一些属性比如string属性,调用...嵌套选择 在上面的例子中我们知道每一个返回结果都是bs4.element.Tag类型,它同样可以继续调用标签进行下一步的选择,比如我们获取了head节点元素,我们可以继续调用head来选取其内部的head...element.Tag'> The Dormouse's story 第一行结果是我们调用了head之后再次调用了title来选择的title节点元素,然后我们紧接着打印输出了它的类型,可以看到它仍然是bs4....element.Tag'> 在这里我们调用了find_all()方法,传入了一个name参数,参数值为ul,也就是说我们想要查询所有ul标签,返回结果是list类型,长度为2,每个元素依然都是bs4.

    4.3K30
    领券