首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Java豆瓣电影爬虫——抓取电影详情和电影短评数据

一直想做个这样的爬虫:定制自己的种子,爬取想要的数据,做点力所能及的小分析。正好,这段时间宝宝出生,一边陪宝宝和宝妈,一边把自己做的这个豆瓣电影爬虫的数据采集部分跑起来。...动机   采集豆瓣电影数据包括电影详情页数据和电影的短评数据。   电影详情页如下图所示   需要保存这些详情字段如导演、编剧、演员等还有图中右下方的标签。   ...使用的技术   语言:Java(语言是一门工具,网上用python,java,nodejs比较多)   数据库:Mysql(轻便易用)   解析页面:Jsoup(比较熟悉httpparser...Java豆瓣电影爬虫——使用Word2Vec分析电影短评数据 Java豆瓣电影爬虫——小爬虫成长记(附源码)   程序爬取控制在豆瓣可接受范围内,不会给豆瓣服务器带来很大的压力,写此程序也是个人把玩...,绝无恶意,万望豆瓣君谅解^_^ 如果您觉得阅读本文对您有帮助,请点一下“推荐”按钮,您的“推荐”将是我最大的写作动力!

2.4K90

Java豆瓣电影爬虫——小爬虫成长记(附源码)

以前也用过爬虫,比如使用nutch爬取指定种子,基于爬到的数据做搜索,还大致看过一些源码。当然,nutch对于爬虫考虑的是十分全面和细致的。...正好这次借助梳理Spring MVC的机会,想自己弄个小爬虫,简单没关系,有些小bug也无所谓,我需要的只是一个能针对某个种子网站能爬取我想要的信息就可以了。...语言:Java   Jar包管理:Maven   版本管理:Git 目录结构 ?   ...其中   com.ansj.vec是Word2Vec算法的Java版本实现   com.jackie.crawler.doubanmovie是爬虫实现模块,其中又包括 ?   ...我看了下上面Matcher类的源码 package java.util.regex; import java.util.Objects; public final class Matcher implements

1.3K110
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Java豆瓣电影爬虫——使用Word2Vec分析电影短评数据

    在上篇实现了电影详情和短评数据的抓取。到目前为止,已经抓了2000多部电影电视以及20000多的短评数据。   数据本身没有规律和价值,需要通过分析提炼成知识才有意义。...抱着试试玩的想法,准备做一个有关情感分析方面的统计,看看这些评论里面的小伙伴都抱着什么态度来看待自己看过的电影,怀着何种心情写下的短评。   ...获取数据(这里是豆瓣电影短评数据)     2. 数据处理(将短评数据使用分词器分词,并以空格连接分词结果)     3....,2万多条,对应的大概是2000多部的电影,一部电影抓的短评数在10条左右。...; import java.io.IOException; import java.util.HashMap; import java.util.List; import java.util.logging.Filter

    1.6K91

    爬虫篇| 爬取豆瓣电影(二)

    明确目标 爬取的是豆瓣电影,并保存到csv格式中 爬取豆瓣是非常的简单,因为没有任何反爬的机制 https://movie.douban.com/explore ? 分析网站 ?...rate+ ',' + title + ',' + url + ',' +cover + '\n') if __name__ == '__main__': name = input('爬什么电影...,在[热门 最新 经典 可播放 豆瓣高分 冷门佳片 华语 欧美 韩国 日本 动作 喜剧 爱情 科幻 悬疑 恐怖 治愈]中选') num = input('要爬几页{...}电影'.format(name)) if name == '最新': sort = 2 else: sort = input('按照什么排序[1:按热度排序...总结 如何构造json的url来不断的遍历 保存数据,个人认为不需要使用csv内置的模块 至此爬虫已经入门了,接下来的文章会详细讲解爬虫有关知识并不断提高难度

    1.1K70

    爬虫实战-豆瓣电影Top250

    摘要 本文通过requests和re库实现了豆瓣电影top250的爬取。 首先是对书上案例进行学习,了解如何定位网站中我们需要的信息,并使用re提供的正则表达式匹配我们的信息。...然后为了加快爬虫速度,我们使用了多进程multiprocessing。最后进入实战,对真实的网站进行爬取。在实战中,我们遇到了一些新问题,需要处理网站的反爬虫机制。...书上案例 《Python3 网络爬虫开发实战》(第二版)作者崔庆才搭建的平台Scrape Center。对爬虫感兴趣的可以看一看。 我们进入第一个案例Scrape | Movie。...网站分析 在使用代码爬取前,我们需要分析网站是怎么放置电影信息的: 这里我们先对作者搭建的一个网站进行爬取(学会后我们再对真实的豆瓣爬取): 进入网址https://ssr1.scrape.center...此外,豆瓣有反爬虫机制,需要给response加上浏览器头 headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit

    60530

    python爬虫获取豆瓣电影TOP250

    同样本篇博客,小菌将继续分享实用的爬虫—获取豆瓣电影Top250的内容,并保存在MySQL数据库中。...关于豆瓣电影在百度百科上的描述,如下: 豆瓣电影提供最新的电影介绍及评论包括上映影片的影讯查询及购票服务。你可以记录想看、在看和看过的电影电视剧,顺便打分、写影评。...(5)第23~44行定义了获取电影信息的函数,通过Xpath语法和正则表达式方法来获取爬虫信息, 最后存储在了MySql数据库中。...声明: 在爬虫过程中,出现了IndexError的错误,这是因为有些电影的链接已经不存在了,这里通过try()函数来处理异常,以使爬虫程序继续运行而不报错!...可以看见我们的数据库中,存储着豆瓣电影Top250的数据,说明我们的爬虫程序成功了!那本次的分享也就到这里了,学到了的小伙伴们不要忘了点赞并关注小菌吖~点赞加关注,小白不迷路ヾ(๑╹◡╹)ノ"

    91810

    scrapy爬虫框架教程(二)-- 爬取豆瓣电影

    这次我会以爬取豆瓣电影TOP250为例进一步为大家讲解一个完整爬虫的流程。...工具和环境 语言:python 2.7 IDE: Pycharm 浏览器:Chrome 爬虫框架:Scrapy 1.2.1 教程正文 观察页面结构 首先我们打开豆瓣电影TOP250的页面 ?...通过观察页面决定让我们的爬虫获取每一部电影的排名、电影名称、评分和评分的人数。 声明Item 什么是Items呢?...首先我们在chrome浏览器里进入豆瓣电影TOP250页面并按F12打开开发者工具。 ?...这是因为豆瓣爬虫设了一个小小的门槛,我们只需要更改一下发送请求时的请求头user-agent即可。 item 更改后的代码是不是觉得有些地方不太一样了?start_urls怎么不见了?

    97410

    从抓取豆瓣电影聊高性能爬虫思路

    本篇文章将以抓取豆瓣电影信息为例来一步步介绍开发一个高性能爬虫的常见思路。 寻找数据地址 爬虫的第一步,首先我们要找到获取数据的地址。可以先到豆瓣电影 首页 去看看。...顶部导航为提供了很多种类型的入口,其中和电影有关的有:排行榜、选电影和分类。为了便于后续更精细的分析,这里选择进入分类页面,地址。...sort=U&range=0,10&tags=&start=0 注意:如果有朋友熟悉前端并装有vue浏览器插件,就会发现豆瓣电影站点是vue开发的。...这里使用python的asyncio来帮助我们提升高爬虫性能。我们来看实现代码吧。 此处要说明一个问题,因为豆瓣用下拉的方式获取数据,正如上面介绍的那样,这是一种不需要提供数据总数的就可以分页的方式。...文档中实现的一个高并发爬虫

    88040

    爬虫实战-手把手教你爬豆瓣电影

    作者:小一 全文共4974字,阅读全文需18分钟 Python版本3.8.0,开发工具:Pycharm 写在前面的话 目前为止,你应该已经了解爬虫的三个基本小节: 爬虫的原理和流程 爬虫的两种实现方式...另外,虽然说是第一篇爬虫文章,但我还是会对爬虫的结果进行数据分析。对于项目而言比较简单,目的是让大家了解整个分析的过程。 记住一点:爬虫永远不是我们的终点,最多算是我们数据分析之路的踏板。...源码获取方式在文末 正文 明确需求 我们今天要爬的数据是豆瓣电影Top250,是的,只有250条数据,你没猜错。...相比这个详细内容,更是多了每个星级的影评占比,那我们肯定选择它了啊 好,那理一下我们的思路 首先,进入豆瓣电影Top250,一共10页,每页25个影片。...写在后面的话 今天的实战项目就结束了,需要源代码的同学可以在公众号后台回复 “豆瓣电影” 获取,如果觉得小一哥讲的还不错的话,不妨点个赞? 开篇已经提到,我们的目的不是爬数据。

    92820

    Python爬虫 爬取豆瓣电影Top250信息

    start={}&filter=”.format(x * 25) for x in range(10) 二、多线程爬取电影封面图 单线程版 import requests from lxml import...电影名称 xpath定位提取 得到的是列表 src = html.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[1]/a/img...:{}s".format(delta)) 单线程抓取250张电影封面图所用时间: 多线程版 import requests from lxml import etree import datetime...:{}s".format(delta)) 多线程抓取250张电影封面图所用时间: 程序成功运行,250张电影封面图保存到了本地文件夹,通过比较,开多线程抓取电影封面图,抓取效率有明显提高。...start={}&filter=".format(i * 25) for i in range(10)] get_movie(url_list) 程序成功运行,豆瓣电影Top250榜单上电影的基本信息保存到了本地

    2.8K40

    豆瓣电影api系列

    豆瓣电影api 1、获取正在热映的电影: 接口:https://api.douban.com/v2/movie/in_theaters?...title string 值为 “正在上映的电影-广州” subjects 是电影列表,是一个 json 数组,里面存的是具体的电影信息,电影信息的格式为: key 类型 描述 rating json...对象 评分信息 genres json数组 电影类型 title string 电影名中文名 casts json数组 主演列表 collect_count int 观看人数 original_title...string 电影原名 subtype string 数据类型 directors json数组 导演列表 year int 上映年份 images json对象 存放各种大小的电影图 alt string...apikey=0b2bdeda43b5688921839c8ecb20399b 访问参数: 电影id 如:电影《神秘巨星》的电影id为:26942674,搜索此电影的详细信息: https://api.douban.com

    3.1K30
    领券