首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python爬虫之评论

專 欄 ❈ 罗罗攀,Python中文社区专栏作者 专栏地址: http://www.jianshu.com/u/9104ebf5e177 ❈ 提交Cookie信息模拟登录 需要登录之后的信息...,大家都是望而止步,不要担心,今天呢,给大家提供一个超级简单的方法,就是提交Cookie信息登录,首先,我们找到某明星的网址:http://m.weibo.cn/u/1732927460 这里是登录的移动端...,你会发现,你点击网址会自动跳转到登录的界面(没有跳转的注销掉自己的账号),如下图所示: ?...异步加载数据如何 我在网上看过移动端的数据很好,没有异步加载,可是不知道为什么,我的评论数据就是异步加载的,其实异步加载不可怕,找到相应js包即可,如下图为某明星的一条和评论的js包。...的数据导入数据库后又导出为csv格式进行分析 词云制作及分析 ? 可以说支持的评论更多一些:例如爱你,喜欢,坚强等等;不过也有不少的恶意评论:黑,恶心,讨厌等。

1.2K60
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    使用Python表情包

    表情包是大家聊天的时候的必备,之前在知乎上取了一些表情包,但是已经用的久了该换新的了,所以我们再通过爬虫技术去一波表情包吧。...本来这个爬虫是想作为讲python异步爬虫的一个例子的,昨天代码写完测试了一下,结果是我账号和ip都直接被封了,然后我去搜了一下别人写的异步爬虫教程,测试用的都是些没啥反措施的小网站。...于是今天改了下代码,就先整个普普通通的小爬虫算了。鉴于之前IP被封,所以这次在在访问的时候我加上了代理。关于选择代理也是让人很烦恼的事,网上的代理太多了,靠谱的太少。...StreamReader(response.GetResponseStream(), Encoding.UTF8)) { string htmlStr = sr.ReadToEnd(); 访问除了像代理和一些反机制需要我们做好以外并没有什么难度...,到此这篇关于Python模拟登录表情包的文章就介绍到这了,大家有哪些意见可以发出来一起交流交流。

    1.1K20

    如何评论

    01 前言 ,想必大家都非常熟悉。人人都可以在上面发表自己的观点。到现在已经成为了官方和明星等“新闻发布”的第一阵地,比如前几天范冰冰宣布和李晨分手,双宋CP宣布离婚,瞬间就爆炸。...主要是因为不同于其他的社交平台,不需要对方关注你或是成为好友,就可以看到所有你想看到的信息和动态。所以,信息量巨大,也为我们数据提供了基础!...数据 是的,今天,我们就来一下的评论,前面已经给大家介绍了很多经典算法,大家对于python基本的内容已经熟悉啦,今天,我们就简单的来学习一下如何数据。 Tip:准备工作 ?...首先,我们需要找到一个待主要是三种界面,分别是网页版、手机端和移动端,我们选取最简单的移动端来练手。 接下来,就开始我们的爬虫了,我们就选取前几天大热的范冰冰的博客吧。...总结 这次我们只介绍了新浪移动端的评论数据(因为这个比较简单....)大家可以用这个方法试着网页端或者手机端的数据哦~我们下期再见!

    2K40

    Python新浪数据快速版

    新浪的数据可是非常有价值的,你可以拿来数据分析、拿来做网站、甚至是*。不过很多人由于技术限制,想要使用的时候只能使用复制粘贴这样的笨方法。...没关系,现在就教大家如何批量的数据,大大加快数据迁移速度!...1、需要先获取cookie, 2、运行爬虫 运行爬虫之前先简单的进行分析,这样的网站反机制都比较严的,最近的风控更严,特别是对IP的需求更高,所以在数据之前需要加上代理池。...爬虫代理的使用之前分享过很多,这里就简单的说下,根据自己的程序设计选择使用api提取模式自己管理IP或者使用隧道转发直接进行数据都可以。这里我们选择使用后者,隧道转发的更适合业务启动和上手也快。

    60800

    python图片数据存到Mysq

    前言   由于硬件等各种原因需要把大概170多万2t左右的图片数据存到Mysql中.之前存数据一直用的非关系型数据库mongodb,由于对Mysql的各种不熟悉,踩了无数坑,来来回回改了3天才完成...挖坑填坑之旅 建表 存数据的时候首先需要设计数据库,我准备设计了3个表 表:[id, userid, blog_text, lat, lng, created_time, reserve]   pkey...pic_url, pic_bin, exif, reserve]   pkey: md5 关系表:[id, md5, reserve]   pkey: (id, md5)   fkey: (id, 表...建表的时候别的问题都还好,主要是 pic_bin 的类型和 blog_text 的类型有很大的问题,首先是pic_bin的类型,开始设置的为BLOB,但是运行之后发现BLOB最大只能存1M的数据,并不能满足图片的存储...get_info.content) info_json['uid'] = uid statuses = info_json['statuses'] # 处理筛选数据

    1.1K30

    Python新浪用户信息及内容

    新浪作为新时代火爆的新媒体社交平台,拥有许多用户行为及商户数据,因此需要研究人员都想要得到新浪数据,But新浪数据量极大,获取的最好方法无疑就是使用Python爬虫来得到。...网上有一些关于使用Python爬虫来新浪数据的教程,但是完整的介绍以及取用户所有数据信息比较少,因此这里分享一篇主要通过selenium包来新浪用户数据的文章。...目标 新浪用户数据,包括以下字段:id,昵称,粉丝数,关注数,数,每一篇的内容,转发数,评论数,点赞数,发布时间,来源,以及是原创还是转发。...新浪的网址分为网页端和手机端两个,大部分数据都会选择手机端,因为对比起来,手机端基本上包括了所有你要的数据,并且手机端相对于PC端是轻量级的。...3.获取用户页码 在登录之后可以进入想要的商户信息,因为每个商户的量不一样,因此对应的页码也不一样,这里首先将商户的页码爬下来。

    1.3K20

    知乎热榜

    百度有风云榜,搜狗有搜狗指数,有热搜,这些榜单都是社会当前关注的热点。今天我们就来实战一下热榜并进行定时更新。...热搜 首先,我们对热搜进行,直接打开热搜页面,并查看其网页源代码。 ?...我们可以看到每一个热搜以及对应的 href 链接都整齐的放在标签之下,我们可以选择用 BeautifulSoup 库也就是美丽汤,也可以选择使用 XPath 来进行简单的。 ?...定时 说到定时任务,我们可能会想起 Linux 中自带的 crontab ,windows 自带的任务计划,这些都可以实现定时运行程序的任务。...More 这里只叙述了数据的部分。 GitHub上有个成熟的项目,是用Go语言编写的:今日热榜,一个获取各大热门网站热门头条的聚合网站。 ? 摸鱼必备,传送门左下角。

    1.8K20

    Python实现单文本、图片及热评

    看网上一些微爬虫,都是针对很早之前的版本,而且内容不全面,比如长不能完整、图片没有或没有分类,已经不适用于对当下版本内容的完整取了。...本例主要基于Python3.6.2版本,能够实现对于单内容的完整、编号整理和本地保存。...环境介绍 Python3.6.2/Windows-7-64位/移动端 实现目标 将上你感兴趣的(全部或过滤非原创等)内容获取,包括文本、图片和热评,文本和热评按编号存入txt文件中...过程 ? 结果 ? 文件夹中为对应图片,txt文档中为文本、评论内容。 以“博物杂志”第3条为例,原内容如下: ? Txt文本中文本和评论如下: ?...uid,需要页数,本地保存路径

    1.3K20

    Python 3.6实现单文本、图片及热评

    看网上一些微爬虫,都是针对很早之前的版本,而且内容不全面,比如长不能完整、图片没有或没有分类,已经不适用于对当下版本内容的完整取了。...本例主要基于Python3.6.2版本,能够实现对于单内容的完整、编号整理和本地保存。...环境介绍 Python3.6.2/Windows-7-64位/移动端 实现目标 将上你感兴趣的(全部或过滤非原创等)内容获取,包括文本、图片和热评,文本和热评按编号存入txt文件中...准备工作 一般来说同一网站,PC站的信息较为全面,但不易,而移动端则相对来说比较简单,因此本例中选取移动端站点m.weibo.com作为入口来进行。...过程 ? 结果 ? 文件夹中为对应图片,txt文档中为文本、评论内容。 以“博物杂志”第3条为例,原内容如下: ? Txt文本中文本和评论如下: ?

    1.7K70

    基于Java数据(一) 主页正文列表数据

    爬虫背景最近有这方面的需求,于是就研究了一下通过Java数据,由于本人是后端Java开发,因此没有研究其他数据的方法,比如通过Python数据。...大家感兴趣的可以自行查找基于Python数据的方法。...在数据之前,先声明一下,本人数据仅用于测试Java数据的可行性,并不会用于其他非正当地方,另外,的数据也都是每个人都可以通过博客户端正常看到的,不存在隐秘数据的情况。...爬虫分析在进行爬虫操作之前,我们先来看一下博客户端的页面结构,以及对应的请求链接,数据响应情况等,方便为后续数据做准备。...,整个代码逻辑比较清晰,后续对于取到的数据的处理可以根据具体的业务需求。

    23310

    用户所有文章的爬虫

    上发布的内容有的短文本+图片(也就是),还有视频,文章等形式,取用户可以使用之前的源代码文章:一个取用户所有的爬虫,还能断网续那种 本次分享的是如何取用户的所有文章。...下面以【共青团中央】为 target,抓取该账号发布的所有文章,大部分都是深度好文,值得保存起来细细品读。...params = { 'uid': '1516153080', 'page': '1', 'feature': '10', } 其实上面一个爬虫的流程就完成...保存数据时,一定要针对一些异常情况作处理,比如由于断网了,了几十万条数据在内存中没有持久化保存到文件中而丢失,这可就大亏特亏了,建议在执行具体的 requests 请求时加个 try...except...数量多的时候,可以考虑每翻 N 页面保存一次,不过文章数量一般比少多个,可以直接完保存,具体情况具体分析。

    2.6K41

    基于Java数据(三) 主页用户数据

    上一篇文章简单讲述了基于Java数据(二),那么这篇将讲述如何基于 Java 主页用户数据。...数据分析在开始主页用户数据之前,我们先对之前基于Java数据(一)中的主页正文列表数据进行分析,看是否可以从中获取到主页用户数据。...首先还是按照基于Java数据(一)中的方式获取主页正文列表数据内容这样操作的目的主要是为了验证你代码中的登录信息cookies是否已经过期,防止误导后面主页用户数据时不到的原因分析。..."); }}那么到这里,基于Java 用户主页数据的任务就实现了,后续还会继续讲解获取正文内容图片、视频等相关内容,敬请关注。...写在最后本篇文只是讲解了如何主页用户数据相关内容,并没有继续讲解其他内容,这样主要是为了保证文篇幅不是太长,方便大家阅读。注意点老规矩,最后说一下注意点。

    20320

    10分钟教你用Python评论

    01 前言 ,想必大家都非常熟悉。人人都可以在上面发表自己的观点。到现在已经成为了官方和明星等“新闻发布”的第一阵地,比如前几天范冰冰宣布和李晨分手,双宋CP宣布离婚,瞬间就爆炸。...主要是因为不同于其他的社交平台,不需要对方关注你或是成为好友,就可以看到所有你想看到的信息和动态。所以,信息量巨大,也为我们数据提供了基础!...数据 是的,今天,我们就来一下的评论,前面已经给大家介绍了很多经典算法,大家对于python基本的内容已经熟悉啦,今天,我们就简单的来学习一下如何数据。 Tip:准备工作 ?...首先,我们需要找到一个待主要是三种界面,分别是网页版、手机端和移动端,我们选取最简单的移动端来练手。 接下来,就开始我们的爬虫了,我们就选取前几天大热的范冰冰的博客吧。...总结 这次我们只介绍了新浪移动端的评论数据(因为这个比较简单....)大家可以用这个方法试着网页端或者手机端的数据哦~我们下期再见!

    6.9K50
    领券