首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >一分钟爬取知乎5646个知乎回答(内附代码)

一分钟爬取知乎5646个知乎回答(内附代码)

作者头像
行哥玩Python
发布于 2020-07-14 08:19:47
发布于 2020-07-14 08:19:47
4.7K10
代码可运行
举报
文章被收录于专栏:一行数据一行数据
运行总次数:0
代码可运行

不浪费大家时间,先上目录,选择性阅读

  • 1.爬取介绍
  • 2.代码展示
  • 3.结果展示
  • 4.福利分享

批量爬取知乎回答

灵魂拷问

  • 你有多久没读过一本书了?你知道什么书最值得读吗?
  • 你有多久没看过一部电影了?你知道什么电影最值得看吗?

有人说,我知道可以去看豆瓣评分,按照评分高低排序选书,但是往往评分高的书却不容易阅读,比如下图介绍的《量子力学》,评分高达9.6,五星好评,可惜工作时间繁忙阻碍了我与它的交流(不是智商)

《量子力学》评分9.6分

这时我想到了学历平均985,年薪平均百万的知乎平台,这里人才遍地,推荐的书单准没错。于是在知乎里搜索相关书单推荐,但是这些知乎推荐动则上千条回答,不知道认准谁的回答好,要么寥寥无几的回答不一定具有参考性,所以行哥想如果我将知乎里的所有回答爬取下来进行统计,选择大家推荐最多的书籍或电影来升华自己不就实现精准升华了嘛

于是行哥花了0.1秒的时间想到了爬虫,使用10000秒的时间写了代码,爬取了知乎下5646个回答,相当于有5646个年薪百万大佬给我的书单进行投票。获得数据后进行频率排序,图表展示,检查书单前十名哪些已经读过,哪些还没读,看看我与知乎年薪百万的差距还差几本书的距离

no bb show your code

这里是核心代码展示,主要就是将知乎的问题号作为参数传入函数,然后进行批量爬取回答,使用正则表达式将每个回答里包含书名号的书籍名或者电影名提取出来,最后在保存的csv即可。

  • 代码太长,需要完整源码的可以见文末福利分享
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制

def getAnswers(qid):
    # 获取所有书籍和回答数据
    offset = 0
    book_data = {}
    while True:
        qid = qid
        print('Offset =', offset)
        # 知乎api请求
        url = "https://www.zhihu.com/api/v4/questions/{}/answers?include=content&limit=20&offset={}&platform=desktop&sort_by=default".format(
            qid, offset)
        res = requests.get(url, headers=headers)
        res.encoding = 'utf-8'
        data = res.json()
        if len(data['data']) == 0:
            break
        for line in data['data']:
            # 保存回答数据
            content = line['content']
            result = re.findall(r'《(.*?)》', content)
            for name in result:
                book_data[name] = book_data.get(name, 0) + 1
        offset += 20
    # 保存爬取的内容
    for i in book_data.keys():
        new_data = {}
        if i:
            new_data['书籍名称'] = i
            new_data['频率'] = book_data[i]
            pandas_data.append(new_data)
    df2 = pd.DataFrame(pandas_data, columns=['书籍名称', '频率'])
    df2.to_csv("book.csv",encoding="utf_8_sig")

结果展示

5464个回答一共推荐了6434本书,其中《活着》共被推荐了286次。

行哥不禁感叹,这些年薪百万的大佬居然也要考虑跟行哥一样的问题-活着,看来离年薪百万更近一步了啦。不知道你距离年薪百万还差几本书

如果前十的书都看过了,看看这前11-20的书单,这都看过的可以来文末直接查看领取6343本书的书单。这些书经过行哥确认,完全都可以在微信阅读上免费阅读,所以也不用担心找不到pdf版本。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-04-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 一行数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
1 条评论
热度
最新
您好~在data = res.json()这行代码运行时,报错“JSONDecodeError: Expecting value”,怎么办呢?我写的url = "https://www.zhihu.com/people/wang-jia-48-31/answers"
您好~在data = res.json()这行代码运行时,报错“JSONDecodeError: Expecting value”,怎么办呢?我写的url = "https://www.zhihu.com/people/wang-jia-48-31/answers"
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
【安排】23行代码爬取知乎全部回答(内附源码和应用程序)
上个月行哥为了给大家推荐书单,1分钟爬取了知乎5646个回答,并统计出前十名推荐量最高的书单给大家分享,并且为了大家使用方便将该篇推文中的代码转成应用程序给大家使用,但是万万没想到
行哥玩Python
2020/07/14
2.1K0
【安排】23行代码爬取知乎全部回答(内附源码和应用程序)
爬取豆瓣书单100本
唉,今天本来是在学习爬取梨视频的,但是网页又发生了变化,和老师讲的操作又不一样...而且还变难了...我找了很多资料也实在是不会,只好学习一下爬取电影试试。话说每天的学习之路都好坎坷啊,各种卡住。但是这个爬取电影我还没学习,现在去学习一下。
y191024
2022/09/20
4440
爬取豆瓣书单100本
平常人可以漂亮到什么程度?教你爬取知乎大神们的回答一探究竟!
最近呢,可能是因为写了几篇关于爬虫获取美女照片的文章的缘故?总是收到知乎推送这个话题,由于关注才哥颜值得到蹭蹭上涨,现在终于敢点开这个问题,然后一探究竟啦!
可以叫我才哥
2021/08/05
1K0
怎样成为知乎大V?爬取张佳玮138w+知乎关注者:数据可视化
作者:Deserts_X 用python爬虫玩点好玩的;用可视化看见不一样的内容。 个人公众号: 牛衣古柳(ID:Deserts-X) 简书:http://www.jianshu.com/u/105b6cd74e7e 一、前言 作为简书上第一篇文章,先介绍下小背景,即为什么爬知乎第一大V张公子的138w+关注者信息? 其实之前也写过不少小爬虫,按照网上各种教程实例去练手,“不可避免”的爬过妹子图、爬过豆瓣Top250电影等等;也基于自身的想法,在浙大120周年校庆前,听闻北美帝国大厦首次
小小科
2018/05/02
1.3K0
怎样成为知乎大V?爬取张佳玮138w+知乎关注者:数据可视化
多种方法爬取猫眼电影并分析(附代码)
摘要: 作为小白,爬虫可以说是入门python最快和最容易获得成就感的途径。因为初级爬虫的套路相对固定,常见的方法只有几种,比较好上手。选取网页结构较为简单的猫眼top100电影为案例进行练习。 重点是用上述所说的4种方法提取出关键内容。一个问题采用不同的解决方法有助于拓展思维,通过不断练习就能够灵活运用。
Python中文社区
2018/12/11
6.5K0
多种方法爬取猫眼电影并分析(附代码)
Python小练:爬取豆瓣影评,看一部电影到底在讲什么?
Python的强大,可能在于能做好玩的事情,比如知乎上有关python最火的回答,就是分享怎么用python画出世界名画的赶脚。
养码场
2018/08/10
5920
3天破9亿!上万条评论解读《西虹市首富》是否值得一看
作者介绍:徐麟,目前就职于上海唯品会产品技术中心,哥大统计数据狗,从事数据挖掘&分析工作,喜欢用R&Python玩一些不一样的数据
Python技术与生活认知的分享
2018/08/16
4900
3天破9亿!上万条评论解读《西虹市首富》是否值得一看
爬取某东600多本书籍,用数据帮你分析哪些Python书籍值得选择(上)
最近有好几个读者私下问我:刚接触Python、或打算要学习Python,不知道选什么书比较合适,当时只根据自己的Python经验和学习感受,给读者推荐了一些自认为不错的。但是,毕竟一个人接触少,局限性太大,也许还有更多、更好的好书只是我没有接触过。于是就打算实际操作,通过爬虫方式爬取某东上的书籍、通过数据来帮助大家更科学、更合理的选择学习资料。
小小詹同学
2019/11/12
6150
爬取某东600多本书籍,用数据帮你分析哪些Python书籍值得选择(上)
躁动不安的年代,你需要读几本好书(python爬虫及数据分析)
当今社会,速度已经深入人心了,“快”成了大家默认的办事境界,看机器上一件件飞一般传递着的产品,听办公室一族打电话时那种无人能及的语速......休闲的概念已日渐模糊,大家似乎都变成了在“快咒”控制下的小人儿,似乎连腾出点时间来松口气的时间都没有了,看得见的、看不见的规则约束着我们;有形的、无形的的鞭子驱赶着我们,我们马不停蹄追求事业、爱情、地位、财富,似乎自己慢一拍,就会被这个世界抛弃
南山烟雨
2019/05/10
7030
躁动不安的年代,你需要读几本好书(python爬虫及数据分析)
教程 | 一文读懂自学机器学习的误区和陷阱(附学习资料)
写这篇教程的初衷是很多朋友都想了解如何入门/转行机器学习,搭上人工智能这列二十一世纪的快车。文章的宗旨是:1. 指出一些自学的误区 2. 不过多的推荐资料 3. 提供客观可行的学习表 4. 给出进阶学习的建议。
数据派THU
2019/05/14
9850
教程 | 一文读懂自学机器学习的误区和陷阱(附学习资料)
爬取《悲伤逆流成河》猫眼信息 | 郭敬明五年电影最动人之作
知道《悲伤逆流成河》上映还是在qq空间看见学弟发了说说,突然想起初中追小四的书,每天看到晚上10点多,昨天看了枪版的《悲伤逆流成河》,整个故事情节几乎和小说一模一样,当然缩减是避免不了的,最大的不一样的是原著里的易遥是跳楼自杀的,而电影里路遥是在众人的"舌枪唇剑"、幸灾乐祸的眼睛下,带着不甘与怨恨跳河自杀的,最后竟然…我就不剧透了,整部剧大概一个小时四十分钟下来全程无尿点,昨天就是枪版的我都看了两遍…(正打算找人去电影院再看一遍),也是看了第一遍,才让我想写这篇充满技术+情感的文章。
sergiojune
2018/10/23
8290
爬取《悲伤逆流成河》猫眼信息 | 郭敬明五年电影最动人之作
关于Python数据分析,这里有一条高效的学习路径
广泛被应用的数据分析 谷歌的数据分析可以预测一个地区即将爆发的流感,从而进行针对性的预防;淘宝可以根据你浏览和消费的数据进行分析,为你精准推荐商品;口碑极好的网易云音乐,通过其相似性算法,为不同的人量身定制每日歌单…… 数据正在变得越来越常见,小到我们每个人的社交网络、消费信息、运动轨迹……,大到企业的销售、运营数据,产品的生产数据,交通网络数据…… 如何从海量数据中获得别人看不见的知识,如何利用数据来武装营销工作、优化产品、用户调研、支撑决策,数据分析可以将数据的价值最大化。 数据分析人才热度也是高居
Crossin先生
2018/04/17
1.9K0
关于Python数据分析,这里有一条高效的学习路径
千万别再瞎招人了
点击上方“芋道源码”,选择“设为星标” 管她前浪,还是后浪? 能浪的浪,才是好浪! 每天 10:33 更新文章,每天掉亿点点头发... 源码精品专栏 原创 | Java 2021 超神之路,很肝~ 中文详细注释的开源项目 RPC 框架 Dubbo 源码解析 网络应用框架 Netty 源码解析 消息中间件 RocketMQ 源码解析 数据库中间件 Sharding-JDBC 和 MyCAT 源码解析 作业调度中间件 Elastic-Job 源码解析 分布式事务中间件 TCC-Transaction
芋道源码
2022/04/11
5720
千万别再瞎招人了
再见知乎,全网AI文案生成工具大比拼
不过这次 AI 技术的革新,我们每一个普通人都应该深入体验,毕竟当今的各行各业,都已经被 AI 所深深影响。
周萝卜
2023/08/21
7840
再见知乎,全网AI文案生成工具大比拼
从小白到年薪10万+,优秀的数据分析能力如何速成?
广泛被应用的数据分析 谷歌的数据分析可以预测一个地区即将爆发的流感,从而进行针对性的预防;淘宝可以根据你浏览和消费的数据进行分析,为你精准推荐商品;口碑极好的网易云音乐,通过其相似性算法,为不同的人量身定制每日歌单…… 数据正在变得越来越常见,小到我们每个人的社交网络、消费信息、运动轨迹……,大到企业的销售、运营数据,产品的生产数据,交通网络数据…… 如何从海量数据中获得别人看不见的知识,如何利用数据来武装营销工作、优化产品、用户调研、支撑决策,数据分析可以将数据的价值最大化。 数据分析人才热度也是高居
机器学习AI算法工程
2018/03/09
1.3K0
从小白到年薪10万+,优秀的数据分析能力如何速成?
@@知乎提问数据分析推荐书籍的统计分析2022.11.21
1、来源 有哪些你看了以后大呼过瘾的数据分析书? https://www.zhihu.com/question/60241622 做数据分析不得不看的书有哪些? https://www.zhihu.com/question/19640095 2、采集回答 3、清洗:去除空行、去重 4、统计分析 5、两个帖子中都有回答的作者,考虑大V、书商、利益相关者 作者 计数 大数据峰哥 3 Bottle 2 DataCastle数据城堡 2 DataHunter 2 George Li 2 GrowingIO 2
用户7138673
2022/12/19
1.5K0
@@知乎提问数据分析推荐书籍的统计分析2022.11.21
牛逼!Java 从入门到精通,超全汇总版
其实学习 Java 学到什么程度算是精通,这个其实没有盖棺定论的,也不是说你拿个年薪几十万的 offer 就可以自诩精通了。另外,每当面试的时候简历上填个精通 offer 的家伙我就觉得很搞笑,没有几个熬得过开出门左拐的命运。但是我认为,如果市面上这些资料、书籍你都啃的差不多,你能在所有的 Java 程序员中跻身前 0.1% 的话,你就可以达到”精通” 这个阶段了,因为没人比你强了,你当然是精通了。
全栈程序员站长
2022/07/02
2.6K0
牛逼!Java 从入门到精通,超全汇总版
2021 最新的Java 后端学习路线!凎!
断断续续写了大半个月,终于把 2021 最新版的 Java 后端学习路线给整完了!
Guide哥
2021/05/20
4K1
2021 最新的Java 后端学习路线!凎!
写文章不会起标题?爬取虎嗅5万篇文章告诉你
摘要: 不少时候,一篇文章能否得到广泛的传播,除了文章本身实打实的质量以外,一个好的标题也至关重要。本文爬取了虎嗅网建站至今共 5 万条新闻标题内容,助你找到起文章标题的技巧与灵感。同时,分享一些值得关注的文章和作者。
1480
2019/08/05
6500
写文章不会起标题?爬取虎嗅5万篇文章告诉你
【精读】十分钟读完《智能时代》—吴军
“曾经,我们要学习如何操纵机器,掌握机器的语言,向机器靠拢;今天,机器在向人靠拢,试图理解人类、用我们的语言与我们对话。这就是“智能时代”,这个时代的基础是数据,可谓“无数据、不智能”。吴军先生这本书将智能时代的诸多要素娓娓道来,读下来如林中散步,在不知不觉中带领我们去到远方、登上高处,饱览领会了这个新时代的版图和全线的风景。 —— 涂子沛 “《智能时代》这本书展现了吴军博士的真知灼见和前瞻思维,这些都来自于他在大数据和机器智能领域的多年第yi线实践经验。全书对大数据与智能革命带来的思维
钱塘数据
2018/03/05
3.4K0
【精读】十分钟读完《智能时代》—吴军
推荐阅读
相关推荐
【安排】23行代码爬取知乎全部回答(内附源码和应用程序)
更多 >
领券
一站式MCP教程库,解锁AI应用新玩法
涵盖代码开发、场景应用、自动测试全流程,助你从零构建专属AI助手
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验