腾讯云

文章/答案/技术大牛

发布

社区首页 >问答首页 >网络抓取一个完整的网站熊猫字云

问网络抓取一个完整的网站熊猫字云
EN

Stack Overflow用户

提问于 2019-11-20 18:39:59

回答 1查看 161关注 0票数 0

我正在尝试创建一个基于特定网站的刮除的文本的from云。我遇到的问题是网络抓取部分。我尝试了两种不同的方法，而这两种尝试都被困在了如何继续前进的道路上。

第一种方法：将每个特定标记的数据刮到自己的数据帧中。

main_content= soup.find("div", attrs= {"class" : "col-md-4"})
main_content2= soup.find("article", attrs= {"class" : "col-lg-7 mid_info"})
comp_service= soup.find("div", attrs= {"class" : "col-md-6 col-lg-4"})

在这里，我被困在如何将三个数据文件添加到一起，以便创建单词云。如果我只使用其中一个DF并将其添加到'lists‘中，这会很好，但我不知道如何将其他两个添加到一个DF中，然后运行其余的代码。以下是“云药剂”一词的其余代码：

str = ""
for list in lists:
    info= list.text
    str+=info

mask = np.array(Image.open("Desktop/big.png"))
color= ImageColorGenerator(mask)
wordcloud = WordCloud(width=1200, height=1000, 
                      max_words=400,mask=mask, 
                      stopwords=STOPWORDS, 
                      background_color="white",
                      random_state=42).generate(str)

plt.imshow(wordcloud.recolor(color_func=color),interpolation="bilinear")
plt.axis("off")
plt.show()

我找到了一段代码，它可以从特定的标记中提取所有数据，并将其放入文本中。

i = 0
for lists in soup.find_all(['article','div']):
    print (lists.text)

但是，当我试图运行其余代码时，

mask = np.array(Image.open("Desktop/big.png"))
color= ImageColorGenerator(mask)

wordcloud = WordCloud(width=1200, height=1000, 
                      max_words=400,mask=mask, 
                      stopwords=STOPWORDS, 
                      background_color="white",
                      random_state=42).generate(str)

plt.imshow(wordcloud.recolor(color_func=color),interpolation="bilinear")
plt.axis("off")
plt.show()

我得到'ValueError:我们至少需要一个词来绘制一个字云，得到0‘运行wordcloud代码之后。

实际上，我只是试图从一个网站中提取所有的数据，将这些信息存储到一个文本文件中，然后将这些数据转换成一个字云。

请让我知道任何建议或澄清，我可以提供。

谢谢。

python

pandas

web-scraping

jupyter-notebook

word-cloud

回答 1

Stack Overflow用户

发布于 2019-11-21 11:19:48

最后这件事为我工作

lists = soup.find_all(['article','div'])
str = ""
for list in lists:
    info= list.text
    str+=info

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/58966448

复制

Python爬虫抓取网站模板的完整版实现

爬虫 python xslt & xpath 网站

下面分享下抓去网站模板的完整版实现，亲测可用。（注：仅限个人爱好者研究使用，不要用于其他非法用途。）

杨永贞

2022/10/04

1.6K0

网页抓取 - 完整指南

爬虫网站数据挖掘 api html

Web Scraping，也称为数据提取或数据抓取，是从网站或其他来源以文本、图像、视频、链接等形式提取或收集数据的过程。

海拥

2023/02/26

3.6K0

网站抓取频率是什么，如何提高网站抓取的频率?

php 网站搜索引擎 seo 爬虫

网站抓取频率是什么，如何提高网站抓取的频率? 每天都有数以万计的URL被搜索引擎爬行、抓取。这些URL透过相互链接，构成了我们现存的互联网关系。它在SEO日常工作中，扮演着重要的角色，并且给网站优化，

开心分享

2020/08/06

1.6K0

网站抓取频率是什么，如何提高网站抓取的频率?

php 网站搜索引擎 seo 爬虫

小唐同学.

2022/02/23

2.4K0

PHP登入网站抓取并且抓取数据

php 命令行工具 jar 网络安全 http

有时候需要登入网站，然后去抓取一些有用的信息，人工做的话，太累了。有的人可以很快的做到登入，但是需要在登入后再去访问其他页面始终都访问不了，因为他们没有带Cookie进去而被当做是两次会话。下面看看代码

超级小可爱

2023/02/20

1.7K0

如何用PHP开发一个完整网站？

linux windows unix 网站建设 https

作为世界上最好的语言PHP，在2018年发展依然一路凯歌。PHP语言受到众多企业家们的喜爱。众所周知，PHP技术主要用于一个网站的后台开发。那么如何用PHP开发一个完整的网站呢?本文小编与你们分享PH

主机优惠教程

2018/11/27

3.4K0

利用Python网络爬虫抓取网易云音乐歌词

php api 正则表达式 json

本文以民谣歌神赵雷为数据采集对象，专门采集他的歌曲歌词，其他歌手的歌词采集方式可以类推，下图展示的是《成都》歌词。

前端皮皮

2020/11/26

1.3K0

PHP远程抓取网站图片

php

PHP远程抓取网站图片并保存在文件中，虽然是原生PHP写的，但也值得一看（用yii2.0.15.1的时候实践过）

友儿

2022/09/11

4K0

使用puppeteer抓取网站数据

爬虫

记一下使用puppeteer抓取开源中国上的推荐软件数据 1.安装 npm install puppeteer 2.引入 const puppeteer = require('puppeteer'); 3.抓取代码 const sleep = time => new Promise(resolve => { setTimeout(resolve, time); }) const url = `https://h5.oschina.net`; ;(async () => { consol

薛定喵君

2019/11/06

2.3K0

使用puppeteer抓取受限网站

安全 java

不要相信前端是安全的，今天简单验证一下（但是希望大家支持正版，支持原作者，毕竟写书不易）。

Jerremy

2018/05/03

3.1K0

Java编写一个简单的网易云音乐评论的抓取

java github https

代码的github地址 https://github.com/20100507/emotional_analysis 希望不要往死里抓啊~~~ 下面就是程序采集中的截图，我采用的forkjoin框架四

IT架构圈

2018/06/01

1.2K0

网络抓取与网络爬取的区别

爬虫

网络抓取，从其自身的含义到在商业领域使用的各种情况，以及未来商业领域的无限潜能来看，都相对复杂。当然，还有另一个常见的术语——网络爬取。可能别人会说两种说法意义相同，但其实还是有细微差别的，今天我们就来了解一下网络抓取与网络爬取之间的区别。在深入了解之前，这里先做一个简短的总结：

用户7850017

2021/01/21

1.7K0

网站完整的 SEO 优化方案 ?

网站腾讯云开发者社区数据分析

青梅煮码

2023/01/16

6400

抓取视频网站的流媒体数据

实时音视频

打开VLC，点击媒体 -> 打开网络串流，添加网络流媒体链接： rtsp://wowzaec2demo.streamlock.net/vod/mp4:BigBuckBunny_115k.mp4

AnieaLanie

2021/12/30

3.5K0

网站抓取引子 - 获得网页中的表格

r 语言爬虫

爬虫是都不陌生的一个概念，比如百度、谷歌都有自己的爬虫工具去抓取网站、分析、索引，方便我们的查询使用。在我们浏览网站、查询信息时，如果想做一些批量的处理，也可以去分析网站的结构、抓取网页、提取信息，然后就完成了一个小爬虫的写作。网页爬虫需要我们了解URL的结构、HTML语法特征和结构，以及使用合适的抓取、解析工具。我们这篇先看一个简单的处理，给一个直观的感受：一个函数抓取网页的表格。以后再慢慢解析如何更加定制的获取信息。 HMDB (人类代谢组数据库)收录了很多代谢组的数据，用于代谢组学、临床化学、生物

生信宝典

2018/02/05

3.1K0

使用 Python/Selenium 抓取网站的 Power BI dashboard

python selenium python爬虫网络爬虫网页爬虫

Power BI可以帮助用户从不同来源的数据中提取信息，生成交互式报表和可视化仪表盘。Power BI dashboard是Power BI的一个重要组成部分，它可以将来自多个数据源的数据整合到一个面板上，为用户提供全面的数据洞察。通过Power BI dashboard，用户可以方便地查看关键指标的实时数据、分析趋势变化和发现隐藏在数据中的模式和趋势。Power BI dashboard还具有高度的可定制性，用户可以自定义视觉效果、添加交互式过滤器和动态控件，使得数据分析更加直观和生动。同时，Power BI dashboard还支持实时数据更新和与其他应用程序的无缝集成，为用户提供了更便捷、高效和灵活的数据分析体验。

jackcode

2023/05/10

9320

使用 Python/Selenium 抓取网站的 Power BI dashboard

资源君带你抓取网站数据

java 爬虫 html api css

这是公众号Java模板（跟资源君一起学Java）的第一篇推文，资源君创建这个模板也是为了监督自己不断的学习，并且不断的跟大家一起分享编程当中的一些好玩的东西。我也希望通过这个模板，大家一起进步！Java和python两个模板大概一周会推出两篇文章左右，因为资源君平时也没有太多的时间，所以请各位见谅了！

Python进击者

2019/09/17

1K0

Oxylabs线上直播：网站抓取演示

网站 python selenium api json

很多公司如今都在寻找可靠的方法来整合全球情报，以制定新战略和明智的业务决策。此类数据是寻求在搜索引擎结果第一页上排名前列的电子商务平台、旅行票务平台或其它有此类想法公司的驱动力。

用户7850017

2021/06/04

1.2K0

Python爬虫抓取网络照片

python 爬虫百度程序网络

本节编写一个快速下载照片的程序，通过百度图片下载您想要的前 60 张图片，并将其保存至相应的目录。本节实战案例是上一节《Python Request库安装和使用》图片下载案例的延伸。

用户10002156

2023/08/11

2990

点击加载更多

相似问题

使用R进行网络抓取-未加载完整的网站数据

123

Wordpress网站的网络抓取

利用熊猫进行网络抓取

网络抓取基于javascript的网站

抓取并刮起一个完整的有刮痕的网站

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

问网络抓取一个完整的网站熊猫字云
EN

回答 1

Stack Overflow用户

使用R进行网络抓取-未加载完整的网站数据

Wordpress网站的网络抓取

利用熊猫进行网络抓取

网络抓取基于javascript的网站

抓取并刮起一个完整的有刮痕的网站

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问网络抓取一个完整的网站熊猫字云EN

回答 1

Stack Overflow用户

使用R进行网络抓取-未加载完整的网站数据

Wordpress网站的网络抓取

利用熊猫进行网络抓取

网络抓取基于javascript的网站

抓取并刮起一个完整的有刮痕的网站

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问网络抓取一个完整的网站熊猫字云
EN