腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
网页
抓取
代码
不适
用于
url
/
请
帮助
修改
代码
、
、
[] self.country = [] }
浏览 16
提问于2021-05-12
得票数 0
2
回答
在XPATH中使用XHTML文档的名称空间是必需的吗
、
、
、
、
我正在
抓取
一些
网页
的一些特定部分的
网页
。我使用php,curl和xpath来获取页面的一部分。但是人们建议我应该使用XHTML文档的namespaces才能使XPATHs工作。实际上,我正在使用Tidy将
网页
转换为XHTML。我真的需要名称空间吗?如果需要,在哪种情况下需要,因为在从wikipedia中
抓取
内容时,相同的
代码
without namespaces工作得很好。此外,即使在
修改
我的php
代码
以包含namespaces之后,该
代码</e
浏览 0
提问于2011-05-31
得票数 0
回答已采纳
1
回答
更改Joomla!2.5文章中的日期格式
、
、
、
2.5的
网页
上“文章发布日期”的格式。我根据一篇文章对
代码
做了一些
修改
:,但它
不适
用于
2.5版本。
请
帮帮我!
浏览 4
提问于2012-07-12
得票数 1
1
回答
scraperjs : web
抓取
代码
不起作用
、
、
我基本上是在写一个小的
网页
抓取
代码
。最初我使用NodeJS+Request+Cheerio来
抓取
网站,但后来我意识到Cheerio只适
用于
静态
网页
,而
不适
用于
那些使用JS加载DOM对象的
网页
。我已经设置了这里指定的所有依赖项:
代码</em
浏览 1
提问于2017-08-08
得票数 0
1
回答
如何修复UseMethod(“xml_find_all”)中R 'Error (“xml_find_all”)中的跟踪错误?
、
、
我是新的R,目前正在工作的任务,处理网络
抓取
。我应该阅读这个
网页
上的所有句子:library(xml2)
url
<- 'https://www.cs.columbia.edu/~hgs/audio/harvard.html'sentences <-
url
%>% html_nodes("li"
浏览 0
提问于2019-11-18
得票数 2
2
回答
试图用Python-3.7刮取html的一个特定部分,但它返回"None“
、
、
我是个初学者,编写一些简单的Python
代码
来从
网页
中
抓取
数据。我已经找到了我想要
抓取
的html的确切部分,但是它一直返回“None”。它适
用于
网页
的其他部分,但
不适
用于
这一特定部分。我使用BeautifulSoup来解析html,而且由于我可以
抓取
一些
代码
,所以我假设我不需要使用Selenium。但我还是找不到如何刮掉一个特定的部分。下面是我编写的Python
代码
: import requests
浏览 0
提问于2019-04-11
得票数 3
1
回答
将
URL
转换为HTML
代码
、
、
、
有没有办法获取
URL
的完整HTML
代码
?我在网上看到了一些PDF格式的转换,但我想知道我是否可以将其转换为HTML。我可以随心所欲地使用HTML
代码
,但我想尝试使用
URL
来做同样的事情。
浏览 3
提问于2018-01-24
得票数 0
2
回答
如何在Python中使用str.replace() <br>或'=‘?
我很难去掉我从某个
网页
上
抓取
的文本中所有多余的HTML标签,然而,Python中的str.replace()似乎
不适
用于
<br>和=这样的目标,而<li></li>等其他标签将被成功地替换。这是我的
代码
。
浏览 2
提问于2017-04-14
得票数 0
1
回答
使用python
抓取
tweet的问题
、
、
、
我试图在一定的时间范围内从一个
网页
上
抓取
推文。为此,我使用这个链接,它只在我指定的时间范围内搜索: import pandas as pdimport urllib.request
url
= 'https://twitter.com/search?,上面的
代码
可以正常工作。出于这个原因,我不明白为什么它
不适
用于</e
浏览 20
提问于2018-08-25
得票数 0
回答已采纳
1
回答
从
网页
中提取文本,使用Perl/Python进行处理,然后重建添加了链接的页面
、
、
、
我正在构建一个web应用程序,它处理
网页
中的文本,添加到某些实体的链接,然后重新显示页面,但添加了一些链接。我的服务器端
代码
是用Perl和Python编写的,我目前正在使用HTML::Parser从页面中提取文本。我可以清理标记、提取和处理文本,但我希望完全显示原始页面,只向以前未链接的文本添加一些链接。任何
帮助
都将不胜感激。
浏览 1
提问于2012-04-13
得票数 0
回答已采纳
1
回答
从Kickstarter项目中
抓取
文本不会返回任何内容
、
、
、
、
我正在尝试从Kickstarter项目
网页
上
抓取
一个项目的正文。我有以下
代码
,这对第一个
URL
有效,但
不适
用于
第二个和第三个
URL
。我想知道是否有一个简单的修复我的
代码
,而不需要使用其他包?
url
= "https://www.kickstarter.com/projects/1365297844/kuhkubus-3d-escher-figures?ref=discover
浏览 6
提问于2020-06-12
得票数 1
回答已采纳
3
回答
如何在python中将HTML呈现为JavaScript?
、
、
我环顾四周,只找到了将
URL
呈现为HTML的解决方案。然而,我需要一种方法,能够呈现一个
网页
(我已经有,并有JavaScript)到适当的超文本标记语言。想要:
网页
(带JavaScript) -> HTML我不知道如何让其他
代码
按照我想要的方式工作。这是我用来呈现
URL
的
代码
: 为了清楚起见,上面的
代码
获取了一个
网页
的
URL
,该<e
浏览 2
提问于2015-04-02
得票数 7
回答已采纳
2
回答
使用django (python for web)的Web刮刀
、
、
我一直在网上搜索
网页
抓取
使用python,我已经找到了beautifulSoup和许多其他刮取工具,如刮除,刮刀等。我看或读的大多数教程都是一样的.好吧,我想做的是:所有教程的
代码
如下所示:
url
=
浏览 2
提问于2017-05-03
得票数 0
回答已采纳
1
回答
将大量异构数据收集到结构化数据集中
、
、
、
、
我一直在评估网络
抓取
的科学。我使用的框架是Python/Scrapy。我相信可能还有更多。我的问题更多地围绕着基础知识。假设我必须
抓取
新闻内容。因此,我
抓取
一个页面,然后编写选择器来提取内容、图像、作者、发布日期、子描述、评论等。 问题是,我如何优化它,使其可扩展到大量数据源。例如,可能有数千个新闻站点,每个站点都有自己的html/页面结构,因此我不可避免地需要为每个站点编写一个
抓取
逻辑。虽然这是可能的,但这将需要一个庞大的资源团队,花费大量的时间来创建和更新这些爬虫/
抓取
器
浏览 2
提问于2014-09-19
得票数 2
2
回答
无法使用Watir从特定
网页
中
抓取
数据
、
、
、
、
我以前用Watir成功地
抓取
过
网页
,但是我在
抓取
这个特定的
网页
时遇到了麻烦。 当我在常规浏览器上访问页面时,我可以看到页面每次都会重新加载两到三次,我想这就是问题的根源。我已经成功地在其他
网页
上使用了上面的
代码
作为测试,但它似乎
不适
用于
克罗格网站。我不知道该怎么解决。
浏览 0
提问于2017-09-10
得票数 0
1
回答
如何使用BeautifulSoup显示隐藏的html元素?
、
、
我在试着从上
抓取
视频。我可以使用Chrome DevTools找到视频链接。但当我使用BeautifulSoup获取视频链接时。链接处于隐藏状态。
请
帮助
修改
以下
代码
以获取视频链接。import refrom bs4 import BeautifulSoup as BS
url
_video='http://s.weibo.com/video23&xsort=hot&hasvideo=1&
浏览 30
提问于2019-07-17
得票数 0
回答已采纳
1
回答
从
网页
中获取内部信息的r中使用的web
抓取
我在将rvest/XML包加载到R时遇到了困难,并且无法处理
代码
。head(forbs)它显示的错误就像 forbs1 1<-html_text(“#list_table”)在UseMethod("xml_text")中的错误:
不适
用于
类
浏览 2
提问于2019-04-05
得票数 1
1
回答
存储刮过的
网页
的最佳方法?
我将从大量的ULR中
抓取
HTML
代码
,并将它们存储在我的计算机上,
用于
机器学习(基本上,我将使用Python和PyTorch对这些数据进行神经网络训练)。为所有
网页
存储HTML
代码
的最佳方法是什么?我希望能够看到我已经刮过的
URL
,这样我就不必再刮它们了,对于每一段HTML
代码
(1段HTML
代码
=从一个
URL
中提取的所有HTML
代码
),我还可能希望看到它来自哪个
URL
(但可能这是不必要的要求)。我还
浏览 0
提问于2020-09-06
得票数 0
1
回答
Python BeautifulSoup StyleTag Extract
、
、
我需要从
网页
上使用Python和BeautifulSoup从下面的
代码
中
抓取
文本'64%‘,
请
帮助
。
浏览 24
提问于2017-07-03
得票数 0
1
回答
样式
不适
用于
使用javascript打印页
、
、
我使用下面的
代码
来打印ASPX
网页
,它正在工作。但样式表
不适
用于
此template.please,
请
帮助
我将样式应
用于
打印页。
浏览 4
提问于2012-12-17
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
利用Python和Repl.it进行网页信息爬取
教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
马蜂窝数据被扒光,用Python 爬取网页信息 4 分钟就能搞定
Python爬虫入门,快速抓取大规模数据6
策略-增加收录
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券