腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
readHTMLTable
()
不能
很好
地
抓取
url
中
的
特殊
表单
r
、
xml
、
web-crawler
、
rcurl
问:我在package(XML)中使用
readHTMLTable
()来获取网站
中
的
表单
(“http://www.gaokao.com/e/20201106/5fa4f625338d0.shtml ")但是
表单
很
特殊
,看起来像作者合并了一些单元格。所以当我
抓取
它
的
时候,结果会很奇怪,正如你在pitcure中看到
的
那样。那我该怎么做呢?我听说社区里有很多大师。所以我来这里。非常感
浏览 36
提问于2020-11-09
得票数 0
1
回答
R:
抓取
URL
中
的
多个表
r
、
httr
我正在学习如何在R中使用httr和XML从网站上
抓取
信息,我正在让它在只有几个表
的
网站上工作得
很好
,但在有几个表
的
网站上就搞不清楚了。以pro-football reference
中
的
以下页面为例:
URL
= "https://www.pro-football-reference.com/boxscor
浏览 1
提问于2017-09-04
得票数 0
1
回答
正在尝试将数据保存到CSV。无错误,但未保存任何内容
r
这样可以
很好
地
抓取
数据。library(XML)mps <- "http://stockreports.nasdaq.edgar-online.com(mps.doc) mps.tabs看起来
很好
。但我
不能
将其保存为CSV文件。我不断得到和错误。mat <- melt(mps.tabs) write.csv(mat,
浏览 0
提问于2016-03-19
得票数 1
3
回答
如何在R
中
抓取
安全页面(https链接)(使用
readHTMLTable
from XML package)?
xml
、
r
、
web-scraping
关于如何使用XML包
中
的
readHTMLTable
有
很好
的
答案,我用常规
的
http页面做了,但是我
不能
用https页面解决我
的
问题。我正在尝试读取此网站上
的
表格(
url
字符串):library(XML)
url
<- "https://ned.nih.gov/search/ViewDetails.aspx
浏览 3
提问于2012-05-22
得票数 19
回答已采纳
1
回答
没有在
url
的
所有表
中
读取
的
R
抓取
包。
r
、
web-scraping
、
rvest
、
rcurl
我正在尝试从以下链接
中
抓取
一些表:“”,从我尝试
的
许多方法/包
中
可以看出,我认为R没有在整个
url
中
读取。以下是我所做
的
几次尝试:tabs <-
readHTMLTable
(a, stringsAsFactors = T)x <- read_html(
url
) y<- html_nodes(x,xpath= '//
浏览 1
提问于2019-07-13
得票数 2
回答已采纳
1
回答
使用
readHTMLtable
从XML包
中
抓取
站点,不确定错误信息
r
我正在使用XML包来
抓取
网站列表。具体
地
说,我从以下网站上
的
候选人名单
中
获取评分:。res <- llply(
url
, function(i)
readHTMLtable
(i)) 但是有几个问题--例如,这个序列
中
的
第25个生成了一个404 "我已经解决了这个问题,首先获取序列
浏览 0
提问于2012-02-23
得票数 1
回答已采纳
1
回答
如何用R转换网页
抓取
中
的
特殊
符号?
r
我正在学习如何用XML和RCurl包
抓取
网页。除了一件事之外,一切都很顺利。像ö或č这样
的
特殊
字符在R
中
的
读法是不同
的
。例如,í在R
中
读作çƒ。我假设后者是针对第一个
的
某种HTML代码。下面是代码
的
一个例子,很抱歉我没有早点提供它。library(XML)
url
<- 'http://en.wikipedia.org/wiki/2000_Wimbledo
浏览 1
提问于2013-07-11
得票数 2
1
回答
如果表不存在,则为循环跳过
r
、
xpath
我有一个for循环,其中包含urls,用于从id batting_gamelogs
的
表
中
抓取
信息。如果该id在页面上不存在,则转移到下一个
url
{ data <-
readHTMLTab
浏览 0
提问于2015-06-03
得票数 0
回答已采纳
1
回答
移除XML包
中
的
readHTMLTable
中
的
标记
r
我试图在下面的
url
中
从表
中
抓取
数据: http://www.nfpa.org/itemDetail.asp?,除了上标
中
的
值被附加到
表单
元格中值
的
末尾。例如,(使用上面给出
的
url
中
的
行和列名)2001年
的
平民死亡被存储为61963,而他们应该是6196,因为上标3被解释为一个额外
的
数字。表格
中
任
浏览 5
提问于2012-08-21
得票数 6
回答已采纳
4
回答
如何使用R自动化对web搜索
表单
的
多个请求
r
、
web-scraping
我正在尝试学习如何使用RCurl (或者其他一些合适
的
R包,如果我认为RCurl是正确
的
工具的话)来自动化将搜索项提交到web
表单
并将搜索结果放在数据文件
中
的
过程。加州机动车管理局(DMV)有一个网页搜索
表单
,您可以在其中输入LPN和VIN
的
最后五位数字,它会返回2010或2009年
的
车辆牌照费(VLF)付款(在输入
表单
上也有一个选择器)。我想写一个脚本,将每个LPN和VIN提交到DMV web
表单
,然后将结果( V
浏览 1
提问于2011-03-23
得票数 12
回答已采纳
2
回答
循环调用apply抛出错误
的
函数
xml
、
r
、
web-scraping
我正在尝试从多个页面
中
抓取
表格。我已经写了一个接受urls列表
的
函数:[1] "http://www.fake
URL
1/WordDocuments.htm"[6] "http://www.fak
浏览 1
提问于2016-01-21
得票数 1
1
回答
无法访问聚合物
表单
元素
forms
、
polymer
正在尝试应用此 console.log('form', form); }); </polymer-element
浏览 0
提问于2014-11-17
得票数 1
2
回答
从
url
下载xls文件到dataframe (Rcurl)?
r
、
xls
、
rcurl
、
geturl
我正在尝试将以下
url
下载到一个R数据文件
中
: 但是,我不知道如何‘解析’数据?我也期待着自动化这一点,并每周执行它,因此,任何想法如何将其构建到每周访问工作流程将是非常感谢
的
!export=xls")[1] "FantasyPros.com \t \nWeek 8 - QB Rankings \t \nExpert Consensus
浏览 10
提问于2013-10-25
得票数 3
回答已采纳
1
回答
facebook
表单
发布到php
php
、
facebook
我制作了一个facebook
表单
(Static FBML),并将数据发布到我
的
process.php上。它工作得
很好
,但是
特殊
的
语言字符
不能
很好
地
工作,有什么问题吗?
浏览 0
提问于2010-11-04
得票数 0
回答已采纳
2
回答
如何向窗体
中
添加元素并使用jQuery将其加载到对话框
中
jquery
、
wordpress
我正在尝试使用jQuery & WordPress将链接动态注入
表单
中
。
表单
位于WordPress post
中
,我使用$.load('
url
').dialog()来显示它。这个
很好
用。我想添加一个动态计算
的
链接。对于我希望修改
的
元素,我有一个
特殊
的
id,但是append()、appendTo()和replaceWith()
的
结果都是单个元素,而不是嵌入修改
的</e
浏览 0
提问于2019-01-10
得票数 1
回答已采纳
1
回答
scrapy:在scrapy finishing处理urls之后发布一些
表单
python
、
web-scraping
、
scrapy
、
scrapy-spider
我正在使用scrapy从一个会员
的
唯一网站
抓取
数据。我成功
地
执行了登录和
抓取
数据。我
的
问题是: 如何获得scrapy完成处理所有
url
抓取
的
通知,以便我可以执行一些
表单
提交?我注意到了一个解决方案-请看这里(),但是由于某些原因,我
浏览 0
提问于2015-04-15
得票数 2
2
回答
在Python 3
中
,
抓取
隐藏在标签
中
的
网页上
的
所有文本
python-3.x
、
beautifulsoup
、
scrapy
我需要
抓取
一个网页(),但我遇到了一个问题--我需要在首页显示
的
文本绝对隐藏在许多不同
的
格式化标记
中
。我知道如何使用Beautiful Soup
抓取
常规页面,但这并
不能
满足我
的
需要(例如,文本丢失,一些标签通过...)from bs4 import BeautifulSoupamericanexpress.com/credit-card/compare'] with open('thisisan
浏览 1
提问于2014-09-09
得票数 0
1
回答
如何在Node.js
中
为亚马逊产品详细信息创建经过身份验证
的
抓取
器?
node.js
、
amazon-web-services
、
request
、
amazon
、
cheerio
我正在创建一个脚本,从亚马逊
抓取
所有已发货
的
商品并通知我。如果身份验证有效,之后使用cheerio来获取数据将会很容易。有谁知道如何成功
地
进行身份验证吗? 电子邮件
中
的
链接是:
浏览 3
提问于2015-12-05
得票数 0
2
回答
使用jquery提交($.submit)如何在提交前修改
表单
值?
jquery
、
forms
、
http-post
、
form-submit
在我
的
表单
中
,我想在提交
表单
之前删除一些
特殊
字符,如空格,如果用户输入的话。我显然是通过下面的方式做到这一点
的
。,当
表单
提交时,在后端执行一些操作。因此,当删除
特殊
字符时,用户得到
的
想法是,
特殊
字符将被删除。但是
URL
不会转到动作页面。因为它在ajax
中
浏览 2
提问于2013-07-25
得票数 0
1
回答
在RSelenium
中
抓取
具有下拉值
的
表
r
、
selenium-webdriver
、
web-scraping
、
rselenium
对Selenium来说是新
的
。我试图从这个填充了动态数据
的
表
中
抓取
结果:这些元素如下: 我希望我可以添加链接,但它
的
密码保护和共享将是一个安全问题。<- paste0("http://",un,":",pass,"@egauge", meter, ".egaug.es/57A4C/check.html") remDr$navigate(
url
)#
浏览 7
提问于2017-01-11
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
不慌,带你透彻了解爬虫类型
Python入门网络爬虫之精华版
iOS 开发者必会的几项技能,不知不用你就OUT了
爬虫冷知识:robot
python3爬虫库之urllib:urllib库使用教程(一)
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券