我用Bioperl来寻找基因的GOterms。我检索一个html文件,将其转换为文本,去掉所有额外的空格和换行符,并尝试遍历生成的数组。
但是,在访问数组中未初始化的值时,我总是会收到错误。我进行了许多检查,以确保数组不是空的,并且不会超出界限。我怎样才能消除这个错误?
我以一种更易读的格式重新发布了代码。谢谢你的帮助。
它似乎成功地从html中解析出正确的数据,所以我不知道出了什么问题。
#!/usr/bin/perl -w
use strict;
use LWP::Simple;
use HTML::TreeBuilder;
use HTML::FormatText;
my $URL
嗨,我正在使用R中的XML包来抓取html页面。感兴趣的页面是,在该页面上有一个序列,当检查铬中的元素时,xpath是
//*[@id="gi_225903367_141"]
但是,当我尝试使用以下方法提取它时:
xpathSApply(htmlParse(fasta.url.content),"//*[@id="viewercontent1"]/pre")
Error: unexpected symbol in "xpathSApply(htmlParse(fasta.url.content),"//*[@id="vie
使用以下包: require(stringr) require(RCurl) require(XML)
我能够连接到所需的网页,并提取所需的信息。
> url="https://www.realtor.com/realestateagents/33415/pg-1" doc =
> getURLContent(url, verbose = TRUE) #gets the doc , verbose = show me
> me what you are doing) doc = htmlParse(doc)
> # name = getNode
我正在开发一些代码来从网站上抓取文本。我对抓取整个页面不感兴趣,但只对包含某些单词的页面部分感兴趣。理想情况下,我希望抓取包含该单词的整个段落。我见过使用.find_all("p")行的示例,但我发现许多网站不使用HTML定义的段落("p")。因此,我不想这样做。 现在,我正在使用一种方法,即在搜索某个单词之前和之后的文本。然而,这里的问题是,相同的句子可能会被多次提及。例如,在下面的代码中,“干旱正在推动东非粮食价格急剧上涨”这句话被提到了3次。代码如下: from urllib.request import Request, urlopen
from bs
我正在尝试使用R从一些博客中获取一些信息。我想要获取的数据是:
1) Date posted
2) Blog Post Title
3) Number of Comments
4) Number of Facebook likes.
这个博客包含了我想要收集的所有字段。
理想情况下,我希望数据框看起来像这样:
Post_Date CommentCount FB_Likes Title
2012-12-05 1 629 The James and Claudia Kripalu Workshop– The Da
我想使用XSLT来转换如下所示的XML文件:
<?xml version="1.0" encoding="UTF-8"?>
<row>
<stuff>Her we have some text and some false markup like <this> and so on</stuff>
</row>
如果我开始转换,我会得到一个错误,"this“没有结束标记。有没有可能绕过它?
我有一个csv文件包含许多链接。我的目标是把它们都吃光。我试图使用for循环打开它们,但是csv文件中的数组看起来如下['www.example.com',‘www.google.com’‘]。
我认为这是导致错误的问题: AttributeError:'list‘对象没有属性'timeout’
因为当我尝试使用这个list - data = "https://www.google.com/","https://www.bbc.co.uk/“时,它起了作用。
import time
from selenium import webdriv
我希望htmlParse能够很好地与希伯来语合作,但它会一直在我输入的页面中搅乱希伯来语文本。
例如:
# why can't I parse the Hebrew correctly?
library(RCurl)
library(XML)
u = "http://humus101.com/?p=2737"
a = getURL(u)
a # Here - the hebrew is fine.
a2 <- htmlParse(a)
a2 # Here it is a mess...
所有这些似乎都没有解决问题:
htmlParse(a, encoding =
我很难做一个for循环,并将一个"externalptr“(XML数据类型)分配给一个向量。
current <- vector()
for(k in 1:length(dir())){
current[k] <- htmlParse(dir()[k])
}
引发以下错误:
Error in current[k] <- htmlParse(dir()[k]) :
incompatible types (from externalptr to logical) in subassignment type fix
我试过强迫current <- ve
我试图让我的网站有能力在它的网页之间顺利过渡,就像在。在他们使用的插件之后,我试着让它正常工作,却没有结果。最后,我只是复制/粘贴了演示的HS文件,并删除了我不需要的东西。
现在我已经将div转换到页面上了,当我单击页面上的一个链接时,它们就会从页面上转移出来,但是我会陷入无限加载状态,因为我一直得到错误:"TypeError: html.replace is not a function",它引用了JS文件中的行:138JS。通过使用Firefox中的“检查元素”特性并查看控制台,我就可以看到这一点。
产生错误的行与演示站点上的行相同。唯一的区别是,我得到了一个错误,演示没有
我尝试从以下站点提取数据:
https://www.zomato.com/ncr/restaurants/north-indian
使用R编程,我是这个领域的学习者和初学者!
我试过这些:
> library(XML)
> doc<-htmlParse("the url mentioned above")
> Warning message:
> XML content does not seem to be XML: 'https://www.zomato.com/ncr/restaurants/north-indian'
<p>
<a name="533660373"></a>
<strong>Title: Point of Sale Threats Proliferate</strong><br />
<strong>Severity: Normal Severity</strong><br />
<strong>Published: Thursday, December 04, 2014 20:27</strong><br
我使用的是R2.11.1和XMLPackage3.1-0,当我遇到一个分段错误时,我正在看的一个示例。
#library(RJSONIO)
library(R2GoogleMaps)
library(XML)
#library(RCurl)
load("b.rda") # find in the sampleDocs folder in source file of R2GoogleMaps
center = c(mean(range(b$lat)), mean(range(b$long)))
code = addOverlay(gpolyline(b))
d = goo
我正在尝试用httr包抓取一个用UTF-8编码的网站,但是很明显,如果你把网站解析成文本,这个包的content函数只允许指定编码。不幸的是,我不能将其解析为文本,因为我想在以后对其使用xpath查询。下面是一个例子:
library(XML)
library(httr)
page <- GET("http://ec.europa.eu/archives/commission_2004-2009/index_en.htm")
test <- content(page, as = "parsed")
# Get a list of names, ma