我正在编写一个爬虫,它将爬行信息保存在变量i中,所以我这样做了:
my_string = i
match = re.search("\<!-- populate table from mysql database -->(.*?)\</tbody>" , my_string).group(1)
print match
得到了这个错误:
TypeError:预期的字符串或缓冲区
有人能就这里的问题给我提些建议吗?
对于显示文件树的URL,例如,是否有一个小型的实体模块来遍历URL树并像ls -lR一样列出它
我猜测(纠正我的错误),文件属性、链接类型、大小、日期没有标准编码……在html <A属性中
因此,在流动的沙子上构建一个可靠的URLtree模块是困难的。
但是这个轮子(Unix file tree -> html -> treewalk API -> ls -lR or find)肯定已经完成了吗?
(似乎有几个爬虫/网络爬虫/抓取器,但到目前为止它们看起来很丑陋和特别,尽管BeautifulSoup用于解析)。
下面是我的代码:
a='<title>aaa</title><title>aaa2</title><title>aaa3</title>'
import re
re.findall(r'<(title)>(.*)<(/title)>', a)
结果是:
[('title', 'aaa</title><title>aaa2</title><title>aaa3', '/title
我在一个简单的函数中使用BeautifulSoup来提取全部为大写文本的链接:
def findAllCapsUrls(page_contents):
""" given HTML, returns a list of URLs that have ALL CAPS text
"""
soup = BeautifulSoup.BeautifulSoup(page_contents)
all_urls = node_with_links.findAll(name='a')
# if the
如何选择位于具有特定子标签的标签之后的p标签?使用网络爬虫。
$crawler->filter('h2 span#hello + p')->each(function ($node) {
var_dump($node->html());
});
示例:
<h2><span id="hello">Hi</span></h2>
<p>I want this p-tag, that is after the h2 above</p>
<p>me too!&l
我正在尝试编写一个爬虫,只处理一个网站的内部链接。我正在使用python 2.7,漂亮的汤和请求,我需要所有的内部链接(绝对和相关)。 我的客户要求我为一个网站爬虫,但我希望它只抓取内部链接。我需要它忽略jpg/png/gif和其他类型的urls,所以它只处理页面。 import re, request
from bs4 import BeautifulSoup
def processUrl(url):
if not url in checkedUrls:
try:
if 'text/html' in requests.hea
我正在做一个爬虫来获取里面的文本html,我用的是漂亮的汤。
当我使用urllib2打开url时,这个库会自动转换使用葡萄牙语重音的html,比如用另一个字符"a³a“a§”
我想要的只是得到没有重音的单词
contrã.rio -> contrario
我试着使用这个算法,但是当文本使用像这样的单词时,这个算法才起作用。
def strip_accents(s):
return ''.join((c for c in unicodedata.normalize('NFD', s) if unicodedata.category(
我是Python的新手,所以如果有任何帮助,我将不胜感激。我有个网络爬虫,用的是美汤。它可以工作,但对于下面的代码,它会返回错误'None type object has no attribute‘。我知道这意味着它遇到了一个没有条目的页面。如何停止此错误并使其返回包含条目的所有其他页面。web crawler中的某些页面具有该条目,而某些页面为空。
bbb = re.compile('First listed')
next_s = soup.find(text=bbb).parent.parent.get_text(strip=True)
谢谢
我在python中为非常简单的网络爬虫编写了下面的程序,但是当我运行它时,它会返回'NoneType‘对象是不可调用的,您能帮我吗?
import BeautifulSoup
import urllib2
def union(p,q):
for e in q:
if e not in p:
p.append(e)
def crawler(SeedUrl):
tocrawl=[SeedUrl]
crawled=[]
while tocrawl:
page=tocrawl.pop()