因此,我试图在python中使用HTMLParser和urllib3在python中制作一个web爬虫。我有两个不同的导入问题,第一个是import urllib
class parseText(HTMLParser.HTMLParserlParser.feed(urllib.urlopen(thisurl).read())for item in urlText:
prin
现在我正在用python编写一个网络爬虫,但有时它会抛出HTMLParserError:它说错误是在21285行发现的,这是否意味着在HTML源代码的21285行发现了错误?如果不是,我如何知道当前生成错误的HTML代码是什么?那么当前的解析url是什么?我的解析类可以简化如下:
class ParsePage(HTMLPars
我使用HTMLParser来解析一些基本的、格式良好的HTML,出于各种原因,我不想使用BeautifulSoup。我对HTMLParser进行了子类化,实际的解析器工作得很好。相反,当我创建一个新的子类对象时,直接调用HTMLParser的init方法,而子类init根本不被调用。当我继承HTMLParser.HTMLParser和urllib.HTMLParser时,就会发生这种情况。下面是代码:
class MyHtmlParser(htmllib.HTM