大家好!假设我有一个页面,它是我用这个脚本得到的:
page = urllib2.urlopen(url).read()
在抓取网页时,我如何有效地(快速)检查此内容是否已经抓取?我的算法是这样的:
seenContents = set()
then check if crawled content is in set or not
但我不知道该在该集合上存储什么,哈希值或其他?你能推荐些什么吗?
我正在制作一个书签,这个书签可以抓取一个网页,并构造一个URL列表,这些URL是我想要播放的,而不是当前的网页。如何创建临时网页并在浏览器中查看?
到目前为止,这就是我所得到的:
var urls = myUrlScraper(window.location.pathname);
var tempPage = "<html>" + urls + "</html>";
window.location = tempPageUrl; // How to do this?
目前,我正试图在整个网页中获取一些文本数据。一开始,我抓取所有的网页,然后慢慢地在网页中筛选,从每一页抓取我需要的数据。例如,由于动态ID的原因,我在抓取诸如平方英尺或邻居之类的项目时遇到了困难。我通过XPath或CSS选择器看到的许多例子都涉及到搜索文本,但在我试图抓取的每一页上都会发生变化。有什么办法能捕捉到这片土地或社区吗?
from bs4 import BeautifulSoup
from selenium import webdriver as wd
from selenium.common.exceptions import StaleElementReferenceExcep
我在研究如何指定页面上的最后60个元素时遇到了一些问题
posts = driver.find_elements_by_xpath("""(//div[@class='hotProductDetails'])""")
for post in posts:
print(post.text)
这段代码打印网页上这些元素中的每一个文本。但我正在尝试抓取一个上面有“加载更多”按钮的网站。
“加载更多”按钮加载60多个产品,我希望我的代码只获取这些产品。这样,我就可以把所有这些都放在一个循环中,这个循环点击按钮,抓取它加载的产品,附
如何使用Python计算网页(url)的大小?我尝试了urllib2并抓取了content-length报头,但它不存在。
import urllib2
url = 'http://www.google.com/'
r = urllib2.urlopen(url)
#Not sure what to do from here