我正在尝试用下面的代码从网页上的表格中抓取数据到googlesheet。 =IMPORTXML("https://backoffice.onlineathome.ondemand.in.th/exams/search", "//div//div[contains(@class, 'rt-tr-group')]") 这将在网页上显示表格的inspect元素。 enter image description here 我的代码不工作。正确的代码是什么?
我正在建立一个网络刮板,以获得一些特定的信息从一些网页。我有一个表格上的页面链接,我想创建一个循环,以便在每次迭代中,我的函数可以加载特定网站的html,并检查某个短语是否位于该网站中。在短语不存在的情况下,该表行将被删除。
我意识到,由于某种原因,当我运行循环时,应该抓取单个链接的JQuery函数等待循环结束,然后抓取相同的页面50次,而不是每次抓取不同的网页。
//snippet has been simplified to make the problem clear
//assume urlList is a list of 50 different url'
我已经写了一个小的python代码来抓取网页中的表格。它使用qt4来抓取。现在,问题是我需要每5分钟抓取一次数据。我正在考虑刷新页面并再次抓取。如何每隔5分钟刷新一次网页并再次抓取?下面是我用来抓取的代码。
import sys
from BeautifulSoup import BeautifulSoup
from PyQt4.QtGui import *
from PyQt4.QtCore import *
from PyQt4.QtWebKit import *
from lxml import html
import redis
from time import sl
因此,目前我的代码打开一个网页,然后从我的电子表格输入一个产品代码到搜索栏并导航到下一个页面。从这里开始,宏从网页中获取一张图片,并将其放在我的电子表格中。
问题是当第二个网页打开得太慢时,我会从第一个网页得到一个图像。
我尝试过像下面的循环那样运行一个do while循环,但是它似乎不适用于第二个web页面。
在抓取图片之前,我能做什么使宏等待第二个网站加载?
With IE
.Visible = False
.navigate "https://www.genericwebsitename.com/"
Do While .Busy Or .read
我是python的新手,正在尝试从网页上抓取一个表格。我已经通过Chrome中的"inspect“访问了html。网页在这里:
以下是我使用的代码
import bs4
from urllib2 import urlopen as uReq
from bs4 import BeautifulSoup as soup
#name a page to scrape
my_url = 'https://www.basketball-reference.com/players/a/abdelal01.html'
uClient = uReq(my_url)
page_ht