首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >如何在使用python向下滚动时刮掉提供更多信息的html页面

如何在使用python向下滚动时刮掉提供更多信息的html页面
EN

Stack Overflow用户
提问于 2019-07-26 18:52:07
回答 2查看 348关注 0票数 0

我正在从https://www.basketball-reference.com/players/p/parsoch01.html上抓取课文。但是我不能抓取页面中位于“总计”表下面的内容。我想从“总计”和“高级”表中得到数字,但是代码没有返回任何内容。当用户向下滚动页面时,该页面似乎会加载其他信息。

我运行了下面的代码,并成功地从玩家的个人资料部分和“每个游戏”表中获得数据。但无法从“总计”表中获得值。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from lxml import html
import urllib
playerURL=urllib.urlopen("https://www.basketball-reference.com/players/p/parsoch01.html")
# Use xpath to parse points per game.
ppg=playerPage.xpath('//tr[@id="per_game.2019"]//td[@data-stat="pts_per_g"]//text()')[0]# succeed to get the value
total=playerPage.xpath('//tr[@id="totals.2019"]//td[@data-stat="fga"]//text()')// I expect 182 to be returned but nothing is returned.

有什么方法从这个页面的下部获取数据吗?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2019-07-26 23:09:55

这是因为你想从那个网站上提取的内容都在评论中。BeautifulSoup不能解析注释中的内容。要获得结果,您需要先取消注释,以便BeautifulSoup可以访问它。下面的脚本完成了我试图说的话:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import requests
from bs4 import BeautifulSoup

URL = "https://www.basketball-reference.com/players/p/parsoch01.html"

r = requests.get(URL).text
#kick out the comment signs from html elements so that BeautifulSoup can access them
comment = r.replace("-->", "").replace("<!--", "")
soup = BeautifulSoup(comment,"lxml")
total = soup.select_one("[id='totals.2019'] > [data-stat='fga']").text
print(total)

输出:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
182
票数 0
EN

Stack Overflow用户

发布于 2019-07-26 20:01:14

打开web浏览器的控制台,测试xpath,看看它是否找到要查找的元素。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
$x("//tr[@id='totals.2019']//td[@data-stat='fga']//text()")

返回Array对象。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
$x("//tr[@id='totals.2019']//td[@data-stat='fga']//text()")[0]

访问所需的值。

另外:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# comments in python start with '#' not '//'
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/57228784

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文