Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何对将来可能移动索引的数据进行web抓取

如何对将来可能移动索引的数据进行web抓取
EN

Stack Overflow用户
提问于 2021-10-20 12:31:08
回答 1查看 44关注 0票数 1

我正在尝试网络刮NFL的排名数据,并有兴趣的类别"PCT“和"Net Pts”从这个网址的表格。https://www.nfl.com/standings/league/2021/REG我已经设置了BeautifulSoup,并打印了本页中所有的'td‘。问题是,当你这样做的时候,你会得到一个从最差记录到最好记录的球队顺序。显然,如果我有一个特定的索引,例如,当他们的记录发生变化时,数据将具有不同的索引,那么这将在未来导致问题。事实上,随着比赛的增多,网站上球队的顺序每周都会发生变化。

有没有办法这样说,如果团队的名字是X做某事?比如使用表数据降低4个索引?我在任何youtube教程或书中都没有看到如何处理这个问题,所以我想知道这个问题的思考过程是什么。我需要一种方法来确定每个团队和他们的PCT和网点的瞬间,因为这个信息将被放入另一个函数。

下面是我到目前为止的例子:当你做这样的事情时…

代码语言:javascript
运行
AI代码解释
复制
import requests
from bs4 import BeautifulSoup

url = 'https://www.nfl.com/standings/league/2021/REG'
res = requests.get(url)
soup = BeautifulSoup(res.text, 'lxml')
data = soup.find_all('td')[0:10]
print(data)
#I am using just the first 10 indexes to keep it short here

...you获取底特律狮子队的表格数据信息,因为他们是联盟中最差的球队,在发布这个问题的时候。我已经确定他们的"PCT“数据点应该是

代码语言:javascript
运行
AI代码解释
复制
win_pct = soup.find_all('td')[4]
print(float(win_pct.text.strip()))

然而,如果另一支球队成为联盟中最差的球队,这个指数将属于他们,而不是狮子队。我该如何解决这个问题呢?谢谢

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-10-20 16:39:04

您可以使用字典来存储俱乐部的数据,然后使用俱乐部名称作为关键字来获取数据(独立于俱乐部位置)。例如:

代码语言:javascript
运行
AI代码解释
复制
import requests
from bs4 import BeautifulSoup

url = "https://www.nfl.com/standings/league/2021/REG"
res = requests.get(url)
soup = BeautifulSoup(res.text, "lxml")

data = {}
for row in soup.select("tr:has(td)"):
    cells = [td.get_text(strip=True) for td in row.select("td")[1:]]
    club_name = row.select_one(".d3-o-club-fullname").get_text(strip=True)
    data[club_name] = cells

# print PCT/Net Pts of Detroit Lions:
print(data["Detroit Lions"][3], data["Detroit Lions"][6])

打印:

代码语言:javascript
运行
AI代码解释
复制
0.000 -63
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/69652665

复制
相关文章
如何使用python进行web抓取?
本文摘要自Web Scraping with Python – 2015 书籍下载地址:https://bitbucket.org/xurongzhong/python-chinese-library/downloads 源码地址:https://bitbucket.org/wswp/code 演示站点:http://example.webscraping.com/ 演示站点代码:http://bitbucket.org/wswp/places 推荐的python基础教程: http://www.divei
CDA数据分析师
2018/02/05
5.7K0
如何使用python进行web抓取?
PostgreSQL 如何对索引进行分析和处理
最近有人私信问POSTGRESQL 怎么比MYSQL的索引大,这个问题升级上我个人觉得从这几点考虑
AustinDatabases
2023/09/06
3060
PostgreSQL 如何对索引进行分析和处理
python爬虫进行Web抓取LDA主题语义数据分析报告
从网站提取数据的方法称为网络抓取。也称为网络数据提取或网络收集。这项技术的使用时间不超过3年。
拓端
2020/09/25
2.4K0
如何对增广试验数据进行分析
augmented design data 测试品种:1~17 对照:A~E 表中上面是编号,下面是产量
邓飞
2020/09/30
1.7K0
如何对minist数据进行预处理
深度学习中,数据很多,不能一次性把数据全都放到模型中进校训练,所以利用数据加载,进行顺序打乱,分批,预处理之类的操作
算法与编程之美
2023/01/03
1.3K0
SQL如何对不同表的数据进行更新
如果我们有表A和表B, 我想把我的表A的Col1内的数据更新到表B的Col1里面,那么我们怎么做呢?
繁华是客
2023/03/03
3.9K0
如何抓取页面中可能存在 SQL 注入的链接
自动化寻找网站的注入漏洞,需要先将目标网站的所有带参数的 URL 提取出来,然后针对每个参数进行测试,对于批量化检测的目标,首先要提取大量网站带参数的 URL,针对 GET 请求的链接是可以通过自动化获取的,而 POST 型参数提交的方式,则需要手工点击,然后代理抓取数据包再进行提交测试。
信安之路
2021/08/25
2.6K0
设计系统简史——过去,现在与可能的将来
我第一次听说“设计系统”这个概念是在2016年初,契机是在某设计师招聘要求的栏目中看到了“熟悉至少一种设计系统,例如 HIG 或者 Material Design”。
ThoughtWorks
2021/05/20
4280
设计系统简史——过去,现在与可能的将来
住宅IP代理为什么对抓取Web数据业务如此重要?
随着互联网的发展,Web数据抓取业务越来越重要,对于各种行业和领域来说,抓取Web数据是获取市场信息和竞争情报的重要途径。
garry5544..
2023/04/18
3450
JavaScript 如何对 JSON 数据进行冒泡排序?
JavaScript 是一种广泛使用的脚本语言,提供了丰富的功能和工具,用于处理和操作数据。JSON(JavaScript Object Notation)是一种常见的数据格式,用于在不同应用程序之间传输和存储数据。在本文中,我们将探讨如何使用 JavaScript 对 JSON 数据进行冒泡排序,以实现按照指定字段排序的功能。
海拥
2023/06/23
5450
如何使用Puppeteer进行新闻网站数据抓取和聚合
Puppeteer是一个基于Node.js的库,它提供了一个高级的API来控制Chrome或Chromium浏览器。通过Puppeteer,我们可以实现各种自动化任务,如网页截图、PDF生成、表单填写、网络监控等。本文将介绍如何使用Puppeteer进行新闻网站数据抓取和聚合,以网易新闻和杭州亚运会为例。
jackcode
2023/08/30
5800
如何使用Puppeteer进行新闻网站数据抓取和聚合
如何通过Power BI来抓取1688的产品数据进行分析?
首先我们来看下价格。目前可以归纳总结的一共有3种左右的价格形势,我们来看下不同的价格情况。
逍遥之
2020/03/24
1.5K0
如何对MySQL数据库中的数据进行实时同步
通过阿里云数据传输,并使用 dts-ads-writer 插件, 可以将您在阿里云的云数据库RDS for MySQL中数据表的变更实时同步到分析型数据库中对应的实时写入表中(RDS端目前暂时仅支持MySQL引擎)。 前提条件 您需要在您RDS for MySQL所在的云账号下开通阿里云数据传输服务。并 点击此处 下载dts-ads-writer插件到您的一台服务器上并解压(需要该服务器可以访问互联网,建议使用阿里云ECS以最大限度保障可用性)。服务器上需要有Java 6或以上的运行环境(JRE/JDK)。
小小科
2018/05/04
6K0
如何对MySQL数据库中的数据进行实时同步
如何让搜索引擎抓取AJAX内容?
越来越多的网站,开始采用"单页面结构"(Single-page application)。 整个网站只有一张网页,采用Ajax技术,根据用户的输入,加载不同的内容。 这种做法的好处是用户体验好、节省流
ruanyf
2018/04/13
1.1K0
如何让搜索引擎抓取AJAX内容?
使用索引拆分(Split)和索引收缩(shrink )对Elasticsearch进行优化
在Elasticsearch集群部署的初期我们可能评估不到位,导致分配的主分片数量太少,单分片的数据量太大,导致搜索时性能下降,这时我们可以使用Elasticsearch提供的Split功能对当前的分片进行拆分,拆分到具有更多主分片的新索引。
MCNU云原生
2023/03/17
1.8K0
使用索引拆分(Split)和索引收缩(shrink )对Elasticsearch进行优化
如何对iOS 16系统进行性能数据采集
随着iOS16系统的正式推出,用户升级到iOS的量级也在不断增加,最近一段时间有用户反馈在iOS16系统上播放视频、音频有明显的发热和卡顿。所以我们也把iOS16的性能测试提到了日程上了,但是由于我们之前使用的性能测试工具已经无法支撑日常工作了。
测试加
2022/12/05
2K0
如何对iOS 16系统进行性能数据采集
如何正确的对安卓手机进行数据恢复?
很多人觉得数据恢复就是拿工具扫一扫,这种想法是非常错误的。想干好一件事,绝不是仅仅机械性的重复固有动作,必须要加入个人的思考。比如对安卓手机的数据恢复,你真的会吗? 0x00 背景介绍 很多人都有在使用手机时误删数据的经历,比方说和女朋友分手后把之前一起玩耍的影像资料删除了,结果没过几天又复合了,某天女朋友想和你一起回忆某个温馨时刻,这时候拿不出照片或视频来会非常尴尬。 为了避免这类人(Xi)间(Wen)惨(Le)剧(Jian)发生,很有必要掌握一下数据恢复技术。 传统的数据恢复往往借助软件即可完成,例
FB客服
2018/02/07
12.8K0
如何正确的对安卓手机进行数据恢复?
如何对列表进行搜索
logic [31:0] ram_block[1024] = '{default:0}
Lauren的FPGA
2019/10/30
3K0
使用 Python 对相似索引元素上的记录进行分组
在 Python 中,可以使用 pandas 和 numpy 等库对类似索引元素上的记录进行分组,这些库提供了多个函数来执行分组。基于相似索引元素的记录分组用于数据分析和操作。在本文中,我们将了解并实现各种方法对相似索引元素上的记录进行分组。
很酷的站长
2023/08/11
6650
使用 Python 对相似索引元素上的记录进行分组
点击加载更多

相似问题

加载数据后对页面进行Web抓取

15

使用Html敏捷包对Web数据进行抓取

12

如何防止对有价值的数据web服务进行数据抓取?

30

如何对SEC 10-K动态数据进行Web抓取

258

如何使用Python对图表进行web抓取?

113
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档