我正在试着在网页上刮一张桌子,我想把它变成熊猫的DataFrame。我试图抓取的页面需要身份验证,但我已经设法使用请求包通过了它。下一步,我想要擦除表格,我发现使用Chrome中的开发工具。我尝试了几种不同的方法,但都不能给我提供我非常想要的表。我做错了什么?这是我的代码: import requests
#some information
hea
我已经使用selenium创建了多个python脚本,这些脚本将生成一个包含将近100,000行和25列的数据表的网页。此代码的一个示例是can be found here。之后,我打算用美味的汤刮擦桌子。然而,我一次又一次地收到这个错误消息。有没有办法修复代码,使我的网页可以继续下载,并允许我抓取它? 任何帮助都是非常感谢的。
我只是从美味的汤开始,试图从维基百科中提取墨尔本的郊区。Here is the link 郊区的名字都是链接的文本,这意味着我必须从a href标签中抓取它们,我不知道怎么做。下面是我尝试过的: suburb_names = soup_suburb_list.find_all('a', href=True) 但这只会返回页面上的所有href标签,我不知道如何区分href,所以刮板程序只获取郊区的名