我正在抓取一系列非常平坦的网页,对我来说最重要的结构是,我希望找到在具有已知id的h2元素之后出现的所有元素。我想在这个h2元素之后找到的元素是p、blockquote和center。在定位这些元素时,排序是很重要的,需要加以保留。我还应该说,所有感兴趣的因素都是兄弟姐妹,在同一组织层面上,就在另一个组织层面上。我该怎么做?以下是我尝试过的:# here is the title
h =
它们中的大多数都工作得很好;我习惯于在我的主计算机上看到0.01到0.02秒的解析。然而,当我尝试抓取某些网站的链接时,比如slickdeals.net,我发现任何地方都有0.9到2秒的速度;几乎慢了100倍。这在我的主计算机上还不错,但这是我计划在我的Raspberry Pi 3型号B上运行的脚本,在此基础上,这个站点上的链接平均需要30到40秒(偶尔会有罕见的60+秒)。因为我的主计算机比我<e