因此,我正在编写一个基本的维基百科页面爬虫,以获取文章第一段中的第一个链接。我目前的策略是找到第一段,然后在该段中找到第一个链接(检查异常)。然而,一些维基百科的文章在表格中有他们的第一个段落标签--我不想这样做。因此,在找到段落之前,我尝试先删除页面中的所有表。但是,在删除表后,第一段的"find“函数仍然返回表中的段落,我认为已经从html中删除了该段落。有什么想法吗?$html = new simple_html_do
我试图在我想要的新闻文章的所有段落的新闻数据。所以我使用Soup.find_all('p')来抓取所有段落,但是它包含了HTML标记,而且由于Soup.find_all('p')将返回bs4.element.ResultSet数据类型,所以不能使用其他方法,比如.get_text()、.decompose()或.stripe()for story i