Python Web scraping Beautiful Soup - Clinicaltrials.gov -获取详细描述(新手问题) - 腾讯云开发者社区

文章/答案/技术大牛

发布

3回答

Python Web scraping Beautiful Soup - Clinicaltrials.gov -获取详细描述(新手问题)

、、、、

我正在尝试获取clinicaltrials.gov上的项目的简要和详细的摘要。我很容易得到简短的摘要，我可以做一堆拼凑/拆分代码来获得详细的摘要，但是我正在寻找更干净的东西。此外，在其中一个URL (https://clinicaltrials.gov/ct2/show/study/NCT03089801)中，详细摘要被隐藏，我无法用我的代码提取它。/ct2/show/study/NCT03089801', '

浏览 35提问于2019-09-21得票数 0

回答已采纳

2回答

如何将数据从HTML用户输入获取到python文件

、

我一直在尝试将HTML文件中的数据转换为Python文件，这是HTML代码。我试过CGI，但我觉得它不适合我。我不知道该做什么，也不知道该尝试什么。</div> </form> 我尝试过此python代码，但当我单击提交按钮时，会出现一个包含python代码的空白页面。

浏览 56提问于2020-06-15得票数 0

1回答

网页抓取当前的镀铬标签

、、、、

目前，我知道你可以通过首先定义一个URL，打开它，然后读取信息来进行web抓取。然而，我正在寻找一种从当前打开的窗口中获取信息的方法。

浏览 4提问于2021-05-20得票数 0

3回答

为什么BeautifulSoup不能在Google上获得所有html呢？

、

我不认为这是一个JavaScript问题。我遗漏了什么吗？soup = BeautifulSoup(link, "lxml") print (item) 编辑:

浏览 11提问于2020-11-08得票数 0

回答已采纳

2回答

如何登录到网站并使用Python 3进行刮擦

、、

import webbrowser('username', 'password')) 我从另一个堆栈问题中得到了这个，但是它给我抛出了这个错误： File "C:/Code/Be

浏览 0提问于2018-11-30得票数 1

回答已采纳

2回答

我的代码python* web scraping Beautiful *Soup有什么问题

、、

我还尝试了urls.append(link("a")['href']) for link in soup.find_all('h3',

浏览 1提问于2019-08-10得票数 0

1回答

POST请求Python* Web抓取:从标签获取URL*

、、、、

嗨，我对python和web scraping都是新手。从我的脚本中，我想要POST请求，然后从中获取urls。但是我有一个问题，我不能从a标签中获取urls。所以，我正在寻找一些想法来解决这个问题。谢谢。www.adassothai.com/index.php/main/ad_expenditure/' x = re

浏览 16提问于2021-07-06得票数 0

回答已采纳

1回答

Python/Beautiful Soup:根据用户输入从网站抓取特定信息

、、

当特定的郊区被定义时，我已经能够弄清楚如何做，但我正在试图弄清楚如何做，以便程序在进入不同的郊区时自动抓取网站的其他部分以获取咖啡馆名称。我该怎么做呢？到目前为止，这是我的代码，感谢所有人，因为我是Python的新手，解释为什么事情可以/不能工作真的很有帮助。"https://www.broadsheet.com.au/melbourne/guides/best-cafes-thornbury" #create

浏览 12提问于2020-06-30得票数 0

回答已采纳

1回答

使用Python库解析Span标记中的信息

、、、

我正在写一个Python刮刀，它能抓住某个股票的价格。在我的程序结束时，有几个打印语句可以正确地解析html数据，这样我就可以在特定的HTML标记中获取股票的价格信息。我的问题是:我该怎么做？我认为你可以简单地做一个字符串拼接，但是股票的价格是不断变化的，我认为这个解决方案对这个问题是不利的。我最近开始使用BeautifulSoup，所以我会非常感谢您的一些建议。import bs4from bs4 import BeautifulSo

浏览 0提问于2018-07-09得票数 3

回答已采纳

1回答

web抓取时找不到包含JSON信息的请求URL

、、

我正在收集一些python web抓取的东西。如果我转到这个website，我想要提取公司的描述和投资者列表。我设法找到了Chrome inspect的XHR，找到了描述的json文件。然而，我似乎找不到任何关于它在哪里以及如何获取投资者名单的绝对信息(下面是TOPP 10)。关于堆栈溢出，我也遇到过类似的问题。Scraping: cannot access information from web，Trying to scrape - no response from XHR，Em

浏览 8提问于2019-08-24得票数 0

1回答

使用Python从网页中抓取单个li

我对python和web scraping非常陌生。我正在尝试从jetbrains网站获取intellij的内部版本号。我正在尝试使用xpath获取内部版本号。/section1/div/div/div1/ul1/li2/text()3 我引用/使用了这篇文章中的代码：get renderd javascript lines from website in python我已经能够使用Beautiful

浏览 24提问于2019-12-25得票数 0

1回答

网页抓取kahoot答案页面在课堂上找不到孩子

、、、、

我最近开始学习python中的web scraping，我一直在尝试构建一个web scraper来寻找kahoots的答案。我已经尝试在Beautiful soup中使用了子方法，但是没有返回任何结果。我需要访问其中的类，我想知道如何做到这一点。我在下面附加了我的代码，它不能访问这个容器中的对象。非常感谢编辑我正在努力寻找每个问题的答案，这样我就可以构建一个完全独立播放kahoot的机器人，谢谢你的回复。//create.kahoot.it&#

浏览 8提问于2020-06-21得票数 1

回答已采纳

3回答

没有名为“bs4”错误的模块

、、

en.wikipedia.org/wiki/List_of_state_and_union_territory_capitals_in_India" 我写这行只是为了测试，但是它显示了一个错误 File "C:/python programs/

浏览 1提问于2018-01-29得票数 4

回答已采纳

1回答

不能从Selenium page_source创建汤？

、、、

我使用selenium获取页面源代码，然后使用BeautifulSoup导航DOM，但无法从中获得任何内容。代码如下：from selenium import webdriver

浏览 0提问于2016-05-07得票数 1

3回答

漂亮的汤不返回HTML文件中的所有内容吗？

、

这里的HTML新手，所以我可能会误解一些关于HTML文档，所以请原谅我。page = urllib.urlopen(url).read()indicateGame

浏览 15提问于2016-04-07得票数 0

回答已采纳

1回答

如何将特定链接存储为列表，然后单击它们

、、、、

纪念碑可以在这里找到：https://medium.freecodecamp.org/better-web-scraping-in-python-with-selenium-beautiful-soup-and-pandas-d6390592e251我唯一的问题是giiresearch网站上的报告标题链接没有按照时间顺序排列，例如。#Beautiful Soup finds all Job Title links on t

浏览 28提问于2019-03-25得票数 1

1回答

Python Beautiful Soup - web抓取Clinicaltrials.gov，从超过100个结果的搜索结果中获取NCT数字

、、、、

我正在尝试获取一个clinicaltrials.gov URL的列表，以及一个项目的简要描述。我的程序将获得NCT编号，这些编号也会添加到基本URL中，以创建完整的临床试验配置文件页面。有没有办法(1)找到一种方法，通过web抓取获得所有216个结果，或者(2)编写代码下载我的结果？对于#2，它看起来像是使用了Javascript，所以我不能(据我所知)用Beautiful Soup做这件事。提前谢谢。lxml.html allncturls = [] # get nct numbe

浏览 0提问于2019-09-26得票数 0

1回答

如果内容包含一些字符串，如何使用python将内容与html标记一起删除

、、

I don't want</A></P>我只想将标记为<P> //some body paragraphs that I need</P>的部分作为字符串读取到python

浏览 2提问于2018-03-19得票数 0

2回答

如何最好地开发网络爬虫

我这样做的方式是用一个简单的for来迭代页面列表，一个wget下载它，sed，tr，awk或其他实用程序来清理页面，并获取我需要的特定信息。

浏览 3提问于2009-02-07得票数 3

回答已采纳

2回答

如何用BeautifulSoup读取周期性的innerHTML生成的元素？

、、、

from bs4 import BeautifulSoupsoup = BeautifulSoup(r.text, 'html.parser') while is_online: items = soup.find_all("div", {"id": "is_online})[0]

浏览 4提问于2019-12-15得票数 1

回答已采纳

点击加载更多