来自子头的Webscraping的无关标记

文章/答案/技术大牛

发布

2回答

、、、

我在试着刮掉维基百科上的“基因组”页面我只想抓取像“术语的起源”，“测序和绘图”，“病毒基因组”，“原核基因组”，“真核基因组”之类的小标题，包括下面的子标题，基因组大小，等等。headers = read_page_soup.find_all(re.compile(r'h\d+')) return headers 问题是，无论我如何具体地过滤掉我的标签，我仍然可以从导航菜单中获得相同的结果当我将鼠标悬停在div上时，它甚至不会突出显示维基百科的侧边

浏览 30提问于2021-03-17得票数 1

2回答

当我试图使用代理api请求json url时，错误“目标页面上的意外HTTP代码”，“status_ code”：403

、、

我试图废除这个网站的，所以我想从像这个这样的配置文件页面中获取信息，我所做的就是请求包含这些信息的json，在这种情况下，当我使用requests.get()时它是，它正常工作，我可以检索所有的信息。Chrome/96.0.4664.110 Safari/537.36'}当我尝试使用API代理提供程序作为Webscraping.aiapi_key='my_api_key&#

浏览 2提问于2022-01-08得票数 1

回答已采纳

1回答

在python中通过Beautifulsoup抓取和下载修改了名称的Pdf文件

、、、

pentagon-papers" folder_location = r'E:\webscrapingopen(filename, 'wb') as f:然而，我希望文件的名称不像文件名，但作为他们的描述。例

浏览 10提问于2021-05-19得票数 0

回答已采纳

2回答

使用ImageMagick将gif转换为png时获得“转换:不正确的图像头”错误

、、、、

但我知道这个错误：转换:不正确的图像头/misc/lmbraid11/jingl/webscraping/dataset_2018_05_18/image2018_5_4_10_34.gif‘@ error转换:没有图像定义为/misc/lmbraid11/jingl/webscraping/dataset_2018_05_18/image2018_5_4_10_34.png‘@error/

浏览 3提问于2018-06-04得票数 3

1回答

如何完全删除python中包含类的HTML标记？

、、、

我有一个网络刮刀，从CNN，福克斯，和英国广播公司在BeautifulSoup的文章。然后，在进行了一些预处理之后，我将原始文章返回给API。但是，我不知道如何完全删除包含Python中令人讨厌的类的HTML标记。我尝试了lxml清理器，但是我可以删除标记，但不仅仅是包含某个类的标记。如果在本例中我试图删除“帮助”，我想要一个脚本，该脚本将转换如下所示的HTML： <p class="help">Here are som

浏览 1提问于2022-03-08得票数 0

回答已采纳

1回答

OpenCV Logitech p270提供损坏的数据

、

我试着用p270摄像头用OpenCV来做边缘检测，当我能让它打开我的摄像头时，它接收到的所有数据都是腐败的。我的代码现在非常简单，只是想开始，但这让我头疼。这是我所遇到的错误的一个例子损坏的JPEG数据:标记0xd3之前的6个无关字节损坏的</

浏览 2提问于2017-02-24得票数 2

回答已采纳

2回答

Python原子钟网络抓取

我知道在python中有一些方法可以在不使用webscraping的情况下做到这一点，这只是为了练习一下webscraping。i in range(len(soup.find_all('p'))):这没有显示任何有时间的文本，它显示了一堆来自其他段落的文本和一些空行，但没有时间。我不确定是什么问题，因为我相信时间存储在段落标记</e

浏览 25提问于2017-12-18得票数 0

1回答

尽管匹配网络表单数据，但无法使用requests.post登录网站

、、、、

我无法登录到一个网站使用请求和获取的API数据背后的帐户。请求有效负载数据与用于正常登录的表单数据相匹配。，而不是通过webscraping发送的数据。当我在网络下检查时，它会给出这样的结果：我不知道与其他StackOverFlow答案不同的是我在做什么。下面是我尝试过的代码修改列表：没有会话的，只执行正常的请求，将数据URL进行，而不是只使用with requests.Session() as ses

浏览 2提问于2020-07-23得票数 0

1回答

我正在尝试为子主题创建一个footer.php，但没有成功--使用wordpress + trying + elementor

、、、、

最近，我使用元素页面构建器为OceanWP创建了一个子主题。我已经上传了文件夹通过Filezilla放在主题的文件夹旁边的父。然后我去添加了一个footer.php文件(因为我需要在一个附属链接的</head>标记之前向文件中添加一些额外的代码)，这就是我感到困惑的地方。(我做了这件事，我的利润被搞砸了，css样式也变糟了) 在我添加我需要的代码之前，它应该是空的吗？(我这样做了，我的<

浏览 3提问于2020-08-10得票数 0

1回答

通过Scrapy或Excel查询搜索的Python via抓取？

、、、

我的问题与发现通过Scrapy执行Python Web抓取的总体效率有关，而不是简单地通过Microsoft Excel为特定任务执行Web查询搜索。我想做的是自动从NFL网站上提取数据。我知道我可以简单地将信息复制并粘贴到Excel电子表格上，但这不是我想要做的。我正在尝试发现一种自动化过程的方法，这样我就不需要自己手动完成了。当涉及到通过Scrapy的Python Webscrape时，挑战是开发代码来获得我正在寻找的所有信息。如果Microsoft查询搜索是更好

浏览 2提问于2018-10-18得票数 1

3回答

Python抓取-处理404页错误

、、、

我正在通过Python \ Selenium \ Chrome无头驱动程序执行web抓取，该驱动程序涉及执行一个循环：while (CustIdBeautifulSoup(driver.page_source,"lxml") #logic for webscraping

浏览 13提问于2022-04-21得票数 0

回答已采纳

1回答

expected_conditions.elementS_to_be_clickable((By.TAGNAME，'a'))

、、、

我有一些webscraping项目，其中我有这样的代码： sleep(1)meeting_link[25].click() 我的问题是，我如何使用 WebDriverWait(driver, 20).until(EC.element_to_be_clickable((By.TAG_NAME, 'a'))) 返回所有a标记或返回第25个a标记。

浏览 23提问于2021-09-08得票数 0

2回答

需要Armv7 linux处理器的无头浏览器

、、、、

我需要一个webscraping.Recently的无头浏览器--我尝试了3种不同的无头浏览器(PhantomJS，Firefox，Chrome)。然后，在使用火狐和geckodriver时，它显示了路径中的错误和连接拒绝的。因此，我使用了带有色驱动程序的chrome无头浏览器，但它也显示了与Firefox相同的错误。因此，我需要一个正确的Armv7处理器无头浏览器。有谁能提出解

浏览 0提问于2018-03-08得票数 0

回答已采纳

3回答

来自SQL的流html不显示IE9中的图像

、、、

html包含图像目录，图像存储在服务器上的这些目录中。Response.OutputStream.Write(b, 0, b.Length);这只是一个显示主输出过程的片段从输出html复制图像目录并将其放在我的地址栏中会打开图像，但是IE9不想在html中显示它们，而是显示单词“位图”<

浏览 3提问于2011-07-04得票数 0

回答已采纳

1回答

session_set_cookie_params()指向错误的域

、

当我想要设置会话cookie时，我遇到了一些非常奇怪的错误。“这是一个问题，因为我是在一个子域上开发的，而session_id _id可能会相互干扰。是我做错了什么，还是我的服务器设置有问题？

浏览 0提问于2013-03-26得票数 0

回答已采纳

2回答

正则表达式匹配嵌套标记

、、

你好，我正在尝试匹配多嵌套引号，并将它们转换回BBCode --这就是我所得到的，因为regex涉及到将其转换回html实体，以便在堆栈流中看到 quoteOutside(但这没那么重要) 我真的需要你的帮助。我已经厌倦了使用HTML解析器来解决这个问题，但事实证明它比使用regex要困难得多。

浏览 5提问于2010-12-08得票数 0

回答已采纳

1回答

HTTP标头禁止页面上的Iframe

、、、

这里有标题X帧选项，当您想禁止(或限制)其他站点使用iframe将您的页面嵌入到它们中时，when服务器就会提供这些选项。但是，是否有一个标题告诉浏览器：“不允许在此页面上加载任何Iframe”？当然，有一些标头可以告诉浏览器允许它执行哪个脚本，哪个域，但是我想要一些更通用的东西：“不允许在此页面上加载任何iframe，或者只允许加载来自特定来源的iframes”。

浏览 2提问于2017-11-14得票数 2

回答已采纳

1回答

从数据库存储字符串扩展刀片模板

、、、、

我的问题是，我需要传递字符串作为要查看的参数，其中包含要呈现的Blade模板标记。我已经做了我的研究，我相信其他的问题与我的无关。因此，以下是我想要达到的目标。我想从数据库中检索主布局并从它扩展子视图。因此，在我的示例中，要传递给view()方法的视图需要从数据库中的字符串中扩展。因此，下面这样的内容应该可以在page.blade.php中工作

浏览 3提问于2016-07-07得票数 1

1回答

在r标记中修剪打印命令的空白

、

当我用命令print(df[[i]])打印数据帧的字符变量时，character在行间显示不需要的空格。我想要的输出将保留换行符，但在行之间没有空格，类似如下所示。文件中，有时会进行标记，避免插入//。下面是一个由标记产生的乳胶码的例子。``- clear distinction between `big data' and `medium data' - insight into what R can do in t

浏览 0提问于2018-04-30得票数 0

1回答

cwac摄像头是否捕捉到用户的gps位置？

、、

我想知道cwac摄像头是否捕捉到了用户的gps信息。默认情况下会做地理标记吗？如果是这样，我如何才能将其关闭？作为参考，我准备了以下版本的cwac camera (gradle)。.+' 我将附上我的代码片段。

浏览 11提问于2015-05-15得票数 2

点击加载更多