首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何在没有任何href属性的链接上使用selenium获得完全合格的url?

要在没有任何href属性的链接上使用Selenium获取完全合格的URL,可以通过以下步骤实现:

  1. 使用Selenium打开网页,并定位到该链接所在的元素。
  2. 通过获取该元素的innerHTML属性,可以获取到链接的文本内容。
  3. 使用正则表达式或其他方法从文本内容中提取出URL。
  4. 验证提取的URL是否完全合格,包括协议、域名、路径等是否符合规范。
  5. 如果URL不完全合格,可以进行适当的修正,例如添加协议头(http://或https://)等。
  6. 最后,使用修正后的URL进行后续操作。

请注意,使用Selenium获取非href属性的链接可能会有一定的限制和挑战,因为Selenium主要用于模拟浏览器行为,而链接的href属性通常是用于点击跳转的。在处理这种情况时,需要根据具体情况进行适当的处理和调整。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

爬虫之selenium

目录 xpath选择器 二、css选择器 三、selenium模块使用 3.1elenium介绍 3.2模块使用 四、动作 五、爬取京东商品信息 六、12306自动登录 七、cookie池 八、...三、selenium模块使用 3.1elenium介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码问题 selenium...本质是通过驱动浏览器,完全模拟浏览器操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后结果,可支持多种浏览器 有了selenium能够实现可见即可爬 -使用(本质,并不是python在操作浏览器...驱动得匹配(浏览器匹配,浏览器版本跟驱动匹配)) -3 写代码 3.2模块使用 -selenium使用 1 实例化 bro=webdriver.Chrome(executable_path=...frame(了解) 四、动作 #使用动作 # 使用动作 #1 得到一个动作练对象 action=ActionChains(bro) # 使用动作 #2 点击并且夯住 action.click_and_hold

1.8K20
  • Selenium简单基础详解(II)

    各位小伙伴,如果您: 想系统/深入学习某技术知识点… 一个人摸索学习很难坚持,想组团高效学习… 想写博客但无从下手,急需写作干货注入能量… 热爱写作,愿意让自己成为更好的人… 承接上文,继续列举...Selenium基操 四、元素操作 1、获取文本 ret = browser.find_element_by_class_name('element') print(ret[0].text) 2、获取属性值...() # 后退 browser.back() 六、执行js from selenium import webdriver browser = webdriver.Chrome() url = 'https...来自维基百科  非同步技术导致程序不能精准地确定什么时间什么元素完全加载完成,如果实际页面等待时间过长,这将会导致元素不完全,但是代码将会直接使用,所以就会报错。...                即等待某个指定元素,然后设置最长等待时间,如果在这个时间内还没有找到元素,则程序将会抛出异常。

    38220

    python+selenium 脚本实现每天自动登记思路详解

    最近受疫情影响,学校要求每天必须进行健康登记,而我身处大山深处,身体健康,足不出户,奈何总是容易忘记,遂决定手撸一个自动登记小程序,仅供学习交流之用,话不多说,直接上代码。...配置:Chrom python3.7 selenium库,webdriver等 基本思路,使用selenium模拟浏览器自动登录,需要解决验证码提取,嵌套表单提取,弹窗处理,异常处理。...import Keys driver = selenium.webdriver.Chrome() url = '你url' driver.get(url) source = driver.find_element_by_xpath...('a')[43].get('href') url6=url4+url5 driver.get(url6) time.sleep(5) driver.find_element_by_xpath('//input...脚本实现每天自动登记思路详解文章就介绍到这了,更多相关python selenium 每天自动登记内容请搜索ZaLou.Cn以前文章或继续浏览下面的相关文章希望大家以后多多支持ZaLou.Cn!

    96020

    Python 自动化指南(繁琐工作自动化)第二版:十二、网络爬取

    如果没有命令行参数,那么程序将知道使用剪贴板内容。 首先你需要弄清楚给定街道地址使用什么 URL。...HTML 中有许多不同标签。其中一些标签在尖括号内有额外属性,形式为属性。例如,标签包含了应该是链接文本。文本链接到 URLhref属性决定。...注意,返回元素中href属性没有初始https://pypi.org部分,所以您必须将其连接到href属性字符串值。...之后,选择器'a[rel="prev"]'识别出元素,其rel属性被设置为prev,您可以使用这个元素href属性来获取前一个漫画 URL,该 URL 被存储在url中。...但是要完全自动化任何基于网络任务,你需要通过selenium模块直接控制你网络浏览器。selenium模块将允许您登录网站并自动填写表格。

    8.7K70

    我常用几个实用Python爬虫库,收藏~

    # 提取并打印标签href属性和文本内容 link = soup.find('a', class_='link') print("链接地址:", link['href']) # 链接地址...,你可以使用find_all()来获取它们一个列表 # 例如,要获取所有标签href属性,可以这样做: all_links = [a['href'] for a in soup.find_all...('a')] print("所有链接地址:", all_links) # 假设HTML中有多个标签,这里将列出它们href属性 # 注意:上面的all_links列表在当前HTML内容中只有一个元素...Selenium 库能很好地与任何浏览器( Firefox、Chrome、IE 等)配合进行测试,比如表单提交、自动登录、数据添加/删除和警报处理等。...八爪鱼爬虫 八爪鱼爬虫是一款功能强大桌面端爬虫软件,主打可视化操作,即使是没有任何编程基础用户也能轻松上手。

    21220

    6个强大且流行Python爬虫库,强烈推荐!

    # 提取并打印标签href属性和文本内容 link = soup.find('a', class_='link') print("链接地址:", link['href']) # 链接地址...,你可以使用find_all()来获取它们一个列表 # 例如,要获取所有标签href属性,可以这样做: all_links = [a['href'] for a in soup.find_all...('a')] print("所有链接地址:", all_links) # 假设HTML中有多个标签,这里将列出它们href属性 # 注意:上面的all_links列表在当前HTML内容中只有一个元素...Selenium 库能很好地与任何浏览器( Firefox、Chrome、IE 等)配合进行测试,比如表单提交、自动登录、数据添加/删除和警报处理等。...八爪鱼爬虫 八爪鱼爬虫是一款功能强大桌面端爬虫软件,主打可视化操作,即使是没有任何编程基础用户也能轻松上手。

    37710

    08 Python爬虫之selenium

    先介绍图片懒加载技术 当获取一个网站图片数据时,只能爬取到图片名称,并不能获得链接,而且也不能获得xpath表达式。这是应用了图片懒加载技术。   ...- 如何实现懒加载数据技术:     -- 在网页源码中,在img标签中首先会使用一个‘伪属性’(通常是src2,original等)去存放真正图片链接,而不是直接存放在src属性中。...二. selenium   selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码问题selenium本质是通过驱动浏览器,完全模拟浏览器操作...上方示例中,一些交互动作都是针对某个节点执行.:输入框,我们就调用它输入文字和清空文字方法;对于按钮,就调用它点击方法.有的操作,它们没有特定执行对象,比如鼠标拖拽,键盘按键等,这些动作用另一种方式来执行就是动作...(2) 26 # 使用爬虫程序爬去当前url内容 27 html_source = bro.page_source # 该属性可以获取当前浏览器的当前页源码(html) 28

    1K20

    WebDriverIO教程:处理Selenium警报和覆盖

    在此有关Selenium中警报处理WebDriverIO教程中,我将向您展示如何在WebDriverIO中处理警报和弹出窗口以及叠加模式。...我还将介绍自动化期间将要遇到各种类型警报,以及使用WebDriverIO在Selenium中处理警报时需要遵循关键点。...WebDriverIO中警报类型 警报和弹出窗口在任何网站开发中都很常见,并且在执行Selenium测试自动化时,您也必须处理它们。...以下是弹出提示示例。 ? 除了这些内置javascript警报之外,还有一个弹出窗口称为“模式”。警报和模式警报之间主要区别在于,如果没有请求操作(“确定”或“取消”),警报将不会发出。...没有特别的 这是叠加模式示例: 现在,您已经熟悉javascript中可用另一种警报和模式。在本WebDriverIO教程中,我将向您展示有关Selenium中警报处理更多信息。

    6.2K10

    WebDriverIO教程:处理Selenium警报和覆盖

    在此有关Selenium中警报处理WebDriverIO教程中,我将向您展示如何在WebDriverIO中处理警报和弹出窗口以及叠加模式。...我还将介绍自动化期间将要遇到各种类型警报,以及使用WebDriverIO在Selenium中处理警报时需要遵循关键点。...WebDriverIO中警报类型 警报和弹出窗口在任何网站开发中都很常见,并且在执行Selenium测试自动化时,您也必须处理它们。...以下是弹出提示示例。 除了这些内置javascript警报之外,还有一个弹出窗口称为“模式”。警报和模式警报之间主要区别在于,如果没有请求操作(“确定”或“取消”),警报将不会发出。...没有特别的 这是叠加模式示例: 现在,您已经熟悉javascript中可用另一种警报和模式。在本WebDriverIO教程中,我将向您展示有关Selenium中警报处理更多信息。

    5.9K30

    爬虫案例2-爬取视频三种方式之一:selenium篇(2)

    @TOC前言继使用requests库爬取好看视频文章后,本文分享使用python第三方库selenium库接着来爬取视频网站,后续也会接着分享使用第三方库DrissionPage爬取视频。...selenium简介selenium是一个用于web应用测试工具集,它可以直接运行在浏览器中,就像真正用户在操作一样。它主要应用在自动化测试,web爬虫和自动化任务中。...selenium提供了很多编程语言接口,java,python,c#等。这让开发者可以自己编写脚本来自动化web应用测试。...实战案例 话不多说 ,直接上源码from selenium import webdriver # 浏览器驱动from selenium.webdriver.common.by import By...for a in data_video: # href=a.get_attribute("href") # 获取视频地址 data.append(href)print(data)time.sleep

    14810

    自动化测试工具Selenium基本使用方法

    一、前言 由于requests模块是一个不完全模拟浏览器行为模块,只能爬取到网页HTML文档信息,无法解析和执行CSS、JavaScript代码,因此需要我们做人为判断; selenium模块本质是通过驱动浏览器...,完全模拟浏览器操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后结果,可支持多种浏览器;由于selenium解析执行了CSS、JavaScript所以相对requests它性能是低下; 二...、selenium基本使用 import time from selenium import webdriver#驱动浏览器 from selenium.webdriver import ActionChains...做自动化,有时候会遇到需要模拟鼠标操作才能进行情况(:iframe标签),比如单击、双击、点击鼠标右键、拖拽(滑动验证)等。...获取元素属性 //获取a连接href属性值 browser.find_element_by_xpath('//a')).get_attribute('href') 7.

    2.4K30

    Python爬虫技术系列-04Selenium库案例

    Python爬虫技术系列-04Selenium库案例 1 Selenium库基本使用 1.1 Selenium库安装 1.2 Selenium库介绍 2 Selenium使用案例 2.1 京东页面分析...2 Selenium使用案例 2.1 京东页面分析 在上一小节,完成了selenium基本介绍,本小节通过使用selenium打开京东首页,并在搜索栏模拟输入“python爬虫”,模拟点击回车键如下图所示...进一步分析,可以看到商品列表页,,商品链接,商品名称,商品价格,商品评论人数等信息,如图所示: 通过开发者工具可以看出,商品链接位于li标签中a标签href属性中。...商品名称位于class属性为p-namediv标签下得em标签中,并有换行。商品价格信息位于class属性为p-pricediv标签中i标签中,由于图片大小问题,没有展开显示。...商品评论人数信息位于class属性为p-commita标签中,由于图片大小问题,没有展开显示。

    1K20

    Cypress web自动化20-跨域问题-a标签超链接

    之前使用 selenium 时候,不用关心这种问题,a标签点击后会跳转到另外一个web页面,正常使用。...没有将secure标志设置为truecookies将作为明文发送到不安全URL。这使得你应用程序很容易受到会话劫持。 即使你web服务器强制301重定向回HTTPS站点,此安全漏洞仍然存在。...另外,请确保cookiesecure标志设置为true。 事实上我们没有任何理由访问测试中无法控制站点。它容易出错,速度很慢。 相反,你只需要测试href属性是否正确!.../') cy.get('a').then(($a) => { // 从中取出完全限定href const url = $a.prop...设置chromeWebSecurity为false允许你做以下事情: 显示不安全内容 导航到任何超域没有跨域错误 访问嵌入到应用程序中跨域iframe。

    3.1K20

    Python中Selenium使用教程详解

    selenium介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码问题 selenium本质是通过驱动浏览器,完全模拟浏览器操作...支持非常多浏览器,Chrome、Firefox、Edge等,还有Android、BlackBerry等手机端浏览器。...2、根据ID、CSS选择器和XPath获取,它们返回结果完全一致。 3、另外,Selenium还提供了通用方法find_element(),它需要传入两个参数:查找方式By和值。...实例演示 假如有一个web页面,通过前端工具查看到一个元素属性是这样。...,接着就可以使用解析库(正则表达式、Beautiful Soup、pyquery等)来提取信息了。

    18.6K53

    爬虫学习(三)

    :匹配任何元素节点。 @*:匹配任何属性节点。 node():匹配任何类型节点。...如果要查找标签没有特殊属性,我们可以定位到它上一级查找。三级标签之内肯定会有属性。 position()可以使用比较运算(大于小于等于), last()只可以用来算术运算(加减)。...xpath方法返回列表三种情况: 1.返回空列表:根据xpath语法规则字符串,没有定位到任何元素。 2.返回由字符串构成列表:xpath字符串规则匹配一定是文本内容或某属性值。...; 6、使用selenium发送请求,加载网页 a:实例化浏览器对象 b:构建url,发送请求 7、使用selenium获取浏览器中数据方法 a:text文本 b:get_attribute(属性...)获取属性 8、使用selenium获取元素中定位方法 a:xpath/id/tag_name/link/select/等 9、常见反爬及对应解决方法 a:headers----构建user_agent

    5.7K30

    Selenium使用方法简介

    其实,还有另外一些操作,它们没有特定执行对象,比如鼠标拖曳、键盘按键等,这些动作用另一种方式来执行,那就是动作。...获取节点信息 前面说过,通过page_source属性可以获取网页源代码,接着就可以使用解析库(正则表达式、Beautiful Soup、pyquery等)来提取信息了。...获取属性 我们可以使用get_attribute()方法来获取节点属性,但是其前提是先选中这个节点,示例如下: from selenium import webdriverfrom selenium.webdriver...) print(input.tag_name) print(input.size) 这里首先获得“提问”按钮这个节点,然后调用其id、location、tag_name、size属性来获取对应属性值。...这里等待方式有两种:一种是隐式等待,一种是显式等待。 隐式等待 当使用隐式等待执行测试时候,如果Selenium没有在DOM中找到节点,将继续等待,超出设定时间后,则抛出找不到节点异常。

    5K61

    Python爬虫之自动化测试Selenium#7

    Selenium 使用 Selenium 是一个自动化测试工具,利用它可以驱动浏览器执行特定动作,点击、下拉等操作,同时还可以获取浏览器当前呈现页面的源代码,做到可见即可爬。...其实,还有另外一些操作,它们没有特定执行对象,比如鼠标拖曳、键盘按键等,这些动作用另一种方式来执行,那就是动作。...获取节点信息 前面说过,通过 page_source 属性可以获取网页源代码,接着就可以使用解析库(正则表达式、Beautiful Soup、pyquery 等)来提取信息了。...获取属性 我们可以使用 get_attribute() 方法来获取节点属性,但是其前提是先选中这个节点,示例如下: from selenium import webdriver from selenium.webdriver...这里等待方式有两种:一种是隐式等待,一种是显式等待。 隐式等待 当使用隐式等待执行测试时候,如果 Selenium 没有在 DOM 中找到节点,将继续等待,超出设定时间后,则抛出找不到节点异常。

    17411

    如何使用Selenium WebDriver查找错误链接?

    链接到已移动或删除内容,视频,文档等。如果内容被移动,则“内部链接”应重定向到指定链接。 网站维护导致网站暂时停机,导致该网站暂时无法访问。...400(错误请求-空) 服务器返回响应为空,没有内容,也没有响应代码。 400(错误请求-重置) 这表明服务器无法处理该请求,因为它正忙于处理其他请求或站点所有者对其进行了错误配置。...通过CSS选择器“ a”属性找到Web元素,可以找到被测URL上存在链接(即cnds博客)。...3.遍历URL以进行验证 请求模块head方法用于将HEAD请求发送到指定URL。该get_attribute方法每一个环节上用于获取“ HREF ”锚标记属性。...当head方法应用于不包含“ href属性链接(例如mailto,电话等)时,将导致异常(即MissingSchema,InvalidSchema)。

    6.6K10
    领券