首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

记一次jsoup的使用

Jsoup它解析HTML成为真实世界的HTML。它与jquery选择器的语法非常相似,并且非常灵活容易使用以获得所需的结果。 安装-运行时依赖关系 同级元素B,比如:div.head + div; siblingA ~ siblingX: 查找A元素之前的同级X元素,比如:...(它的位置在DOM树中是相对于它的父节点)小于n,比如:td:lt(3) 表示小 于三列的元素 :gt(n):查找哪些元素的同级索引值大于n,比如:div p:gt(2)表示哪些div中有包含...2个以上的p元素 :eq(n): 查找哪些元素的同级索引值与n相等,比如:form input:eq(1)表示包含一个input标签的Form元素 :has(seletor): 查找匹配选择器包含元素的元素...(0).attr("content"); System.out.println("Meta description : " + description); 提取URL中的图像

1.5K30

HTML初学

相对路径分类: 1.同级目录:./ : 当前目录(即html文件所在的目录),可省略 2.上级目录:…/ :上一级目录,如果想找再上一级的,用…/…/ 3.下级目录:文件夹/ 图片: alt = " " title = " " width = " " height = " "> 属性介绍: 1. src 显示图像的URL 2. alt 图像的替代文本(图片无法显示时...,显示alt中的文本) 3. width 设置图像的宽度 4. height 定义图像的高度 5. title 鼠标悬停出现的文字 音频 <audio src="" controls autoplay...无序列表 标签 说明 ul 表示列表整体,只能包含li li 列表每一项 2. 有序列表 标签 说明 ol 表示列表整体,只能包含li li 列表每一项 3....自定义列表 标签 说明 dl 表示列表整体,只能包含dd或dt dt 列表标题 dd 列表项 表格 标签 说明 table 表格整体 tr 行 td 单元格 th 表头单元格 结构标签 标签 说明

3.3K40
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    XPath元素定位常用的5种方法(相对路径)

    并且属性pwd的值等于123456的input元素 //ul/*[5] ul的第五个子元素 //*[text()=‘Heading’ 任意包含Heading文本的元素 //input[@*=‘SYS123456...text()=文本内容] 文本部分匹配-包含://标签名[contains(text(),部分文本内容)] driver.find_element_by_xpath("//a[text()="退出"]"...) * preceding-sibling:当前元素节点标签之前的所有兄弟节点(同级) * following:当前元素节点标签之后的所有节点 * following-sibling:当前元素节点标签之后的所有兄弟节点...(同级) * 使用语法:轴名称::节点名称前后的定位与之前一致,用/隔开即可 * //div//table/td/preceding::td/following-sibling::a//[contains...(text(),"课程")] #表示//div//table/td/路径前所有节点中找到节点名称为td的节点,向下同级下的一个兄弟节点包含文本课程。

    9.8K30

    【Web世界探险家】HTML5 探索与实践

    根标签主要用于告知浏览器其自身的是一个 HTML 文档,其中 标志着 HTML 文档的开始, 则标志着 HTML 文档的结束,在它们之间是文档的头部和主体内容。...1.2.2 标签的关系 在网页中会存在多种标签,各标签之间都具有一定的关系。标签的关系主要是嵌套关系和并列关系。 嵌套关系 嵌套关系也称为包含关系,可以简单理解为一个双标签里面包含其他标签。...常用属性: 属性 属性值 说明 src 图片路径 必须属性 alt 文本 替换文本。图像不能显示的文字 titlr 文本 提示文本。...鼠标放到图像上,显示文字 width 像素 设置图像的宽度 height 像素 设置图像的高度 border 像素 设置图像的边框粗细 【注意】: 属性可以有多个,不能写在标签之前 属性之间用空格分割...相对路径:以 HTML 文件为基准,找到图片的位置 同级路径:直接写图片的文件名即可(或者 ./文件名) 下一级目录:文件夹名/文件名 上一级目录:..

    9410

    Xpath的常用定位方法及轴定位

    Xpath常用的定位方法 相信做过selenium UI自动化的朋友都知道,工作中大部分的元素定位都是使用xpath进行定位,所以xpath是UI自动化工作中非常重要的一个环节,所以我单独整理出来一篇博客出来...and很像,指的是当你元素满足其中一个条件的时候,就可以定位到,如图,在百度搜索框中,我们故意将@class=’s_t’元素写错,内容中并没有这个元素, // 标签名[@元素名称='元素值' or @...:“.”就等于text() 模糊匹配 //标签名[contains(text(), "内容"] //div[contains(text(), "更新")] 这里的意思是模糊查询内容包含“更新”的元素...::* 查找books1所有的同级元素都查找出来,“*”表示所有 //div[3]/table/tbody/tr[1]/td[1]/following-sibling::td[2] 查找td[1]下同级节点下的第二个节点...2]下year前的同级节点 查找节点的父辈 /bookstore/book[2]/year/parent::* 查找节点的子辈 /bookstore/book[2]/descendant::* 使用position

    1.7K10

    用re和xpath进行爬虫信息提取

    用python做网络爬虫,也可以分3步: 通过各种手段获取网络响应,得到网页源码,其中源码包含想要爬取的各种数据,例如requests、urllib、selenium等,具体方法根据目标网页反爬措施而异...; 在获得的网页源码中提取数据,常用方法包括re、Xpath、Bs4等; 对提取的数据进行处理保存,例如写入文件(.csv,.txt等等)或者存储数据库等。...一般而言,3种提取数据的方法中,re速度最快,但设计正则表达式规则相对复杂;xpath速度其次,其设计规则一定程度上类似有些类似于从sql中查询数据,难度居中;bs4速度较慢,但理解简单实现也较为容易。...alt="(.*?)" .*?执业许可证号:(.*?).*?住所:(.*?).*?联络地址:(.*?).*?电话:(.*?).*?传真:(.*?)...re和xpath作为爬虫信息提取的2种常用方法,各有利弊不分伯仲,可根据各自特点灵活选用,其中对于规律性比较强的,优先选用re提取数据;而当字段数目或者信息规则不确定时,则可以设计xpath提取。

    77520

    HTML基本标签使用详解

    在正式讲解标签使用之前,需要先说明,标签这里只做简单用法说明,如果大家在有疑惑的地方,可以翻到最后有实例练习,结合实例一同食用可能会更加清楚标签的用法。..../534.png" alt="图片加载失败" title="C++图片" width="100px"> 4.5、border属性 边框,参数是宽度的像素,但是一般使用CSS来设定。...属性使用 "键值对" 的格式来表示。 五、超链接标签:a 5.1、href属性 必须具备, 表示点击后会跳转到哪个页面。...但是一般使用 CSS 方式来设置. 这些属性都要放到 table 标签中。 align 是表格相对于周围元素的对齐方式. align="center" (不是内部元素的对齐方式)。...八、表单标签 表单域: 包含表单元素的区域. 重点是 form 标签。描述了要把数据按照什么方式, 提交到哪个页面中。 表单控件: 输入框, 提交按钮等.重点是input标签。

    11710

    如何在Selenium WebDriver中处理Web表?

    在需要以表格格式显示信息的情况下,通常使用Web表或数据表。本质上,显示的数据可以是静态的也可以是动态的。您经常会在电子商务门户网站中看到这样的示例,其中产品规格显示在Web表中。...以下是与网络表格相关的一些重要标记: –定义一个HTML表 –在表中包含标题信息 –定义表中的一行 td> –定义表中的列 Selenium中Web表的类型 表格分为两大类...使用XPath(// * [@ id ='customers'] / tbody / tr [2] / td)计算Selenium中Web表的列数。...使用浏览器中的检查工具获取行和列的XPath,以处理Selenium中的表以进行自动浏览器测试。 ? 尽管网络表中的标头不是td >,但在当前示例中仍可以使用标记来计算列数。...在此Selenium WebDriver教程的下面是XPath,用于访问信息,其中列是可变的,行是恒定的。

    4.2K20

    如何在Selenium WebDriver中处理Web表?

    在需要以表格格式显示信息的情况下,通常使用Web表或数据表。本质上,显示的数据可以是静态的也可以是动态的。您经常会在电子商务门户网站中看到这样的示例,其中产品规格显示在Web表中。...使用XPath(// * [@ id =‘customers’] / tbody / tr [2] / td)计算Selenium中Web表的列数。...使用浏览器中的检查工具获取行和列的XPath,以处理Selenium中的表以进行自动浏览器测试。 尽管网络表中的标头不是td >,但在当前示例中仍可以使用标记来计算列数。...因此,行是动态计算的。在本Selenium WebDriver教程的下面,是用于访问信息的XPath,其中行是变量因子,而列对于Selenium测试自动化而言保持不变。...在此Selenium WebDriver教程的下面是XPath,用于访问信息,其中列是可变的,行是恒定的。

    3.7K30

    学习 XSLT:XML文档转换的关键

    使用 XPath 在 XML 文档中导航XSLT = XSL 转换XSLT 是 XSL 中最重要的部分。...描述转换过程的一种常见方式是说,XSLT 将 XML 源树转换为 XML 结果树。XSLT 使用 XPathXSLT 使用 XPath 在 XML 文档中查找信息。...XPath 用于在 XML 文档中导航元素和属性。它是如何工作的在转换过程中,XSLT 使用 XPath 定义应与一个或多个预定义模板匹配的源文档的部分。...(id="example")设置为包含样式化的 xml 文档如果是其他浏览器:创建一个新的 XSLTProcessor 对象并将 XSL 文件导入其中使用 transformToFragment() 方法将...每个 XML "value" 元素的值被添加到每个 HTML 输入字段的 "value" 属性中。 结果是一个可编辑的 HTML 表单,其中包含来自 XML 文件的值。

    20510

    Python:使用爬虫获取中国最好的大学排名数据(爬虫入门)

    文章目录 问题描述 结果展示 解决思路 代码实现 代码讲解 总结一下 使用 XPath 实现 问题描述 请使用 Python 爬取最好大学网的 大学排名数据 ,并保存为 CSV 和 Excel 格式。...tr标签,我们要做的是取出来其中的td中的content,作为二维列表。...,只关注内容 # 也就是说对于table_body中的每一个tr标签,我们要做的是取出来其中的td中的content,作为二维列表 universityList = [] for...使用 XPath 实现 从http://www.zuihaodaxue.cn/网站中爬虫数据,获取中国大学排名(Top10) 爬取的数据保存为CSV文件(.CSV) 采用xpath语法提取数据 """...()') th_select = html.xpath('//thead//option/text()') th.extend(th_select) # 大学名称 univ

    1.8K10

    HTML基础标签与相关案例

    name:name和 content属性可以一起使用,以名 - 值对的方式给文档提供元数据,其中 name作为元数据的名称,content作为元数据的值。...alt属性 该属性包含一条对图像的文本描述,这不是强制性的,但对可访问性而言,它难以置信地有用——屏幕阅读器会将这些描述读给需要使用阅读器的使用者听,让他们知道图像的含义。...如果由于某种原因无法加载图像,普通浏览器也会在页面上显示alt 属性中的备用文本:例如,网络错误、内容被屏蔽或链接过期时。...元素可以包含一个或多个音频资源, 这些音频资源可以使用 src属性或者元素来进行描述:浏览器将会选择最合适的一个来使用。...td>标签 HTMLtd\> 元素 定义了一个包含数据的表格单元格。

    11510

    【HTML】构建网页的基石

    我的主页:2的n次方_ HTML 是一种超文本标记语言,不仅有文本,还能包含图片,音频等 1....图片标签 img 标签表示图片,必须带有 src 属性,表示图片的路径,同级目录下可以直接写文件名,可以写绝对路径,也可以写相对路径,还可以写网络路径,一般建议写 / ,不写 \ ./ 表示当前目录,...../ 表示上一级目录 alt=""> alt=""> 还可以设置图片的宽度和高度...表格标签 table:表示整个表格 tr:表示表格的一行 td:表示一个单元格 也就是 table 包含 tr,tr 包含 td vs code 中提供了快捷输入: <tr...表单域 表单域就是包含表单元素的区域,也就是可以包含上面控件的区域,用 form 标签表示,表单控件中的内容最终都会通过表单域提交 </form

    8710

    前端入门学习--HTML

    使用内联样式的方法是在相关的标签中使用样式属性,样式属性可以包含任何CSS属性,下面的例子显示如何改变段落的颜色和左外边距。...: 有用的提示 HTML 图像 图像标签img 和源属性src 在HTML中,图像由img标签定义,img是空标签,只包含属性,并且没有闭合标签。.../images/boat.gif 替换文本属性 alt 属性用来为图像定义一串预备的可替换的文本。替换文本属性的值是用户定义的。...alt="Big Boat"> 在浏览器无法载入图像时,替换文本属性告诉读者她们失去的信息。此时,浏览器将显示这个替代性的文本而不是图像。...URL编码使用 “%”其后跟随两位的十六进制数来替换非 ASCII 字符。 URL不能包含空格。URL编码通常使用 + 来替换空格。 HTML 速查列表 备日常使用。

    13.1K40

    HTML知识点概括——一篇文章带你完全掌握HTML

    HTML的优势: 市场需求量 跨平台使用 浏览器支持 我们使用的工具依旧选择老朋友: IDEA 因为内容过多,大部分内容可能都在代码中详细介绍,请仔细阅读代码 HTML基本框架 下面我们稍微介绍以下HTML... 其中这种成对出现的标签,我们称为开放标签和闭合标签 其中这种单个出现的标签,我们称为单个标签 块元素和行内元素 我们简单介绍一下块元素和行内元素: 块元素:...-- 我们先给出图像格式:alt="" title="" width="" height=""> img:图像标签 src:表示图像地址,可以写绝对地址,也可以写相对地址(推荐)...相对地址中返回上一级的标志是:../ alt:表示图像名称,当图像不显示时,直接打出图像名称 title:当鼠标移动上去时出现的名称 width:宽度 height:高度 --> 网页基本标签-表单 表单作用: 用于收集用户信息 表单组成: 表单域 表单控件 提示信息 表单域 表单域是一个包含表单元素的区域

    1.7K20

    前端基础-节点操作

    注意: 不会克隆绑定到该元素上的事件; node.innerHTML 返回该元素包含的 HTML 代码。...该属性可读写,常用来设置某个节点的内容;(不属于W3C DOM规范) node.innerText 返回该元素包含的内容。...Element节点,如果当前节点后面没有同级节点,则返回null; node.previousElementSibling 返回紧跟在当前节点前面的第一个同级Element节点,如果当前节点前面没有同级节点...之前,我们已经简单的使用过JS控制元素的CSS样式; 在具体使用的时候还有一些需要重点注意的细节: 名字需要改写,将横杠从CSS属性名中去除,然后将横杠后的第一个字母大写: 比如background-color...思路:点击图片后,给整个dom绑定鼠标移动事件,让图片跟随 img { position: absolute; width: 50px;

    4.3K10

    WEB入门二 表格和表单

    本章将学习如何在页面中创建一个表格以及表格的基本操作,例如合并单元格、使用背景图像美化表格、创建表单以及表单元素的基本用法。最后,通过举例讲解表格与表单的综合应用。...大多数表格都包含一行或一列表头,用于说明某一列或一行数据的属性类别,此时可以使用标签来设置。标签必须嵌套在标签内。...1.2.2 标签 标签用于创建 HTML文档中的表单。标签除了可以包含表单字段元素之外,还可以包含文本、图像以及其他的HTML元素。...select>标签创建可供选择的下拉列表,标签创建列表中的选项,使用 selected属性可以设置下拉列表的默认选项。...所示: Ø 使用表格进行布局 Ø 包含常见的表单元素 巩固练习 一、选择题 1.

    9610
    领券