Jsoup它解析HTML成为真实世界的HTML。它与jquery选择器的语法非常相似,并且非常灵活容易使用以获得所需的结果。 安装-运行时依赖关系 同级元素B,比如:div.head + div; siblingA ~ siblingX: 查找A元素之前的同级X元素,比如:...(它的位置在DOM树中是相对于它的父节点)小于n,比如:td:lt(3) 表示小 于三列的元素 :gt(n):查找哪些元素的同级索引值大于n,比如:div p:gt(2)表示哪些div中有包含...2个以上的p元素 :eq(n): 查找哪些元素的同级索引值与n相等,比如:form input:eq(1)表示包含一个input标签的Form元素 :has(seletor): 查找匹配选择器包含元素的元素...(0).attr("content"); System.out.println("Meta description : " + description); 提取URL中的图像
相对路径分类: 1.同级目录:./ : 当前目录(即html文件所在的目录),可省略 2.上级目录:…/ :上一级目录,如果想找再上一级的,用…/…/ 3.下级目录:文件夹/ 图片: alt = " " title = " " width = " " height = " "> 属性介绍: 1. src 显示图像的URL 2. alt 图像的替代文本(图片无法显示时...,显示alt中的文本) 3. width 设置图像的宽度 4. height 定义图像的高度 5. title 鼠标悬停出现的文字 音频 <audio src="" controls autoplay...无序列表 标签 说明 ul 表示列表整体,只能包含li li 列表每一项 2. 有序列表 标签 说明 ol 表示列表整体,只能包含li li 列表每一项 3....自定义列表 标签 说明 dl 表示列表整体,只能包含dd或dt dt 列表标题 dd 列表项 表格 标签 说明 table 表格整体 tr 行 td 单元格 th 表头单元格 结构标签 标签 说明
并且属性pwd的值等于123456的input元素 //ul/*[5] ul的第五个子元素 //*[text()=‘Heading’ 任意包含Heading文本的元素 //input[@*=‘SYS123456...text()=文本内容] 文本部分匹配-包含://标签名[contains(text(),部分文本内容)] driver.find_element_by_xpath("//a[text()="退出"]"...) * preceding-sibling:当前元素节点标签之前的所有兄弟节点(同级) * following:当前元素节点标签之后的所有节点 * following-sibling:当前元素节点标签之后的所有兄弟节点...(同级) * 使用语法:轴名称::节点名称前后的定位与之前一致,用/隔开即可 * //div//table/td/preceding::td/following-sibling::a//[contains...(text(),"课程")] #表示//div//table/td/路径前所有节点中找到节点名称为td的节点,向下同级下的一个兄弟节点包含文本课程。
表示图片的路径. 此时要把 rose.jpg 这个图片文件放到和 html 中的同级目录中. img 标签的其他属性 alt: 替换文本....: 创建一个 image 目录和 html 同级, 并放入一个 rose2.jpg alt=""> 使用相对路径2: 在 image 目录中创建一个.../rose.jpg" alt=""> 使用绝对路径1: 最好使用 / , 不要使用 \ alt=""> 使用绝对路径2: 使用网络路径 包含 tr , tr 包含 td 或者 th. 表格标签有一些属性, 可以用于设置大小边框等. 但是一般使用 CSS 方式来设置. 这些属性都要放到 table 标签中....td>李四td> td>女td> td>11td> 列表标签 主要使用来布局的.
根标签主要用于告知浏览器其自身的是一个 HTML 文档,其中 标志着 HTML 文档的开始, 则标志着 HTML 文档的结束,在它们之间是文档的头部和主体内容。...1.2.2 标签的关系 在网页中会存在多种标签,各标签之间都具有一定的关系。标签的关系主要是嵌套关系和并列关系。 嵌套关系 嵌套关系也称为包含关系,可以简单理解为一个双标签里面包含其他标签。...常用属性: 属性 属性值 说明 src 图片路径 必须属性 alt 文本 替换文本。图像不能显示的文字 titlr 文本 提示文本。...鼠标放到图像上,显示文字 width 像素 设置图像的宽度 height 像素 设置图像的高度 border 像素 设置图像的边框粗细 【注意】: 属性可以有多个,不能写在标签之前 属性之间用空格分割...相对路径:以 HTML 文件为基准,找到图片的位置 同级路径:直接写图片的文件名即可(或者 ./文件名) 下一级目录:文件夹名/文件名 上一级目录:..
Xpath常用的定位方法 相信做过selenium UI自动化的朋友都知道,工作中大部分的元素定位都是使用xpath进行定位,所以xpath是UI自动化工作中非常重要的一个环节,所以我单独整理出来一篇博客出来...and很像,指的是当你元素满足其中一个条件的时候,就可以定位到,如图,在百度搜索框中,我们故意将@class=’s_t’元素写错,内容中并没有这个元素, // 标签名[@元素名称='元素值' or @...:“.”就等于text() 模糊匹配 //标签名[contains(text(), "内容"] //div[contains(text(), "更新")] 这里的意思是模糊查询内容包含“更新”的元素...::* 查找books1所有的同级元素都查找出来,“*”表示所有 //div[3]/table/tbody/tr[1]/td[1]/following-sibling::td[2] 查找td[1]下同级节点下的第二个节点...2]下year前的同级节点 查找节点的父辈 /bookstore/book[2]/year/parent::* 查找节点的子辈 /bookstore/book[2]/descendant::* 使用position
用python做网络爬虫,也可以分3步: 通过各种手段获取网络响应,得到网页源码,其中源码包含想要爬取的各种数据,例如requests、urllib、selenium等,具体方法根据目标网页反爬措施而异...; 在获得的网页源码中提取数据,常用方法包括re、Xpath、Bs4等; 对提取的数据进行处理保存,例如写入文件(.csv,.txt等等)或者存储数据库等。...一般而言,3种提取数据的方法中,re速度最快,但设计正则表达式规则相对复杂;xpath速度其次,其设计规则一定程度上类似有些类似于从sql中查询数据,难度居中;bs4速度较慢,但理解简单实现也较为容易。...alt="(.*?)" .*?执业许可证号:(.*?).*?住所:(.*?).*?联络地址:(.*?).*?电话:(.*?).*?传真:(.*?)...re和xpath作为爬虫信息提取的2种常用方法,各有利弊不分伯仲,可根据各自特点灵活选用,其中对于规律性比较强的,优先选用re提取数据;而当字段数目或者信息规则不确定时,则可以设计xpath提取。
在正式讲解标签使用之前,需要先说明,标签这里只做简单用法说明,如果大家在有疑惑的地方,可以翻到最后有实例练习,结合实例一同食用可能会更加清楚标签的用法。..../534.png" alt="图片加载失败" title="C++图片" width="100px"> 4.5、border属性 边框,参数是宽度的像素,但是一般使用CSS来设定。...属性使用 "键值对" 的格式来表示。 五、超链接标签:a 5.1、href属性 必须具备, 表示点击后会跳转到哪个页面。...但是一般使用 CSS 方式来设置. 这些属性都要放到 table 标签中。 align 是表格相对于周围元素的对齐方式. align="center" (不是内部元素的对齐方式)。...八、表单标签 表单域: 包含表单元素的区域. 重点是 form 标签。描述了要把数据按照什么方式, 提交到哪个页面中。 表单控件: 输入框, 提交按钮等.重点是input标签。
十六进制转义值必须为确定的两个数字长。例如,“\x41”匹配“A”。“\x041”则等价于“\x04&1”。正则表达式中可以使用ASCII编码。. \num 匹配num,其中num是一个正整数。...兄弟标签:两个或者多个处在相同级别的标签,有相同的父标签,如和是兄弟标签,和是兄弟标签,中的两个是兄弟标签等等 ---- Xpath...//tr//td[span>10000] 选取tr元素的所有td子元素,并且其中的span 元素的值须大于10000。...测试通过的xpath语法,就可以直接在程序中使用了!...CSS 包含选择器 res5 = soup.select("p span#name") print(res5) # 6.
此时就可以在div中使用Vue提供的相关语法来渲染页面了 第二步:数据驱动视图 数据准备 外层大括号定义的是一个对象,里面定义了一个data方法。...}}">td> 二十七、v-bind & v-if & v-show 例: 显示头像 根据职位对应的数字来显示对应的 具体职位 v-bind: (插值表达式不能在标签内部使用) 可以简写为...:(冒号) td>alt="e.name">td> alt 属性 是如果 src 这个路径的图像找不到的话...,就会生效 alt 这个属性。...页面展示的内容跟着变化 2.页面内容变化了,数据模型绑定的数据也会跟着变化 searchForm:与empList:同级别 searchForm: {
在需要以表格格式显示信息的情况下,通常使用Web表或数据表。本质上,显示的数据可以是静态的也可以是动态的。您经常会在电子商务门户网站中看到这样的示例,其中产品规格显示在Web表中。...以下是与网络表格相关的一些重要标记: –定义一个HTML表 –在表中包含标题信息 –定义表中的一行 td> –定义表中的列 Selenium中Web表的类型 表格分为两大类...使用XPath(// * [@ id ='customers'] / tbody / tr [2] / td)计算Selenium中Web表的列数。...使用浏览器中的检查工具获取行和列的XPath,以处理Selenium中的表以进行自动浏览器测试。 ? 尽管网络表中的标头不是td >,但在当前示例中仍可以使用标记来计算列数。...在此Selenium WebDriver教程的下面是XPath,用于访问信息,其中列是可变的,行是恒定的。
在需要以表格格式显示信息的情况下,通常使用Web表或数据表。本质上,显示的数据可以是静态的也可以是动态的。您经常会在电子商务门户网站中看到这样的示例,其中产品规格显示在Web表中。...使用XPath(// * [@ id =‘customers’] / tbody / tr [2] / td)计算Selenium中Web表的列数。...使用浏览器中的检查工具获取行和列的XPath,以处理Selenium中的表以进行自动浏览器测试。 尽管网络表中的标头不是td >,但在当前示例中仍可以使用标记来计算列数。...因此,行是动态计算的。在本Selenium WebDriver教程的下面,是用于访问信息的XPath,其中行是变量因子,而列对于Selenium测试自动化而言保持不变。...在此Selenium WebDriver教程的下面是XPath,用于访问信息,其中列是可变的,行是恒定的。
使用 XPath 在 XML 文档中导航XSLT = XSL 转换XSLT 是 XSL 中最重要的部分。...描述转换过程的一种常见方式是说,XSLT 将 XML 源树转换为 XML 结果树。XSLT 使用 XPathXSLT 使用 XPath 在 XML 文档中查找信息。...XPath 用于在 XML 文档中导航元素和属性。它是如何工作的在转换过程中,XSLT 使用 XPath 定义应与一个或多个预定义模板匹配的源文档的部分。...(id="example")设置为包含样式化的 xml 文档如果是其他浏览器:创建一个新的 XSLTProcessor 对象并将 XSL 文件导入其中使用 transformToFragment() 方法将...每个 XML "value" 元素的值被添加到每个 HTML 输入字段的 "value" 属性中。 结果是一个可编辑的 HTML 表单,其中包含来自 XML 文件的值。
文章目录 问题描述 结果展示 解决思路 代码实现 代码讲解 总结一下 使用 XPath 实现 问题描述 请使用 Python 爬取最好大学网的 大学排名数据 ,并保存为 CSV 和 Excel 格式。...tr标签,我们要做的是取出来其中的td中的content,作为二维列表。...,只关注内容 # 也就是说对于table_body中的每一个tr标签,我们要做的是取出来其中的td中的content,作为二维列表 universityList = [] for...使用 XPath 实现 从http://www.zuihaodaxue.cn/网站中爬虫数据,获取中国大学排名(Top10) 爬取的数据保存为CSV文件(.CSV) 采用xpath语法提取数据 """...()') th_select = html.xpath('//thead//option/text()') th.extend(th_select) # 大学名称 univ
name:name和 content属性可以一起使用,以名 - 值对的方式给文档提供元数据,其中 name作为元数据的名称,content作为元数据的值。...alt属性 该属性包含一条对图像的文本描述,这不是强制性的,但对可访问性而言,它难以置信地有用——屏幕阅读器会将这些描述读给需要使用阅读器的使用者听,让他们知道图像的含义。...如果由于某种原因无法加载图像,普通浏览器也会在页面上显示alt 属性中的备用文本:例如,网络错误、内容被屏蔽或链接过期时。...元素可以包含一个或多个音频资源, 这些音频资源可以使用 src属性或者元素来进行描述:浏览器将会选择最合适的一个来使用。...td>标签 HTMLtd\> 元素 定义了一个包含数据的表格单元格。
我的主页:2的n次方_ HTML 是一种超文本标记语言,不仅有文本,还能包含图片,音频等 1....图片标签 img 标签表示图片,必须带有 src 属性,表示图片的路径,同级目录下可以直接写文件名,可以写绝对路径,也可以写相对路径,还可以写网络路径,一般建议写 / ,不写 \ ./ 表示当前目录,...../ 表示上一级目录 alt=""> alt=""> 还可以设置图片的宽度和高度...表格标签 table:表示整个表格 tr:表示表格的一行 td:表示一个单元格 也就是 table 包含 tr,tr 包含 td vs code 中提供了快捷输入: <tr...表单域 表单域就是包含表单元素的区域,也就是可以包含上面控件的区域,用 form 标签表示,表单控件中的内容最终都会通过表单域提交 </form
使用内联样式的方法是在相关的标签中使用样式属性,样式属性可以包含任何CSS属性,下面的例子显示如何改变段落的颜色和左外边距。...: 有用的提示 HTML 图像 图像标签img 和源属性src 在HTML中,图像由img标签定义,img是空标签,只包含属性,并且没有闭合标签。.../images/boat.gif 替换文本属性 alt 属性用来为图像定义一串预备的可替换的文本。替换文本属性的值是用户定义的。...alt="Big Boat"> 在浏览器无法载入图像时,替换文本属性告诉读者她们失去的信息。此时,浏览器将显示这个替代性的文本而不是图像。...URL编码使用 “%”其后跟随两位的十六进制数来替换非 ASCII 字符。 URL不能包含空格。URL编码通常使用 + 来替换空格。 HTML 速查列表 备日常使用。
HTML的优势: 市场需求量 跨平台使用 浏览器支持 我们使用的工具依旧选择老朋友: IDEA 因为内容过多,大部分内容可能都在代码中详细介绍,请仔细阅读代码 HTML基本框架 下面我们稍微介绍以下HTML... 其中这种成对出现的标签,我们称为开放标签和闭合标签 其中这种单个出现的标签,我们称为单个标签 块元素和行内元素 我们简单介绍一下块元素和行内元素: 块元素:...-- 我们先给出图像格式:alt="" title="" width="" height=""> img:图像标签 src:表示图像地址,可以写绝对地址,也可以写相对地址(推荐)...相对地址中返回上一级的标志是:../ alt:表示图像名称,当图像不显示时,直接打出图像名称 title:当鼠标移动上去时出现的名称 width:宽度 height:高度 --> 网页基本标签-表单 表单作用: 用于收集用户信息 表单组成: 表单域 表单控件 提示信息 表单域 表单域是一个包含表单元素的区域
注意: 不会克隆绑定到该元素上的事件; node.innerHTML 返回该元素包含的 HTML 代码。...该属性可读写,常用来设置某个节点的内容;(不属于W3C DOM规范) node.innerText 返回该元素包含的内容。...Element节点,如果当前节点后面没有同级节点,则返回null; node.previousElementSibling 返回紧跟在当前节点前面的第一个同级Element节点,如果当前节点前面没有同级节点...之前,我们已经简单的使用过JS控制元素的CSS样式; 在具体使用的时候还有一些需要重点注意的细节: 名字需要改写,将横杠从CSS属性名中去除,然后将横杠后的第一个字母大写: 比如background-color...思路:点击图片后,给整个dom绑定鼠标移动事件,让图片跟随 img { position: absolute; width: 50px;
本章将学习如何在页面中创建一个表格以及表格的基本操作,例如合并单元格、使用背景图像美化表格、创建表单以及表单元素的基本用法。最后,通过举例讲解表格与表单的综合应用。...大多数表格都包含一行或一列表头,用于说明某一列或一行数据的属性类别,此时可以使用标签来设置。标签必须嵌套在标签内。...1.2.2 标签 标签用于创建 HTML文档中的表单。标签除了可以包含表单字段元素之外,还可以包含文本、图像以及其他的HTML元素。...select>标签创建可供选择的下拉列表,标签创建列表中的选项,使用 selected属性可以设置下拉列表的默认选项。...所示: Ø 使用表格进行布局 Ø 包含常见的表单元素 巩固练习 一、选择题 1.
领取专属 10元无门槛券
手把手带您无忧上云