首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何编写Jsoup选择器来获取页面中包含非锚标签的文本的元素?

Jsoup是一个用于解析HTML文档的Java库,它提供了一种简单而强大的方式来从HTML中提取数据。要编写Jsoup选择器来获取页面中包含非锚标签的文本的元素,可以按照以下步骤进行:

  1. 导入Jsoup库:在Java项目中,首先需要导入Jsoup库。可以通过在项目的构建文件中添加依赖项或手动下载并导入Jsoup的JAR文件来实现。
  2. 获取HTML文档:使用Jsoup的connect()方法连接到目标网页,并使用get()方法获取HTML文档的内容。例如,可以使用以下代码获取一个网页的HTML文档:
代码语言:txt
复制
Document doc = Jsoup.connect("http://example.com").get();
  1. 编写选择器:使用Jsoup的选择器来选择包含非锚标签文本的元素。选择器使用CSS选择器的语法,可以通过标签名、类名、ID等属性来选择元素。要选择包含非锚标签文本的元素,可以使用:not(a)选择器来排除锚标签。例如,以下选择器将选择所有不是锚标签的元素:
代码语言:txt
复制
Elements elements = doc.select(":not(a)");
  1. 提取元素的文本:使用Jsoup的元素方法来提取选择器选中的元素的文本。可以使用text()方法来获取元素的文本内容。例如,以下代码将提取所有不是锚标签的元素的文本:
代码语言:txt
复制
for (Element element : elements) {
    String text = element.text();
    System.out.println(text);
}

这样就可以编写Jsoup选择器来获取页面中包含非锚标签的文本的元素了。

关于Jsoup的更多信息和用法,可以参考腾讯云的相关产品介绍链接地址:Jsoup产品介绍

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

Jsoup(一)Jsoup详解(官方)

1.2、Jsoup主要功能     1)从一个URL,文件或字符串解析HTML     2)使用DOM或CSS选择器查找、取出数据     3)可操作HTML元素、属性、文本     注意:jsoup...一个 div 包含一对 p 标签; 一个不完整HTML文档) 想对它进行解析。这个HTML片断可以是用户提交一条评论     或在一个CMS页面编辑body部分。   ...input:eq(1)表示包含一个input标签Form元素       :has(seletor): 查找匹配选择器包含元素元素,比如:div:has(p)表示哪些div包含了p元素       ...: 查找包含给定文本元素,搜索不区分大不写,比如: p:contains(jsoup)       :containsOwn(text): 查找直接包含给定文本元素       :matches(regex...4.5、实例程序:获取所有连链接   1)说明     这个示例程序将展示如何从一个URL获得一个页面。然后提取页面所有链接、图片和其它辅助内容。并检查URLs和文本信息。

8.6K50

Java爬虫数据清洗:去除无效信息技巧

在互联网信息爆炸时代,数据获取变得异常容易,但随之而来是数据质量问题。对于Java爬虫开发者来说,如何从海量网页数据清洗出有价值信息,是一个既基础又关键步骤。...导航链接:网页顶部或侧边导航菜单,对爬取内容无实际意义。脚本和样式:JavaScript代码和CSS样式,对文本内容提取没有帮助。重复内容:同一页面上重复出现信息块。...HTML解析库使用HTML解析库如Jsoup可以方便地去除HTML标签和提取有用信息。...CSS选择器CSS选择器可以精确地定位页面元素,便于移除或提取特定部分。...基于机器学习文本分类对于复杂数据清洗任务,可以使用机器学习模型识别和分类文本。5. 人工规则根据网页结构编写特定规则,比如去除所有以"广告"为类元素

15010
  • Java爬虫数据清洗:去除无效信息技巧

    在互联网信息爆炸时代,数据获取变得异常容易,但随之而来是数据质量问题。对于Java爬虫开发者来说,如何从海量网页数据清洗出有价值信息,是一个既基础又关键步骤。...导航链接:网页顶部或侧边导航菜单,对爬取内容无实际意义。 脚本和样式:JavaScript代码和CSS样式,对文本内容提取没有帮助。 重复内容:同一页面上重复出现信息块。...HTML解析库 使用HTML解析库如Jsoup可以方便地去除HTML标签和提取有用信息。...CSS选择器 CSS选择器可以精确地定位页面元素,便于移除或提取特定部分。...基于机器学习文本分类 对于复杂数据清洗任务,可以使用机器学习模型识别和分类文本。 5. 人工规则 根据网页结构编写特定规则,比如去除所有以"广告"为类元素

    11010

    记一次jsoup使用

    () text()获取文本内容text(String value) 设置文本内容 html()获取元素内HTMLhtml(String value)设置元素HTML内容 outerHtml()获取元素外...:div p:gt(2)表示哪些div中有包含2个以上p元素 :eq(n): 查找哪些元素同级索引值与n相等,比如:form input:eq(1)表示包含一个input标签Form元素...:has(seletor): 查找匹配选择器包含元素元素,比如:div:has(p)表示哪些div包含了p元素 :not(selector): 查找与选择器不匹配元素,比如:div:not(....logo) 表示不包含 class="logo" 元素所有 div 列表 :contains(text): 查找包含给定文本元素,搜索不区分大不写,比如:p:contains(jsoup)...i)login) :matchesOwn(regex): 查找自身包含文本匹配指定正则表达式元素 注意:上述伪选择器索引是从0开始,也就是 提取给定URL链接 Document

    1.5K30

    Jsoup 基础知识

    一个 div 包含一对 p 标签; 一个不完整HTML文档) 想对它进行解析。这个HTML片断可以是用户提交一条评论或在一个CMS页面编辑body部分。...:eq(n): 查找哪些元素同级索引值与n相等,比如:form input:eq(1)表示包含一个input标签Form元素 :has(seletor): 查找匹配选择器包含元素元素,比如:div...:contains(text): 查找包含给定文本元素,搜索不区分大不写,比如: p:contains(jsoup) :containsOwn(text): 查找直接包含给定文本元素 :matches...(毫秒) Document document = Jsoup.parse(content); // 使用标签选择器获取 title 标签内容 Element...(毫秒) Document document = Jsoup.parse(file, "utf8"); // 使用标签选择器获取 title 标签内容

    3.7K10

    XML快速入门保姆级教程!!!

    可以当做 ArrayList来使用 Element:元素对象 Node:节点对象 快捷查询方式: 1. selector:选择器(根据类似于HTML选择器查询XML标签元素) 2.xPathXPath...而2个元素文档标签元素可能相同,必须使用命名空间区分这些约束。...获取对应标签Element对象 获取Document对象方式有3种(下面代码我们使用第一种) 1) 从一个URL,文件或字符串解析HTML; 2) 使用DOM或CSS选择器查找、取出数据;...而Jsoup提供了2个便捷查询方法 1. selector:选择器(根据类似于HTML选择器查询XML标签元素) 使用方法:Elements select​(String cssQuery...对象调用select方法 //查询name标签 /* 类似于CSS元素选择器,如htmldiv选择器

    1K30

    Java爬虫之JSoup使用教程

    从String加载文档 提取数据 使用DOM方法导航文档 寻找元素 处理元素数据 操纵HTML和文本 使用selector-syntax查找元素 使用CSS或类似jquery选择器语法查找或操作元素...从URL,文件或字符串刮取并解析HTML 查找和提取数据,使用DOM遍历或CSS选择器 操纵HTML元素,属性和文本 根据安全白名单清理用户提交内容,以防止XSS攻击 输出整洁HTML 文档地址...使用CSS或类似jquery选择器语法查找或操作元素。...更多选择器语法 从元素中提取属性,文本和HTML 在解析文档并找到一些元素之后,您将需要获取这些元素数据。...文档,您需要将其解析为绝对URL 在HTML元素,URL通常是相对于文档locat编写IOn : ...

    11.2K20

    Java爬虫系列三:使用Jsoup解析HTML「建议收藏」

    下面通过案例展示如何使用Jsoup进行解析,案例中将获取博客园首页标题和第一页博客文章列表 请看代码(在上一篇代码基础上进行操作,如果还不知道如何使用httpclient朋友请跳转页面进行阅读...按下浏览器F12,查看页面元素源码,你会发现列表是一个大div,id=”post_list”,每篇文章是小div,class=”post_item” 接下来就可以开始代码了,Jsoup核心代码如下...对于元素属性,比如超链接地址,可以使用element.attr(String)方法获取, 对于元素文本内容通过element.text()方法获取。...分析本领已经在上面展示过了,下面展示自己抓取页面,其实很简单,所不同是我直接获取是document,不用再通过Jsoup.parse()方法进行解析了。...,在你页面文本,如果输入html元素的话,保存后再查看很大概率会导致页面排版乱七八糟,如果能对这些内容进行过滤的话,就完美了。

    1.5K20

    javaweb-爬虫-1-62

    请求 带参数post请求 连接池 4.Jsoup解析数据 .解析url 解析字符串 解析文件 使用dom方式遍历文档 元素获取数据 使用选择器语法查找元素 Selector选择器概述 Selector...选择器组合使用 5.爬虫案例 SPU和SKU Jsoup 单元测试类 操作文件工具类 操作字符串工具类 创建一个数据库表 添加依赖 添加配置文件 编写pojo 编写dao 编写Service 编写引导类...Jsoup方便 jsoup主要功能如下: 1.从一个URL,文件或字符串解析HTML; 2.使用DOM或CSS选择器查找、取出数据; 3.可操作HTML元素、属性、文本; .解析url Jsoup...("class", "city_con").first(); 元素获取数据 1.从元素获取id 2.从元素获取className 3.从元素获取属性值attr 4.从元素获取所有属性attributes...从元素获取文本内容text str = element.text(); 使用选择器语法查找元素 jsoup elements对象支持类似于CSS (或jquery)选择器语法,实现非常强大和灵活查找功能

    1.3K30

    自学爬虫 1 - What is 爬虫?

    这就是爬虫第一步,代码就像一个浏览器,根据输入url对服务器发起请求,只是你代码不会像浏览器一样,将html里面的标签和js代码解析并页面展现。...在响应数据中找到目标数据存放在哪个标签下,然后解析出来。 解析目标数据 解析目标数据就是把你想从网页上获取数据想办法获取下来,常见方法有xpath、css,这些选择标签方法被称为选择器。...title是标签选择器,string代表返回这个元素标签包含文本 title = soup.select_one('title').string # 这里#a1是css选择器,#a1代表id=a1...(html); String title = doc.title(); // 通过id获取a元素 Element a = doc.getElementById("a1");...// 获取a元素href属性 String href = a.attr("href"); // 获取a元素文本内容,即元素><部分 String content = a.text

    68820

    Jsoup-爬取实战

    文章目录 Jsoup 导入依赖 获取信息 数据筛选 Jsoup ---- Jsoup 是一款Java HTML解析器,可直接解析某个URL地址、HTML文本内容。...搜索jsoup为例,请求该URL,查看你所需信息标签id或class,用Jsoup返回浏览器Document对象,然后可以用js方法获取对象和操作。...查找DOM元素 方法 用法 getElementById(String id) 通过id获取 getElementsByTag(String tagName) 通过标签名字获取 getElementsByClass...引用官方文档介绍 Selector选择器概述 tagname: 通过标签查找元素,比如:a ns|tag: 通过标签在命名空间查找元素,比如:可以用 fb|name 语法查找 fb:name 元素...元素,比如:h1 ~ p el, el, el:多个选择器组合,查找匹配任一选择器唯一元素,例如:div.masthead, div.logo 总结爬取数据思路:获取请求、返回页面信息、筛选所需数据

    2.3K30

    Java网络爬虫技术《二》Jsoup

    Jsoup 当我们成功抓取到页面数据了之后,还需要对抓取数据进行解析,而刚好,Jsoup 是一款专门解析 html 页面的技术。...Jsoup是一款基于 Java HTML 解析器,可直接解析某个 URL 地址、HTML 、文本内容。可以通过DOM、CSS以及类似于JQuery操作方法取出和操作数据。...DOM 方式遍历文档 元素获取 根据id查询元素getElementById document.getElementById("id"); 根据标签获取元素getElementsByTag document.getElementsByTag...CSS (或JQuery)选择器语法,实现非常强大和灵活查找功能。...且是上下文相关,因此可实现指定元素过滤,或者链式选择访问。Select方法将返回一个Elements集合,并提供一组方法抽取和处理结果。

    71120

    JAVA爬虫 – Jsoup

    jsoup主要功能如下: 从一个URL,文件或字符串解析HTML; 使用DOM或CSS选择器查找、取出数据; 可操作HTML元素、属性、文本;( Jsoup一般用于解析爬到数据并存储, 很少用到操作...title标签文本内容 // 解析Url地址 参数1:访问url,参数2:访问超时时间 Document doc = Jsoup.parse(new URL("http://www.myqxin.com...内容是自己测试用内容,仅仅是为了演示,实际情况根据你们所接触到页面而定 4,使用dom 方式遍历文档 元素获取 根据id查询元素 getElementById 根据标签获取元素 getElementsByTag...attr 从元素获取所有属性 attributes 从元素获取文本内容 text // 解析文件,获取doc对象 Document doc = Jsoup.parse...= element.attributes(); // 5,从元素获取文本内容 text String str5 = element.text(); 5,使用选择器获取元素

    1.3K20

    Jsoup介绍及解析常用方法

    它提供了一套非常省力API,可通过DOM,CSS以及类似于JQuery操作方法取出和操作数据 jsoup主要功能如下: 从一个URL,文件或字符串解析HTML; 使用DOM或CSS...选择器查找、取出数据; 可操作HTML元素、属性、文本jsoup解析 Jsoup提供一系列静态解析方法生成Document对象 static Document parse(File...还提供了类似于JQuery方式选择器 采用选择器检索数据 tagname 使用标签定位,例如 a ns|tag 使用命名空间标签定位,例如 fb:name 查找 <fb:name...td:lt(3) 表示小于三列 :gt(n) div p:gt(2) 表示 div 包含 2 个以上 p :eq(n) form input:eq(1) 表示只包含一个 input...元素所有 div 列表 :contains(text) 包含文本元素,不区分大小写,例如 p:contains(oschina) :containsOwn(text) 文本信息完全等于指定条件过滤

    1.7K20

    Xpath、Jsoup、Xsoup(我Java爬虫之二)

    () text()获取文本内容text(String value) 设置文本内容 html()获取元素内HTMLhtml(String value)设置元素HTML内容 outerHtml()获取元素外...Selector选择器概述 tagname: 通过标签查找元素,比如:a ns|tag: 通过标签在命名空间查找元素,比如:可以用 fb|name 语法查找 元素 #id: 通过...n相等,比如:form input:eq(1)表示包含一个input标签Form元素 :has(seletor): 查找匹配选择器包含元素元素,比如:div:has(p)表示哪些div包含了p元素...:not(selector): 查找与选择器不匹配元素,比如: div:not(.logo) 表示不包含 class=logo 元素所有 div 列表 :contains(text): 查找包含给定文本元素...,搜索不区分大不写,比如: p:contains(jsoup) :containsOwn(text): 查找直接包含给定文本元素 :matches(regex): 查找哪些元素文本匹配指定正则表达式

    1.7K20

    【Java 进阶篇】使用 Java 和 Jsoup 进行 XML 处理

    我们可以使用 Jsoup 轻松地遍历和操作这个文档。 获取元素获取元素,我们可以使用 doc select 方法并传入根元素标签名,通常是 “bookstore”。...Element rootElement = doc.select("bookstore").first(); 获取元素获取元素,我们可以使用 select 方法并传入子元素标签名,如 “book...Elements bookElements = rootElement.select("book"); 获取元素内容 要获取元素文本内容,我们可以使用 text() 方法。...这个条件含义是查找标签名为 “book” 元素,其中包含名为 “price” 元素,且价格匹配正则表达式 \\d+\\.\\d+,即匹配价格为小数形式书籍。...以下是一个简单示例,演示如何使用 Jsoup 解析 HTML 页面并提取页面超链接: import org.jsoup.nodes.Element; import org.jsoup.select.Elements

    36330

    Jsoup解析器

    它提供了一种非常方便方式提取和操作数据,从单个 HTML 文件到整个网站数据。XML解析即读写XML文档数据。...// 根据标签获取元素// 根据属性获取元素// 根据属性名=属性值获取元素// 使用CSS选择器获取元素可以看得到都可以成功。...创建一个 Document 对象,该对象表示 HTML 文档结构,并提供了一组用于遍历和查询文档方法。选择元素:使用类似于 CSS 或 jQuery 选择器语法查询和选择 HTML 元素。...提供了一组方便方法来访问元素属性、文本内容、HTML 内容等。提取数据:从选定元素中提取文本、属性、HTML 内容等。提供了处理表格数据(如从 标签中提取数据)特定方法。...处理相对 URL:将文档相对 URL 转换为绝对 URL(如果需要)。这在处理从 Web 页面中提取链接时特别有用。性能优化:提供了用于解析和选择元素优化选项。

    13510

    Web专题分享

    这种选择器会选择当前页面的所有的元素 p { } 这个选择器组,第一个是指向了所有 HTML 元素 id 选择器编写 HTML 时,我们可以改元素设置一个唯一 id, 方便之后定位到该标签,...js 函数,则后引入会生效,先引入会被覆盖 3、js 选择器 作用:找页面标签 如果我们想要操作 DOM,则我们需要先能找到指定 DOM,通过 js 选择器,我们可以获取页面元素 id...('class名') 返回值:所有具有指定class名称元素,是多个,以类数组形式存在,使用某个元素时通过下标获取 标签选择器 document.gerElementsByTagName('标签名...提示: 你可以使用 NodeList 对象 length 属性获取匹配选择器元素属性,然后你可以遍历所有元素,从而获取你想要信息。...4、操作基本 DOM 获取标签值 第一类:获取标签值(div、span、p) .innerHtml获取 第二类:获取input值 value 获取 添加点击事件 事件:是一个具有某些功能函数

    2.6K20

    Jsoup选择器语法

    jsoup强大在于它对文档元素检索,Select方法将返回一个Elements集合,并提供一组方法抽取和处理结果,要掌握Jsoup首先要熟悉它选择器语法。...1、Selector选择器基本语法 tagname: 通过标签查找元素,比如:a ns|tag: 通过标签在命名空间查找元素,比如:可以用 fb|name 语法查找 元素 #id:...DOM树是相对于它父节点)小于n,比如:td:lt(3) 表示小于三列元素 :gt(n):查找哪些元素同级索引值大于n,比如: div p:gt(2)表示哪些div中有包含2个以上p元素 :eq...(n): 查找哪些元素同级索引值与n相等,比如:form input:eq(1)表示包含一个input标签Form元素 :has(seletor): 查找匹配选择器包含元素元素,比如:div:has...(text): 查找包含给定文本元素,搜索不区分大不写,比如: p:contains(jsoup) :containsOwn(text): 查找直接包含给定文本元素 :matches(regex):

    1.7K30

    扫码

    添加站长 进交流群

    领取专属 10元无门槛券

    手把手带您无忧上云

    扫码加入开发者社群

    相关资讯

    热门标签

    活动推荐

      运营活动

      活动名称
      广告关闭
      领券