如何编写Jsoup选择器来获取页面中包含非锚标签的文本的元素？

Jsoup是一个用于解析HTML文档的Java库，它提供了一种简单而强大的方式来从HTML中提取数据。要编写Jsoup选择器来获取页面中包含非锚标签的文本的元素，可以按照以下步骤进行：

导入Jsoup库：在Java项目中，首先需要导入Jsoup库。可以通过在项目的构建文件中添加依赖项或手动下载并导入Jsoup的JAR文件来实现。
获取HTML文档：使用Jsoup的connect()方法连接到目标网页，并使用get()方法获取HTML文档的内容。例如，可以使用以下代码获取一个网页的HTML文档：

Document doc = Jsoup.connect("http://example.com").get();

编写选择器：使用Jsoup的选择器来选择包含非锚标签文本的元素。选择器使用CSS选择器的语法，可以通过标签名、类名、ID等属性来选择元素。要选择包含非锚标签文本的元素，可以使用:not(a)选择器来排除锚标签。例如，以下选择器将选择所有不是锚标签的元素：

Elements elements = doc.select(":not(a)");

提取元素的文本：使用Jsoup的元素方法来提取选择器选中的元素的文本。可以使用text()方法来获取元素的文本内容。例如，以下代码将提取所有不是锚标签的元素的文本：

for (Element element : elements) {
    String text = element.text();
    System.out.println(text);
}

这样就可以编写Jsoup选择器来获取页面中包含非锚标签的文本的元素了。

关于Jsoup的更多信息和用法，可以参考腾讯云的相关产品介绍链接地址：Jsoup产品介绍

相关·内容

Jsoup（一）Jsoup详解（官方）

1.2、Jsoup的主要功能 1）从一个URL，文件或字符串中解析HTML 2）使用DOM或CSS选择器来查找、取出数据 3）可操作HTML元素、属性、文本注意：jsoup...一个 div 包含一对 p 标签; 一个不完整的HTML文档) 想对它进行解析。这个HTML片断可以是用户提交的一条评论　　　　或在一个CMS页面中编辑body部分。　　...input:eq(1)表示包含一个input标签的Form元素　　　　　　:has(seletor): 查找匹配选择器包含元素的元素，比如：div:has(p)表示哪些div包含了p元素　　　　　　...: 查找包含给定文本的元素，搜索不区分大不写，比如： p:contains(jsoup) 　　　　　　:containsOwn(text): 查找直接包含给定文本的元素　　　　　　:matches(regex...4.5、实例程序：获取所有连链接　　1）说明　　　　这个示例程序将展示如何从一个URL获得一个页面。然后提取页面中的所有链接、图片和其它辅助内容。并检查URLs和文本信息。

8.6K5 0

Java爬虫中的数据清洗：去除无效信息的技巧

在互联网信息爆炸的时代，数据的获取变得异常容易，但随之而来的是数据质量的问题。对于Java爬虫开发者来说，如何从海量的网页数据中清洗出有价值的信息，是一个既基础又关键的步骤。...导航链接：网页顶部或侧边的导航菜单，对爬取内容无实际意义。脚本和样式：JavaScript代码和CSS样式，对文本内容的提取没有帮助。重复内容：同一页面上重复出现的信息块。...HTML解析库使用HTML解析库如Jsoup可以方便地去除HTML标签和提取有用信息。...CSS选择器CSS选择器可以精确地定位页面元素，便于移除或提取特定部分。...基于机器学习的文本分类对于复杂的数据清洗任务，可以使用机器学习模型来识别和分类文本。5. 人工规则根据网页结构编写特定的规则，比如去除所有以"广告"为类的元素。

1501 0

Java爬虫中的数据清洗：去除无效信息的技巧

在互联网信息爆炸的时代，数据的获取变得异常容易，但随之而来的是数据质量的问题。对于Java爬虫开发者来说，如何从海量的网页数据中清洗出有价值的信息，是一个既基础又关键的步骤。...导航链接：网页顶部或侧边的导航菜单，对爬取内容无实际意义。脚本和样式：JavaScript代码和CSS样式，对文本内容的提取没有帮助。重复内容：同一页面上重复出现的信息块。...HTML解析库使用HTML解析库如Jsoup可以方便地去除HTML标签和提取有用信息。...CSS选择器 CSS选择器可以精确地定位页面元素，便于移除或提取特定部分。...基于机器学习的文本分类对于复杂的数据清洗任务，可以使用机器学习模型来识别和分类文本。 5. 人工规则根据网页结构编写特定的规则，比如去除所有以"广告"为类的元素。

1101 0

记一次jsoup的使用

() text()获取文本内容text(String value) 设置文本内容 html()获取元素内HTMLhtml(String value)设置元素内的HTML内容 outerHtml()获取元素外...：div p:gt(2)表示哪些div中有包含2个以上的p元素 :eq(n): 查找哪些元素的同级索引值与n相等，比如：form input:eq(1)表示包含一个input标签的Form元素...:has(seletor): 查找匹配选择器包含元素的元素，比如：div:has(p)表示哪些div包含了p元素 :not(selector): 查找与选择器不匹配的元素，比如：div:not(....logo) 表示不包含 class="logo" 元素的所有 div 列表 :contains(text): 查找包含给定文本的元素，搜索不区分大不写，比如：p:contains(jsoup)...i)login) :matchesOwn(regex): 查找自身包含文本匹配指定正则表达式的元素注意：上述伪选择器索引是从0开始的，也就是提取给定URL中的链接 Document

1.5K3 0

Jsoup 基础知识

一个 div 包含一对 p 标签; 一个不完整的HTML文档) 想对它进行解析。这个HTML片断可以是用户提交的一条评论或在一个CMS页面中编辑body部分。...:eq(n): 查找哪些元素的同级索引值与n相等，比如：form input:eq(1)表示包含一个input标签的Form元素 :has(seletor): 查找匹配选择器包含元素的元素，比如：div...:contains(text): 查找包含给定文本的元素，搜索不区分大不写，比如： p:contains(jsoup) :containsOwn(text): 查找直接包含给定文本的元素 :matches...(毫秒) Document document = Jsoup.parse(content); // 使用标签选择器，获取 title 标签中的内容 Element...(毫秒) Document document = Jsoup.parse(file, "utf8"); // 使用标签选择器，获取 title 标签中的内容

3.7K1 0

XML快速入门的保姆级教程!!!

可以当做 ArrayList来使用 Element：元素对象 Node：节点对象快捷查询方式： 1. selector:选择器（根据类似于HTML中的选择器来查询XML中的标签元素） 2.xPathXPath...而2个元素文档的标签元素可能相同，必须使用命名空间来区分这些约束。...获取对应的标签Element对象获取Document对象的方式有3种（下面代码我们使用第一种） 1) 从一个URL，文件或字符串中解析HTML； 2) 使用DOM或CSS选择器来查找、取出数据；...而Jsoup提供了2个便捷的查询方法 1. selector:选择器（根据类似于HTML中的选择器来查询XML中的标签元素）使用的方法：Elements select(String cssQuery...对象来调用select方法 //查询name标签 /* 类似于CSS中的元素选择器，如html的div选择器。

1K3 0

Java爬虫之JSoup使用教程

从String加载文档提取数据使用DOM方法导航文档寻找元素处理元素数据操纵HTML和文本使用selector-syntax查找元素使用CSS或类似jquery的选择器语法来查找或操作元素...从URL，文件或字符串中刮取并解析HTML 查找和提取数据，使用DOM遍历或CSS选择器操纵HTML元素，属性和文本根据安全的白名单清理用户提交的内容，以防止XSS攻击输出整洁的HTML 文档地址...使用CSS或类似jquery的选择器语法来查找或操作元素。...更多选择器的语法从元素中提取属性，文本和HTML 在解析文档并找到一些元素之后，您将需要获取这些元素中的数据。...文档，您需要将其解析为绝对URL 在HTML元素中，URL通常是相对于文档的locat编写的IOn : ...

11.2K2 0

Java爬虫系列三：使用Jsoup解析HTML「建议收藏」

下面通过案例展示如何使用Jsoup进行解析，案例中将获取博客园首页的标题和第一页的博客文章列表请看代码（在上一篇代码的基础上进行操作，如果还不知道如何使用httpclient的朋友请跳转页面进行阅读...按下浏览器的F12，查看页面元素源码，你会发现列表是一个大的div，id=”post_list”,每篇文章是小的div,class=”post_item” 接下来就可以开始代码了，Jsoup核心代码如下...对于元素中的属性，比如超链接地址，可以使用element.attr(String)方法获取，对于元素的文本内容通过element.text()方法获取。...分析的本领已经在上面展示过了，下面来展示自己抓取页面，其实很简单，所不同的是我直接获取到的是document，不用再通过Jsoup.parse()方法进行解析了。...，在你的页面文本框中，如果输入html元素的话，保存后再查看很大概率会导致页面排版乱七八糟，如果能对这些内容进行过滤的话，就完美了。

1.5K2 0

javaweb-爬虫-1-62

请求带参数的post请求连接池 4.Jsoup解析数据 .解析url 解析字符串解析文件使用dom方式遍历文档元素中获取数据使用选择器语法查找元素 Selector选择器概述 Selector...选择器组合使用 5.爬虫案例 SPU和SKU Jsoup 单元测试类操作文件的工具类操作字符串的工具类创建一个数据库表添加依赖添加配置文件编写pojo 编写dao 编写Service 编写引导类...Jsoup方便 jsoup的主要功能如下： 1.从一个URL，文件或字符串中解析HTML； 2.使用DOM或CSS选择器来查找、取出数据； 3.可操作HTML元素、属性、文本； .解析url Jsoup...("class", "city_con").first(); 元素中获取数据 1.从元素中获取id 2.从元素中获取className 3.从元素中获取属性的值attr 4.从元素中获取所有属性attributes...从元素中获取文本内容text str = element.text(); 使用选择器语法查找元素 jsoup elements对象支持类似于CSS (或jquery)的选择器语法，来实现非常强大和灵活的查找功能

1.3K3 0

自学爬虫 1 - What is 爬虫？

这就是爬虫的第一步，代码就像一个浏览器，根据输入的url对服务器发起请求，只是你的代码不会像浏览器一样，将html里面的标签和js代码解析并页面展现。...在响应的数据中找到目标数据存放在哪个标签下，然后解析出来。解析目标数据解析目标数据就是把你想从网页上获取的数据想办法获取下来，常见的方法有xpath、css，这些选择标签的方法被称为选择器。...title是标签名选择器，string代表返回这个元素标签内包含的文本 title = soup.select_one('title').string # 这里的#a1是css选择器，#a1代表id=a1...(html); String title = doc.title(); // 通过id来获取a元素 Element a = doc.getElementById("a1");...// 获取a元素的href属性 String href = a.attr("href"); // 获取a元素的文本内容，即元素的><部分 String content = a.text

6882 0

Jsoup-爬取实战

文章目录 Jsoup 导入依赖获取信息数据筛选 Jsoup ---- Jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。...搜索jsoup为例，请求该URL，查看你所需信息标签的id或class，用Jsoup返回浏览器Document对象，然后可以用js的方法获取对象和操作。...查找DOM元素方法用法 getElementById(String id) 通过id来获取 getElementsByTag(String tagName) 通过标签名字来获取 getElementsByClass...引用官方文档介绍 Selector选择器概述 tagname: 通过标签查找元素，比如：a ns|tag: 通过标签在命名空间查找元素，比如：可以用 fb|name 语法来查找 fb:name 元素...元素，比如：h1 ~ p el, el, el:多个选择器组合，查找匹配任一选择器的唯一元素，例如：div.masthead, div.logo 总结爬取数据思路：获取请求、返回页面信息、筛选所需数据

2.3K3 0

Java网络爬虫技术《二》Jsoup

Jsoup 当我们成功抓取到页面数据了之后，还需要对抓取的数据进行解析，而刚好，Jsoup 是一款专门解析 html 页面的技术。...Jsoup是一款基于 Java 的HTML 解析器，可直接解析某个 URL 地址、HTML 、文本内容。可以通过DOM、CSS以及类似于JQuery的操作方法来取出和操作数据。...DOM 方式遍历文档元素获取根据id查询元素getElementById document.getElementById("id"); 根据标签获取元素getElementsByTag document.getElementsByTag...CSS (或JQuery)的选择器语法，来实现非常强大和灵活的查找功能。...且是上下文相关的，因此可实现指定元素的过滤，或者链式选择访问。Select方法将返回一个Elements集合，并提供一组方法来抽取和处理结果。

7112 0

JAVA爬虫 – Jsoup

jsoup的主要功能如下：从一个URL，文件或字符串中解析HTML；使用DOM或CSS选择器来查找、取出数据；可操作HTML元素、属性、文本；( Jsoup一般用于解析爬到的数据并存储, 很少用到操作...title标签的文本内容 // 解析Url地址参数1：访问的url，参数2：访问的超时时间 Document doc = Jsoup.parse(new URL("http://www.myqxin.com...内容是自己测试用的内容，仅仅是为了演示，实际情况根据你们所接触到的页面而定 4，使用dom 方式遍历文档元素获取根据id查询元素 getElementById 根据标签获取元素 getElementsByTag...attr 从元素中获取所有属性 attributes 从元素中获取文本内容 text // 解析文件，获取doc对象 Document doc = Jsoup.parse...= element.attributes(); // 5，从元素中获取文本内容 text String str5 = element.text(); 5，使用选择器获取元素

1.3K2 0

Jsoup介绍及解析常用方法

它提供了一套非常省力的API，可通过DOM，CSS以及类似于JQuery的操作方法来取出和操作数据 jsoup的主要功能如下：从一个URL，文件或字符串中解析HTML；使用DOM或CSS...选择器来查找、取出数据；可操作HTML元素、属性、文本； jsoup解析 Jsoup提供一系列的静态解析方法生成Document对象 static Document parse(File...还提供了类似于JQuery方式的选择器 采用选择器来检索数据 tagname 使用标签名来定位，例如 a ns|tag 使用命名空间的标签定位，例如 fb:name 来查找 <fb:name...td:lt(3) 表示小于三列 :gt(n) div p:gt(2) 表示 div 中包含 2 个以上的 p :eq(n) form input:eq(1) 表示只包含一个 input...元素的所有 div 列表 :contains(text) 包含某文本的元素，不区分大小写，例如 p:contains(oschina) :containsOwn(text) 文本信息完全等于指定条件的过滤

1.7K2 0

Xpath、Jsoup、Xsoup(我的Java爬虫之二)

() text()获取文本内容text(String value) 设置文本内容 html()获取元素内HTMLhtml(String value)设置元素内的HTML内容 outerHtml()获取元素外...Selector选择器概述 tagname: 通过标签查找元素，比如：a ns|tag: 通过标签在命名空间查找元素，比如：可以用 fb|name 语法来查找元素 #id: 通过...n相等，比如：form input:eq(1)表示包含一个input标签的Form元素 :has(seletor): 查找匹配选择器包含元素的元素，比如：div:has(p)表示哪些div包含了p元素...:not(selector): 查找与选择器不匹配的元素，比如： div:not(.logo) 表示不包含 class=logo 元素的所有 div 列表 :contains(text): 查找包含给定文本的元素...，搜索不区分大不写，比如： p:contains(jsoup) :containsOwn(text): 查找直接包含给定文本的元素 :matches(regex): 查找哪些元素的文本匹配指定的正则表达式

1.7K2 0

爬虫入门（Java）

浏览器需要一个渲染引擎来显示页面，并在显示的页面上某处解释用户输入，例如鼠标点击。...(new URL("https://www.csdn.net/"), 1000); //2.使用标签选择器，获取title标签中的内容 String title = document.getElementsByTag...(file,"utf8"); //3.使用标签选择器，获取title标签中的内容 String title = document.getElementsByTag("title...从元素中获取属性的值attr https://spec.csdn.net lists.add(element.attributes().toString());//4....从元素中获取文本内容text 专题 for (String list :lists) { System.out.println(list);

1.4K2 0

【Java 进阶篇】使用 Java 和 Jsoup 进行 XML 处理

我们可以使用 Jsoup 来轻松地遍历和操作这个文档。获取根元素要获取根元素，我们可以使用 doc 的 select 方法并传入根元素的标签名，通常是 “bookstore”。...Element rootElement = doc.select("bookstore").first(); 获取子元素要获取子元素，我们可以使用 select 方法并传入子元素的标签名，如 “book...Elements bookElements = rootElement.select("book"); 获取元素内容要获取元素的文本内容，我们可以使用 text() 方法。...这个条件的含义是查找标签名为 “book” 的元素，其中包含名为 “price” 的元素，且价格匹配正则表达式 \\d+\\.\\d+，即匹配价格为小数形式的书籍。...以下是一个简单的示例，演示如何使用 Jsoup 解析 HTML 页面并提取页面中的超链接： import org.jsoup.nodes.Element; import org.jsoup.select.Elements

3633 0

Jsoup解析器

它提供了一种非常方便的方式来提取和操作数据，从单个的 HTML 文件到整个网站的数据。XML解析即读写XML文档中的数据。...// 根据标签获取元素// 根据属性获取元素// 根据属性名=属性值获取元素// 使用CSS选择器获取元素可以看得到都可以成功。...创建一个 Document 对象，该对象表示 HTML 文档的结构，并提供了一组用于遍历和查询文档的方法。选择元素：使用类似于 CSS 或 jQuery 的选择器语法来查询和选择 HTML 元素。...提供了一组方便的方法来访问元素的属性、文本内容、HTML 内容等。提取数据：从选定的元素中提取文本、属性、HTML 内容等。提供了处理表格数据（如从标签中提取数据）的特定方法。...处理相对 URL：将文档中的相对 URL 转换为绝对 URL（如果需要）。这在处理从 Web 页面中提取的链接时特别有用。性能优化：提供了用于解析和选择元素的优化选项。

1351 0

Web专题分享

这种选择器会选择当前页面的所有的元素 p { } 这个选择器组，第一个是指向了所有 HTML 元素 id 选择器 在编写 HTML 时，我们可以改元素设置一个唯一 id, 方便之后定位到该标签，...js 函数，则后引入的会生效，先引入的会被覆盖 3、js 选择器 作用：找页面中的标签如果我们想要操作 DOM，则我们需要先能找到指定的 DOM，通过 js 的选择器，我们可以获取到页面的元素 id...('class名') 返回值：所有具有指定class名称的元素，是多个，以类数组形式存在，使用某个元素时通过下标来获取标签选择器 document.gerElementsByTagName('标签名...提示: 你可以使用 NodeList 对象的 length 属性来获取匹配选择器的元素属性，然后你可以遍历所有元素，从而获取你想要的信息。...4、操作基本 DOM 获取标签中的值第一类：获取双标签中的值（div、span、p） .innerHtml来获取第二类：获取input中的值 value 来获取添加点击事件事件：是一个具有某些功能的函数

2.6K2 0

Jsoup选择器语法

jsoup的强大在于它对文档元素的检索，Select方法将返回一个Elements集合，并提供一组方法来抽取和处理结果，要掌握Jsoup首先要熟悉它的选择器语法。...1、Selector选择器基本语法 tagname: 通过标签查找元素，比如：a ns|tag: 通过标签在命名空间查找元素，比如：可以用 fb|name 语法来查找元素 #id:...DOM树中是相对于它的父节点）小于n，比如：td:lt(3) 表示小于三列的元素 :gt(n):查找哪些元素的同级索引值大于n，比如： div p:gt(2)表示哪些div中有包含2个以上的p元素 :eq...(n): 查找哪些元素的同级索引值与n相等，比如：form input:eq(1)表示包含一个input标签的Form元素 :has(seletor): 查找匹配选择器包含元素的元素，比如：div:has...(text): 查找包含给定文本的元素，搜索不区分大不写，比如： p:contains(jsoup) :containsOwn(text): 查找直接包含给定文本的元素 :matches(regex):

1.7K3 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何编写Jsoup选择器来获取页面中包含非锚标签的文本的元素？

相关·内容

Jsoup（一）Jsoup详解（官方）

Java爬虫中的数据清洗：去除无效信息的技巧

Java爬虫中的数据清洗：去除无效信息的技巧

记一次jsoup的使用

Jsoup 基础知识

XML快速入门的保姆级教程!!!

Java爬虫之JSoup使用教程

Java爬虫系列三：使用Jsoup解析HTML「建议收藏」

javaweb-爬虫-1-62

自学爬虫 1 - What is 爬虫？

Jsoup-爬取实战

Java网络爬虫技术《二》Jsoup

JAVA爬虫 – Jsoup

Jsoup介绍及解析常用方法

Xpath、Jsoup、Xsoup(我的Java爬虫之二)

爬虫入门（Java）

【Java 进阶篇】使用 Java 和 Jsoup 进行 XML 处理

Jsoup解析器

Web专题分享

Jsoup选择器语法

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐