前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Java爬取网站的所有图片链接

Java爬取网站的所有图片链接

作者头像
程序员云帆哥
发布于 2022-05-12 03:01:24
发布于 2022-05-12 03:01:24
1.1K00
代码可运行
举报
文章被收录于专栏:程序员云帆哥程序员云帆哥
运行总次数:0
代码可运行

文章目录

一、准备

  jsoup是一个用于处理真实世界 HTML 的 Java 库。它使用最好的 HTML5 DOM 方法和 CSS 选择器提供了一个非常方便的 API,用于获取 URL 以及提取和操作数据。

  jsoup实现了WHATWG HTML5规范,并将 HTML 解析为与现代浏览器相同的 DOM。

  • 从 URL、文件或字符串中抓取和解析HTML;
  • 使用 DOM 遍历或 CSS 选择器查找和提取数据;
  • 操作HTML 元素、属性和文本;
  • 根据安全列表清理用户提交的内容,以防止 XSS 攻击;
  • 输出整洁的 HTML。

二、引入依赖

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>${latest.version}</version>
</dependency>

三、源代码

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
public class JsoupTest {
    public static void main(String[] args) throws IOException {
    	// 网址
        String url = "https://www.***.com/";
        Document doc = Jsoup.connect(url)
                .maxBodySize(Integer.MAX_VALUE)
                .userAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36")
                .timeout(6000)
                .get();
                
		// 获取img标签的内容,读取属性输出
        Elements imgs = doc.getElementsByTag("img");
        imgs.stream().forEach(s-> {
            System.out.println(s.attr("src"));
            System.out.println(s.attr("alt"));
        });
    }
}
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022-05-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
JAVA爬虫 – Jsoup
jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
你的明明呐丶
2022/06/27
1.4K0
记一次jsoup的使用
connect(String url) 方法创建一个新的 Connection, 和 get() 取得和解析一个HTML文件。如果从该URL获取HTML时发生错误,便会抛出 IOException,应适当处理。 Connection 接口还提供一个方法链来解决特殊请求,具体如下
一觉睡到小时候
2019/07/12
1.6K0
Java做爬虫也很牛
首先我们封装一个Http请求的工具类,用HttpURLConnection实现,当然你也可以用HttpClient, 或者直接用Jsoup来请求(下面会讲到Jsoup)。
猿天地
2018/07/25
1.4K0
Java做爬虫也很牛
Java爬虫之JSoup使用教程
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
suveng
2019/09/18
12.2K0
Jsoup-爬取实战
Jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。 爬虫可以用于搜索引擎,内容检索,数据采集分析等,十分强大,黑客感十足,不过不要为所欲为(面向监狱编程),要合理利用。
唔仄lo咚锵
2020/09/15
2.5K0
Jsoup 基础知识
其解析器能够尽最大可能从你提供的HTML文档来创见一个干净的解析结果,无论HTML的格式是否完整。比如它可以处理:
Remember_Ray
2020/09/15
3.8K0
Jsoup入门学习一
1、Jsoup是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
别先生
2020/12/09
2.5K0
用 Java 拿下 HTML 分分钟写个小爬虫
HelloGitHub 推出的《讲解开源项目》系列,今天给大家带来一款开源 Java 版一款网页元素解析框架——jsoup,通过程序自动获取网页数据。
HelloGitHub
2021/05/14
6170
用 Java 拿下 HTML 分分钟写个小爬虫
【Java爬虫】007-网页内容解析:HTML解析与XML解析
HtmlCleaner是另外一款基于Java开发的HTML文档解析器,支持Xpath语法提取HTML中的节点和元素;
訾博ZiBo
2025/01/06
1620
【Java爬虫】007-网页内容解析:HTML解析与XML解析
Jsoup在Java中:解析京东网站数据
对于电商网站如京东来说,其页面上的数据包含了丰富的商业洞察。对于开发者而言,能够从这些网站中提取有价值的信息,进行分析和应用,无疑是一项重要的技能。本文将介绍如何使用Java中的Jsoup库来解析京东网站的数据。
小白学大数据
2024/10/18
2560
JAVA网络爬爬学习之HttpClient+Jsoup
如果每次请求都要创建HttpClient,会有频繁创建和销毁的问题,可以使用连接池来解决这个问题。
大忽悠爱学习
2021/12/17
1.2K0
JAVA网络爬爬学习之HttpClient+Jsoup
爬虫入门(Java)
网络爬虫是什么?是一种按照一定规则,自动抓取网页信息的脚本。对于获取公开数据,是一个效率很高的工具。本篇文章先介绍HttpClient,Jsoup这两个开源工具。
营琪
2019/11/04
1.4K0
为了不复制粘贴,我被逼着学会了JAVA爬虫
受疫情影响一直在家远程办公,公司业务进展的缓慢,老实讲活并没有那么多,每天吃饭、睡觉、逛技术社区、写博客,摸鱼摸得爽的很。早上本来还想在来个回笼觉,突然部门经理的语音消息就过来了,甩给我一个连接地址 http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2018/,要我把全国的省市名称和区域代码弄出来,建一个字典表,时限一上午。
程序员小富
2020/02/14
6830
为了不复制粘贴,我被逼着学会了JAVA爬虫
Java爬虫开发:Jsoup库在图片URL提取中的实战应用
在当今的互联网时代,数据的获取和处理变得尤为重要。对于网站内容的自动化抓取,爬虫技术扮演着不可或缺的角色。Java作为一种广泛使用的编程语言,拥有丰富的库支持网络爬虫的开发。其中,Jsoup库以其简洁、高效的特点,成为处理HTML内容和提取数据的优选工具。本文将详细介绍如何使用Jsoup库开发Java爬虫,以实现图片URL的提取。
小白学大数据
2024/09/02
3920
Java爬虫
在日常生活中,我们最先想到的爬虫是Python,它的确是一个非常方便且快捷易上手的, 但我们是否能用Java来实现python这一功能呢,让我们一起来看看~
小颜同学
2023/08/24
2261
Jsoup+Htmlunit抓取图片遇到坑
Jsoup是用于解析HTML,就类似XML解析器用于解析XML。 Jsoup它解析HTML成为真实世界的HTML。
赵哥窟
2019/07/14
2.7K0
数据存储和传输文件之XML使用和解析详解
Elements:元素Element对象的集合。可以当做 ArrayList来使用
共饮一杯无
2022/11/28
1.4K0
谁说只有Python才能写爬虫了?Javaer转身甩出这个框架:给爷爬!
相信很多小伙伴对爬虫很感兴趣,遇到网上有用的信息,总想把他们批量保存下来。如果都手工的去复制粘贴,费时间费精力,而且还不符合程序员的作风。所以这时候写一个小爬虫,晚上睡觉时让他勤劳的给我们打工干活就好了。
永恒君
2022/12/06
5740
谁说只有Python才能写爬虫了?Javaer转身甩出这个框架:给爷爬!
Jsoup(一)Jsoup详解(官方)
一、Jsoup概述 1.1、简介     jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,  可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。 1.2、Jsoup的主要功能     1)从一个URL,文件或字符串中解析HTML     2)使用DOM或CSS选择器来查找、取出数据     3)可操作HTML元素、属性、文本     注意:jsoup是基于MIT协议发布的,可放心使用于商业项目。 1.3、jsoup
用户1195962
2018/01/18
8.9K0
Jsoup(一)Jsoup详解(官方)
如何使用Java进行网络爬虫
jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
用户6297767
2023/11/21
4900
如何使用Java进行网络爬虫
相关推荐
JAVA爬虫 – Jsoup
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档