Java HttpClient实现简单网络爬虫

原创

华科云商小徐

发布于 2025-06-09 14:38:26

18400

代码可运行

文章被收录于专栏：小徐学爬虫小徐学爬虫

运行总次数：0

代码可运行

今天我将使用Java的HttpClient（在Java 11及以上版本中内置）来编写一个入门级的网络爬虫示例。

这个示例将演示如何发送HTTP GET请求，获取响应内容，并处理可能出现的异常。

以下是一个基于Java HttpClient（Java 11+）的网络爬虫基础实现示例，包含详细注释和异常处理：

import java.net.URI;
import java.net.http.HttpClient;
import java.net.http.HttpRequest;
import java.net.http.HttpResponse;
import java.time.Duration;

public class WebCrawlerExample {

    public static void main(String[] args) {
        // 目标URL（请替换为实际需要爬取的网站）
        String targetUrl = "https://example.com";

        try {
            String htmlContent = fetchHtmlContent(targetUrl);
            System.out.println("网页内容获取成功！");
            System.out.println("获取内容长度：" + htmlContent.length() + " 字符");
            
            // 这里可以添加内容解析逻辑
            // parseHtml(htmlContent);
            
        } catch (Exception e) {
            System.err.println("爬取失败: " + e.getMessage());
        }
    }

    /**
     * 使用HttpClient获取网页HTML内容
     * @param url 目标网址
     * @return 网页HTML字符串
     * @throws Exception 网络请求异常
     */
    private static String fetchHtmlContent(String url) throws Exception {
        // 1. 创建HttpClient实例
        HttpClient client = HttpClient.newBuilder()
                .version(HttpClient.Version.HTTP_2)  // 使用HTTP/2协议
                .connectTimeout(Duration.ofSeconds(10)) // 设置连接超时
                .followRedirects(HttpClient.Redirect.NORMAL) // 跟随重定向
                .build();

        // 2. 构建HTTP请求
        HttpRequest request = HttpRequest.newBuilder()
                .uri(URI.create(url))
                .timeout(Duration.ofSeconds(15)) // 设置请求超时
                .header("User-Agent", "Mozilla/5.0 (compatible; MyCrawler/1.0)") // 设置UA标识
                .header("Accept", "text/html") // 指定接受HTML内容
                .GET() // GET请求
                .build();

        // 3. 发送请求并获取响应
        HttpResponse<String> response = client.send(
                request, 
                HttpResponse.BodyHandlers.ofString()
        );

        // 4. 检查HTTP状态码
        int statusCode = response.statusCode();
        if (statusCode != 200) {
            throw new RuntimeException("HTTP错误状态码: " + statusCode);
        }

        // 5. 返回HTML内容
        return response.body();
    }
    
    /**
     * （示例）HTML内容解析方法
     * @param html 网页HTML内容
     */
    /*
    private static void parseHtml(String html) {
        // 实际项目中可使用Jsoup等库解析HTML
        System.out.println("解析HTML...");
        // 示例：简单提取标题
        String title = html.substring(
            html.indexOf("<title>") + 7, 
            html.indexOf("</title>")
        );
        System.out.println("网页标题: " + title);
    }
    */
}

关键组件说明：

HttpClient - Java 11+ 内置的HTTP客户端
- 支持HTTP/2和WebSocket
- 异步/同步两种请求模式
- 超时控制机制
请求配置：
- User-Agent：标识爬虫身份（建议遵守robots.txt规则）
- timeout：防止长时间阻塞
- 自动重定向处理
异常处理：
- 连接超时
- HTTP错误状态码（非200）
- 网络中断
- URL格式错误
扩展建议： // 在HttpClient构建器中可添加： .proxy(ProxySelector.of(new InetSocketAddress("proxy.com", 8080))) // 设置代理 .authenticator(Authenticator.getDefault()) // 认证支持 // 异步请求示例： client.sendAsync(request, HttpResponse.BodyHandlers.ofString()) .thenApply(HttpResponse::body) .thenAccept(System.out::println);

使用注意事项：

遵守robots.txt：
- 检查目标网站/robots.txt的爬取规则
- 例如：https://example.com/robots.txt
频率限制：
- 在循环请求时添加延迟：
Thread.sleep(1000); // 每次请求间隔1秒
内容解析：
- 建议使用Jsoup库解析HTML：
Document doc = Jsoup.parse(html); Elements links = doc.select("a[href]");
错误重试： int retry = 0; while (retry < 3) { try { // 请求代码... break; // 成功则跳出循环 } catch (Exception e) { retry++; Thread.sleep(2000); // 等待后重试 } }