首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Java|“ Java”来小说章节

    1 前提简介 在上一篇Java|使用WebMagic进行电话“的文章里就已经介绍了如何主要使用Pageprocessor去电话号码,接下来将要学习到的是去起点中文网的小说,并且按照小说名和章节分别保存...2 简单查看 下面就是需要去的小说页面以及内容,但保存下来的文件只需要章节内容,像第一章的开头就不需要,于是需要注意去判断。 ? 图2.1 起点中文网 ? 图2.2 玄幻新书 ?...; import java.util.ArrayList; import java.util.List; /** * 起点小说 */ public class GetQidianBook.../书的名字 String bookName1 = ""; @Override public Site getSite() {return site;} //数据逻辑...System.out.println(title + " " + "完毕"); } catch (FileNotFoundException e)

    2.2K10

    使用代理服务器和Beautiful Soup亚马逊

    在本文中,我们将介绍如何使用代理服务器和Beautiful Soup库来亚马逊网站上的数据。...我们将讨论Beautiful Soup的基本用法,以及如何设计和实现一个简单的爬虫程序来亚马逊网站上的数据商品信息。...爬虫程序的设计和实现过程1、在进行网页时,我们需要考虑网站的反爬虫机制。为了规避这些机制,我们可以使用代理服务器。...proxyMeta,}response = requests.get('https://www.example.com', proxies=proxies)print(response.text)2.我们确定需要亚马逊产品页面的...我们的爬虫将访问亚马逊网站上的产品页面,并提取产品的名称和价格信息。首先,我们确定需要亚马逊产品页面的URL。

    31710

    Java|使用WebMagic进行电话

    1 什么是WebMagic WebMagic是一个简单灵活的Java爬虫框架。基于WebMagic,可以快速开发出一个高效、易维护的爬虫,原生开发方式核心很简单,功能性给简单性让步。...接下来就开始代码的书写,而且在最后还有完整的代码及注释供大家参考,在这里需要的暂时只有PageProcessor组件,所以直接让类去实现: implements PageProcessor 首先书写的相关配置...p=1&order=") .run(); } 接着就是重点的逻辑: @Override public void process(Page page) {...; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.PrintWriter....setSleepTime(1000);//设置休眠时间 @Override public Site getSite() { return site; } //逻辑

    79210

    Java|如何使用“Java电话号码

    前言 下面会介绍如何使用“Java”去取到一个网站的电话号码。使用到的一些基本语法与定义:IO流,正则表达式,如过不清楚可以先去了解一下,当然在下文中也会做出对应使用介绍与解释。...接下来就是在main函数里写需要的代码: 首先是载入连接需要的网址: String path =  "https://www.jihaoba.com/escrow/?...;  //java电话号码  public class TelDemo {      //java程序入口,main函数      public static void main(String[]  ...就关不了,finally里就不用担心          BufferedReader br = null;          PrintWriter pw = null;          //目标网址的...图5.3 取到的号码 以上操作就完成了电话号码的简单,在后面可能还会继续更新关于其他的相关内容。

    89930

    Java 动手写爬虫: 三、队列

    第三篇 队列的实现 第二篇中,实现了深度的过程,但其中一个比较明显的问题就是没有实现每个作为一个独立的任务来执行;即串行的网页中的链接;因此,这一篇将主要集中目标在并发的网页的问题上...目标是每个链接的都当做一个独立的job来执行 设计 分工说明 每个job都是独立的任务,且只对应的网址 一个阻塞队列,用于保存所有需要的网址 一个控制器,从队列中获取待的链接,然后新建一个任务执行...FetchQueue 这个就是保存的待网页的队列,其中包含两个数据结果 toFetchQueue: CrawlMeta 队列,其中的都是需要的url urls: 所有过or待的url集合...线程池 直接使用Java的线程池来操作,因为线程池有较多的配置参数,所以先定义一个配置类; 给了一个默认的配置项,这个可能并不满足实际的业务场景,参数配置需要和实际的任务相关联,才可以达到最佳的使用体验...动手写爬虫: 一、实现一个最简单爬虫 Java 动手写爬虫: 二、 深度 Java 动手写爬虫: 三、队列

    1.9K50

    Java 动手写爬虫: 二、 深度

    第二篇 前面实现了一个最基础的单网页的爬虫,这一篇则着手解决深度的问题 简单来讲,就是了一个网页之后,继续这个网页中的链接 1....depth = 0; 因为有深度的过程,所以需要修改一下网页的代码,新增一个 doFetchNetxtPage方法,进行迭代网页,这时,结果匹配处理方法也不能如之前的直接赋值了,稍微改一下即可...DefaultAbstractCrawlJob 实现网页逻辑的抽象类 这个类实现网页的主要逻辑,也就是将之前的SimpleCrwalJob的实现拷贝过来,区别是干掉了返回结果; 顺带修了一个小bug...如有两个CrawlJob任务,若的是同一个url,第一个任务完,还没有回写到Storage时,第二个任务开始,这时,事前判断没有记录,然后通过之后开始,这时就依然会出现重复的问题 要解决这个问题...主要利用正则来匹配链接;这里需要注意一下几点 - 正向过滤 - 负向过滤 去重 如何保证一个链接被了之后,不会被重复进行

    2K100

    如何应对亚马逊机制

    大家都知道亚马逊是全球最大的购物平台很多商品信息、用户评价等等都是最丰富的。...但是对于爬虫来说,亚马逊的反机制应该也是数一数二的,想要获取亚马逊数据的人很多,但是真的能成功的确是少数,所以今天小编就手把手带大家,越过亚马逊的各种反机制你想要的商品、评论等等有用信息。...这里我们可以通过以下一些步骤去实现亚马逊数据的获取。一、使用requests的get请求,获取亚马逊列表和详情页的页面内容,不幸的是亚马逊同样拒绝了requsets模块的请求。...三、加上代理进行访问,目前国内代理访问亚马逊会很不稳定,通过之前的测试发现会出现连接不上的情况,所以这次使用了稳定的代理,是由亿牛云提供的隧道代理,可以白嫖50M流量。...但是只添加代理也不是效果就很理想,毕竟亚马逊的反机制还有其他的,所以想要获取更多的数据,提升的数据量需要我们做好其他的反策略。

    1.6K30

    武汉疫情系列(1)|java丁香园|JAVA丁香医生的全国新型肺炎疫情实时动态

    一、要的内容 包括但是不限制以下内容, 1、截止时间,为了统计的准确性,这个有必要展示 2、总共的确诊病例、疑似病例、死亡人数和治愈人数 3、国内各个省市的确诊、死亡和治愈人数 4、全球国外的各个国家的确诊...、死亡和治愈人数 5、其他的信息可以也可以不,看情况吧,如果有需要的话,可以在文章底部留言,我会另外更新上去 ?...至此,丁香医生的数据已经完毕了,如果你们还想要其他数据的,可以在下面留言,我会尽快更新 下面放一下要用到的工具类和完整代码 三、工具类 用到的工具类,请戳链接:https://blog.csdn.net...; import java.io.IOException; import java.io.InputStreamReader; import java.net.URL; import java.net.URLConnection...; import java.util.*; import java.util.regex.Matcher; import java.util.regex.Pattern; /** * Created

    1.1K30
    领券