首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Java|“ Java”来小说章节

    1 前提简介 在上一篇Java|使用WebMagic进行电话“的文章里就已经介绍了如何主要使用Pageprocessor去电话号码,接下来将要学习到的是去起点中文网的小说,并且按照小说名和章节分别保存...2 简单查看 下面就是需要去的小说页面以及内容,但保存下来的文件只需要章节内容,像第一章的开头就不需要,于是需要注意去判断。 ? 图2.1 起点中文网 ? 图2.2 玄幻新书 ?...; import java.util.ArrayList; import java.util.List; /** * 起点小说 */ public class GetQidianBook.../书的名字 String bookName1 = ""; @Override public Site getSite() {return site;} //数据逻辑...System.out.println(title + " " + "完毕"); } catch (FileNotFoundException e)

    2.2K10

    Java爬虫系列四:使用selenium-javajs异步请求的数据

    1.需求场景: 想要抓取股票的最新价格,页面F12信息如下: 按照前面的方式,的代码如下: /** * @description: 股票的最新股价 * @author: JAVA开发老菜鸟...之所以不到正确的结果,是因为这个值在网站上是通过异步加载渲染的,因此不能正常获取。 2.java异步加载的数据的方法 那如何异步加载的数据呢?...通常有两种做法: 2.1内置浏览器内核 内置浏览器就是在抓取的程序中启动一个浏览器内核,使我们获取到 js 渲染后的页面就和静态页面一样。...3.结束语 以上即为如何通过selenium-java异步加载的数据的方法。...:最新股价 相关代码已经上传到我的码云,感兴趣可以看下。

    2K21

    Java|使用WebMagic进行电话

    1 什么是WebMagic WebMagic是一个简单灵活的Java爬虫框架。基于WebMagic,可以快速开发出一个高效、易维护的爬虫,原生开发方式核心很简单,功能性给简单性让步。...接下来就开始代码的书写,而且在最后还有完整的代码及注释供大家参考,在这里需要的暂时只有PageProcessor组件,所以直接让类去实现: implements PageProcessor 首先书写的相关配置...p=1&order=") .run(); } 接着就是重点的逻辑: @Override public void process(Page page) {...; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.PrintWriter....setSleepTime(1000);//设置休眠时间 @Override public Site getSite() { return site; } //逻辑

    79210

    用 Javascript 和 Node.js 网页

    本文讲解怎样用 Node.js 高效地从 Web 数据。 前提条件 本文主要针对具有一定 JavaScript 经验的程序员。...Web 抓取的过程 利用多个经过实践考验过的库来 Web 了解 Node.js Javascript 是一种简单的现代编程语言,最初是为了向浏览器中的网页添加动态效果。...由于创建了 DOM,所以可以通过编程与要的 Web 应用或网站进行交互,也可以模拟单击按钮。如果你熟悉 DOM 操作,那么使用 JSDOM 将会非常简单。...摘自 Puppeter DocsPuppeteer 比上述工具更有用,因为它可以使你像真正的人在与浏览器进行交互一样对网络进行。...✅ Cheerio 把 JQuery 的优点抽出来,在服务器端 进行 Web 是唯一的目的,但不执行 Javascript 代码。

    10.1K10

    python鬼灭漫画+简单JS分析

    作者:皖渝 源自:快学python 本次仅供学习,无任何商业用途 猪油骨,拿来卤~今天,来分享一下python图片+简单JS分析 网址:漫画地址(这个网站只更新到188话,实际上已经有200...解密 点击进入第一话后,分析网页源码,发现图片保存在a标签下的img中,但是需要的src是用javascript写的!...src='"+m201304d+"newkuku/2016/02/15/鬼灭之刃][第1话/JOJO_001513.jpg' 其中,m201304是加密的部分,这个网站比较简单,直接找到js4.js文件...') if __name__=='__main__': get_all_img() 最终的漫画如下(这里仅作示例,只取了前10话的内容): ?...10话大概取了25分钟左右,算下来,完188话,也要7个多小时....后续可以用多进程方法加速一下速度。

    52010

    Java|如何使用“Java电话号码

    前言 下面会介绍如何使用“Java”去取到一个网站的电话号码。使用到的一些基本语法与定义:IO流,正则表达式,如过不清楚可以先去了解一下,当然在下文中也会做出对应使用介绍与解释。...接下来就是在main函数里写需要的代码: 首先是载入连接需要的网址: String path =  "https://www.jihaoba.com/escrow/?...;  //java电话号码  public class TelDemo {      //java程序入口,main函数      public static void main(String[]  ...就关不了,finally里就不用担心          BufferedReader br = null;          PrintWriter pw = null;          //目标网址的...图5.3 取到的号码 以上操作就完成了电话号码的简单,在后面可能还会继续更新关于其他的相关内容。

    89930

    Java 动手写爬虫: 三、队列

    第三篇 队列的实现 第二篇中,实现了深度的过程,但其中一个比较明显的问题就是没有实现每个作为一个独立的任务来执行;即串行的网页中的链接;因此,这一篇将主要集中目标在并发的网页的问题上...目标是每个链接的都当做一个独立的job来执行 设计 分工说明 每个job都是独立的任务,且只对应的网址 一个阻塞队列,用于保存所有需要的网址 一个控制器,从队列中获取待的链接,然后新建一个任务执行...FetchQueue 这个就是保存的待网页的队列,其中包含两个数据结果 toFetchQueue: CrawlMeta 队列,其中的都是需要的url urls: 所有过or待的url集合...线程池 直接使用Java的线程池来操作,因为线程池有较多的配置参数,所以先定义一个配置类; 给了一个默认的配置项,这个可能并不满足实际的业务场景,参数配置需要和实际的任务相关联,才可以达到最佳的使用体验...动手写爬虫: 一、实现一个最简单爬虫 Java 动手写爬虫: 二、 深度 Java 动手写爬虫: 三、队列

    1.9K50

    Node.js爬虫之使用cheerio图片

    引入 在上一篇文章我们利用Node.js实现了一个基本的爬虫,但是要写很长的正则--实在太累了而且需要对正则绝对熟悉。...cheerio cheerio是jquery核心功能的一个快速灵活而又简洁的实现,主要是为了用在服务器端需要对DOM进行操作的地方 你可以把cheerio当做服务端的jQuery 我们先来看一个案例---百度...logo 如果是之前的方式我们要写一堆正则才能匹配到某网站的logo,而使用了cheerio后我们可以进行DOM操作直接获取数据 可以看到终端直接输出了百度logo 案例表情包 安装cheerio...npm i cheerio 如图我们要该网站的表情包 分析 1.我们以列表页为起始页,该页面展示了表情包的分类,我们要获取所有分类的url 2.获取分类名称,根据分类名称创建文件夹 3....但是我们只取了单页的图片,一般网站都会涉及到分页,接下来我们将分页的数据一并 分析 1.我们从起始页就可以获取到该网站的总页数 2.循环总页数获取数据每次url后缀+1 https://www.fabiaoqing.com

    1.3K10
    领券