你将收获
Apify框架介绍和基本使用
如何创建父子进程以及父子进程通信
使用javascript手动实现控制爬虫最大并发数
截取整个网页图片的实现方案
nodejs第三方库和模块的使用
使用umi3...Apify框架介绍和基本使用
apify是一款用于JavaScript的可伸缩的web爬虫库。...当我们使用nodejs作为后台服务器时, 由于nodejs本身是单线程的,所以当爬取请求传入nodejs时, nodejs不得不等待这个"耗时任务"完成才能进行其他请求的处理, 这样将会导致页面其他请求需要等待该任务执行结束才能继续进行...所以一般手段截取下来的只是一部分页面, 或者截取的是图片还没加载出来的占位符,如下图所示:
所以为了实现截取整个网页,需要进行人为干预.笔者这里提供一种简单的实现思路, 可以解决该问题....koa-body 获取请求体数据 有关如何使用这些模块实现一个完整的服务端应用, 笔者在代码里做了详细的说明, 这里就不一一讨论了.