前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Fu*k nhentai

Fu*k nhentai

作者头像
BORBER
发布2019-08-06 17:30:48
1.5K0
发布2019-08-06 17:30:48
举报
文章被收录于专栏:BORBER

爬取 nhentai 指定图册。

输入具体网址以及一个空格,即可。 注意文件结构,以及 toolkits/ip_proxies toolkits/down_load 工具包的搭建参考上一篇博文。

代码语言:javascript
复制
from bs4 import BeautifulSoup
from toolkits.ip_proxies import get_proxies
from toolkits.down_load import down_load
from fake_useragent import UserAgent
import requests
import os
import pymongo


client = pymongo.MongoClient('localhost', 27017)
nhentai = client['nhentai']
imgs = nhentai['imgs']

rootpath = '/home/x/BORBER/File/Tmp/nhentai' # 自己改
seq = '/'

ua = UserAgent()
headers = {
    'User-Agent': ua.random,
    'Referer': 'https://nhentai.net'
}


def mkdir(path):
    folder = os.path.exists(path)
    if not folder:
        os.makedirs(path)


def get_title_pages(url, index=1):
    r = requests.get(url, headers=headers, proxies=get_proxies())
    soup = BeautifulSoup(r.text, 'lxml')
    title = soup.select('#info > h2')
    path = rootpath+seq+title[0].get_text()
    mkdir(path)
    max_pages = soup.select('#info > div:nth-child(4)')
    data = {
        'index': index,
        'title': title[0].get_text(),
        'url': url,
        'max': int(max_pages[0].get_text().split()[0]),
        'path': path
    }
    imgs.insert_one(data)


def get_img(url):
    r = requests.get(url, headers=headers, proxies=get_proxies())
    soup = BeautifulSoup(r.text, 'lxml')
    return soup.select('#image-container > a > img')[0].get('src')


def download_all():
    for item in imgs.find():
        for i in range(1, item['max']+1):
            down_load(get_img(item['url']+str(i)), item['path']+seq[0]+str(i), i, item['max']+1, headers)


if __name__ == '__main__':
    nhentai.drop_collection('imgs')
    print('Enter the specific link to the pictures:')
    ur = input()[:-1]
    get_title_pages(ur)
    download_all()
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019-07-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档