前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >【程序源代码】微信爬虫

【程序源代码】微信爬虫

作者头像
程序源代码
发布2020-10-30 11:43:12
发布2020-10-30 11:43:12
65000
代码可运行
举报
文章被收录于专栏:程序源代码程序源代码
运行总次数:0
代码可运行

关键字:爬虫

正文 | 内容

01

【介绍】

一个爬虫代码。主要用于对公众号进行获取数据使用的。使用的python进行开发的。内容比较简单。可以简单试用下。

02

【技术框架】

1、python环境, 检查python的版本,是否为2.7.x,如果不是,安装2.7.6。

2、安装依赖包, clone代码 安装Mysql-python依赖

代码语言:javascript
代码运行次数:0
复制
yum install python-devel mysql-devel gcc

安装lxml依赖

代码语言:javascript
代码运行次数:0
复制
yum install libxslt-devel libxml2-devel

安装浏览器环境 selenium依赖.(如果是mac环境,仅需安装firefox, 但确保版本是 firefox 36.0,使用最新的版本会报错)

代码语言:javascript
代码运行次数:0
复制
yum install xorg-x11-server-Xvfb
yum upgrade glib2 # 确保glib2版本大于2.42.2,否则firefox启动会报错 
yum install firefox # centos下安装最新的firefox版本

clone代码,安装依赖python库

代码语言:javascript
代码运行次数:0
复制
$ git clone https://github.com/bowenpay/wechat-spider.git
$ cd wechat-spider
$ pip install -r requirements.txt

3、创建mysql数据库

创建数据库wechatspider,默认采用utf8编码。(如果系统支持,可以采用utf8mb4,以兼容emoji字符)

代码语言:javascript
代码运行次数:0
复制
mysql> CREATE DATABASE `wechatspider` CHARACTER SET utf8;

4、安装和运行Redis

代码语言:javascript
代码运行次数:0
复制
$ wget http://download.redis.io/releases/redis-2.8.3.tar.gz
$ tar xzvf redis-2.8.3.tar.gz
$ cd redis-2.8.3
$ make
$ make install
$ redis-server

5、更新配置文件local_settings

在 wechatspider 目录下,添加 local_settings.py 文件,配置如下:

6、初始化表

代码语言:javascript
代码运行次数:0
复制
$ python manage.py migrate

7、启动网站

代码语言:javascript
代码运行次数:0
复制
python manage.py runserver 0.0.0.0:8001

访问 http://localhost:8001/。

创建超级管理员账号,访问后台,并配置要爬取的公众号和关键字

代码语言:javascript
代码运行次数:0
复制
python manage.py createsuperuser

8)启动爬虫

代码语言:javascript
代码运行次数:0
复制
$ python bin/scheduler.py
$ python bin/downloader.py
$ python bin/extractor.py
$ python bin/processor.py

03

【源码获取方式】

https://github.com/bowenpay/wechat-spider.git

联系方式

公众号ID: itcode

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-10-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 程序源代码 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档