前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >如何快速抄写公众号文章

如何快速抄写公众号文章

作者头像
用户1733462
发布于 2018-06-07 07:03:15
发布于 2018-06-07 07:03:15
1.2K00
代码可运行
举报
文章被收录于专栏:数据处理数据处理
运行总次数:0
代码可运行

就是照搬被人文章到公众号上,一般格式是不能复制粘贴的,怎么办呢,爬源码

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import requests
import re
import time
from lxml import html
from selenium import webdriver
r = requests.get(url='https://mp.weixin.qq.com/s?__biz=MzA5NjgxNjgxNQ==&mid=403557217&idx=1&sn=3b8038565f9c699a0121f64aed2f5d22&mpshare=1&scene=1&srcid=1206O2RAeNX16c88CbMrryCI&key=f57fc7001c9b61fadf60eb0d80c982c3f9b772f324115b802c9c69eba4603a5f6da7bf5ee9975261ac5812427e154113c8c2eba3f19dbf10c35ae2251b4f6aed955bd68532a3f4248069b54851973942&ascene=0&uin=MjEyODY1MzIwMQ%3D%3D&devicetype=iMac+MacBookPro11%2C1+OSX+OSX+10.12.3+build(16D32)&version=11000003&pass_ticket=5jR8RnNSI7woS8zm30GvzXC2C8NHS5ayD4%2B7qltAzc%2FzfQgzX4KOt1d3LtJrvfVD')    # 最基本的GET请求

r.S是指可以换行匹配,不然查找不到,真是坑死人了

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
content = re.findall(r'<div class="rich_media_content " id="js_content">.*?</div>',r.text, re.S)

然而这里有个问题,这里获取的是网页code与网页里看到的element不一致,网页是执行了所有js请求后情况,搜索了下,无解,换一个办法

自动化工具selenium,这个是动态的

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from selenium import webdriver
import time

browser = webdriver.Chrome()

browser.get('https://mp.weixin.qq.com/s?__biz=MzA5NjgxNjgxNQ==&mid=403557217&idx=1&sn=3b8038565f9c699a0121f64aed2f5d22&mpshare=1&scene=1&srcid=1206O2RAeNX16c88CbMrryCI&key=f57fc7001c9b61fadf60eb0d80c982c3f9b772f324115b802c9c69eba4603a5f6da7bf5ee9975261ac5812427e154113c8c2eba3f19dbf10c35ae2251b4f6aed955bd68532a3f4248069b54851973942&ascene=0&uin=MjEyODY1MzIwMQ%3D%3D&devicetype=iMac+MacBookPro11%2C1+OSX+OSX+10.12.3+build(16D32)&version=11000003&pass_ticket=5jR8RnNSI7woS8zm30GvzXC2C8NHS5ayD4%2B7qltAzc%2FzfQgzX4KOt1d3LtJrvfVD')

time.sleep(60)

sleep就是让网页加载完成后在获取需要的内容

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import codecs

content = re.findall(r'<div class="rich_media_content " id="js_content">.*?</div>',browser.page_source, re.S)
# 去掉换行符号把content写到文件
new_content = content[0].replace('\n', '')
#print new_content
file_obj = codecs.open("/Users/xxx/Desktop/markdown/7.8.md", 'w', 'utf-8')

file_obj.write(new_content)
file_obj.close()

这时候用vim打开7.8.md时打开的网页就是和原网页一摸一样的网页,发现有些图片不显示,毕竟是别人公众号的图片

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
imgs = re.findall(r'\"http://.*?\"', content[0], re.S)
re.S)

for img in imgs:
    print img
    print 

可以将图片上传到自己公众号,没有认证只能上传临时素材

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import json
# 我的token开发者有接口可以获取,我拷贝过来用下
access_token="_RyG5BzY0Ait19ctrYtCmHe5-FT5VVqUy14HFFsa7BZbtq9btBE6diEFem6yjiuinZD7xApbqbJO6nwKhx99N9V2ClmPeUHHIthUqhkjH2XPKqB7S8u6Yc0bprsjh8GDVEEjAEALUU"
pp=requests.get("http://mmbiz.qpic.cn/mmbiz/x0QjkAOuB5YoQpVBrCWVdouMKd1UxjYhiaXnfQ3vF7KHiaFhQe91Gtsd1cNXZYzHoaGSpv2ak2M8pb9icSEkBKic1A/0?wx_fmt=jpeg").content  # get the online png data (binary data)
files = {'media': ('temp2.png',pp)} # the first item "temp2.png" is the file name, the second one is the file data
upload_url="https://api.weixin.qq.com/cgi-bin/media/upload?access_token="+access_token+"&type=image" # set your access_token
r1 =requests.post(upload_url, files=files) # upload 
media_id=json.loads(r1.content)['media_id'] # if it is success, you get media id

再使用media_id获取图片,得到图片网址

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
getload_url = "https://api.weixin.qq.com/cgi-bin/media/get?access_token="+access_token+"&media_id="+media_id
pp=requests.get(getload_url)  # get the online png data (binary data)
print dir(pp)
print pp.url

只要把这个网页换掉之前的网页,一篇文章就出来了

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2017.07.09 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
微信公众号-自定义菜单
自定义菜单能够帮助公众号丰富界面,让用户更好更快地理解公众号的功能。开启自定义菜单后,公众号界面如图所示
星哥玩云
2022/09/14
3.3K0
微信公众号-自定义菜单
Python微信公众号后台开发<004>:图片上传及返回
图片处理:这里自己想怎么处理就怎么处理吧,用Python给头像加上圣诞帽或圣诞老人小图标
Python疯子
2020/01/15
1.6K0
Python微信公众号后台开发<004>:图片上传及返回
第三方平台可以通过微信公众平台素材管理接口实现同步了
  平时运营微信公众平台时有没发现素材管理有点不太好操作,特别是素材一多,找个东西都翻半天。现在好了,微信宣布公众平台新增素材管理接口,对所有认证公众号开放,方便快捷,可以实现同步互通。(4.29更新第三方平台也能为未微信认证的订阅号调用自定义菜单接口和素材管理接口)   微信公众平台素材管理接口具体如下: 新增临时素材 公众号经常有需要用到一些临时性的多媒体素材的场景,例如在使用接口特别是发送消息时,对多媒体文件、多媒体消息的获取和调用等操作,是通过media_id来进行的。素材管理接口对所有认证的订
ytkah
2018/03/05
3.4K0
koa框架实现微信公众号回复用户小程序卡片
2.因为发送小程序卡片需要图片ID即thumb_media_id,所以需要使用以下接口新增临时素材获取media_id
薛定喵君
2020/08/27
9260
koa框架实现微信公众号回复用户小程序卡片
调用企业微信API发送文本,图片,文件消息[通俗易懂]
(1) touser–>str,接收消息者的标识(已在企业微信的通讯录中添加,添加后微信后台会自动分配标识),多个用户使用 “|” 隔开(如”zhdb|zhj|wqq”),所有人(“@all”); (2) corp_id–>str,企业ID,申请企业微信时获得; (3) secret, agent_id–>str, 创建企业应用时获得.
全栈程序员站长
2022/11/09
3.7K0
微信公众号开发-素材/消息管理接口
本文是 微信公众号开发者模式介绍及接入 的后续,如没看过前文的话,可能看本文会有些懵逼。本文主要介绍微信公众平台的素材、消息管理接口的开发。由于个人的订阅号是没有大多数接口的权限的,所以我们需要使用微信官方提供的测试号来进行开发。测试号的申请可参考下文:
端碗吹水
2020/09/23
2.6K0
微信公众号开发-素材/消息管理接口
python之抓取微信公众号文章系列2
微信公众号历史的所有文章(来源???) 每篇文章的阅读量和点赞量(电脑上浏览文章只显示内容,没有阅读量、点赞量、评论……)
周小董
2019/03/25
4.5K1
python之抓取微信公众号文章系列2
微信公众号开发系统入门教程(公众号注册、开发环境搭建、access_token管理、Demo实现、natapp外网穿透)
微信公众号分为服务号、订阅号、企业号,订阅号可以个人申请,服务号和企业号要有企业资质才可以。
全栈程序员站长
2022/09/06
3K0
微信公众号开发系统入门教程(公众号注册、开发环境搭建、access_token管理、Demo实现、natapp外网穿透)
巧用 Serverless,轻松搭建微信公众号的智能后台服务
一般来说,想给微信公众号增加更多的功能,需要有一台服务器,来进行公众号后台服务的搭建。那么在 Serverless 架构下,是否有更简便的方法来实现这么一个公众号后台呢?我们试试? 初步搭建 一、Serverless 原生开发 首先要有一个微信公众号! 接下来,我们要为我们的函数计算服务申请固定 IP: 点击白名单之后,我们可以填写表单,完成固定公网出口 IP 的申请。 接下来进行代码开发。 将函数绑定到公众号后台,并按照文档在函数中完成一个基本的鉴定功能: def checkSignature(
腾讯云serverless团队
2020/05/22
3.7K0
Java公众号开发系列(四):文章草稿操作笔记
上一篇给大家介绍了新增和获取永久素材相关的实战,今天给大家介绍文章草稿操作相关的实战。
小明互联网技术分享社区
2024/01/30
4810
Java公众号开发系列(四):文章草稿操作笔记
[博客小程序]公众号文章同步至云数据库实现
首先想到的是博客小程序可以完全脱离服务端「不需要后端,域名,服务器,备案等」。可以基于小程序提供的云开发功能来实现整个博客小程序的所有功能。
Bug生活2048
2019/05/06
1.7K0
[博客小程序]公众号文章同步至云数据库实现
Java公众号开发系列(二):新增和获取临时素材
公众号临时素材主要是解决使用接口发送消息时使用。下面介绍下如何通过java实现相应的操作。
小明互联网技术分享社区
2024/01/28
4640
Java公众号开发系列(二):新增和获取临时素材
微信公众号开发-自定义菜单接口
本文是 微信开发-素材/消息管理接口 的后续,主要介绍微信公众平台的自定义菜单接口开发。由于个人的订阅号是没有大多数接口的权限的,所以我们需要使用微信官方提供的测试号来进行开发。测试号的申请可参考下文:
端碗吹水
2020/09/23
2.7K0
微信公众号开发-自定义菜单接口
使用Python快速获取公众号文章定制电子书(一)
因为工作原因,小之停更了一段时间,发生了很多事,不过从今天开始,我将会满血复活。这篇文章将分享一个我最近写的 Python 相关的小 demo 。爬取某个公众号的所有历史文章,并导出到本地,方便之后在线下环境直接观看。
小之丶
2018/07/27
6080
使用Python快速获取公众号文章定制电子书(一)
独立开发微信公众号服务的一次复盘
上篇文章主要分享了异步编程的一些经验。主要包括回调函数,发布订阅,Promise,async await以及yield关键字。
terrence386
2022/07/14
4570
独立开发微信公众号服务的一次复盘
Python爬虫,微信公众号话题标签内容采集打印PDF输出
微信公众号内容采集,比较怪异,其参数,post参数需要话费时间去搞定,这里采集的是话题标签的内容,同时应用了pdfkit打印输出内容。
二爷
2020/09/23
5430
Python爬虫,微信公众号话题标签内容采集打印PDF输出
文章自动同步微信公众号实践
本文来自 zhiyi 的个人博客实践,可以通过开放能力将其他平台的文章同步到微信公众号上。 整体思路 微信官方提供了素材管理的 API,通过 API 可以很方便地进行同步。在使用 API 之前需要进行鉴权,所以需要先获取 access token。微信公众号中不允许出现外域图片,因此需要把文章里的图片全部使用微信的图片上传接口处理后替换。此外,微信公众号支持 HTML 标签但是只支持内联样式,所以必须把外联样式全部转换为内联样式。 所以,同步到微信公众号的操作,需要按照以下步骤: 使用公众号的 appid
用户1097444
2022/06/29
1.5K0
文章自动同步微信公众号实践
笔记 | 使用 Uptime Kuma 监控网站并推送微信
提到监控,大家想到的大概是 UptimeRobot ,个人免费 50 个站点,而且监控页面也很炫酷
Zkeq
2022/05/18
4K0
笔记 | 使用 Uptime Kuma 监控网站并推送微信
利用微信公众号提供的素材存储当免费图床用
微信公众平台提供了一个素材管理,里面可以上传图片、视频、音频等类型的素材,那么是否可以将图片素材上传上去,获取到url作为自己小程序项目的图片服务器呢?当然没问题!
PHP学习网
2022/12/17
1.7K0
微信公众号-接口凭据
access_token是公众号的全局唯一票据,公众号调用各接口时都需使用access_token。开发者需要进行妥善保存。access_token的存储至少要保留512个字符空间。access_token的有效期目前为2个小时,需定时刷新,重复获取将导致上次获取的access_token失效
星哥玩云
2022/09/14
1.2K0
微信公众号-接口凭据
推荐阅读
相关推荐
微信公众号-自定义菜单
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验