在前面的分享中,我们制作了一个天眼查 GUI 程序,今天我们在这个的基础上,继续开发新的功能,微博抓取工具,先来看下最终的效果 整体的界面还是继承自上次的天眼查界面,我们直接来看相关功能 微博功能布局...我们整体的界面布局就是左侧可以选择不同功能,然后右侧的界面会对应改变 创建微博 Widget 对于右侧界面的切换,我们可以为不同的功能创建不同的 Widget,当点击左侧不同功能按钮后,对应切换 Widget..."""子进程微博查询""" class WeiBoQueryThread(QThread): # 创建一个信号,触发时传递当前时间给槽函数 update_data = pyqtSignal...weibo_page = None total_pv = 0 timestamp = str(int(time.time())) def run(self): # 微博爬虫...,这里就不再展开说明了,我是把所有微博爬虫的代码都封装好了,这里直接调用暴露的接口即可 ❝对微博爬虫感兴趣的同学可以点点赞和在看,如果数量可观就专门写一篇文章,谢谢大家 词云制作 对于词云的制作,我们还是先通过
console.log(getStyle(el,property));//字符串 // console.log(current+""); //数字 }, 20); } 小案例...—— 新浪微博发布消息 这个小案例是要实现点击“发布”按钮,会将一个文本框的内容发送到信息框里,并且显示动态效果,先将信息下拉,后显示文字。
一:获取app-key 和 app-secret 使用自己的微博账号登录微博开放平台,在微博开放中心下“创建应用”创建一个应用,应用信息那些随便填,填写完毕后,不需要提交审核,需要的只是那个app-key...在“微博开放平台”的“管理中心”找到刚才创建的应用,点开这个应用,点开左边“应用信息”栏,会看见“App key”和“App Secret”的字样,这两个东西是要在后面程序中使用的。...三:安装微博 python SDK 有两种安装方式: 1:http://github.liaoxuefeng.com/sinaweibopy/下载新浪微博SDK 2:python有个简单的安装方式:直接在命令行下键入...: sudo pip install sinaweibopy 四:实例验证,获取当前登录用户及其所关注(授权)用户的最新微博 这里需要注意的是在浏览器弹出一个页面,要先点击“授权”(这里进行的OAuth...以下为我的关注用户的微博: ? ? ? ? 拿上边代码为例,这里我们获取的信息有: ?
步骤 1. 设计 用户的实体类 import java.util.Date; import java.util.Objects; public class U...
一、背景 微博有大量的用户数据,为了分析微博用户的行为。我们可以将微博的数据上传到HDFS,然后供其他大规模文本、情感分析程序来处理。 二、HDFS目录规划 当前我们的HDFS集群中应该是空空如也。
拉模型 拉模型就是展示微博的时候,获取自己的所有关注的人,然后从关注的人中拉取最新微博。...单条微博表设计 每条微博的信息用hash结构来存储,根据不同的微博id来区分,每条微博有如下信息:发布人id,发布人昵称,发布时间,微博内容。...拉取关注者微博表 设计 每个用户发布微博后,维护20条最新微博,并保存到有序集合sorted set中,用不同的userid来区分。 注意:有序集合的score用微博id,集合保存的也是微博id。...个人已拉取表设计 每个用户在拉取微博后,将微博保存到已经拉取的表中,这个表是一个链表结构,最多保存1000条微博。...发布微博 首先将微博保存成hash结构,然后将微博保存到拉取表,还保存到个人微博表。
推模型 所谓推模型,就是用户在发布微博的时候会将微博推送给关注者和自己,然后其他关注者登录之后就可以看到发布的微博。...微博表设计 每条微博的信息用hash结构来存储,根据不同的微博id来区分,每条微博有如下信息:发布人id,发布人昵称,发布时间,微博内容。...推送表设计 用户在发布微博的时候,将微博推送给自己的粉丝,每个粉丝都维护一个推送微博的链表,这个链表只保存50条最新微博。推送表中保存的是微博id....$userid,$user['userid']); } 发布微博 遍历自己的粉丝,给每个粉丝都推送一条微博,将推送的微博保存到每个用户的推送表中 核心代码: //1、保存微博 $conn = connredis...$user['userid']); 总结 推模型的微博实例,实现还是比较简单的,但是推模型对性能有影响,假如我是一个大V,微博关注数有2000W,我在发微博的时候需要给2000W个人推送一条微博,但是很多人又是僵尸粉
全文简介 本文是用Python爬取微博移动端的数据。可以看一下Robots协议。另外尽量不要爬取太快。如果你毫无节制的去爬取别人数据,别人网站当然会反爬越来越严厉。...环境介绍 Python3 Windows-10-64位 微博移动端 网页分析 以获取评论信息为例(你可以以自己的喜好获得其他数据)。
想用nodejs写个微博客户端发微博,无奈新浪微博的nodejs sdk是OAuth1.0的。 只能自己根据OAuth1.0 改了改。...", passwd = "微博密码"; var baseurl = "https://api.weibo.com/2/"; var weibo = module.exports = function...response_type'] = "code"; params['action'] = "submit"; params['userId'] = userId; // 微博帐号...//statuses/destroy 删除微博信息 //statuses/update 发布一条微博信息 //statuses/upload 上传图片并发布一条微博 //statuses.../* args参数: * id : 微博id * status : 转发文本 * is_comment 0-不发评论 1-发评论给当前微博 2-发评论给原微博
参考:http://blog.csdn.net/k1988/article/details/6684114
下饭:微博子域名跳转到腾讯 如图所示: ? 新浪微博子域名 help.weibo.com 解析到 1.1.1.1 并且设置跳转 t.qq.com(腾讯微博)。...起因: 今天找回新浪微博密码时候访问到 help.weibo.com,结果是如下页面。 ?...(发现时是不能访问的,至于跳转到腾讯微博,是后面help.weibo.com做了一些操作。) ? 为什么会这样? 当然最终的锅还是在微博上,(也许他的内网在用1.1.1.1?)...就等同于此人拥有了help.weibo.com的解析权,于是这位就带来了今天的下饭操作:跳转到腾讯微博。可能微博会找实习生背锅吧。 我们应该如何避免? 当然,这种行为是不恰当的。
接下来就是新浪微博的抓取,一般的http访问新浪微博网站得到的html都是很简略的,因为新浪微博主页是用js动态生成的并且要进过多次的http请求与验证才能访问成功,所以为了数据抓取的简便,我们走一个后门...,也就是访问新浪微博的手机端,weibo.cn进行抓取,但随之而来的一个问题是,新浪微博的访问不管哪一端都需要强制的登陆验证,所以我们需要在http请求的时候附带一个cookie进行用户验证。...weibo.cn的cookie * @author hu */ public class WeiboCN { /** * 获取新浪微博的cookie,这个方法针对weibo.cn...有效,对weibo.com无效 * weibo.cn以明文形式传输数据,请使用小号 * @param username 新浪微博用户名 * @param password...新浪微博密码 * @return * @throws Exception */ public static String getSinaCookie(String
最近几天做了一下新浪微博的sdkdemo。其实也就是把管网上给的demo下下来运行一下。顺便看了一些bug。 首先要了解Oauth2.0授权认证,和SSO 登录功能。...Constants.java 问题: 1.通过Code获取Token部分,WeiboAuth这个类根本没有封装在里面,导致无法响应AuthListener,功能失效 2.短信验证只能3次,3次以后就不能用了 ------微博分享...openapi.WBUserAPIActivity" />------获取用户昵称用户信息(粉丝数) ------获取微博状态...------获取某条微博的评论列表 <activity android:name=".
首先感谢新浪微博提供的免费图床(对外链无限制),以及吊炸天的cdn图片加速服务,从此妈妈再也不用担心我的图床不能用了 微博图床原理: 访问 http://weibo.com/minipublish...使用新浪微博账号登陆 进入到发微博的界面: ?...不需要发布微博,图片只要上传就会存在于图床中 实用微博图床推荐 新浪微博图床 - Chrome 网上应用店 围脖是个好图床 - Chrome 网上应用店 实用云图床推荐 https网页一建生产图床
之前文章 一键备份微博并导出生成PDF,顺便用Python分析微博账号数据 分析过李健的微博词云图,他的微博关键词为音乐,北京,朋友,歌手,电影,居然还提到了周杰伦。 ?...每个月转发评论点赞总数图,可以看到2016-2018年的微博数据是高峰期。 ? 原创微博和转发微博数据比例。 ? 李健发微博的工具主要为pc网页和iPad。 ?...麋鹿微博工具箱 如果你不想微博哪天被人挖坟,可以将微博批量删除、设置仅自己可见、仅好友可见,这里推荐一个工具麋鹿微博工具箱。...开始扫描你的微博,微博多的话可能慢点。 ? ? 选择时间段,可以对微博删除,恢复公开,仅自己可见,仅粉丝可见,仅好友圈可见。 ?...微博书 最后如果你想把微博制作成书,已经有很多成熟的产品,类似 出书啦https://chushu.la/wechatbook/guide ,微信书 https://weixinshu.com/ ,拾柒
参考:http://open.weibo.com/wiki/%E7%A4%BA%E4%BE%8B%E4%BB%A3%E7%A0%81 微博开放平台给出的代码有很多bug,在此纠正 如乱码问题的解决: String
使用node.js爬虫每天从「新浪微博」上爬取一定数量的微博。主要实现登录,抓取发布微博,抓取关注人和粉丝的功能,暂时把数据存放在MongoDB中。...weibo_crawler 第一部分是准备数据,随机爬取50w左右的微博用户,然后每天爬取他们前一天发布的微博作为本项目的数据源。...由于新浪微博对爬虫有限制,因此爬取用户微博的时候采用定时器的方式。 由于只有登录了才能获取某个用户的个人信息和关注粉丝信息,而微博爬虫的难点就在于用户登录。...对抓取微博失败的,Retry 5次 2. 放弃非人类 什么是非人类呢?...微博分词 Big Bang 分词就是把一句话变成一个一个单词的过程。举个栗子吧: 我是中国人。
微博经历了6年的发展,已经成为了国内社交媒体的中坚力量。本文从微博的角度出发,对微博中用户模型的目的、维度和建模任务进行描述,并作为后续微博用户模型相关文章的总述。...从微博自身的角度来讲,构建用户模型的目的包括: (1) 完善及扩充微博用户信息 用户模型的首要动机就是了解用户,这样才能够提供更优质的服务。...(2) 分析微博生态 除了了解用户,还需要了解自己。在掌握用户信息的基础上,平台就可以对自身的状况进行分析,从相对宏观的基础上把握微博的生态环境,为后续的优化和发展提供方向性。...接下来主要介绍一下微博画像中兴趣维度的构建方法。 2. 微博用户兴趣分析 (1) 标签来源 用户自标签、达人或认证标签、公司、学校、微群标签、星座、微博关键词……这些来源都可能成为用户的标签。...小结 用户画像的目的是将用户信息标签化,本文中介绍针对微博本身的特点介绍微博用户画像的构建,该用户画像主要还是从微博的业务出发,完善用户信息和发掘用户兴趣,区分兴趣和能力,并形式化结构化表达出来。
领取专属 10元无门槛券
手把手带您无忧上云