首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

python模拟新浪登陆功能(新浪爬虫)

(Python) PC 登录新浪时, 在客户端用js预先对用户名、密码都进行了加密, 而且在POST之前会GET 一组参数,这也将作为POST_DATA 的一部分。...接下来再请求这个URL,这样就成功登录到了。 记得要提前build 缓存。 下面是完整代码(没加注释,凑合看吧): #!...很多豆友反馈有模拟登录新浪抓取数据的需求,其实对于一般的数据获取,如用户信息、内容等,使用开放平台API是更明智的选择:速度更快,而且节省许多网页处理的功夫。...熟悉Web的朋友只要定期维护模拟登录的代码就可以一直成功登录。如果不那么熟悉的话,其实可以采用更naive的思路来解决:直接将Cookie发送给新浪以实现模拟登录。...1,获取Cookie 很简单,使用Chrome浏览器的”开发者工具(Developer Tools)“或者Firefox的"HTTPFOX"等插件就可以直接查看自己新浪的Cookie。

3.2K60
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    python 新浪爬虫

    ----"+"\n") fh.write("地址:"+str(scheme)+"\n"+"发布时间:"+str(created_at)+"\n...mblogid=GyHojrupo&luicode=10000011&lfid=1076036418190932 发布时间:09-10 内容:9-10午盘:创业板再创新低,前期的最强的板块,科技股压制大盘反弹...mblogid=GyHogu2PR&luicode=10000011&lfid=1076036418190932 发布时间:09-10 内容:这波反弹的动力来源于权重股 ​​​ 点赞数:0 评论数:...mblogid=GyHof47S5&luicode=10000011&lfid=1076036418190932 发布时间:09-10 内容:我认为浪潮信息是没有多大的回调空间的,贸易战的真皮还没有披露...mblogid=GyHocDf15&luicode=10000011&lfid=1076036418190932 发布时间:09-10 内容:东方财富不是科技股,它只是创业板的权重股,它的前期已经够抗跌于创业板了

    1.4K40

    新浪小爬虫

    不光如此,因为有些用户的简介里有一些特殊符号,®或者笑脸之类的,于是在这里纠结了很久,好歹最后是成功了(其实也就是过滤掉了那些特殊符号) 效率来说呢,开始的时候一个小时能采集大概1.4w条的用户信息...,但是由于我是从每个人的关注列表里采集的,所以很快就会遇到爬到许多已经爬过的用户,所以总的来说效率不是很高,怪不得那个“中国爬盟”要发动群众的力量去爬 而且有些担心爬久了账号被封,我也没敢尝试太久...python没看多久,代码有冗余的地方,其实主要就是三个函数save_user(),creepy_myself(),creepy_others() 具体的就看代码的注释吧,下载提示看文章末尾...,和下面的一样(代码有冗余,因为要先爬出来用户的关注数目来计算有多少页) [python] view plaincopy #coding=utf8 import urllib2 import...S_txt2').contents[0][6:]) def creepy_others(uid): ''''' 扫描制定uid用户的信息 和上面一样代码有冗余

    87140

    iOS开发之新浪山寨版代码优化

    之前发表过一篇博客“IOS开发之新浪围脖”,在编写代码的时候太偏重功能的实现了,写完基本功能后看着代码有些别扭,特别是用到的四种cell的类,重复代码有点多,所以今天花点时间把代码重构一下。...在原来的代码上就把cell的代码进行了重写,所以本篇作为补充,关键代码还得看之前的博客。   1.第一种cell,只有内容,没有图片,效果如下: ?   ...dd日 HH:mm"]; 44 self.dateLabel.text = [resultFormatter stringFromDate:date]; 45 46 //设置文...,如果我们再加第二个cell(原带图片的)就简单多了,可以继承与上面的cell ?   ...self.contentImage setImageWithURL:[NSURL URLWithString:dic[@"thumbnail_pic"]]]; } @end   3.第三种cell,是转发不带图片的

    70590

    通过selenium抓取新浪

    由于新浪的手机网页的访问加入了验证码,所以抓取新浪的后门行不通了,经过一系列的研究,最终使用selenium工具模仿浏览器行为访问新浪公众号,因为浏览器访问网页时是以访客的形式访问 ,所以避免了用户登录这一过程...,可以顺利的进行指定的内容抓取,selenium的缺点是无法确定页面加载完毕的时间也js执行完毕的时间,所以在抓取效率方面会有所牺牲。...开发环境为例,抓取新浪指定的内容,直接上代码。...WebDriver driver = new RemoteWebDriver(service.getUrl(), DesiredCapabilities.chrome()); // 让浏览器访问主页...content.contains("转发")) { System.out.println("content:"+content); //抓取评论 if (elements3.get(a

    22010

    Java网络爬虫抓取新浪个人记录

    接下来就是新浪的抓取,一般的http访问新浪网站得到的html都是很简略的,因为新浪主页是用js动态生成的并且要进过多次的http请求与验证才能访问成功,所以为了数据抓取的简便,我们走一个后门...,也就是访问新浪的手机端,weibo.cn进行抓取,但随之而来的一个问题是,新浪的访问不管哪一端都需要强制的登陆验证,所以我们需要在http请求的时候附带一个cookie进行用户验证。...weibo.cn的cookie * @author hu */ public class WeiboCN { /** * 获取新浪的cookie,这个方法针对weibo.cn...有效,对weibo.com无效 * weibo.cn以明文形式传输数据,请使用小号 * @param username 新浪用户名 * @param password...新浪密码 * @return * @throws Exception */ public static String getSinaCookie(String

    48040

    WordPress发布文章自动同步到新浪(带特色图片)

    WordPress 发博客后自动同步到新浪,这是我从无主题博客看到的方法,一直沿用至今。...= 'publish') {      $appkey='1034947262';  /* 此处是你的新浪appkey,不修改的话就会显示来自张戈博客哦!...$tag->name."#";      }      /* 修改了下风格,并添加文章关键词作为话题,提高与其他相关的关联率 */      $string1 = '【文章发布】' . strip_tags.../** * WordPress发布文章同步到新浪(带图片&自定义栏目版) * 文章地址:http://zhangge.net/4947.html * 最后更新:2016年12月18日 */ function...$tag->name."#";        }         /* 修改了下风格,并添加文章关键词作为话题,提高与其他相关的关联率 */      $string1 = '【文章发布】' .

    1.7K70

    WordPress发布文章自动同步到新浪(带特色图片)

    希望在同步中插入特色图片,特申请高级写入权限,望批准,感谢~~ ? 3、通过后,修改如下代码中的App Key以及账号密码,然后将代码放入functions.php文件中即可。...代码 /** * WordPress发布文章同步到新浪(带图片&自定义栏目版) * 文章地址:http://zhangge.net/4947.html */ function post_to_sina_weibo...($post_ID) { /* 鉴于很多朋友反馈发布文章空白,临时加上调试代码,若无问题可删除此行,若有问题请将错误信息在本文留言即可 */ ini_set('display_errors'...= 'publish') { $appkey='1034947262'; /* 此处是你的新浪appkey,不修改的话就会显示来自张戈博客哦!...: $url = preg_replace('/https:\/\//i','http://',$url); 参考资料: WordPress发布文章同步到新浪失败的问题解决与分享 参考资料 get_the_category

    2.7K20

    新浪王传鹏:推荐架构的演进

    引言 (Weibo)是一种通过关注机制分享简短实时信息的广播式社交网络平台。用户通过关注来订阅内容,在这种场景下,推荐系统可以很好地和订阅分发体系进行融合,相互促进。...两个核心基础点:一是用户关系构建,二是内容传播,推荐一直致力于优化这两点,促进发展。如图1所示: ?...图1 推荐的使命 在推荐发展的过程中遇到体系方向的变化、业务的不断更迭、目标的重新树立,其产品思路、架构以及算法也随之进行变迁。...为了便于理解推荐架构演进,在介绍之前需要陈述一下推荐在流程上的构成,其实这个和本身没有关系,理论上业内推荐所存在的流程基本都是相同的。...[内部使用的一种数据队列] ?

    1.8K20

    【爬虫】新浪爬虫——环境部署

    环境,作者是Python 2.7.8 2.再安装PIP或者easy_install 3.通过命令pip install selenium安装selenium,它是自动测试、爬虫的工具 4.然后修改代码中的用户名和密码...,填写你自己的用户名和密码 5.运行程序,自动调用Firefox浏览器登陆 注意:手机端信息更加精致简单,而且没有动态加载的一些限制,但是如或粉丝id只显示20页,这是它的缺点; 而客户端可能存在动态加载...,如评论和,但是它的信息更加完整。..._1.txt 输出: 信息及用户基本信息 SinaWeibo_Info_best_1.txt Megry_Result_Best.py 该文件用户整理某一天的用户信息,如2016年4月23...日 [源码] 爬取客户端信息 爬取客户端信息,但是评论是动态加载,还在研究中 weibo_spider2.py

    29010
    领券