首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    中的用户画像:中的用户模型

    经历了6的发展,已经成为了国内社交媒体的中坚力量。本文从的角度出发,对用户模型的目的、维度和建模任务进行描述,并作为后续用户模型相关文章的总述。...从自身的角度来讲,构建用户模型的目的包括: (1) 完善及扩充用户信息 用户模型的首要动机就是了解用户,这样才能够提供更优质的服务。...本身就有比较完整的用户注册引导、用户信息完善任务、认证用户审核、以及大量的合作对象等,在收集和清洗用户属性的过程中,需要注意的主要是标签的规范化以及不同来源信息的交叉验证。...接下来主要介绍一下画像中兴趣维度的构建方法。 2. 用户兴趣分析 (1) 标签来源 用户自标签、达人或认证标签、公司、学校、群标签、星座、关键词……这些来源都可能成为用户的标签。...小结 用户画像的目的是将用户信息标签化,本文中介绍针对本身的特点介绍用户画像的构建,该用户画像主要还是从的业务出发,完善用户信息和发掘用户兴趣,区分兴趣和能力,并形式化结构化表达出来。

    4.3K100

    2014用户发展报告(44PPT)

    回复“2014”下载全版PPT 据2014发布的第三季度财报中显示,截止20149月30日,月活跃用户数(MAU)已经达到1.67亿人,较上年同期增长36%;9月的日均活跃用户数(DAU...对比网民整体数据增长水平来看,平台下的用户增长率保持了较高的水平; 随着V6版本的推出,构建在平台上的各类应用功能以及应用场景不断丰富,用户的社交需求得到了进一步的满足。...同时,随着移劢端的迅猛収展,各种信息在平台下得以迅速传播扩散,的媒体价值得到了极大的凸显;鉴于此,数据中心特整理2014用户发展报告,诠释用户整体収展状况,从宏观上解读用户的行为特性...:http://data.weibo.com/report 补充《艾瑞咨询:2013中国用户行为研究》供大家参考 App端女性用户比重更高,25-30岁的年轻人更青睐于App端 ?...近半数用户会通过链接进入网购网站 2013,有近半数用户会通过链接进入网购网站进行网购,可见,已经成为电商网站(尤其淘宝)的导流入口之一。 ?

    1K20

    话题爬虫更新:突破 50 页限制

    在上一次更新至今,又出现了不少了 bug,昨天趁着有空更新了代码,这次的更新主要做了三件事 1、解决了话题爬虫失效的问题 2、突破话题爬虫只能爬取前50页的限制 3、重新组织了代码,具体可见下图...原来的带有界面的用户、话题、评论爬虫更新后转移到项目根目录下的 GUI 功能集中版 文件夹下,这部分的代码主要是 GUI.py 源代码,里面分别有 WeiboSearchScrapy、WeiboUserScrapy...,突破了 50 页的限制,可指定截至日期 因为每次更新,爬虫就要做相应更新,然后一些逻辑的变化导致 GUI 界面也要修改,一个产品很多代码都是浪费在了界面的编写上,为了减轻更新压力,将主要任务放在爬虫逻辑的更新上...,filter=1 表示只爬取原创;limit_date 指明只抓取 2020-01-10 至今的;上述新建类的语句表明开启一个抓取特朗普话题下 2020-01-10 至今的所有的任务。...代码最前面需要替换成你自己 weibo.cn 的 Cookie,关于 Cookie 怎么获取,可以参考全站爬虫修复更新啦!!!的最后面说明。 代码已更新到 Github,阅读原文一键直达。

    4.4K40

    数据挖掘:用户画像之用户标签

    作为最大的中文社交媒体,拥有数以“PB”(1024 TB)计的用户信息,从海量的用户信息中发掘每个用户的社交特性、潜在能力及兴趣等信息,是用户提供更加人性化服务的基础。...博大数据经过近两不断地调整、磨合、优化,针对社交媒体特性,研发构建了一整套完整的用户画像体系。...同时,大数据的用户画像体系已应用于众多的业务场景中,并随着业务的发展不断完善升级,将“大数据”概念落地落实。...为了方便与大家交流探讨,大数据用户团队特别整理了用户画像系列文章,主要从的角度出发,重点介绍社交媒体平台中用户的特性,业务发展中用户的建模刚需,以及不同纬度建模过程中遇到的问题和解决方案。...二、能力标签的应用场景 目前能力标签已经应用于众多业务场景中,其中两个典型的业务场景是“找人”和“热门”,分别如图2和图3所示。 ?

    10.7K80

    调用新浪显示用户信息

    调用新浪显示用户信息 最近需要在开发的安卓项目中添加新浪一件关注的功能, 本来是一个很简单的功能, 就是调用新浪博客户端显示用户信息的 Activity , 然后用户就点击关注按钮就可以了。...本来是很简单的功能, 可以网上找到的几乎都是 JS 的代码, 或者是要注册新浪 SDK 的代码, 这么简单的功能应该不用注册什么 SDK 的, 也不想参合什么 JS , 只要研究一下新浪博客户端的...首先我们需要使用 AXMLPrinter2.jar 反编译新浪的 AndroidManifest.xml , 从中查找显示用户信息的页面, 反编译代码如下: java -jar AXMLPrinter2..., 则直接调用浏览器打开那个地址; 如果用户安装了新浪, 则会显示下面的对话框让用户选择: ?...再次鄙视一下新浪的开放程度, 居然有这个功能都不开放。

    62920

    2023 评论爬虫 | 突破 1000 页限制,抓取 10w 条评论

    相比较一条的正文内容,的评论区往往有着更多的态度和情感极性,是不错的语料分析文本来源,因此对评论的抓取需求较大,笔者在以往分享过几个评论抓取的代码或者教程: 2021 新版评论及其子评论爬虫发布...新增 ip 属地,抓得更多,超级评论爬虫大更新 维护了三依然有效,但是有一个问题,由于接口限制,很多评论只能抓到前面几十页或者几百页,对应的评论数量也就是几百条或者几千条,怎么在一条中爬到上万条评论甚至几十万条评论呢...这是一个全新的评论爬虫系统,抓取的 csv 结果字段包括评论 id、评论时间、评论内容、评论回复数、点赞数、评论用户 id、评论用户名、评论用户性别、评论用户地址、评论用户认证类型、评论用户的粉丝数和关注数等字段...在属地分析 tab,可以直观的看到评论用户的属地分布: 情感分析 tab 则是对每一条评论文本的情感做了极性比例可视化: 最后一个 tab 则是对所有的评论文本分词后进行词云可视化,并且可以在网页上自定义停用词

    3.1K20

    基于Java爬取数据(三) 主页用户数据

    需求背景对于数据,除了主页的列表数据外,当然还有主页用户数据,比如用户的粉丝、关注、点赞、评论等一些信息,这些信息对于其他用户来理解当前主所从事行业及内容方向有很大的帮助或者参考作用...数据分析在开始爬取主页用户数据之前,我们先对之前基于Java爬取数据(一)中的主页正文列表数据进行分析,看是否可以从中获取到主页用户数据。...将获取到的数据取出一个内容的完整的 Json 对象,保存为 .json 文件打开该正文内容,可以看到如下主页用户数据内容然后我们再观察用户主页的一些数据,在实际的用户主页是还有用户的...粉丝数、关注数、主页描述、全部数等内容一部分内容是无法从正文列表数据内容的 user 属性中获取,但是页面上可以展示,那么猜测这里应该是跳转到用户主页之后通过 ajax 异步加载了用户相关信息...uid=1686546714 浏览器请求中的 响应 内容,可以看到我们需要的主页用户信息都有的到这里,关于如何获取主页用户数据的数据分析就结束了,那么下面我们开始来写代码实现获取对应的主页用户数据

    20220

    爬取用户所有文章的爬虫

    上发布的内容有的短文本+图片(也就是),还有视频,文章等形式,爬取用户可以使用之前的源代码文章:一个爬取用户所有的爬虫,还能断网续爬那种 本次分享的是如何爬取用户的所有文章。...下面以【共青团中央】为 target,抓取该账号发布的所有文章,大部分都是深度好文,值得保存起来细细品读。...保存数据时,一定要针对一些异常情况作处理,比如由于断网了,爬了几十万条数据在内存中没有持久化保存到文件中而丢失,这可就大亏特亏了,建议在执行具体的 requests 请求时加个 try...except...数量多的时候,可以考虑每翻 N 页面保存一次,不过文章数量一般比少多个,可以直接爬完保存,具体情况具体分析。...最近也会有较多爬虫相关的更新,请持续关注,在短视频爆炸的今天,原创图文内容不易,转发好看就是最大的支持~

    2.6K41

    【开放源代码】搜索用户爬虫

    保证阅读体验,文中广告已关闭~ 超级方便的用户信息爬虫 是根据用户 Uid 来抓取公开的用户信息,但是很多时候,我们可能只知道这个用户名字,并不知道 Uid,本次开放的爬虫就是完成从用户名到...== 0: return -1 temp = users[0] uid = temp[temp.rindex('/') + 1:] return uid 类比用户信息爬虫...% 10 == 0: df.to_csv(file_path, index=False, encoding='utf-8-sig') 它会自动根据指定路径下的 csv 文件里的用户名抓取用户链接并保存到...比如我们有一个 test.csv ,其中用户名信息在 user_name 列,我们可以这样调用。...最后依旧是话题爬虫的日常更新,修复了群里朋友提出的若干问题,提升了稳定性。可以去 2021 新版话题爬虫发布 获取最新的话题爬虫。

    1.1K20

    浅谈精准推荐——用户行为挖掘与相似用户挖掘

    小编说:在推荐系统中,通过对用户数据的挖掘,抽象出用户感兴趣的“商品”,以文推荐为例,“商品”表现为用户文,在文精准推荐中,其核心问题是在给定的环境下,为用户推荐高质量且符合用户兴趣的文...图4 基于互动内容的兴趣挖掘 2 基于与主互动的兴趣挖掘 当用户A与待推荐主之间有过互动行为时,在一定程度上表明该用户主之间存在某种兴趣上的相似性,对于主发布的用户A互动的可能性比较大...在基于与主互动的兴趣挖掘中,是指将主的投放给与其互动过的一些用户。...在中,为了能够定向让某个人看到,我们会在这条中加入“@”该用户的标记。...当有需要投放时,选择某几个社区,将投放给社区中的住户,选择社区的方式有很多种,比如: 的主题与社区标签的匹配 主所在的社区 在基于社区的相似用户的挖掘中,利用Label Propagation

    1.4K10

    登陆爬取用户影响力

    下面的操作针对于 m.weibo.cn : 这里要实现的是对用户的影响力抓取,我本文以广电时评为例。 点击查看,里面的数据会更多一点。...未登陆时: 这里是需要用户登陆之后才可以查看的, 所以为了实现我们的需求,我们开始模拟登陆。...首先来到移动端的登陆页面 然后选择使用账号密码登陆 先输入一个错误的账号来查看一下登陆的接口 错误的账号返回了retcode 查看下 Formdata 当然请求头也不能忘记 有了这些信息之后...session.post(url=login_url, headers=headers, data=formdata).text) 输出之后,返回了 retcode,已经登陆成功 如果需要获取指定的影响力...我们可以通过接口 先访问用户api,获取用户主页的cid uid = 'ID' user_api = 'https://m.weibo.cn/api/container/getIndex?

    29020

    Python爬取新浪用户信息及内容

    新浪作为新时代火爆的新媒体社交平台,拥有许多用户行为及商户数据,因此需要研究人员都想要得到新浪数据,But新浪数据量极大,获取的最好方法无疑就是使用Python爬虫来得到。...网上有一些关于使用Python爬虫来爬取新浪数据的教程,但是完整的介绍以及爬取用户所有数据信息比较少,因此这里分享一篇主要通过selenium包来爬取新浪用户数据的文章。...目标 爬取新浪用户数据,包括以下字段:id,昵称,粉丝数,关注数,数,每一篇的内容,转发数,评论数,点赞数,发布时间,来源,以及是原创还是转发。...3.获取用户页码 在登录之后可以进入想要爬取的商户信息,因为每个商户的量不一样,因此对应的页码也不一样,这里首先将商户的页码爬下来。...与此同时,将那些公用信息爬取下来,比如用户uid,用户名称,数量,关注人数,粉丝数目。 ?

    1.3K20

    新浪用户画像是怎样构建的?

    这个新浪的案例或许能告诉你正确答案。...1.概述 从上一篇《认识每一个“你”:中的用户模型》里面对用户模型维度的划分可以看出,属性和兴趣维度的用户模型都可以归入用户画像(User Profile)的范畴。...本身就有比较完整的用户注册引导、用户信息完善任务、认证用户审核、以及大量的合作对象等,在收集和清洗用户属性的过程中,需要注意的主要是标签的规范化以及不同来源信息的交叉验证。...接下来主要介绍一下画像中兴趣维度的构建方法。 2.用户兴趣分析 1 标签来源 用户自标签、达人或认证标签、公司、学校、群标签、星座、关键词……这些来源都可能成为用户的标签。...3.小结 用户画像的目的是将用户信息标签化,本文中介绍针对本身的特点介绍用户画像的构建,该用户画像主要还是从的业务出发,完善用户信息和发掘用户兴趣,区分兴趣和能力,并形式化结构化表达出来。

    1.9K70

    redis+php实现(一)注册与登录功能详解

    本文实例讲述了redis+php实现注册与登录功能。...分享给大家供大家参考,具体如下: (一)、功能概况 用户账号注册 用户登录 发布 添加好友(粉丝) 推送 冷数据写入mysql数据库 (二)、redis数据结构设计 这节分享用户注册与登录...: 我们完全采用redis作为数据库来实现注册于登录 先来看一下redis数据结构的设计: 注册用户表:user set global:userid set user:userid:1:username...:userid"); if($info){ exit('该用户已经注册过'); } //将用户数据存入redis中 $userid = $r- incr('global:userid'); $r-...:userid",$userid); header("location:home.php"); 登录代码: include("function.php"); //如果用户已经登录调整到列表页面 if

    88431

    亿级用户下的新浪平台架构

    序言   新浪在20143月公布的月活跃用户(MAU)已经达到1.43亿,2014新年第一分钟发送的博达808298条,如此巨大的用户规模和业务量,需要高可用(HA)、高并发访问、低延时的强大后台系统支撑...平台第一代架构为LAMP架构,数据库使用的是MyIsam,后台用的是php,缓存为Memcache。   ...我们先看一张的核心业务图(如下),是不是非常复杂?但这已经是一个简化的不能再简化的业务图了,第三代技术体系就是为了保障在核心业务上快速、高效、可靠地发布新产品新功能。 ?  ...,支持PB、JSON、二进制序列化协议,中最大的应用场景将中引用的视频、图片、文章统一定义为对象,一共定义了几十种对象类型,并抽象出标准的对象元数据Schema,对象的内容上传到对象存储系统(Sina...WatchMan大型分布式追踪系统   如其他大中型互联网应用一样,平台由众多的分布式组件构成,用户通过浏览器或移动客户端的每一个HTTP请求到达应用服务器后,会经过很多个业务系统或系统组件,并留下足迹

    75020
    领券