Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >我常用的15个数据源网站

我常用的15个数据源网站

作者头像
数据森麟
发布于 2022-10-31 08:24:01
发布于 2022-10-31 08:24:01
1.5K00
代码可运行
举报
文章被收录于专栏:数据森麟数据森麟
运行总次数:0
代码可运行
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
公众号后台回复“图书“,了解更多号主新书内容
     作者:森煦     来源:Python大数据分析

前面介绍过实用的效率小工具,真的帮了我很多忙,这次给小伙伴们再种草一些数据源网站。

现在有很多免费的数据可以供使用分析,不过很少有人能找的到,或者没能力找,这就是所谓的信息差吧。其实数据获取分为两方面,一是“拿来的”数据,也就是现成的;二是“爬来的”数据,这种一般通过爬虫等手段去采集数据。

“拿来的”数据可以在各大官方平台或者社区去找,一般各行各业都会有自己的数据库。我常用的数据网站有以下这些:

搜索指数类

百度指数:百度搜索汇总的数据,能看到各种关键词的搜索热度趋势,优点数据量大,能反映真实的话题热度变化,适合做需求洞察、用户画像、舆情监测、市场分析。

百度指数规则,是以网民在百度的搜索量为数据基础,以关键词为统计对象,科学分析并计算出各个关键词在百度网页搜索中搜索频次的加权和。

微信指数:微信生态的大数据,反映关键词热度,和百度指数类似。但微信指数数据来源微信各种内容渠道,包括搜一搜、视频号、公众号等,适合做微信生态人群画像、内容推广、舆情监控的研究。

在计算关键词指数的过程中,微信指数主要关注:

  • 关键词相关内容的受欢迎程度。
  • 关键词在相关内容中的重要程度。

Google Trends:和百度指数类似的产品,基于google生态汇总的大数据。比百度数据来源更丰富也更广泛,包含了google、youtube等,毕竟是全球应用。缺点是对国内搜索分析的指导意义不大,还是百度指数更具指导意义。

微博指数:微博内容提及量、阅读量、互动量加权得出的综合指数,优点比较有时效性,而且数据基数大,可以实时反映热度变化情况,适合实时捕捉当前社会热点事件、热点话题等,快速响应舆论走向等。

媒体数据

这种数据包含了网站、APP、自媒体账号等监测数据,大多是商业付费类

Alexa:用于查询全球网站排名和流量的平台,可以看到PV、UV、排名、区域分布等信息。

新榜:新媒体专属的数据平台,用于查看抖音、快手、公众号、小红书等平台KOL账号的数据。数据包括了粉丝、浏览、互动、声量等,一般用于广告投放监测、自媒体数据运营等。

猫眼数据:影视相关数据。汇总了电影票房、网播热度、电视收视等数据,适合做票房预测、节目热度监测。

艾瑞指数:APP、Web、手机等排行榜数据,包括各大移动设备装机指数、APP热度指数、PC Web热度指数、网络广告指数等等,适合做广告营销投放等。

金融数据

新浪财经数据中心:新浪财经大数据,汇总了股票、基金、期货、黄金、货币等各种财经数据,种类很齐全,应该有数据接口

Wind:国内比较早的金融数据服务商,数据种类最齐全,而且有各种金融分析工具,也支持Python、R等量化分析。但Wind很贵,个人很难承担的起。

Tushare:免费的金融数据库,支持Python接口,数据也非常齐全,包含了股票、基金、期权、债券、外汇、公司报表等各种财经数据。只要你会用Python,就可以调用里面的各种数据,非常便捷。

社会数据

这种一般包含政府开放数据、统计数据,以及各种民生数据。

国家统计局:最权威的国内宏观数据网站,包括人口、经济、农业等等。

上海公共数据开放平台:上海市各行各业的免费数据,对公众开放下载,非常适合做城市规划分析。

其他城市官方数据:

数据科学研究数据

这一类数据适合做机器学习、统计分析、算法研究等,是学术界、工业界用于数据驱动业务典型数据。

kaggle:全球最大的数据科学比赛平台,也是google旗下的产品。kaggle拥有丰富的数据集和各种解决方案,适合对数据感兴趣的小伙伴去研究学习。

天池:阿里云里面的数据比赛平台,也拥有很多比赛数据,质量相对较高。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
◆ ◆ ◆  ◆ ◆麟哥新书已经在当当上架了,我写了本书:《拿下Offer-数据分析师求职面试指南》,目前当当正在举行活动,大家可以用相当于原价5折的预购价格购买,还是非常划算的:
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
数据森麟公众号的交流群已经建立,许多小伙伴已经加入其中,感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容,还没有加入的小伙伴可以扫描下方管理员二维码,进群前一定要关注公众号奥,关注后让管理员帮忙拉进群,期待大家的加入。

管理员二维码:
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-05-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据森麟 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
比Mojo慢68000倍,Python性能差的锅该给GIL吗?
9 月 7 日,新兴编程语言 Mojo 正式发布。Mojo 的最初设计目标是比 Python 快 35000 倍,近期该团队表示,因为结合了动态与静态语言的优点,Mojo 一举将性能提升到了 Python 的 68000 倍。腾讯工程师此前也曾试用 Python 并做了相关评测,参考:《放弃Python拥抱Mojo?鹅厂工程师真实使用感受》
腾讯云开发者
2023/09/12
6530
比Mojo慢68000倍,Python性能差的锅该给GIL吗?
python源码阅读笔记之线程机制
六,python的线程机制 GIL锁的机制,来源于python的内存管理和为了实现多线程,对共享内存资源的互斥实现。 当然,python对进程的支持很好,这在linux下,很有比线程更好的使用,因为在linux里没有线程的概念, 有着的是轻量级的进程以及pipeline等进程间通信。 如果非要使用线程,解释器只有一个,导致的各种线程必须要获得字节码解释器,也就是GIL。 有两个核心问题:在何时挂起当前线程,选择下一个线程?在众多等待的线程中选择其中一个? 对于第一个问题,python通过执行的字节码指令弄的
哒呵呵
2018/08/06
7500
Python | asyncio:从原理、源码到实现
今年,在一次内部技术分享会上,我要分享的内容涉及到一些 python 协程,我又去看 asyncio 的文档。
咸鱼学Python
2019/12/26
3.3K1
Python | asyncio:从原理、源码到实现
Python多线程机制
今天要跟大家一起来学习一下Python的多线程机制。有两个原因,其一是自己在学习中经常会使用到多线程,其二当然是自己对Python中的多线程并不是很了解。那么,今天和大家一起了解下~
oYabea
2020/09/07
6060
《Python 源码剖析》一些理解以及勘误笔记(3)
以下是本人阅读此书时理解的一些笔记,包含一些影响文义的笔误修正,当然不一定正确,贴出来一起讨论。 注:此书剖析的源码是2.5版本,在python.org 可以找到源码。纸质书阅读,pdf 贴图。
s1mba
2017/12/28
1.2K0
《Python 源码剖析》一些理解以及勘误笔记(3)
多线程锁有几种类型_进程同步和互斥概念
现代操作系统基本都是多任务操作系统,即同时有大量可调度实体在运行。在多任务操作系统中,同时运行的多个任务可能:
全栈程序员站长
2022/09/22
1.3K0
多线程锁有几种类型_进程同步和互斥概念
秒啊!Python 信号量源码拆解来了!
在类Unix系统上,信号用于将各种信息发送到正在运行的进程,它们来自用户命令,其他进程以及内核本身。所以信号是对已发生事件进程的通知,也可以被描述为软件中断,因为在大多数情况下,它们会中断程序的正常执行流程。
程序员荒生
2022/03/04
1.1K0
秒啊!Python 信号量源码拆解来了!
Python中的GIL机制详解
大家应该都知道,python有一个GIL(全局解释器锁),用于控制多线程的并发行为。 注:GIL不是必须的,可以通过对每个资源单独加锁的方式去掉GIL,也就是将GIL换成更细粒度的锁。
tunsuy
2022/10/27
3900
【说站】python阻塞调度如何使用
标准调度是python使用软件时钟调度线程,有时python的线程会自动阻塞,例如raw_input(),sleep()等功能,此时python使用阻塞调度。
很酷的站长
2022/11/23
5340
【说站】python阻塞调度如何使用
Python:线程为什么搞个setDaemon
使用 Python 都不会错过线程这个知识,但是每次谈到线程,大家都下意识说 GIL 全局锁,
Lin_R
2019/07/15
6700
CPython源码阅读笔记(1)
目前 CPython 的开发已经迁移到了 Github 上,可以直接去 Github clone 对应的分支。 我们将基于 Python 2.7.13 版本, Linux x86_64 环境进行接下来的工作。 下载好代码以后以
鱼塘小咸鱼
2018/11/06
4.6K0
我用4年时间解决了Python GIL的一个bug...
来源:Python程序员 ID:pythonbuluo 作为Python最关键的组成部分之一:GIL(全局解释器锁),我花了4年时间修复了其中的一个令人讨厌的bug。为了修复这个bug,我不得不深挖Git的历史,才找出26年前Guido van Rossum (龟叔,Python创立者) 所做的一处更改。那个时候,线程还是很深奥的东西。 我的故事是这样的。 由C线程和GIL引发的致命错误 2014年3月,Steve Dower报告了bug bpo-20891。这个bug发生在“C线程”使用Python
小小科
2018/06/20
2.5K0
如何破解一个Python虚拟机壳并拿走12300元ETH
之前在群里看到有人发了一个挑战,号称将 5 ETH 的私钥放在了加密的代码中,只要有人能解密就可以取走,所以我又管不住自己这双手了。
evilpan
2023/02/12
5650
如何破解一个Python虚拟机壳并拿走12300元ETH
python源码阅读笔记之函数的运行机制
函数这个对象的实现由如下: typedef struct { PyObject_HEAD PyObject *func_code; /* A code object */ PyObject *func_globals; /* A dictionary (other mappings won't do) */ PyObject *func_defaults; /* NULL or a tuple */ PyObject *func_closure;
哒呵呵
2018/08/06
5400
《Python 源码剖析》一些理解以及勘误笔记(1)
以下是本人阅读此书时理解的一些笔记,包含一些影响文义的笔误修正,当然不一定正确,贴出来一起讨论。 注:此书剖析的源码是2.5版本,在python.org 可以找到源码。纸质书阅读,pdf 贴图。 文章
s1mba
2017/12/26
9840
《Python 源码剖析》一些理解以及勘误笔记(1)
深度详解 Python yield与实现
学Python最简单的方法是什么?推荐阅读:Python开发工程师成长魔法 Python yield与实现 yield的功能类似于return,但是不同之处在于它返回的是生成器。 生成器 生成器是通过一个或多个yield表达式构成的函数,每一个生成器都是一个迭代器(但是迭代器不一定是生成器)。 如果一个函数包含yield关键字,这个函数就会变为一个生成器。 生成器并不会一次返回所有结果,而是每次遇到yield关键字后返回相应结果,并保留函数当前的运行状态,等待下一次的调用。 由于生成器也是一个迭代器,那
小小科
2018/05/04
2.7K0
深度详解 Python yield与实现
那些去请求锁的线程怎么样了?
不知道你有没有想过,那些去申请锁的线程都怎样了?有些可能申请到了锁,马上就能执行业务代码。但是如果有一个锁被很多个线程需要,那么这些线程是如何被处理的呢?
Java架构师必看
2021/11/01
2510
LockSupport中的park与unpark原理
LockSupport是用来创建locks的基本线程阻塞基元,比如AQS中实现线程挂起的方法,就是park,对应唤醒就是unpark。JDK中有使用的如下
爬蜥
2019/07/09
2.3K0
Python 多线程的同步方法
---- 概述 这篇博客是我翻译Python threads synchronization: Locks, RLocks, Semaphores, Conditions, Events and Queues,这篇博客对Python多线程的集中实现同步机制及其遇到的一些问题,说明的淋漓尽致。废话少说,直接撸代码。 这篇文章详细描述了python多线程机制,包括Lock、RLock,Semaphore,Condition,Event and Queue.下面一一通过代码展示了这些同步机制的内部细节。首先,让我
吕海峰
2018/04/03
2.9K0
《HelloGitHub》第 66 期
这里有实战项目、入门教程、黑科技、开源书籍、大厂开源项目等,涵盖多种编程语言 Python、Java、Go、C/C++、Swift...让你在短时间内感受到开源的魅力,对编程产生兴趣!
HelloGitHub
2021/09/29
6450
相关推荐
比Mojo慢68000倍,Python性能差的锅该给GIL吗?
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验