资金流向是观测股票市场的一个重要指标,目前A股市场可以获取到的资金流数据主要包括:
摘要: 现在很多网页都采取JavaScript进行动态渲染,其中包括Ajax技术。有的网页虽然也用Ajax技术,但接口参数可能是加密的无法直接获得,比如淘宝;有的动态网页也采用JavaScript,但不是Ajax技术,比如Echarts官网。所以,当遇到这两类网页时,需要新的采取新的方法,这其中包括干脆、直接、好用的的Selenium大法。东方财富网的财务报表网页也是通过JavaScript动态加载的,本文利用Selenium方法爬取该网站上市公司的财务报表数据。
最新的 GitHub 创新图显示,JavaScript 和 Python 在 GitHub 平台上排名最高,是使用最多的编程语言。
随着中国工业和科技的发展,中国的一些发达城市的空气质量问题变得越来越严重,其中最为严重的便是PM2.5带来的恶劣环境问题。
数据来源:http://www.tianqihoubao.com/aqi/chengdu-201901.html
C#里内置的DateTime基本上都可以实现这些功能,巧用DateTime会使你处理这些事来变轻松多了 今天 DateTime.Now.Date.ToShortDateString(); 昨天,就是今天的日期减一 DateTime.Now.AddDays(-1).ToShortDateString(); 明天,同理,加一 DateTime.Now.AddDays(1).ToShortDateString(); 本周(要知道本周的第一天就得先知道今天是星期几,从而得知本周的第一天就是几天前的那一天,要注意的是
最近听到大家说的最多的话就是,在工作中总是没有数据分析思路,我应该怎么办呢?今天就来给大家分享一下,如何锻炼自己的数据思维,还有实例模型讲解哦~
最近公募基金扎堆发四季度报告,截至今天,所有公募基金四季报已经全部公布完了。基金的季度报告里可以查看基金的各种信息,如果想购买一个基金,最好的办法可能是先看看他过去几年的报告,了解一下投资风格。
之前看见有文章在稳健性检验部分,用企业景气指数和企业家信心指数代替 GDP 增长率作为宏观经济层面投资机会的替代变量(李凤羽和杨墨竹,2015)。所以想收集来看看,在网上找到中国经济网行情数据中心[1]有这个数据,所以用 Stata 爬了下,好久没有用 Stata 干这种活儿,也当是练练手。
本文介绍了用Python进行时间序列分解的不同方法,以及如何在Python中进行时间序列预测的一些基本方法和示例。
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/52022982
在进行数据分析时,我们往往不会对原始的一条一条的数据直接进行分析,因为那毫无意义。通常,需要对数据先做一些聚合运算,比如求和、求平均值、计数等,也就是会用到一些分析指标和术语,这些指标和术语可以帮助我们打开思路,从多种角度对数据进行深度解读。
set hive.execution.engine=tez; with dates as ( select date_add("2010-01-01", a.pos) as d from (select posexplode(split(repeat("o", datediff("2030-12-31", "2010-01-01")), "o"))) a ) insert overwrite table dim.dim_date select d , date_format(d, 'yyyyMMdd000000') as to_pt -- 指定分区格式 , date_format(d, 'yyyyMMdd') as date_yyyymmdd , trunc(d,'MM') as month_first_day , last_day(d) as month_last_day , date_format(last_day(d),'yyyyMMdd000000') as month_last_pt , date_format(d, 'yyyyMM') as month_yyyymm , date_format(d, 'yyyy-MM') as month_yyyy_mm , month(d) as month , date_format(d, 'u') as week , date_format(d, 'E') as week_long , weekofyear(d) as week_of_year , year(d) as year , floor(substr(d,6,2)/3.1)*3+1 as quarter -- , concat_group('"',date_format(d, 'yyyyMM'),'"') as date_yyyymmdd_list -- 低版本hive group_concat 不可用 from dates
(五)进阶技术 6. 维度层次 大多数维度都具有一个或多个层次。例如,日期维度就有一个四级层次:年、季度、月和日。这些级别用date_dim表里的列来表示。日期维度是一个单路径层次,因为除了年-季度-月-日这条路径外,它没有任何其它层次。本篇将讨论在维度的层次上进行分组和钻取查询。多路径层次在下一篇“多路径和参差不齐的层次”中讨论。 为了识别数据仓库里一个维度的层次,首先要理解维度中列的含义。然后就可以识别两个或多个列具有相同的主题。例如,日、月、季度和年具有相同的主题因为它们都是关于日历的。具有相同主题的列形成一个组。组中的一列必须包含至少一个组内的其它成员。例如,在前面提到的组中,月包含日。这些列的链条形成了一个层次。例如,日-月-季度-年这个链条是一个日期维度的层次。除了日期维度,产品和客户维度也有层次。 表(五)- 6-1显示了三个维度的层次。注意客户维度具有两个路径的层次。
假设我们的报告有以下四个页面,默认的切换方式是鼠标点击相应页面,但这样可能会有些不便。
前面两篇文章我们围绕利用Python进行网络数据采集铺垫了很多内容,但光说不练是不行的,于是乎,本篇就将基于笔者最近的一项数据需求进行一次网络数据采集的实战;
导读:Pandas是Python数据分析的利器,也是各种数据建模的标准工具。本文带大家入门Pandas,将介绍Python语言、Python数据生态和Pandas的一些基本功能。
数仓系列传送门:https://blog.csdn.net/weixin_39032019/category_8871528.html
为什么当时想起写这个爬虫呢,是因为这是曾经在工作中想要解决的问题,当时不会爬虫,只能用 Excel 花了数个小时才勉强地把数据爬了下来, 所以在接触到爬虫后,第一个想法就是去实现曾未实现的目标。以这样的方式入门爬虫,好处显而易见,就是有了很明确的动力。 很多人学爬虫都是去爬网上教程中的那些网站,网站一样就算了,爬取的方法也一模一样,等于抄一遍,不是说这样无益,但是会容易导致动力不足,因为你没有带着目标去爬,只是为了学爬虫而爬,爬虫虽然是门技术活,但是如果能 建立在兴趣爱好或者工作任务的前提下,学习的动力就会强很多。
点击上方蓝色“程序猿DD”,选择“设为星标” 回复“资源”获取独家整理的学习资料! 项目地址:https://github.com/momosecurity/bombus 项目介绍 近年来,随着监管政策不断细化与收紧,企业安全合规日趋重要。而合规工作的落地,存在大量检查、审计类重复活动,而且随着企业人员和适用政策的叠加,人工成本也会逐渐上升。因此,为解决此类问题,我们设计并实施了安全合规审计系统,将控制落实、合规检查及跟踪汇报等合规审计类流程固化到线上系统,实际使用中起到良好效果。 初始检查策略
上篇我们统计并演算了沪深300指数历史各季度的涨跌概率和幅度,分析第四季度上涨概率66.67%和平均收益6.89%,位居首位,并结合A股财报周期解释其发生的原因,如需阅读请点击:《择时系列(2)| 指数季节效应》。
在日常生活中我们频繁使用到数学的进制,如季度逢三进一,星期逢七进一;×××、小时使用12进制,每天使用24进制,每月使用30进制,分秒使用60进制,一年使用360进制等等;在编程过程中我们经常需要转换进制,虽然Python已经内置了常用进制转换函数,如int,bin,hex,oct;但是如果我们需要转换成其他进制怎么办呢?
虽然距离基金二季报公布的DDL已过去近1个月,但我们还是赶(bu)个(shi)晚(tuo)集(yan),分享一下基于python爬取天天基金网基金持仓数据的方法,最新及历史持仓数据均可爬。感兴趣的小伙伴可以拿去玩一下,等到10月份三季报披露节点,又会是及时抄作业的真香小工具啦。
本文将重点探讨数据处理层中数据仓库的建设。早期的数据服务中存在不少问题,虽然在做运营Dashboard系统时,对后台数据服务进行了梳理,构建了数据处理的底层公共库等,但是仍然存在一些问题:
Stack Overflow,一个面向开发者的 IT 技术问答网站,很多程序员都会在上面提问,浏览问题,查找技术知识。在 Top Question 页面,我们可以根据 Hot、Week、Month,亦或是标签对问题进行筛选过滤。当我们想对上面的问题进行数据统计与分析时,这些功能显然不够直观与聚合。
五一前夕,一则消息震惊了科技圈:Python 团队的所有职位将被取消。后来,更多消息的披露,谷歌并非完全撤出 Python 队伍,而是将原先位于美国的团队解散,转而在德国慕尼黑重新组建新团队。
前段时间给大家分享了阿里的数仓建设《阿里数据仓库研发规范》,本文主要讲解下创业型公司是如何建设数仓的。本文将重点探讨数据处理层中数据仓库的建设,有提到早期的数据服务中存在不少问题,虽然在做运营Dashboard系统时,对后台数据服务进行了梳理,构建了数据处理的底层公共库等,但是仍然存在一些问题:
多阶段决策问题是一类在不同决策阶段需要做出一系列决策以实现特定目标的问题。这类问题涵盖了许多实际应用,如项目管理、资源分配、生产计划等。解决多阶段决策问题的一种常见方法是使用动态规划。在本篇博客中,我们将重点讨论多阶段决策问题的基本概念、状态转移方程的构建和 Python 实现。
证监会网站会公布每季度上市公司行业分类结果[1],但提供的是 PDF 版本,难以直接用作数据匹配。刚需要用到这份数据,懒得手动下载和转换,所以用 Stata 写了下获取和整理数据。
入门爬虫很容易,几行代码就可以,可以说是学习 Python 最简单的途径。 刚开始动手写爬虫,你只需要关注最核心的部分,也就是先成功抓到数据,其他的诸如:下载速度、存储方式、代码条理性等先不管,这样的代码简短易懂、容易上手,能够增强信心。
期货制鞋服企业分析产品销售状况一般有两个时间维度,一个是自然年月维度,比方1-3月属于Q1,4-6月属于Q2。另外一个维度是订单季,一个订单季的产品销售可能会跨越若干自然时间季度。比方订单属于20Q1的产品,可能在2019年12月就到货销售,2020年5月仍然有库存在售。
刚开始动手写爬虫,你只需要关注最核心的部分,也就是先成功抓到数据,其他的诸如:下载速度、存储方式、代码条理性等先不管,这样的代码简短易懂、容易上手,能够增强信心。
为什么Python会越来越火? python最大的问题在于性能。性能问题其实是在设计时最容易被误解的部分。C++以『接近C语言的性能』横行多年。随着物理硬件性能的显著提升以及软件复杂性的显著提升,人们开始对性能有了更正确的看法。 首先,有些时候性能并不重要。IO密集型的业务大部分时间都在等待IO,节省不到1ms让开发量增加几倍似乎不是很划得来。 其次,有些时候程序员的效率比机器的效率更重要。对于很多复杂的逻辑性功能,使用更加清晰的语言比晦涩的语言给程序减少的负担,可以大大增强软件的质量。 于是,Pyt
一、层次维度简介 大多数维度都具有一个或多个层次。例如,示例数据仓库中的日期维度就有一个四级层次:年、季度、月和日。这些级别用date_dim表里的列表示。日期维度是一个单路径层次,因
在过去的两年中,Rust 社区的用户数量翻了一番——从 2022 年第一季度的 200 万增加到 2024 年第一季度的 400 万。
在上文 持续交付之基于Git Flow代码分支策略实践 中我们已经介绍基于 GitFlow 模型代码分支管理策略,同时为保证能给客户持续提供高品质的产品,保持项目稳定性,增强产品价值输出的节奏感。同时,为了规范工作流程,给客户提供明确的版本信息,固定产品发版策略以及分支管理规则提出要求,促使项目团队内认识一致,行为动作标准一致。
在进行数据分析时,经常会用到一些分析指标和术语,这些指标和术语可以帮助我们打开思路,从多种角度对数据进行深度解读。
本文是【统计师的Python日记】第5天的日记 回顾一下: 第1天学习了Python的基本页面、操作,以及几种主要的容器类型; 第2天学习了python的函数、循环和条件、类。 第3天了解了Numpy这个工具库。 第4天初步了解了Pandas这个库 原文复习(点击查看): 第1天:谁来给我讲讲Python? 第2天:再接着介绍一下Python呗 【第3天:Numpy你好】 【第4天:欢迎光临Pandas】 【第四天的补充】 今天将带来第5天的学习日记。 目录如下: 前言 一、描述性统计 1. 加总 2
年初之前写过一篇《用python批量获取公募基金季报pdf》的推文,当时恰好是三季度报告披露不久。最近到了基金年报扎堆的时候,把上次的代码拿来改一改,10秒钟可以爬到所有基金的年报,觉得不错可以点个在看支持一下。截止发文,有1980只基金公布了年报。
不少读者是刚刚入门Python或者想学习Python的,今天就来谈谈如何用快速入门爬虫。
关于大数据概念,这里参考马丁·希尔伯特的总结:大数据其实是在2000年后,因为信息化的快速发展。信息交换、信息存储、信息处理三个方面能力的大幅增长而产生的数据。
ABC管理就是把物品分为三类,例如把占总数10%左右的高价值的货物定位A类;占总数70%左右的价格低的物品定为C类;A、C之间的20%则为B类。在库存管理中应区别对待各类物品。
路线图中的项目是 ROS 2 社区正在开发的主要功能。“Size”是任务的估计大小。
在线职业教育不仅是就业的“必修课”,也是青年学习和求职的“风向标”。 近日,全国最大在线职业教育平台腾讯课堂发布《全国在线职业技能学习与就业趋势大数据报告(2022Q2)》(以下简称“腾讯课堂报告”)。数据显示,在求职就业和技能升级双重需求的推动下,二季度全国青年的在线职业技能学习需求持续走高,访问腾讯课堂学习职业技能的用户同比增长50%,人均学习时长也提升10%。 报告还公布了二季度学习规模TOP10的职业技能课程,以及增长规模TOP10的十大热门“净增长”职业技能课程。 同时,报告指出,全国青年在线职业
写了这么多文章,终于写到了自己的老本行,财务分析。如果你恰好从事财务工作,这将是一篇巨大的福利。如果你与财务无关,也将从此文汲取营养,因为不仅仅是财务,各行各业都需要做预测值与实际值的差异分析。
追求信贷规模的扩张,往往会导致贷款逾期率的不断增加,如何在当今社会运用数据识别用户特征进行风险管控成为了银行放贷的重点依据(点击文末“阅读原文”获取完整数据)。
这节要写的是从网站爬取财务报表信息,然后写入自己的数据集中。财务信息有了,接着就可以自己算各个股票的PE市盈率了。
前面两篇给大家介绍了几种对时间序列直接的预测方法,这一篇给大家讲讲如何对时间序列进行分解,并根据分解法对数据进行预测。
领取专属 10元无门槛券
手把手带您无忧上云