首页
学习
活动
专区
圈层
工具
发布

你会描述你的数据吗?

面对一个数据集,你会描述它吗? 描述数据集,目的是为了理解数据。你对数据理解的越充分和全面,你就越能够更好地处理数据和应用数据。 描述你自己的数据集,可以从这些方面入手。...一 概况分析 1 数据集大小,包括观察大小和维度大小 2 变量的类型观察,因为不同的变量类型会使用不同观察手段和工具 3 元数据分析,也就是对于数据解释的数据,比方说,每个变量表示什么意思,有什么业务含义...二 数据观察 1 从大量数据中可以先选择一部分数据来观察,以对数据有个直观认识 三 数据摘要分析 1 采用描述性统计分析的方法,变量类型的统计特征进行计算和了解 四 变量重要性分析 1 选择一种算法...,评价数据集中变量的重要性 五 可视化分析 1 采用可视化分析,理解变量的分布和变量之间的关系 我们以描述Iris数据集为例 一 参考代码: # -*- coding: utf-8 -*- """...描述你的数据 @author: Luqing Wang """ import matplotlib.pyplot as plt import seaborn as sns import pandas

82220

你的MySQL会抖动吗

你的MySQL会抖动吗 1. 什么是MySQL 抖动 一条SQL语句正常执行的时候特别快,有时候会变得特别慢。但是这种场景不是很常见。 2....MySQL 为什么会抖动 2.1 脏页 内存数据页跟磁盘数据页内容不一致的时候,我们称这个内存为脏页。 2.2 干净页 内存数据写入到磁盘后,内存和磁盘上的数据页的内容一致,称为干净页。...2.4 什么时候会触发flush操作 InnoDB 的 redo log 写满了。 系统内存不够,需要新的内存页了,就需要淘汰一些内存页。 MySQL 认为系统空闲时候,开始flush。...这种情况尽量避免,一旦redo log 写满,系统会拒绝更新操作,此时更新数为0。 2.5.2 系统内存不够。...2.6 InnoDB 刷脏页的控制策略 innodb_io_capacity ,告诉InnoDB你的磁盘能力,建议设置成磁盘的IOPS。

94120
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    会旋转的树,你见过吗?

    但是,如果插入的数据是有序的,或者大部分有序,则会导致 “二叉搜索树” 退化为类似于链表的结构....AVL树中的每个节点都能保证左子树中的所有节点小于当前节点的关键字,右子树中的所有节点大于当前节点的关键字。...每当向AVL树中插入、删除节点时,AVL树会自动地进行旋转操作将树变为平衡状态,从而保证了AVL树的平衡性。 会旋转的树才够强,AVL树的查询数据的时间复杂度总是控制在 O(logn)量级....子树的平衡因子变化,可能会影响祖先路径上的结点,需要继续向上更新. (1) 当新增结点后,父节点的平衡因子变成0,则插入结束....后续会更新红黑树的介绍,很多人认为红黑树是比AVL树还要优秀的结构,不想要了解一下吗? 还请保持关注哦!

    20510

    你的爬虫会送你进监狱吗?

    爬虫究竟是合法还是违法的? 随着大数据的火热,数据相关行业竞争不仅“蒸蒸日上”,爬虫之间的战争也越发地激烈。一篇《你的爬虫会送老板进监狱吗?》...在程序猿圈子里被大量转载,甚至有的程序员因为非法获取数据的新闻从而放弃了这一行当。那么,爬虫是什么,它会是悬在程序员头上的达摩克利斯之剑吗?...由于爬虫会批量访问网站,因此许多网站会采取反爬措施。例如:1.IP频率、流量限制;2.请求时间窗口过滤统计;3.识别爬虫等。...由于网络爬虫会根据特定的条件访问页面,因而爬虫的使用将占用被访问网站的网络带宽并增加网络服务器的处理开销,甚至无法正常提供服务。...本文由群友不二辰投稿,刚刚得知他的职业之后我第一个问的问题就是,爬虫合法吗?

    2.1K30

    正确的表格跨页,你会吗?

    Word是我们平日里最常用的Office软件,大家都已经很熟悉了。小编最近一直在整理毕业的东西,其中关于word里面的表格,就被导师指出了问题。...那么正确的做法是怎么样呢,来跟小编学学吧! 软件 ? Microsoft word 2019 ? 视频教程 ? 不会了看看视频呗 ? ? ? 图文教程 ? 1....打开word,打开我们的表格,那么这里我随机整理了一个表格,用来演示 ? 2. 打开表格之后,首先将表格的行距设置一下,一般1倍或者1.5倍行距就行。 ? 3. 然后看一下,表格分为几页了。...选中下一页的表头,按住Shift + Ctrl + Enter,就会产生空格 ? 4. 我们给表格写上续表 ? 5. 选中第二页,第一行,添加一行,写上表头 ? 6....最后,我们将第一页表格选中,将上下两行设置为1磅,中间的设置为0.5磅 ? 7. 选中第一行,将下面的线设置为0.5磅 ? 8. 其他的分页的表格也同样操作,最终我们分页的表格就做好了。 ?

    1.6K30

    进大厂必备的RocketMQ你会吗?

    定时消息会暂存在名为SCHEDULE_TOPIC_XXXX的topic中,并根据delayTimeLevel存入特定的queue,queueId = delayTimeLevel – 1,即一个queue...消息重投可以最大限度的保证消息发送成功、不丢失,但是也会导致消息重复,当消息量大、网络不好的时候消息重复的概率就会提高。...我们可以根据需要设置消息重试策略: retryTimesWhenSendFailed:同步发送失败重投次数,默认为2 ,在重投的时候不会发送给上次失败的broker,会尝试向其他的broker发送,尽可能的保证消息不丢失...死 信队列 死信队列用于处理消费失败的消息,当消息消费失败的时候,会自动进行消息重试,如果达到最大重试次数后,还是没有消费成功,就说明正常情况下不能正确的消费该消息,此时消息队列会把这个消息发送到该消费者对应的特殊队列中...消费者本地缓存消息大小超过pullThresholdSizeForQueue时,默认100MB。 消费者本地缓存消息跨度超过consumeConcurrentlyMaxSpan时,默认2000。

    87530

    你的爬虫会送你进监狱吗?

    ” 爬虫究竟是合法还是违法的? 随着大数据的火热,数据相关行业竞争不仅“蒸蒸日上”,爬虫之间的战争也越发地激烈。一篇《你的爬虫会送老板进监狱吗?》...在程序猿圈子里被大量转载,甚至有的程序员因为非法获取数据的新闻从而放弃了这一行当。那么,爬虫是什么,它会是悬在程序员头上的达摩克利斯之剑吗?...最早的爬虫程序是1994年休斯敦大学的Eichmann开发的RBSE。著名的谷歌公司使用的Google Crawler是当时还是斯坦福大学生Brin和Page在1998年用Python开发的。...由于爬虫会批量访问网站,因此许多网站会采取反爬措施。例如:1.IP频率、流量限制;2.请求时间窗口过滤统计;3.识别爬虫等。...由于网络爬虫会根据特定的条件访问页面,因而爬虫的使用将占用被访问网站的网络带宽并增加网络服务器的处理开销,甚至无法正常提供服务。

    3.5K20

    你可能会忽略的 Git 提交规范

    Git Commit 规范可能并没有那么夸张,但如果你在版本回退的时候看到一大段糟心的 Commit,恐怕会懊恼不已吧。所以,严格遵守规范,利人利己。...大致意思就是: 你的之前的 Commit 不合格~你的之前的 Commit 不合格~你的之前的 Commit 不合格 这时候就很烦了,我们只能去将之前的错误修正,那么如何操作呢?...3、找到需要修改的 commit ,将首行的 pick 改成 edit 4、开始着手解决你的 bug 5、 git add 将改动文件添加到暂存 6、 git commit –amend 追加改动到提交...7、git rebase –continue 移动 HEAD 回最新的 commit 8、恢复之前的工作状态 git stash pop 大功告成,是不是想把整个 Commit 都修改一遍,逃~ 此处参考自...Cheers~ 八、总结 看完文章,你还会如此放荡不羁吗?你还会随心所欲的编写 Commit 吗?你还会如此 git commit -m "hello jartto"提交吗?

    38650

    你可能会忽略的 Git 提交规范

    Git Commit 规范可能并没有那么夸张,但如果你在版本回退的时候看到一大段糟心的 Commit,恐怕会懊恼不已吧。所以,严格遵守规范,利人利己。...大致意思就是: 你的之前的 Commit 不合格~你的之前的 Commit 不合格~你的之前的 Commit 不合格 这时候就很烦了,我们只能去将之前的错误修正,那么如何操作呢?...3、找到需要修改的 commit , 将首行的 pick 改成 edit 4、开始着手解决你的 bug 5、 git add 将改动文件添加到暂存 6、 git commit –amend 追加改动到提交...当然,生成的文档允许手动修改,所以发布前,你还可以添加其他内容。...如果你只需要处理尚未合并到协作远程工作的本地提交,你可以使用这三者中任何一条命令。如果是协同工作且需要撤销远程分支中的提交,那么就用 git revert。

    56010

    你可能会忽略的 Git 提交规范

    Git Commit 规范可能并没有那么夸张,但如果你在版本回退的时候看到一大段糟心的 Commit,恐怕会懊恼不已吧。所以,严格遵守规范,利人利己。...大致意思就是: 你的之前的 Commit 不合格~你的之前的 Commit 不合格~你的之前的 Commit 不合格 这时候就很烦了,我们只能去将之前的错误修正,那么如何操作呢?...3、找到需要修改的 Commit,将首行的 pick 改成 edit 4、开始着手解决你的 bug 5、 git add 将改动文件添加到暂存 6、 git commit –amend 追加改动到提交...7、git rebase –continue 移动 HEAD 回最新的 commit 8、恢复之前的工作状态 git stash pop 大功告成,是不是想把整个 Commit 都修改一遍,逃~ 此处参考自...Cheers~ 八、总结 看完文章,你还会如此放荡不羁吗?你还会随心所欲的编写 Commit 吗?你还会如此 git commit -m "hello jartto"提交吗?

    42020

    从9G到0.3G,腾讯会议对他们的git库做了什么?

    包构建流水线全量拉代码耗时,从16分钟减少到5分钟以内。 02 瘦身前事项 2.1 环境准备 使用有线网,看看能否通过其他办法给机器的上传和下载速度提速?...瘦身期间会锁库,必须提前推送代码到远端,否则需要手动同步; 锁库期间无法进行 MR,且已创建 MR 会失效; 因删除历史记录,会导致本地仓库与远端冲突,请恢复后重新 clone 代码; 需要查询或处理更老的代码...一般公司自己的代码管理平台都会提供设置单个 git 文件上传大小上限的功能,得管理员才有权限设置;腾讯的代码管理平台是像下图这样设置的: 解释:之后的步骤将会把新老仓库互换,新旧仓库互换后,其它机器本地的老仓库分支还是有...0git config --global https.lowSpeedTime 999999 如仍然无法解决,可能是用户的客户端默认有设默认值限制 git 传输包的大小,可执行指令: git config...拷贝到 git-core 文件夹里面; 此时在 git batch 窗口中,输入命令 git filter-repo(注意输入的git后面没有-),会提示 No arguments specified

    1.2K51

    化繁为简的企业级 Git 管理实战(五):二进制大文件的版本控制

    二进制大文件的版本控制是 Git 的一个弱项,也是很多团队难免会遇到的一个让人头痛的问题。本文将介绍我们使用 Git 进行二进制文件的版本控制的多种方案,以及相关的踩坑之旅。...毫无疑问,Git 非常适合用于代码文件的版本控制。对于纯代码仓库,由于每次实际提交都是增量内容,即使仓库经历了几十次提交,整个仓库的大小往往都不会大幅增加。...$ git remote remove origin # 删除原来的http仓库地址 $ git remote add origin git@your-site.com:your-group/your-repo.git.../your-group/your-repo.git 用这种方法确实减少了一定的时间,但耗时依然可能很长。...以我们的框架 SDK 仓库为例,单纯拉一个 master_dev 分支也要 3 分钟左右的时间。 没有数量级别的减少,也就意味着不久之后单个分支的拉取时间也会超过现在整个仓库的完整克隆时间。

    2.2K70

    你会因技术进步丢掉你的工作吗?

    “我希望自己是错的,”他说,“但是当这些科幻般的技术被付诸实施后,我们还需要人力做什么?” 新经济? 但是,这些新技术真的是造成十年就业增长低迷的元凶吗?...他说,首先,Kiva的大部分客户都是电子商务零售商,有些商家发展速度非常快,以至于来不及招聘人手。机器人技术减少了他们的分销成本,提高了效率,帮助很多商家存活下来,甚至发展壮大。...问布鲁克斯这样先进的工业机器人是否会减少工作岗位,他简单而清楚地答说不会。他说,机器人和工厂工人的关系就是电钻和建筑工人的关系,“它让他们更多产,更高效,但不会拿走工作。”...哈佛大学的卡兹已经表明,20世纪初农业岗位大量减少,但许多人可以接受中学教育,这是当时推动美国繁荣的部分原因。...其结果就是,至少直到20世纪80年代,受过教育而在工业部门就业的工人越来越多,这推动了收入的提高,减少了不平等。卡茨从中得出的结论是:技术变革未必会给劳动力带来长期的痛苦后果。

    82370

    你会因技术进步丢掉你的工作吗?

    “我希望自己是错的,”他说,“但是当这些科幻般的技术被付诸实施后,我们还需要人力做什么?” 新经济? 但是,这些新技术真的是造成十年就业增长低迷的元凶吗?...他说,首先,Kiva的大部分客户都是电子商务零售商,有些商家发展速度非常快,以至于来不及招聘人手。机器人技术减少了他们的分销成本,提高了效率,帮助很多商家存活下来,甚至发展壮大。...问布鲁克斯这样先进的工业机器人是否会减少工作岗位,他简单而清楚地答说不会。他说,机器人和工厂工人的关系就是电钻和建筑工人的关系,“它让他们更多产,更高效,但不会拿走工作。”...哈佛大学的卡兹已经表明,20世纪初农业岗位大量减少,但许多人可以接受中学教育,这是当时推动美国繁荣的部分原因。...其结果就是,至少直到20世纪80年代,受过教育而在工业部门就业的工人越来越多,这推动了收入的提高,减少了不平等。卡茨从中得出的结论是:技术变革未必会给劳动力带来长期的痛苦后果。

    44740

    你的简历写了 “熟悉” zookeeper ?那这些你会吗?

    )虽然可以手动的修改节点存储量大小,但一般情况下并不推荐这样做。...Zxid: znode节点状态改变会导致该节点收到一个zxid格式的时间戳,这个时间戳是全局有序的,znode节点的建立或者更新都会产生一个新的。...znode中的数据可以有多个版本,如果某一个节点下存有多个数据版本,那么查询这个节点数据就需要带上版本号。每当我们对znode节点数据修改后,该节点的dataversion版本号会递增。...另外当dataversion为 -1的时候可以忽略版本进行操作。对一个节点设置权限时aclVersion版本号会递增,下边会详细说ACL权限控制。...watcher 我们在开头就说过:zookeeper可以为dubbo提供服务的注册与发现,作为注册中心,但你有想过zookeeper为啥能够实现服务的注册与发现吗?

    51620

    软件设计必备的 UML,你会吗?

    为什么需要 UML UML 最大的特点的就是定义了丰富的图形符号,可以很好地描述一个系统的内部结构或者一个业务流程,让我们应对现实问题能快速抽象建模;并且图表相比文字,更容易让我们理解和沟通,使用统一的规范也能减少人与人之间交流成本...接口:一组操作的规范,没有具体的实现。 ? 用例:一组由一个共同的目标捆绑在一起的场景,总是由参与者发起。 包:UML 中对模型进行组织的分组单位。 ?...依赖:描述的是当一个实体的改变会影响到另一个实体时这两个实体之间的关系;比如汽车依赖汽油,如果没有汽油,汽车无法行驶,这里的汽车与汽油之间的关系就是属于依赖关系。...类图中的类通常用三个矩形表示,最上面部分来标识类的名称;中间的部分标识类的属性;最下面的部分标识类的方法,如下图所示: ?...掌握用例图是帮助了解系统功能需求的一项重要手段,但要知道的是它表现的是系统外层交互,表达不了系统内部的类之间的任何关系;并且不要在一个用例图中包含了太多的用例,最好能根据业务功能划分,形成多个用例图来呈现关键的功能需求

    3.5K20

    Git最佳实践,这样用就对了

    只是为了团队协作的目的,会认为指定一个或多个端点作为”服务器“。是的,可以同时有多个上游服务器。很多时候这么做很有必要。比如对内开发的repo和对外开源的repo,就是两个不同的端点。...一般来说,中等大小的团队,专注于repo的某一部分,可以采取这样的分支形式。小团队或者个人没有必要有自己的develop分支。那样反而会浪费时间和增加合并过程中的风险。...滥用LFS 另一个极端就是滥用LFS。把所有的文件都当做大文件来添加,这样git repo就表现成了个svn。当然,git相对svn的大部分优点也没了,开发效率下降5-10倍。...这里提到的这些git最佳实践,希望能帮助朋友们找到路径中最优的一条。你越是了解git,越能明白逻辑正确的版本控制应该是什么样的,越会支持git的使用。而正好相反的是p4。...你越是不了解p4,越会支持p4的使用,因为它并没有给人思考的余地,所以用再久也没法了解什么是版本控制。

    1.6K24

    Git还能这样用?一文看懂Git最佳实践!

    只是为了团队协作的目的,会认为指定一个或多个端点作为“服务器”。是的,可以同时有多个上游服务器。很多时候这么做很有必要。比如对内开发的 repo 和对外开源的 repo,就是两个不同的端点。...每过一段时间合并到总的 develop 分支。 一般来说,中等大小的团队,专注于 repo 的某一部分,可以采取这样的分支形式。小团队或者个人没有必要有自己的 develop 分支。...10.3 滥用 LFS 另一个极端就是滥用 LFS。把所有的文件都当做大文件来添加,这样 git repo 就表现成了个 svn。...直接转的话,单个 git 库的大小是270GB,clone 一次得花12小时,checkout 花3小时,甚至连“git status”都要10分钟,简直没法用。...这里提到的这些 git 最佳实践,希望能帮助朋友们找到路径中最优的一条。你越是了解 git,越能明白逻辑正确的版本控制应该是什么样的,越会支持 git 的使用。而正好相反的是 p4。

    1.4K31
    领券