首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >神器Jupyter Notebook如何适应数据科学的发展方向

神器Jupyter Notebook如何适应数据科学的发展方向

作者头像
HuangWeiAI
发布于 2020-04-01 07:26:51
发布于 2020-04-01 07:26:51
5450
举报
文章被收录于专栏:浊酒清味浊酒清味

01

介绍

原文:文末阅读原文

作者:Lj Miranda

编译:HuangweiAI

这是关于Jupyter Notebook生态系统的三篇博文的第一篇。这篇文章将讨论数据科学的前景,以及推动我们的工具发展的力量。

下面将回顾我在数据科学中经常使用的工具——Jupyter Notebook,以及我在是如何使用它们的。我把这篇文章分为三部分:

  • 第一部分:数据科学(本文)。我想看看在过去的几年里,数据科学的实践是如何变化的。然后,我将强调三种主要力量,它们改变了我今天使用Notebook的方式。
  • 第二部分:2020年我如何使用Jupyter Notebook。考虑到这些变化,Jupyter Notebook生态系统中出现了新的工具。我想分享我喜欢(不喜欢)它们的地方,以及我如何在日常生活中使用它们。
  • 第三部分:Jupyter Notebook的未来(即将到来)。在这里,我将分享我对Jupyter Notebook的愿望清单,仍然可以填补的潜在空白,以及为什么Jupyter Notebook仍然很棒!

02

现在的数据科学

数据科学领域正在迅速变化。我们现在已经进入了这样一个时代:“21世纪最性感的工作”和“数据是新石油”之类的说法已经过时,取而代之的是更现实的业务问题和基于技术的挑战。我认为这种变化是双重的:我们现在需要支持(1)生产分析和实验的需求,以及(2)快速采用云技术。

第一,生产的需要。在软件工程的生命周期中,创建数据产品或者部署实验工件,这些年来都在增长。随着机器学习工程师和数据科学软件开发人员的崛起,越来越多的工程类工作被采用,这就是明证。此外,分析不再局限于出版物或图表,因为现在对复制实验和部署人工制品的需求越来越大。

接下来,数据的指数增长需要采用云技术。我们不能仅仅使用我们自己的笔记本电脑来加载Pandas的1TB数据集!Docker和Kubernetes等工具的流行使我们能够以前所未有的水平扩展数据处理工作负载。采用云意味着我们在管理工作负载时要考虑可伸缩性、资源供应和基础设施。然而,之前的Jupyter Notebook生态系统,尽管它是数据科学家工具箱中的一个重要部分,并不意味着有相应的变化:

正如我所说的,我们所知道的Jupyter Notebook并不意味着这些变化。它们是用来探索的,不是用来生产的。它们应该在一台机器上运行,而不是在集群中。然而,在过去的五年中,Jupyter Notebook的生态系统已经发展壮大:我们现在有了JupyterLab、一些插件、用于其他语言的新内核,以及可供我们使用的第三方工具。当然,我们仍然可以通过在终端中输入jupyter Notebook来运行笔记本,但是现在已经远远不止这些了!

这就引出了一个问题:是什么力量促使了这些变化?,我们如何利用这个更大的笔记本生态系统来应对当今数据科学的变化?

03

三个方向的变化

Jupyter Notebook的生态系统正在成长,我认为这是由三种力量驱动的:

  • 在云上做实验:大数据需要大量的计算和存储,而一般的消费级机器并不总是能够做到这一点。
  • 支持开发人员工作流程:越来越多的数据科学团队开始采用软件工程的最佳实践——版本控制、gitfow、拉请求等等。
  • 从分析到生产的快速转变:在受控环境下测试假设是不够的。为分析而编写的软件应该可以很容易地为生产重用。

朝着云优先的环境发展意味着我们可以在比我们更强大的机器上执行基于notebook的任务。例如,托管的notebook实例使我们能够从远程服务器运行Jupyter notebook,而无需操作和设置。另一方面,朝着更加生产工作流程的方向发展,为我们提供了一组工具,将基于记事本的任务赋予软件工程实践。在这篇文章的下一部分,我们将看到更多这样的工具。

最后,请注意,工具的发展并不依赖于单个实体或组织。正如我们将在后面看到的,填补这些空白可能来自于那些提供第三方插件的个人或者那些提供管理服务的组织。

04

总结

在本系列的第一部分中,我们研究了数据科学领域增长的两个驱动因素:(1)云计算的采用,以及(2)生产需求的增长。我们发现Jupyter notebook只占了这个生态系统的一小部分,也就是它通常用于探索(而不是生产),并且只运行在我们的本地机器上(不是在云中)。

然后,使用相同的框架,我们确定了三种变化的力量,使Jupyter笔记本生态系统得以发展:在云上增加实验,支持开发人员工作流,以及更快地从分析转向生产。这些力量可能带来了新工具、插件和类似记事本的产品的开发,以满足这些差距。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-03-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python与机器学习之路 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Jupyter不断演进的三大动力
数据科学领域日新月异,在当今时代,用诸如“21世纪最性感的工作”和“数据是新的石油”等说法来强化数据科学,已经并不时髦了,取而代之的是更现实的商业问题和更理性的技术挑战,数据科学所面对的变化,就是这两个方面。因此,现在需要我们做的:(1)分析来自生产和实验的需求,(2) 云技术的快速应用。
老齐
2020/05/15
7320
Jupyter不断演进的三大动力
【数据】数据科学家喜欢Jupyter Notebook的10个原因
在过去的二十年中,Python越来越多地用于科学计算和数据分析。 今天,Python的主要优势以及它如此受欢迎的主要原因之一是它将科学计算功能带给了许多研究领域和行业中使用的通用语言。 这使得从研究到
陆勤_数据人网
2018/04/18
1.7K0
【数据】数据科学家喜欢Jupyter Notebook的10个原因
新一代Notebook神器出现,Jupyter危险了!
数据科学用Jupyter Notebook再合适不过了,代码笔记融为一体,交互式操作方便好用,一直以来都是被大家所认可的神器。
州的先生
2020/10/26
7350
新一代Notebook神器出现,Jupyter危险了!
从notebook到生产:填补数据科学和工程之间空白的5点建议
数据科学家被称为21世纪最性感的工作。大多数公司在他们的流程和核心任务中采用了一些数据科学的方式自动或手动分析他们的客户群。另一方面数据科学家是一群非常多样化的人,有些人有统计学背景,有些人有机械工程背景,有些人有物理学背景。实际的数据科学硕士项目对劳动力的产出肯定会有所帮助,但大多数人仍然是自学成才的(包括我)。
deephub
2021/12/01
6500
从notebook到生产:填补数据科学和工程之间空白的5点建议
独家 | 是什么让数据科学家从优秀变得伟大?
数据科学领域的劳动力市场正发生着快速的变化。曾经,能够搭建机器学习模型被认为是只有少数顶尖的数据科学家才能掌握的尖端技能,但如今,有一点基本编程经验的人就能根据教程完成Scikit-learn或者keras的模型训练。
数据派THU
2019/07/31
3850
如何区分理解数据科学家与机器学习工程师
数据科学家Vs机器学习工程师 原文: What are machine learning engineers来源: https://tech.co/12-ways-advantage-big-data-2017-05 品觉导读: 真正让“数据科学”发挥出了强大威力的,是在人们意识到,数据不仅止于精算统计、商业智能和数据仓库的时候。将数据人和其他部门(软件开发、营销、管理、人力资源)隔离开来的筒仓被打破后,数据科学才真正彰显出了自己的独特之处。这门学科的中心思想,便是数据适用于万事万物。 在任何应用中
小莹莹
2018/04/24
6000
如何区分理解数据科学家与机器学习工程师
Python数据科学(一)- python与数据科学应用(Ⅰ)1.数据科学简介与应用2.Python与数据科学3.安装Anaconda4.使用Jupyter notebook5.Python 3 语法
数据科学主要以统计学、机器学习、数据可视化以及(某一)领域知识为理论基础,其主要研究内容包括数据科学基础理论、数据预处理、数据计算和数据管理(来自百度百科)。
Python攻城狮
2018/08/23
1K0
Python数据科学(一)- python与数据科学应用(Ⅰ)1.数据科学简介与应用2.Python与数据科学3.安装Anaconda4.使用Jupyter notebook5.Python 3 语法
你一定要知道!数据科学家提高工作效率的基本工具
当开始从事数据科学相关行业的时候,很多人都会被各种各样的可用工具所困扰。 有一些与这个问题相关的可用指南。例如“对于不擅长编程者的19日数据科学工具(链接地址为https://www.analyticsvidhya.com/blog/2016/05/19-data-science-tools-for-people-dont-understand-coding/)”或“Python学习数据科学的完整教程(链接地址为https://www.analyticsvidhya.com/blog/2016/01/com
AiTechYun
2018/03/05
8370
你一定要知道!数据科学家提高工作效率的基本工具
业界 | 为什么Jupyter是数据科学家们实战工具的首选?
大型综合巡天望远镜(Large Synoptic Survey Telescope,LSST)坐落在智利安第斯山脉帕穹山脊,计划 2022 年启用。它将自动探测南方的天空,每晚产生数兆字节的数据。为了处理这些数据,天文学家将要用到一个熟悉且日益流行的工具——Jupyter notebook。
机器之心
2018/12/11
1.2K0
让 Kotlin 为数据科学做好准备
今年在 2019 年 KotlinConf 上,Roman Belov 概述了 Kotlin 的数据科学方法。既然该演讲现在已公开,我们决定重述一下,并分享一些有关 Kotlin 数据科学工具和库的当前状态。
bennyhuo
2020/03/04
1.6K0
让 Kotlin 为数据科学做好准备
数据科学家在摩根大通的一天
今天,我们要讲的是人工智能和机器学习,以及亚马逊 SageMaker 等产品如何改变数据科学家的工作方式。
机器之心
2021/03/15
8700
数据科学家在摩根大通的一天
Euporie:功能强大、使用便捷的终端 Jupyter 交互工具,让Jupyter Notebook在终端下运行
在现代数据科学领域,Jupyter Notebook 已成为不可或缺的工具,它以其强大的交互性、可读性和可移植性而闻名。然而,在某些场景下,例如远程服务器、容器环境或仅仅个人偏好,使用终端进行操作更便捷。 Euporie 应运而生,它将 Jupyter 的强大功能带入终端,让用户告别鼠标,在命令行中畅游数据科学世界。
luckpunk
2025/01/24
3420
Euporie:功能强大、使用便捷的终端 Jupyter 交互工具,让Jupyter Notebook在终端下运行
干货 | 数字经济创新创业——软件研究
下文整理自清华大学大数据能力提升项目能力提升模块课程“Innovation & Entrepreneurship for Digital Economy”(数字经济创新创业课程)的精彩内容。
数据派THU
2022/12/16
4570
干货 | 数字经济创新创业——软件研究
Metaflow|Kubernetes上以人为中心的数据科学
今天,我们发布了对 Kubernetes 的一流(first-class)支持,作为Metaflow[1]对 AWS 原生服务集成的替代方案。数据科学家可以将计算扩展到 Kubernetes 集群[2],并编排由 Argo Workflows 执行流程[3]。详情可参阅我们的Kubernetes 部署指南[4]。
CNCF
2022/06/10
1K0
Metaflow|Kubernetes上以人为中心的数据科学
用R & Python在云端运行可扩展数据科学
前言 如今,数据科学变得越来越复杂。这种复杂性由下面三个因素导致: 增长的数据生产能力 —— 环视四周,数的出多少个能产生数据的设备呢?如果你用笔记本电脑来浏览本文的话算一个,如果身边有智能手机(以及安装的APPs)的话再加一个,如果带了健身手环的话还要加一个,驾驶的汽车(有些情况下)也算一个 —— 它们都在持续不断地生产数据。现在设想今后几 年内的情景,你所使用的冰箱、家里的温度调节器、穿戴的衣物、兜内的钢笔以及喝水的水壶都会嵌入传感器,不断向数据科学家(和数据库)传输数据用来分析。 低廉的数据存储成本
CSDN技术头条
2018/02/11
1.7K0
用R & Python在云端运行可扩展数据科学
腾讯云WeData Notebook:数据科学家的最佳拍档
在大数据领域,随着技术的不断进步和数据的爆炸性增长,数据分析和数据探查已成为企业和组织决策制定的关键因素。在当前的数据分析场景中,Notebook 类的数据分析和探索工具已经成为数据科学家和分析师们的首选。市面上常用的交互式数据分析 Notebook 工具有 Jupyter Notebook、Apache Zeppelin和Databricks Notebook 等,它们在数据分析和探索领域都有自己独特的特点和适用场景,其中最火的当属 Jupyter Notebook。
腾讯QQ大数据
2024/07/29
3850
腾讯云WeData Notebook:数据科学家的最佳拍档
只有想不到,「99」种扩展Jupyter功能的好方法
当有人说:「你可以用 Jupyter 扩展解决这个问题」,他们可能没有说清楚是什么样的扩展。Jupyter 生态系统是非常模块化且具有扩展性的,所以有很多种扩展方式。这个博客希望能总结最常用的 Jupyter 扩展,并帮助你发掘生态系统中的新功能。
Python数据科学
2019/07/04
1.7K0
只有想不到,「99」种扩展Jupyter功能的好方法
机器学习平台的演进史
机器学习平台的最大的驱动力应该是面向数据科学家的基于 Python 的开源技术生态系统的蓬勃发展,比如 scikit-learn、XGBoost 和 Tensorflow/PyTorch 等等。也是因为有了这些算法库的存在,让大部分人都可以使用算法去完成自己的想法,而不需要知道艰深的数学知识,也不需要知道算法的具体实现。
哒呵呵
2021/09/29
2.7K0
【智能】如何成为数据科学家:权威指南
你好!我是Jose Portilla,Udemy的讲师,有超过25万名学生注册了各种各样的课程,包括Python的数据科学和机器学习、R编程的数据科学、Python的大数据等等。
陆勤_数据人网
2018/11/08
6490
Uber 数据科学工作台的演变史
作者 | Uber Engineering 译者 | Sambodhi 策划 | 赵钰莹 在 2017 年 10 月,我们发表了一篇文章,介绍了 Uber 的数据科学工作台(Data Science Workbench,DSW),这是我们为数据科学、复杂地理空间分析和探索性机器学习定制的一体化工具箱。它可以完成数据准备、特别分析、模型原型设计、工作流调度、仪表盘和协作所需的所有工作,这些工作都集中于一个单窗格、基于 Web 的图形用户界面中。 本文将对近三年来数据科学工作台的发展进行回顾和总结。通过对历
深度学习与Python
2023/04/01
5460
Uber 数据科学工作台的演变史
推荐阅读
相关推荐
Jupyter不断演进的三大动力
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档