前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >剑桥计算机博士推荐,毕业之前,我需要掌握这9个工具

剑桥计算机博士推荐,毕业之前,我需要掌握这9个工具

作者头像
机器之心
发布于 2023-03-29 09:58:31
发布于 2023-03-29 09:58:31
9030
举报
文章被收录于专栏:机器之心机器之心

选自towardsdatascience

作者:Aliaksei Mikhailiuk

机器之心编译

编辑:陈萍

无论你在创业还是在做学术研究,这些工具都将使你的技能更上一层楼。

学术界在推进技术方面发挥了巨大作用,但学术界和工业界往往存在一种分割状态。我们经常会看到这种现象:无数很棒的辅助工具在学术界被忽视,但在工业界很受欢迎。对于很多研究者来说,学习一种新工具可能存在困难,不愿意花费过多的时间去尝试,在当前自己掌握的工具足以应对各种问题时尤其如此。

其实,有些工具一时未见到效果,在后期可能会有十倍的回报。

来自剑桥大学的计算机科学博士生 Aliaksei Mikhailiuk 为我们整理了机器学习博士在获得学位之前需要掌握的九种工具。他在剑桥大学获得物理学硕士学位,在布里斯托大学获得工程学士学位。他对研究、开发、部署感兴趣,还能熟练掌握计算机视觉算法、聚合和自然语言处理等技术。现任职华为(英国)高级人工智能工程师。

个人主页:https://www.linkedin.com/in/aliakseimikhailiuk/

 Mikhailiuk 将这些工具按用途分为四类:可隔离环境、实验跟踪、相互协作以及可视化

可隔离环境工具

机器学习是一个快速发展的领域,常用的包更新非常频繁。尽管开发人员做出了努力,但较新的版本通常与旧版本不兼容,这样给研究者带来很多麻烦。幸运的是,有工具可以解决这个问题!在这一方面,Mikhailiuk 推荐了两个工具:Docker 和 Conda。

Docker

Mikhailiuk 攻读博士学位期间,他有一台由大学管理的机器,学校会定期进行更新。通常情况下是一夜之间更新,没有任何通知。你可以想象,当更新后的第二天早上发现自己大部分工作与最新的驱动程序不兼容,是多么令人崩溃。Mikhailiuk 发现 Docker 可以很好地解决。

Docker 允许将软件包装在称为容器的包中。容器是具有自己的软件、库和配置文件的独立单元。在一个简化的视图中,容器是一个独立的虚拟操作系统,它具有与外部世界通信的手段。Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 LinuxWindows 操作系统的机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。

一个完整的 Docker 由以下几个部分组成:

  • DockerClient 客户端
  • Docker Daemon 守护进程
  • Docker Image 镜像
  • DockerContainer 容器

Docker 教程:https://aws.amazon.com/cn/blogs/opensource/why-use-docker-containers-for-machine-learning-development/

Conda

现在,复用别人的代码成为了一种新的规范。GitHub 作为一个代码托管云服务网站,帮助开发者存储和管理其项目源代码,且能够追踪、记录并控制用户对其代码的修改。研究者可以克隆上面的代码,安装并提出自己的解决方案,而不需要自己写任何东西。

但是 GitHub 也有不方便的情况,当多个项目一起使用时,你会遇到包管理问题,因为不同的项目需要不同版本的包。

Conda 可以解决这个问题 。Conda 是一个开源跨平台语言无关的包管理与环境管理系统,它允许创建多个环境并快速安装、运行和更新包及其依赖项,用户可以在隔离的环境之间快速切换。

Conda 教程:https://conda.io/projects/conda/en/latest/user-guide/getting-started.html#starting-conda

运行、跟踪和记录实验工具

在应用领域想要获得博士学位,严谨性和一致性是两个基本支柱。假如你是研究机器学习模型的,或多或少都能遇到这种情况——你创建了许多不同的模型来试验不同的参数甚至整个架构。你还想尝试优化器的选择、学习率、时期数等。因此,实际上,你将进行许多不同的实验,并且将越来越难以整理结果。在这一方面,Aliaksei Mikhailiuk 向我们展示了如何正确方便地管理和记录自己的 ML 和 DL 实验工具,主要推荐了 Weights & Biases,MLFlow,Screen 工具。

Weights & Biases

wandb panel 一组简单指标 Snapshot——训练损失、学习率和平均验证损失。请注意,你还可以跟踪系统参数。

W&B(Weights & Biases) 是一个平台,可以帮助数据科学家跟踪他们的模型、数据集、系统信息等。只需几行代码,用户就可以开始跟踪有关这些功能的所有内容。它免费供个人使用,团队使用通常需要付费,但用于学术目的的团队是免费的。你可以将 W&B 与自己喜欢的框架一起使用,例如 TensorFlow、Keras、PyTorch、SKlearn、fastai 等。

W&B 提供了以下 4 个有用的工具:

  • Dashboard:实验跟踪;
  • Artifacts:数据集版本控制、模型版本控制;
  • Sweeps:超参数优化;
  • Reports 保存和共享可重现的结果。

W&B 教程:https://docs.wandb.ai/quickstart

MLFlow

MLFlow 是一个能够覆盖机器学习全流程(从数据准备到模型训练到最终部署)的新平台,它是一款管理机器学习工作流程的工具,主要有三个功能模块:Tracking 跟踪和记录、Project 项目管理和 Models 模型管理。MLflow 支持 JavaPython、R 和 REST API 等。

MLFlow 具有以下主要组件:

  • 跟踪:用于跟踪试验,以记录和比较参数与结果;
  • 模型:用于通过各种 ML 库管理模型,并将其部署到各种模型服务和推理平台;
  • 项目:用于将 ML 代码打包成可重用、可再现的格式,以便与其他数据科学家共享或转移到生产环境;
  • 模型注册表:使你可以将模型存储集中化,以便使用版本控制和批注功能来管理模型的完整生命周期阶段转换;
  • 模型服务:可用于将 MLflow 模型以 REST 终结点的形式托管。

MLFlow 教程:https://www.mlflow.org/docs/latest/tutorials-and-examples/tutorial.html

Screen

对于每个研究者来说,让实验通宵运行而且机器不会进入休眠状态再好不过了。当进行远程工作时,很多人都会担心 ssh 会话中断——代码运行几个小时就停止了。

screen 命令允许用户在一个窗口内使用多个终端会话,可以断开连接,也可以重新连接已断开连接的会话。每个会话都可以恢复连接,这样就算会话断开了,用户也不必担心数据丢失

Screen 教程:https://www.geeksforgeeks.org/screen-command-in-linux-with-examples/

协作工具

学术界缺乏有效的团队管理机制,在某种程度上这是由于学术界会严格划分个人贡献造成的。然而,机器学习的发展速度需要大家共同努力。Mikhailiuk 推荐了两个非常基本的工具:GitHub 以及 Lucidchart,它们对于有效的沟通非常方便,尤其是在远程工作上。

GitHub

GitHub 是通过 Git 进行版本控制的软件源代码托管服务平台,同时提供付费账户和免费账户,这两种账户都可以创建公开或私有的代码仓库,但付费用户支持更多功能。除了允许个人和组织创建和访问保管中的代码以外,它也提供了一些方便社会化共同软件开发的功能,包括允许用户追踪其他用户、组织、软件库的动态,对软件代码的改动和 bug 提出评论等。GitHub 也提供图表功能,用于概观显示开发者们怎样在代码库上工作以及软件的开发活跃程度。

就在近日,GitHub 正式发布了 2021 年度报告。过去一年里,有 1600 万开发者加入了 GitHub,目前平台的开发者数量已经达到了 7300 万;过去一年里,他们在 GitHub 上创建了 6100 万个存储库。世界财富 100 强企业中的 84% 都在使用 GitHub。

GitHub 教程:https://docs.github.com/en/get-started/quickstart/hello-world

Lucidchart

Lucidchart 是一款免费的可以支持离线操作的谷歌浏览器图表插件,可以帮助用户绘制包括流程图、实体模型、UML、思维导图等多种图表的绘制工作。它提供了很多免费绘图模板,大大地加快了用户的绘图速度。该应用的一大优势是,它基于 HTML5,因此用户不需要下载本地应用程序,就可以在电脑、iPad 等设备上使用该应用。它的另一主要优势是共享的协作空间和在图表旁边做笔记的能力。

Lucidchart 教程:https://www.lucidchart.com/pages/tour

可视化工具

提交论文时,研究人员经常会遇到拒稿的情况,这让 Mikhailiuk 意识到可视化功能和结果一样重要。如果审稿人没有太多时间,或者对论文涉及的领域不熟悉,通常来说论文会被拒掉,其中一部分原因可能是论文中的视图给人印象不深刻。因此,Mikhailiuk 推荐了 Inkscape 和 Streamlit 这两个工具。

Inkscape

Inkscape 是一个开源的矢量图编辑工具,使用可伸缩向量图形 (SVG),以及基于 W3C 标准的 open XML 格式作为其默认文件格式。设计过程可能从一张涂鸦、一幅素描或者软件中模型设计开始,这些可能不足以完成一整个项目。Inkscape 可以帮助你将以上不成熟的素材转变为专业的设计,用于广告发布、模型制作等用途。Inkscape 还能提供 TexText 扩展,使用此软件包,你可以将 latex 公式无缝集成到图像中。

Inkscape 推荐教程:https://inkscape.org/learn/tutorials/

Streamlit

Streamlit 和常规 Web 框架不同之处在于,它不需要你去编写任何客户端代码(HTML/CSS/JS),只需要编写普通的 Python 模块,就可以在很短的时间内创建美观并具备高度交互性的界面,从而快速生成数据分析或者机器学习的结果;另一方面,和那些只能通过拖拽生成的工具也不同的是,你仍然具有对代码的完整控制权。

教程地址:https://builtin.com/machine-learning/streamlit-tutorial

以上就是 Mikhailiuk 在获得机器学习博士学位之前需要掌握的九个工具,你不妨也学习一下,相信这些工具在你之后的学习、工作中,会起到事半功倍的效果。

原文链接:https://towardsdatascience.com/nine-tools-i-wish-i-mastered-before-my-phd-in-machine-learning-708c6dcb2fb0

详解NVIDIA TAO系列分享第2期:

基于Python的口罩检测模块代码解析——快速搭建基于TensorRT和NVIDIA TAO Toolkit的深度学习训练环境

第2期线上分享将介绍如何利用NVIDIA TAO Toolkit,在Python的环境下快速训练并部署一个人脸口罩监测模型,同时会详细介绍如何利用该工具对模型进行剪枝、评估并优化。

TAO Toolkit 内包含了150个预训练模型,用户不用从头开始训练,极大地减轻了准备样本的工作量,让开发者专注于模型的精度提升。本次分享摘要如下:

  • NVIDIA TAO Toolkit的独到特性
  • TensorRT 8.0的最新特性
  • 利用TAO Toolkit快速训练人脸口罩检测模型
  • 利用TensorRT 快速部署人脸口罩检测模型

点击阅读原文,报名直播吧。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-11-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
这些项目,入选了 2019 年最佳开源软件榜单!
InfoWorld 是致力于引领 IT 决策者走在科技前沿的国际科技媒体品牌,每年 InfoWorld 都会根据软件对开源界的贡献,以及在业界的影响力评选出当年的 “最佳开源软件”(2019 InfoWorld Bossie Awards,Best of Open Source Software awards),该奖项评选已经延续了十多年。
GitHubDaily
2019/11/22
1.3K0
这些项目,入选了 2019 年最佳开源软件榜单!
机器学习需要掌握的九种工具!
学术界在推进技术方面发挥了巨大作用,但学术界和工业界往往存在一种分割状态。我们经常会看到这种现象:无数很棒的辅助工具在学术界被忽视,但在工业界很受欢迎。对于很多研究者来说,学习一种新工具可能存在困难,不愿意花费过多的时间去尝试,在当前自己掌握的工具足以应对各种问题时尤其如此。
郭好奇同学
2022/02/25
1.5K0
机器学习需要掌握的九种工具!
代替Git进行机器学习实验管理的工具推荐
机器学习从业者通常通过实验算法、数据和超参数来开发新的机器学习模型。随着实验和项目规模的不断扩大,特别是在大中型企业中,越来越多的模型需要进行有效管理,上图展示了在谷歌中人工智能相关的存储库正在呈指数级增长。机器学习从业者需要一种高效的方法来存储、检索和利用模型版本、超参数和性能指标等细节。
核桃量化
2023/01/18
1.2K0
代替Git进行机器学习实验管理的工具推荐
可定制算法和环境,这个开源强化学习框架火了
机器之心报道 机器之心编辑部 强化学习框架怎么选?不如自己定制一个。 强化学习(reinforcement learning,RL)是近年来最受关注的人工智能研究方向之一,在机器人、游戏等领域应用甚广。现有的强化学习框架往往无法支持高效、定制化的训练场景的问题。 近日,GitHub 上一个名为 JORLDY 的开源、可定制强化学习(RL)框架引发关注。 项目地址:https://github.com/kakaoenterprise/JORLDY JORLDY 的主要优点是提供多种分布式强化学习算法,并且
机器之心
2023/03/29
8850
可定制算法和环境,这个开源强化学习框架火了
新泽西理工学院数据科学系、计算机系王丽晶老师招收多名博士
哈喽,我叫王丽晶,现任新泽西理工学院数据科学系终身轨助理教授。我在弗吉尼亚大学获得计算机博士学位,此后一年任职于哈佛医学院与波士顿儿童医院计算健康信息学项目 (CHIP) 博士后研 员。在此之前,我在中科院计算所获得计算机硕士学位,在大连理工大学软件工程学院获得学士学位。 我对人工智能、机器学习、深度学习、自然语言处理、时间序列分析和网络科学有着广泛的兴趣,重点是解决社会问题。我的博士论文研究的重点是结合基于理论的机械模型和深度神经网络进行流行病预测。更具体地说,我的研究侧重于深度学习的方法,这些方法结合了
AI科技评论
2023/04/12
3600
新泽西理工学院数据科学系、计算机系王丽晶老师招收多名博士
清华电子工程系系主任汪玉当选IEEE Fellow:因领域专用加速器设计贡献
机器之心报道 编辑:张倩 他是清华电子系首位 80 后系主任,谷歌学术引用过万。 每年年底,美国电子电气工程师学会(Institute of Electrical and Electronic Engineers,IEEE)都会公布新一年学会最高等级会员——IEEE Fellow 的当选名单。这是 IEEE 授予成员的最高荣誉,在学术科技界被认定为权威的荣誉和重要的职业成就。当选人需要对工程科学与技术的进步或应用做出重大贡献,为社会带来重大价值。当选人数不超过 IEEE 当年会员总数的 0.1%。去年,清
机器之心
2023/03/29
1.3K0
清华电子工程系系主任汪玉当选IEEE Fellow:因领域专用加速器设计贡献
计算机视觉导览:如何快速上手,是否该读博?
【新智元导读】 Learning OpenCV 3 Application Development 一书的作者 Samyak Datta 在一次专访中解答了初学者对计算机视觉领域的一系列疑问,他的阐释在一定程度上勾勒了整个领域的鸟瞰图。 计算机视觉、机器学习和神经网络成为了计算机科学领域最受瞩目、研究最多的课题。我们很幸运地与Samyak Datta 进行了交流,他是“Learning OpenCV 3 Application Development”一书的作者。Samyak 今年秋天将进入佐治亚理工学校的
新智元
2018/03/22
1.1K0
一站式机器学习开业平台 MLflow 怎么样?
机器学习(ML)通常需要使用广泛的数据集、数据预处理步骤和算法逻辑进行实验,以构建最优指标的模型。模型构建成功后,还需要将其部署到生产系统,监控其效果和性能,并根据新数据不断对其进行重新训练和迭代模型工作,如下:1
程序员荒生
2022/04/02
2.3K0
一站式机器学习开业平台 MLflow 怎么样?
AI开发人员选择NVIDIA TAO工具的5大理由
NVIDIA TAO(训练、适应和优化)是一个可以简化和加速企业 AI 应用和服务创建的 AI 模型自适应平台。通过基于用户界面的指导性工作流程,让用户可以使用自定义数据对预训练模型进行微调,无需掌握大量训练运行和深度 AI 专业知识,在数小时内(原本需要数月)产生高度精确的计算机视觉、语音和语言理解模型。
GPUS Lady
2021/10/13
1.1K0
万字长文:读博之前,我希望有人告诉过我这些(计算机/NLP/机器学习方向)
又是一年申请季。 “要不要继续学术?”你可能纠结过、困惑过。你也许曾坚定地希望推动世界的进步,但你准备好付出五年甚至更久的青春了吗? 本文是两个自然语言处理/机器学习方向的学者给出的“博士生存指南”,关于如何做好科研、自我管理和规划职业。这些原则不仅针对计算机领域,对其他方向的学习者也适用。花点时间读完,相信你一定会有所收获。 无论读博与否,你都需要“Do what makes you happy”。 作者:Mark Dredze, Hanna M. Wallach 编译:Mirra, 刘晓莉, Sophi
大数据文摘
2018/05/24
1.5K0
历史首次!华人博士获IEEE THMS 汇刊最佳期刊论文奖
机器之心专栏 机器之心编辑部 齐雯博士和苏航博士获得 IEEE Transactions on Human-Machine Systems 的 Andrew P. Sage 最佳论文奖。 2021 年 IEEE 系统、人与控制论学会(IEEE SMC)旗下的 IEEE Transactions on Human-Machine Systems 期刊 Andrew P. Sage 最佳论文奖 (Best Transactions Paper Award) 公布,意大利米兰理工大学电子、信息和生物工程学院齐雯
机器之心
2023/03/29
8860
历史首次!华人博士获IEEE THMS 汇刊最佳期刊论文奖
高级API、异构图:谷歌发布TF-GNN,在TensorFlow中创建图神经网络
机器之心报道 编辑:陈萍 高效且友好的 TensorFlow GNN 库。 今天,TensorFlow 官方博客发布了 TensorFlow Graph Neural Networks(TensorFlow GNN)库 ,这个库使得用户在使用 TensorFlow 时能够轻松处理图结构数据。 此前,TensorFlow GNN 的早期版本已经在谷歌的各种应用中使用,包括垃圾邮件和异常检测、流量估计、YouTube 内容标记等。特别是,考虑到谷歌数据种类繁多,该库在设计时就考虑到了异构图。 项目地址:ht
机器之心
2023/03/29
1K0
高级API、异构图:谷歌发布TF-GNN,在TensorFlow中创建图神经网络
从工具选择到团队沟通,看ML工程师一步步打造生产级机器学习
这些年,随着数据和计算技术的发展,「机器学习」和「深度学习」已经变成了热门研究领域。对公司来说,虽然使用机器学习很时髦,但首先还是需要评估一下自己的业务能否从中受益。如果你的公司已经认定机器学习对公司的下一步发展来说是必需的,那么作为机器学习工程师的你就该思考如何为生产环境构建机器学习过程了。希望本文能帮你明晰你需要考虑的一些东西。
机器之心
2020/02/24
6880
剑桥2020年AI全景报告出炉:54%中国NeurIPS作者流入美国
剑桥大学的 2020 版《AI 全景报告》写出了 AI 领域哪些值得关注的新观察?
数据派THU
2020/10/26
4720
剑桥2020年AI全景报告出炉:54%中国NeurIPS作者流入美国
抛弃MATLAB,一本书掌握Python强大的绘图库Matplotlib
机器之心报道 机器之心编辑部 Matplotlib 是一个非常强大的 Python 作图工具,也是很多高级可视化库的底层基础。 Python 科学可视化领域由无数的工具组成,从最通用和广泛使用的,到更专业和更机密的。其中一些工具源自社区,而另一些则是由企业开发的。有些是专门面向网页制作的,有些仅面向桌面端,有些面向 3D 和大型数据处理,还有一些面向 2D 渲染。 可视化是一个复杂的过程,研究者可以先问自己几个问题: 目标是桌面渲染还是网页渲染? 需要复杂的 3D 渲染吗? 对可视化的品质有什么要求吗?
机器之心
2023/03/29
4490
抛弃MATLAB,一本书掌握Python强大的绘图库Matplotlib
博士在读却连矩阵的秩都搞不清,我该如何毕业?|Reddit热议
Reddit上一位机器学习在读博士可是迷茫得不行,想知道没有学术天分的他该如何完成博士学位。
量子位
2021/07/19
6900
2021 GitHub年度报告:7300万开发者,最爱的依旧是Javascript
机器之心报道 编辑:蛋酱 全球最大的代码托管平台 GitHub,至今已聚集了超过 7300 万的开发者。 2020 年,新冠疫情突然到来,拉开了人与人之间的「地理距离」。与此同时,开发者们不得不开始学会适应远程工作,在家中尽量保持与办公室时同等的生产力水平,此外还要兼顾工作与生活的平衡。 从陌生到熟悉,从无所适从到得心应手……2021 年快结束了,人们已经从希望恢复往日时光的心态发展到真正习惯了工作流程的改变,意识到了远程工作的切实需求。全球最大的代码托管平台 GitHub 正是这一趋势转换的见证者。
机器之心
2023/03/29
2090
2021 GitHub年度报告:7300万开发者,最爱的依旧是Javascript
独家 | 数据科学家应该了解的5个 Python库(附链接)
作者:Artem Shelamanov 翻译:陈之炎校对:赵茹萱本文约2800字,建议阅读5分钟本文介绍了机器学习库,并掌握了模型架构之后,便可以训练模型解决现实问题。
数据派THU
2024/04/25
2970
独家 | 数据科学家应该了解的5个 Python库(附链接)
香港理工大学张晨博士招收计算机专业博士
导师简介 Dr. Chen ZHANG (张晨博士) 现任香港理工大学助理教授(计算机学系与酒店旅游管理学院联合聘用)。 在加入香港理工大学计算机学系前曾担任香港科技大学大数据研究所的高级经理,并曾于2015年获得香港科技大学计算机科学与工程博士学位。 他的主要研究方向包括数据整合,数据质量,时空数据算法等。 其相关研究工作多次发表在ICDE, VLDB, SIGMOD, AAAI, TKDE等世界一流会议或期刊。 主要研究方向:人工智能跨学科应用,时空数据挖掘, 数据优化算法。 个人主页:https://
AI科技评论
2023/05/12
9780
香港理工大学张晨博士招收计算机专业博士
什么是MLOps?为什么要使用MLOps进行机器学习实践
随着数字化和计算能力的发展,机器学习(Machine Learning)技术在提高企业生产力方面所涌现的潜力越来越被大家所重视,然而很多机器学习的模型及应用在实际的生产环境并未达到预期,大量的ML项目被证明是失败的。从机器学习的发展历程来看,早期ML社区广泛关注的是ML模型的构建,确保模型能在预定义的测试数据集上取得较好的表现,但对于如何让模型从实验室走向用户的桌面,并未大家所关注。
人工智能日报
2023/06/22
1.5K0
推荐阅读
相关推荐
这些项目,入选了 2019 年最佳开源软件榜单!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档