Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Kaggle 命令行工具查看 AI 最新竞赛和下载数据集

Kaggle 命令行工具查看 AI 最新竞赛和下载数据集

作者头像
我是一条小青蛇
发布于 2019-10-23 06:31:34
发布于 2019-10-23 06:31:34
2.3K00
代码可运行
举报
文章被收录于专栏:青笔原创青笔原创
运行总次数:0
代码可运行

1. 安装

1.1 普通安装

kaggle 命令行工具安装在系统搜索路径下。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pip install kaggle

1.2 Mac/Linux 推荐安装

kaggle 命令行工具安装在当前登陆用户目录 ~/.local/bin 下。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pip install --user kaggle

安装完成功后,确保 ~/.local/bin 添加到 PATH 环境变量中。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
echo $PATH

如果未看到 ~/.local/bin 目录,执行一下命令添加:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
echo 'export PATH=~/.local/bin:$PATH' >>  ~/.bash_profile
source ~/.bash_profile

再次确认是否成功添加:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
echo $PATH

对于不太熟悉 linux 的读者,还是增加一点提示,这里看到的不是我们添加的 ~/.local/bin , 而是形如 /Users/ken/.local/bin/home/ken/.local/bin 的路径,因为 ~ 代表的是当前用户目录,在添加后,被实际用户目录替代了。

1.3 检查是否成功安装

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
kaggle -v

显示如下版本信息,代表已经正确安装。下面,一起 enjoy it !

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
Kaggle API 1.5.x

2. 账户授权

注册 Kaggle 账号。登陆账号,进入用户账户页面 https://www.kaggle.com/<username>/account , 在 API 栏目,点击 Create API Token 按钮,触发浏览器下载包含 API 凭证的 json 文件 kaggle.json 。将此文件放到 ~/.kaggle/kaggle.json 路径下(Windows 系统路径是 C:\Users\<Windows-username>\.kaggle\kaggle.json)。

在 linux 平台,安全起见,建议给 API 凭证设置权限:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
chmod 600 ~/.kaggle/kaggle.json

3. Kaggle 支持命令总览

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
kaggle competitions {list, files, download, submit, submissions, leaderboard}
kaggle datasets {list, files, download, create, version, init}
kaggle kernels {list, init, push, pull, output, status}
kaggle config {view, set, unset}

4. Kaggle 竞赛

与 Kaggele 竞赛交互,使得参与竞赛和模型构建工作流无缝集成。

4.1 查看当前可以参与的竞赛

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
kaggle competitions list

输出如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
ref                                            deadline             category            reward  teamCount  userHasEntered  
---------------------------------------------  -------------------  ---------------  ---------  ---------  --------------  
digit-recognizer                               2030-01-01 00:00:00  Getting Started  Knowledge       2680           False  
house-prices-advanced-regression-techniques    2030-01-01 00:00:00  Getting Started  Knowledge       4643           False  
imagenet-object-localization-challenge         2029-12-31 07:00:00  Research         Knowledge         51           False  
cat-in-the-dat                                 2019-12-09 23:59:00  Playground            Swag        553           False  
understanding_cloud_organization               2019-11-18 23:59:00  Research           $10,000        551           False  
3d-object-detection-for-autonomous-vehicles    2019-11-12 23:59:00  Featured           $25,000        141           False
...

按奖金排序:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
kaggle competitions list --sort-by prize

输出如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
ref                                          deadline             category      reward  teamCount  userHasEntered  
-------------------------------------------  -------------------  --------  ----------  ---------  --------------  
passenger-screening-algorithm-challenge      2017-12-15 23:59:00  Featured  $1,500,000        518           False  
zillow-prize-1                               2018-01-10 15:59:00  Featured  $1,200,000       3775           False  
data-science-bowl-2017                       2017-04-12 23:59:00  Featured  $1,000,000       1972           False  
hhp                                          2013-04-04 07:00:00  Featured    $500,000       1351           False  
second-annual-data-science-bowl              2016-03-14 23:59:00  Featured    $200,000        192           False
...

筛选大厂招聘类竞赛:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
kaggle competitions list --category recruitment

将结果保存在 csv 文件里:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
kaggle competitions list --csv > competitions_list.csv

通过关键词搜索竞赛:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
kaggle competitions list -s "dog cat"

查看更多支持选项:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
kaggle competitions list -h

4.2 查看指定竞赛排行榜

竞赛由命令 kaggle competitions list 结果的 ref 字段指定。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
kaggle competitions leaderboard -s facebook-ii

5. Kaggle 数据集

与 Kaggele 数据集交互,使搜索和下载 Kaggle 数据集成为数据科学工作流程的一个无缝部分。

5.1 按关键词搜索数据集

格式:kaggle datasets list -s [KEYWORD]

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
kaggle datasets list -s "dog cat"

5.2 下载指定数据集

格式:kaggle datasets download -d [DATASET] 。目标下载数据集由命令 kaggle datasets list 输出的 ref 字段指定。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
kaggle datasets download -d hocop1/cat-and-dog-breeds-parameters

数据集下载完成后,以 .zip 压缩格式保存在当前目录下。如:cat-and-dog-breeds-parameters.zip

6. 更多命令

本文只介绍了笔者认为最实用的命令。其他命令,建议读者在深入了解 Kaggle 平台后,自行探索尝试,使用方式大同小异。本文不再一一介绍。

获取更多帮助,也可以运行如下命令。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
kaggle -h

或参考 Kaggle GitHub 主页,见【参考 2】。

参考

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019-09-292,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
下载kaggle数据集的小妙招
然后就会报错,提示没有kaggle.json文件,不用理他。 这一步主要是让其运行后生成配置文件夹,一般在C盘-用户-用户名下的.kaggle
Ai学习的老章
2021/03/23
2.6K0
kaggle 图像分类竞赛实战(一):数据集下载和清洗
本文集以 Kaggle 网站真实竞赛《dogs-vs-cats-redux-kernels-edition》为主线,讲解如何使用深度学习技术解决图像分类问题。本文作为文集第一篇,讲解图像数据集的下载和清洗。
我是一条小青蛇
2019/10/23
3.4K0
kaggle 图像分类竞赛实战(一):数据集下载和清洗
机器学习or深度学习,都不可错过的开源库AutoGluon
有意思的是福建医科大学的一位小伙伴并没有走我的ngs之路,反而去琢磨机器学习人工智能啦,也开始投稿!
生信技能树
2021/07/06
3K0
Scaled-YOLOv4 快速开始,训练自定义数据集
下载 CUDA Toolkit ,其版本也注意对应 Nvidia 驱动版本。下一步需要。命令参考:
GoCoding
2021/05/06
1.6K0
Scaled-YOLOv4 快速开始,训练自定义数据集
Dataset之COCO数据集:COCO数据集的简介、下载、使用方法之详细攻略
MS COCO的全称是Microsoft Common Objects in Context,起源于微软于2014年出资标注的Microsoft COCO数据集,与ImageNet竞赛一样,被视为是计算机视觉领域最受关注和最权威的比赛之一。 COCO数据集是一个大型的、丰富的物体检测,分割和字幕数据集。这个数据集以scene understanding为目标,主要从复杂的日常场景中截取,图像中的目标通过精确的segmentation进行位置的标定。图像包括91类目标,328,000影像和2,500,000个label。目前为止有语义分割的最大数据集,提供的类别有80 类,有超过33 万张图片,其中20 万张有标注,整个数据集中个体的数目超过150 万个。
全栈程序员站长
2022/11/02
25.6K0
Containerd 命令行工具 nerdctl
前面我们介绍了可以使用 ctr 操作管理 containerd 镜像容器,但是大家都习惯了使用 docker cli,ctr 使用起来可能还是不太顺手,为了能够让大家更好的转到 containerd 上面来,社区提供了一个新的命令行工具:nerdctl。nerdctl 是一个与 docker cli 风格兼容的 containerd 客户端工具,而且直接兼容 docker compose 的语法的,这就大大提高了直接将 containerd 作为本地开发、测试或者单机容器部署使用的效率。
王先森sec
2023/10/17
3.7K0
双十一刚过,你的手还好吗?这些Colab技巧帮你愉快地薅谷歌羊毛
Google Colab 是一个免费的 Jupyter 环境,用户可以用它创建 Jupyter notebook,在浏览器中编写和执行 Python 代码,以及其他基于 Python 的第三方工具和机器学习框架,如 Pandas、PyTorch、Tensorflow、Keras、Monk、OpenCV 等。
代码医生工作室
2020/11/20
4.9K0
双十一刚过,你的手还好吗?这些Colab技巧帮你愉快地薅谷歌羊毛
保姆级!一个新手入门 NLP 完整实战项目
分类模型还可用于解决一些起初并不明显合适的问题。例如 Kaggle 美国专利短语匹配[1]竞赛。在这项比赛中,我们的任务是比较两个单词或短语,并根据它们是否相似、在哪个专利类别中使用等因素进行评分。如果得分为 1,则认为这两个输入词具有相同的含义;如果得分为 0,则表示它们具有完全不同的含义。例如,abatement 和 eliminating process 得分为 0.5,表示它们有些相似,但不完全相同。
数据STUDIO
2023/09/04
3.9K0
保姆级!一个新手入门  NLP 完整实战项目
【数据集】一文道尽医学图像数据集与竞赛
在AI与深度学习逐渐发展成熟的趋势下,人工智能和大数据等技术开始进入了医疗领域,它们把现有的一些传统流程进行优化,大幅度提高各种流程的效率、精度、用户体验,同时也缓解了医疗资源的压力和精确度不够的问题。
用户1508658
2019/07/26
4.5K0
【数据集】一文道尽医学图像数据集与竞赛
dataset数据集有哪些_数据集类型
​ sklearn的数据集库datasets提供很多不同的数据集,主要包含以下几大类:
全栈程序员站长
2022/08/03
1.9K0
dataset数据集有哪些_数据集类型
AI 技术讲座精选:利用深度学习分析医学图像
【AI100 导读】当下深度学习的研究领域仍然停留在通用图像的层面上,但我们的目标是将这些研究应用于医学图像,提升医疗保健行业的服务水平。在这篇文章中,作者会从图像处理的基础知识、医学图像格式方面的基
AI科技大本营
2018/04/26
1.5K0
AI 技术讲座精选:利用深度学习分析医学图像
共享单车数据集超10万条
共享单车数据集,包括骑行时间、会员骑行时间、会员类型、骑行路线类别、开始时间、结束时间、开始站点、结束站点、经度纬度等等。
机器学习AI算法工程
2021/09/02
2.4K0
共享单车数据集超10万条
各行业领域数据集整理送给大家!
"The world's most valuable resource is no longer oil,but data"
挖数
2019/06/20
1.8K0
各行业领域数据集整理送给大家!
Kaggle 数据挖掘比赛经验分享
Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台。笔者从 2013 年开始,陆续参加了多场 Kaggle上面举办的比赛,相继获得了 CrowdFlower 搜索相关性比赛第一名(1326支队伍)和 HomeDepot 商品搜索相关性比赛第三名(2125支队伍),曾在 Kaggle 数据科学家排行榜排名全球第十,国内第一。笔者目前在腾讯社交与效果广告部任职数据挖掘工程师,负责 Lookalike 相似人群扩展相关工作。此文分享笔者在参加数据挖掘比赛过
CSDN技术头条
2018/02/12
1.6K0
Kaggle 数据挖掘比赛经验分享
23个优秀的机器学习数据集,给智能更好的经验
在这篇文章中,我会分享 23 个优秀的公共数据集,除了介绍数据集和数据示例外,我还会介绍这些数据集各自可以解决哪些问题。
一点人工一点智能
2022/12/27
1.1K0
23个优秀的机器学习数据集,给智能更好的经验
自然图像目标检测数据集汇总
所有的标注图片都有Detection需要的label, 但只有部分数据有Segmentation Label。 VOC2007中包含9963张标注过的图片, 由train/val/test三部分组成, 共标注出24,640个物体。 VOC2007的test数据label已经公布, 之后的没有公布(只有图片,没有label)。 对于检测任务,VOC2012的trainval/test包含08-11年的所有对应图片。 trainval有11540张图片共27450个物体。 对于分割任务, VOC2012的trainval包含07-11年的所有对应图片, test只包含08-11。trainval有 2913张图片共6929个物体。
狼啸风云
2019/08/14
2.5K0
【干货】Kaggle 数据挖掘比赛经验分享
如果你也跃跃欲试,不妨选一个合适的任务,开启数据挖掘之旅吧。
腾讯知文实验室
2018/02/08
1.6K0
【干货】Kaggle 数据挖掘比赛经验分享
比 man 更强悍的命令行工具 cheat
相信你在技术文章里经常会看到 TL;DR 即Too Long; Didn’t Read. 太长不看, man curl 的内容就是太长了,我不看。
苏生不惑
2019/08/18
9210
用 shell 脚本做命令行工具扩展
公司开发机与远程服务器之间有严格的隔离策略,不能直接使用 ssh 登录,而必需通过跳板机。这样一来,本地与服务器之间的一些文件传输变得非常不便。经过咨询,运维教了我一招:
海海
2022/08/31
1.3K0
用 shell 脚本做命令行工具扩展
最强数据集集合:50个最佳机器学习公共数据集丨资源
外国自媒体mlmemoirs根据github、福布斯、CMU官网等信息,整理了一张50个最佳机器学习公共数据集的榜单,量子位为大家分享一下~
量子位
2018/12/07
35.3K1
推荐阅读
相关推荐
下载kaggle数据集的小妙招
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档