AI 研习社按:本文由 Anthony Goldbloom 发布于 Kaggle 官方 blog,本文先是总结了 Kaggle 在 2017 年里取得的巨大成就,然后对 2018 的新工作做了展望。雷锋网 AI 研习社对本文进行了编译。Kaggler 们想知道将会发生哪些变化吗?那就赶紧过来看看吧! 2017 年是 Kaggle 取得巨大发展的一年。这一年,除了加入 Google,我们还从一个主要关注机器学习竞赛的社区,扩展成一个更广泛的数据科学和机器学习平台。今年,我们的公开数据集的下载量和 Kaggle
编译 | 姗姗 出品 | 人工智能头条(公众号ID:AI_Thinker) 【人工智能头条导读】Kaggle,对于很多学习并从事数据科学和机器学习的同学们来说应该一点也不陌生。除了每年举办一次的 Kaggle 竞赛被大家广泛关注着,相信老司机们更是经常使用 Kaggle 的数据集并在上面进行实践练习。李飞飞也对 Kaggle 评论道:“Kaggle 是搜寻、分析公共数据集,开发机器学习模型,和提高数据科学专业水平的最佳场所。” 去年 Google 收购 Kaggle ,并提出 “推动 AI 技术的分享和推广
AI科技评论按:对于关注数据科学的同学来说,Kaggle上庞大的数据集是一个极好的资源池,但是这么多的数据,如何进行更精准的搜索?近日,Kaggle官方博客就刊登了Rachael Tatman的一篇文章,向大家安利如何更高效的搜索数据集,具体怎么操作? AI科技评论将文章编译整理如下: 目前,在Kaggle上有成千上万的数据集,而且每天都会有新的增加。虽说Kaggle是一个非常棒的资源池,但是想在这么多的数据集里精准地找到与自己感兴趣的主题相关的,有时会有点棘手。在过去的几个月里,我学到了一些技巧和小窍门,
对于关注数据科学的同学来说,Kaggle 上庞大的数据集是一个极好的资源池,但是这么多的数据,如何进行更精准的搜索?近日,Kaggle 官方博客就刊登了 Rachael Tatman 的一篇文章,向大家安利如何更高效的搜索数据集,具体怎么操作?AI研习社将文章编译整理如下。 目前,在 Kaggle 上有成千上万的数据集,而且每天都会有新的增加。虽说 Kaggle 是一个非常棒的资源池,但是想在这么多的数据集里精准地找到与自己感兴趣的主题相关的,有时会有点棘手。在过去的几个月里,我学到了一些技巧和小窍门,或许
金融 美国劳工部统计局官方发布数据:http://dataju.cn/Dataju/web/datasetInstanceDetail/139 沪深股票除权除息、配股增发全量数据,截止 2016.12.31 http://dataju.cn/Dataju/web/datasetInstanceDetail/344 上证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,1260支股票 http://dataju.cn/Dataju/web/datasetInstanceDetail/340
美国劳工部统计局官方发布数据:http://dataju.cn/Dataju/web/datasetInstanceDetail/139
共享单车数据集,包括骑行时间、会员骑行时间、会员类型、骑行路线类别、开始时间、结束时间、开始站点、结束站点、经度纬度等等。
最容易上手的就是数据可视化, 以下3个数据集可以用于创建一些有意思的的可视化效果并加到你的简历中。
日前,谷歌在 Google Cloud Next 云计算大会上宣布收购知名大数据竞赛平台 Kaggle。消息一出,震动了数据科学、AI、机器学习三界(详见文章:谷歌收购 Kaggle 为什么会震动三界?地址:http://www.leiphone.com/news/201703/ZjpnddCoUDr3Eh8c.html。请点击文末“阅读原文”跳转)。 相信未来会友更多的开发者和从业人员加入 Kaggle 一展身手。为此,AI 研习社编译了一篇国外大牛的博文,其中总结了入门 Kaggle 竞赛的四个简单
作者 | Nikola M. Zivkovic 译者 | 王强 策划 | 凌敏 本文最初发布于rubikscode.com网站,经原作者授权由 InfoQ 中文站翻译并分享。 Iris 数据集的那些示例你是不是已经用腻了呢?不要误会我的意思,Iris 数据集作为入门用途来说是很不错的,但其实网络上还有很多有趣的公共数据集可以用来练习机器学习和深度学习。在这篇文章中,我会分享 23 个优秀的公共数据集,除了介绍数据集和数据示例外,我还会介绍这些数据集各自可以解决哪些问题。 以下是这 23 个公共数据集: 帕
在这篇文章中,我会分享 23 个优秀的公共数据集,除了介绍数据集和数据示例外,我还会介绍这些数据集各自可以解决哪些问题。
对于那些对数据,数据分析或数据科学感兴趣的人,提供一份可以利用业余时间完成的数据科学项目清单,一共14个!
作者:Angelia Toh,Self Learn Data Science联合创始人
首先,我想向所有的护士,医生,超市员工,公共管理人员以及其他冒着生命危险为我们服务的人致敬。
大数据文摘作品 作者:龙牧雪 2017年3月,数据科学和机器学习竞赛领域的老大Kaggle被谷歌收购,点击查看大数据文摘报道《谷歌宣布收购全球最大数据科学社区Kaggle》,当时双方均未透露收购细节和未来计划。接近一年过去了,Kaggle在做什么? Kaggle由Anthony Goldbloom和Ben Hamner创立于2010年。企业和研究人员在Kaggle上发布数据,让全世界的统计师和数据科学家对数据集进行建模和分析,以竞赛的形式评选出最佳模型。Kaggle众包竞赛模式的价值在于,让人们有可能从无穷
数据工程师都喜欢Jupyter Notebook,但是有时候您需要处理非常大的数据集和/或复杂的模型,而您的计算机却无法胜任。好消息来了,您可以将Jupyter Notebook文件导入Kaggle。如果您是数据科学的新手,那么Kaggle对你而言是一个举办有奖金的数据科学竞赛的网站。实际上,Kaggle还是一个拥有丰富信息的伟大社区,非常愿意帮助您提升数据科学水平。
众所周知,arXiv 是我们搜索、浏览和下载学术论文的重要工具。近 30 年来,arXiv 为公众和研究社区提供了开放获取学术论文的服务。这些论文涉及物理学的庞大分支和计算机科学的众多子学科,如数学、统计学、电气工程、定量生物学和经济学等等。
注册 Kaggle 账号。登陆账号,进入用户账户页面 https://www.kaggle.com/<username>/account , 在 API 栏目,点击 Create API Token 按钮,触发浏览器下载包含 API 凭证的 json 文件 kaggle.json 。将此文件放到 ~/.kaggle/kaggle.json 路径下(Windows 系统路径是 C:\Users\<Windows-username>\.kaggle\kaggle.json)。
从手机安全和监控摄像头到增强现实和摄影,计算机视觉的面部识别分支具有多种有用的应用。根据您的具体项目,可能需要在不同光照条件下的面部图像或表达不同情绪的面部。从使用面部关键点注释的视频帧到真实和伪造的脸部图像对,此列表上的数据集的大小和范围各不相同。
然后就会报错,提示没有kaggle.json文件,不用理他。 这一步主要是让其运行后生成配置文件夹,一般在C盘-用户-用户名下的.kaggle
本文分析了Kaggle利于数据科学领域新手学习的几点特征,并带你学习ML相关知识。
本文为原作者投稿,原载于知乎,感谢对“我爱计算机视觉”的支持。也欢迎其他愿意进行技术分享、扩大个人影响力的朋友投稿,谢谢!
链接:https://www.jianshu.com/p/ab35ed21df87
本文介绍一篇来自斯坦福大学的研究团队最近发表在Nature Machine intelligence期刊上名为”Deep learning models for predicting RNA degradation via dual crowdsourcing”的一项研究。作者巧妙地利用对两个众包平台的集成,获得能够对RNA降解进行极好预测的模型,以此来突破mRNA分子的热稳定性的限制。
今天,谷歌推出了目前世界上最大的人造和自然地标识别数据集Google-Landmarks。数据集中包含200万张图片,描述了3万处全球独特地标,量级是普通的数据集的30倍。 △ 数据集中地标的位置分布
在前面的两篇文章中已经分享过一些公开数据集,今天我将继续分享kaggle上可下载的医学影像公开数据集给大家。
随着特斯拉自动驾驶汽车的兴起以及谷歌Waymo等项目的兴起,自动驾驶汽车行业似乎每年都在增长。无人驾驶汽车是计算机视觉的一个重要领域,具有众多应用程序,并且具有巨大的获利潜力。
分类模型还可用于解决一些起初并不明显合适的问题。例如 Kaggle 美国专利短语匹配[1]竞赛。在这项比赛中,我们的任务是比较两个单词或短语,并根据它们是否相似、在哪个专利类别中使用等因素进行评分。如果得分为 1,则认为这两个输入词具有相同的含义;如果得分为 0,则表示它们具有完全不同的含义。例如,abatement 和 eliminating process 得分为 0.5,表示它们有些相似,但不完全相同。
梦晨 发自 凹非寺 量子位 报道 | 公众号 QbitAI 在Kaggle上参加机器学习比赛,用什么算法最容易拿奖金? 你可能会说:当然是深度学习。 还真不是,据统计获胜最多的是像XGBoost这种梯度提升算法。 这就奇了怪了,深度学习在图像、语言等领域大放异彩,怎么在机器学习比赛里还不如老前辈了。 一位Reddit网友把这个问题发在机器学习板块(r/MachineLearning),并给出了一个直觉上的结论: 提升算法在比赛中提供的表格类数据中表现最好,而深度学习适合非常大的非表格数据集(例如张
【新智元导读】谷歌昨天发布消息,更新了此前开源的含上万个视频的大规模数据集 Youtube-8M,新的数据集除了标签升级,还首次包含了预计算的音频特征(pre-computed audio features),有助于联合视听(时间)建模。此外,谷歌还联合Kaggle举办了视频理解竞赛,邀请参与者使用Youtube-8M作为训练数据,利用谷歌云机器学习平台构建视听内容分类模型。相关内容会在今年的CVPR会议上作为Workshop 展出。 去年9月,我们发布了YouTube-8M数据集,该数据集涵盖上千万个代表
最近,一个印度裔Kaggle大神在论坛上分享了他获得4个类别的Grandmaster的经历。
在将近30年的时间里,ArXiv通过公开访问学术文章为公众和研究社区提供了一个更高效的学术成果沟通平台,从物理学到计算机科学的许多子学科,以及介于两者之间的所有内容,包括数学,统计学,电气工程,定量生物学,和经济学。
https://www.kaggle.com/c/recognizing-faces-in-the-wild/data
如果您熟悉jupyter笔记本,那么理解kaggle Kernels将不是一项困难的任务。对于那些不知道的人,jupyter笔记本是一个开源的web应用程序,它允许您创建和共享包含实时代码、等式、可视化和叙事文本的文档。Kaggle Kernels几乎是一个更简单的笔记本,可以在浏览器中直接运行。从另一个角度来看,kaggle Kernels本质上是一种jupyter笔记本,可以在浏览器中完全免费运行,并提供免费的gpu。
人工智能的应用非常广泛,尤其是在医疗领域。先进的人工智能工具可以帮助医生和实验室技术人员更准确地诊断疾病。例如,尼日利亚的一位医生可以使用这个工具从他根本不了解的血液样本中识别出一种疾病,这有助于他更好地理解疾病,从而可以更快地开发出治疗方法,这是人工智能民主化的一个优势,因为AI模型和工具可以在全世界范围内使用,尼日利亚的医生可以使用与麻省理工学院或世界上任何大学的研究学者使用的相同的工具和技术。
如果是一位尚未尝试过数据科学项目的初学者,那么从“没有经验”的起点到称为“专家”的非常理想的目的地的可能过渡只不过是数据集。
【AI00导读】本文的两位作者分别是杜克大学电气工程博士后和莱斯大学电气与计算机工程系博士生,他们正在参加在纽约数据科学院举办的在线数据科学训练营计划。这篇文章是他们为其参与的“机器学习”课程而编写的
要找到一定特定的数据集可以解决各种机器学习问题,是一件很难的事情。越来越多企业或研究机构将自己的数据集公开,已经成为全球的趋势,这也将有助于大家进行更多研究。
任何领域的成功都可以归结为一套小规则和基本原则,当它们结合在一起时会产生伟大的结果。
来源 | Towards Data Science 整理 | 磐石 【磐创AI导读】计算机视觉领域的又一大比赛盛宴,Google AI在kaggle竞赛平台上推出Open Images Challenges大规模目标检测竞赛。目标检测+视觉关系识别。奖金丰厚,同时还会将比赛结果分享在几月后的ECCV2018会议上。比赛直达链接见文末。欢迎大家关注我们的公众号:磐创AI。 就在几天前,Google AI在Kaggle上推出了一项名为Open Images Challenge的大规模目标检测竞赛。当今计算机视
推荐系统(推荐引擎)是根据用户行为和兴趣点等信息去预测并推送用户当前需要或感兴趣的物品(服务)的一类应用。常见推荐系统包括电影、书籍、音乐或新闻文章推荐系统等。
我从 2017 年年初开始接触 Kaggle。曾翻阅知乎上很多关于 Kaggle 的回答和文章,然而逐渐发现大部分文章中提到的经验和技巧是针对传统 machine learning 类比赛的,对计算机视觉类的比赛并不适用。此刻已是 2018 年 6 月,我也参加过了多次比赛,或多或少有了一些自己的观点和感想。因此我写这一篇文章希望对现存文章进行一定程度的补充,以供刚刚接触 Kaggle 计算机视觉(CV)类比赛的同学参考。尽管此文会充斥个人观点和猜测,我会尽量提供论据并淡化感情色彩。这是我在知乎的第一篇文章,希望大家能够多多鼓励和批评。
我们今天继续学习《机器学习实战》一书,之前我们已经聊完了第一章当中关于机器学习背景知识和基本概念。进入第二章,书中给了我们一个亲自动手建立端到端机器学习项目的案例,让我们从案例当中亲身体会机器学习模型的应用。
本文为大家列举了八大主流数据集来源,不仅包含大量的数据集信息,而且包含了描述、用法以及一些实施案例等。
在学习过深度学习的基础知识之后,参与实践是继续提高自己的最好途径。本文将带你进入全球最大机器学习竞赛社区 Kaggle,教你如何选择自己适合的项目,构建自己的模型,提交自己的第一份成绩单。 本文将介绍数据科学领域大家都非常关心的一件事。事先完成一门机器学习 MOOC 课程并对 Python 有一些基础知识有助于理解文本,但没有也没关系。本文并不会向大家展示令人印象深刻的成果,而是回顾基础知识,试图帮助初学者找到方向。 文章结构: 1.介绍 2.Kaggle 综述 3.建立自己的环境 4.预测房价竞赛简介 5
大数据文摘作品 作者:龙牧雪 魏子敏 今日凌晨,全球最大的数据科学社群Kaggle发布了第一份数据科学/机器学习业界现状调查报告。这份调查问卷的受访者囊括了来自50多个国家的16,000+位从业者,根据他们的问卷结果,Kaggle给出了一些有趣的结论: 1、Python可能是机器学习最常用的编程语言,而统计学家更多地使用R语言; 2、数据科学家的年龄中位数是30岁,而各国差异巨大,比如,印度的受访人比澳大利亚平均年龄年轻9岁; 3、受访者中硕士学位所占比重最大,但薪水最高的从业者($150k)多数拥有博士学
AI Studio 是百度推出的一站式开发平台:一个囊括了 AI 教程、代码环境、算法算力、数据集,并提供免费的在线云计算的一体化编程环境。用户不必纠结于复杂的环境配置和繁琐的扩展包搜寻,只要打开浏览器输入 aistudio.baidu.com,就可以在 AI Studio 开展深度学习项之旅。
领取专属 10元无门槛券
手把手带您无忧上云