首页
学习
活动
专区
圈层
工具
发布

假期还要卷,24个免费数据集送给你

数据处理 有时我们只想处理大型数据集,最终结果与读取和分析数据的过程无关。 寻找大型公共数据集的好地方是云托管提供商,如亚马逊和谷歌。...使用 GCP,我们可以使用名为 BigQuery 的工具来探索大型数据集。 谷歌同样在一个页面上列出所有数据集,也需要注册一个 GCP 帐户,同时可以对前 1TB 的数据进行免费的查询。...有一些专门用于机器学习的在线数据集存储库,这些数据集通常会提前清理,并允许快速测试算法。 Kaggle Kaggle 是一个数据科学社区,主办机器学习比赛。...事实上,他们已经构建了一些工具来简化数据处理,我们可以在他们的界面中编写SQL查询来浏览数据并连接多个数据集。...❝https://dev.twitter.com/streaming/overview GitHub GitHub 有一个 API,允许我们访问存储库活动和代码。

1.8K40

【智能】如何成为数据科学家:权威指南

Pandas是一个直接由NumPy构建的数据分析库,旨在模仿许多R的内置功能,例如DataFrames!您可以将其视为Excel的超级版本,它允许您快速清理和分析数据。...R - 到目前为止,最流行的R绘图库是ggplot2。它的设计哲学及其基于图层的API使其易于使用,并允许您基本上制作您能想到的任何主要图表!...由于其简化的API,我建议Keras适合初学者。对于深度学习主题,您应该始终参考官方文档,因为这是一个变化非常快的领域! R - 初学者数据科学家R的一个问题是它在机器学习方面有很多选择。...一旦你转向无监督学习技术,如聚类,最好的办法是快速谷歌搜索,看看哪些软件包最适合你打算使用的技术,你甚至会发现R已经有了一些内置的基本算法,例如kmeans聚类。 在哪里学习这些库和技能?...这是扩展知识并做好准备的最佳场所……(leetcode.com) 对于更具体的数据科学问题,您需要熟悉各种主题,例如概率问题,R或Python编程问题,SQL查询以及可能的大数据管理(Spark等主题)

78032
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    AI 成为学术评估“主考官”,公布全球最有影响力生物医学研究人员

    根据人工智能(AI)计算机程序筛选,埃里克・兰德是目前最具影响力的生物医学研究人员 目前,我们在学术文章搜索上一直都在用谷歌学术搜索,毋庸置疑,谷歌学术搜索的规模最大,涵盖了大约1亿份文档。...同时,谷歌学术搜索涵盖了互联网上的数据来源,而不只来自审查期刊,因此谷歌学术搜索的量化引用很容易被人操纵,无法忠实地记录这些引用,也没有专门的管理员来处理这个问题。...通过语义学者来搜索文献档案最初集中应用在计算机科学上,从2016年开始扩大到其他领域。现在,这种方法的应用范围正在进一步扩大,包括在PubMed数据库和其他来源的数据库中的数百万生物医学研究论文。...鉴于科学界需要衡量研究人员和单位机构的影响力,去年,语义学者也增加了一些新功能,例如,加入“有影响力的引用”的界定,当然不包括任何自我引用。...然而,玛丽・哈格曼指出,她的工作小组正在就不同的访问权限与出版商进行商谈。玛丽・哈格曼(Marie Hagman)认为许多其他学术搜索引擎已经存在,例如谷歌学者和微软学术搜索。

    70670

    谷歌收购Kaggle平台案背后精明的人工智能策略

    谷歌不仅仅获得了一支有才华的工程师团队或者是一批有权访问大型数据库的科学家,而是获得了五十万机器学习从业者的编程习惯,这些编程人员将能够使用开源的谷歌技术(例如Tensorflow),并通过使用谷歌的应用程序编程...考虑到Kaggle平台是在该领域的学生和初学者最理想的训练场所,这将对技术堆栈的选择产生深远的影响,这个技术堆栈选择者不仅包括那些工程师,同时也包括任何招聘数据科学家和机器学习工程师的公司或者任何要建立以技术为基础并想利用大型人才库的创业公司...云自然语言应用程序编程API(The Cloud Natural Language API,https://cloud.google.com/natural-language/)可以让客户获得谷歌强大的自然语言处理...然而,对于提供的不仅仅是计算能力的产品(例如上面列出的谷歌服务)而言,这意味着他们在一个公平的竞争环境中竞争。...无论是谷歌特别支持的张量流(Tensorflow)项目(最近都将深度学习Keras库),还是以机器学习和深度学习的联合课程形式与优达学城(Udacity)一起提供免费教育,或是现在通过收购Kaggle平台获得的五十万机器学习爱好者

    90540

    谷歌推出学术指标,影响因子面临颠覆?

    与Web of Science相比,谷歌学术不仅可以免费检索,而且范围远远大于Web of Science,既包括正常的学术期刊,也涉及书籍、会议、以及各种预印本。...例如排名最高的Nature,在2010年至2014年h5因子为377,表明这一期间Nature共有377篇文章引用数不低于377次。...例如Nature的h5中位数为529次,显示其进入h5因子统计的377篇文章中,排名第189位的文章引用数为529次。 和影响因子相比,谷歌学术指标的优越性是显而易见的。...但Nanoscale发表文章更多,因此进入了工程和计算机科学的前20名。 h因子评价体系最初由UCSD物理学家Jorge Hirsch提出,用于评价一个学者的影响力。...目前通常基于两个数据库进行统计,一个是Web of Science,另一个就是谷歌学术。越来越多的学者开始采用谷歌学术进行统计,因其更为广泛的代表性。

    1.8K80

    我是如何通过Web爬虫找工作的

    我在大学里做的学术项目主要是:构建和解析二叉树,计算机图形和简单的语言处理模型等等。 换句话说,我是妥妥的小白。...这时我开始意识到谷歌的作用。有一个说法是,软件工程师的大部分时间都用在谷歌搜索上,我认为这是有一定道理的。...经过谷歌搜索后,我在StackOverflow上找到了这篇有用的帖子,上面描述了如何搜索Craiglist 的RSS feed,这是Craigslist免费提供的一种过滤功能。...我所要做的就是通过特定的参数对感兴趣的关键字进行查询。...我使用的一些库已不再处于活跃开发阶段,因此会遇到一些问题。例如无法导入库,库会莫名其妙地崩溃等。 自己完成一个项目很有趣,但也有压力,你需要很大的动力才能做出成果。

    1.4K30

    经典收藏丨数据科学家&大数据技术人员工具包

    在实际应用中,数据科学包括数据的收集、清洗、分析、可视化以及数据应用整个迭代过程,最终帮助组织制定正确的发展决策数据科学的从业者称为数据科学家。...使用H2O的最佳方式是把它作为R环境的一个大内存扩展,R环境并不直接作用于大的数据集,而是通过扩展通讯协议例如REST API与H2O集群通讯,H2O来处理大量的数据工作。...批处理只是一个具有开始和结束状态的流式处理的特殊情况,Flink提供了API来应对不同的应用场景,无论是API(批处理)和数据流API。...Drill使用ANSI 2003 SQL的查询语言为基础,所以数据工程师是没有学习压力的,它允许你连接查询数据并跨多个数据源(例如,连接HBase表和在HDFS中的日志)。...NiFi的用户界面允许用户在浏览器中直观的理解并与数据流举行交互,更快速和安全的进行迭代。

    1.1K20

    五大神器全测评:哪个更适合你的 MySQL 项目?

    具有易于使用的界面和良好的用户体验,适合新手和专业人士使用。 缺点 对于大型数据库和复杂查询的处理速度较慢。 对于初学者来说,操作不够直观和简单。 对于高级用户来说,某些高级功能可能不够完备。...它提供了一个简单易用的界面,以便用户可以轻松地管理和查询数据库。用户可以使用Sequel Pro连接多个MySQL服务器,并执行各种任务,例如查询、导入和导出数据、管理表和索引等。...对于大型数据库和复杂查询的处理速度较慢。 没有自带的数据可视化工具,需要使用插件或外部工具。 不支持数据同步和数据复制。...具有强大的数据可视化功能,支持图表、报表、地图等。 可以轻松扩展和自定义,支持插件和外部工具。 缺点 对于大型数据库和复杂查询的处理速度较慢。 对于初学者来说,操作不够直观和简单。...我们的创始团队来自谷歌、快手、百度等公司,深刻理解快速迭代的软件系统对业务的重要性和当下软件开发的复杂性,我们认为在未来软件不会是从零开发的,于是我们重新思考,创造新的工具,帮助公司更好更快地开发软件。

    3K30

    谷歌2020学术指标发布:CVPR排名超Cell和Nature子刊,ACL首进TOP 100

    h指数:指该出版物中至少有h篇文章分别被引用了至少h次的最大数字h。例如,一份出版物有5篇文章被引用,分别是17、9、6、3和2,其h-index为3。...h核心:是指该出版物中被引用次数最多的h篇文章的集合。这些文章就是h-index的基础。例如,上面的出版物的h-核心有三篇文章,分别是被引用的17、9和6。...h-中位数:是指其h-核心中被引用次数的中位数。例如,上述刊物的h中位数为9,h中位数是衡量h核心中文章被引次数分布的指标。...不知你有没有注意到下方有个版本信息,这个链接将显示文章的其他版本或文章的其他存储库,其中一些可能有免费下载版本。 点击图中的引号,就能弹出各种格式的引用链接,直接复制即可。...如果你把你的搜索短语放入引号中,GS会在文档标题和正文中搜索该短语的精确匹配。如果没有引号,GS 会将每个单词分开处理。 在搜索词组中添加年份,可以获得在特定年份发表的文章。

    2.1K20

    干货 | AutoML 和神经架构搜索初探

    AutoML领域包括开源AutoML库,研讨会,研究和比赛。 初学者常常觉得他们在为模型测试不同的超参数时通常仅凭猜测,而将这部分过程的自动化可以使机器学习变得更加容易。...增强机器学习的一个例子是Leslie Smith的学习率查询器,它可在fastai库(在PyTorch之上运行的高级API)中实现,我们在免费的深度学习课程中也将其作为关键技术进行教学。...学习率是一个超参数,可以确定模型训练的速度,甚至可以确定模型是否训练成功。 学习速率查询器允许人类通过查看生成的图表中找到合适的学习速率。...来自Surmenok关于学习率查询器的博客文章,显示了学习率与损失之间的关系 专注于自动化超参数选择存在的另一个问题是:它忽视了某些类型的模型可能适用性更广,需要调整的超参数更少以及对超参数选择不太敏感的情况...例如,在fast.ai课程中,初学者只需要选择学习率这一个超参数,我们甚至会给你一个工具来做到这一点! (请期待后续文章)

    98720

    AutoML 和神经架构搜索初探

    AutoML领域包括开源AutoML库,研讨会,研究和比赛。 初学者常常觉得他们在为模型测试不同的超参数时通常仅凭猜测,而将这部分过程的自动化可以使机器学习变得更加容易。...增强机器学习的一个例子是Leslie Smith的学习率查询器,它可在fastai库(在PyTorch之上运行的高级API)中实现,我们在免费的深度学习课程中也将其作为关键技术进行教学。...学习率是一个超参数,可以确定模型训练的速度,甚至可以确定模型是否训练成功。 学习速率查询器允许人类通过查看生成的图表中找到合适的学习速率。...来自Surmenok关于学习率查询器的博客文章,显示了学习率与损失之间的关系 专注于自动化超参数选择存在的另一个问题是:它忽视了某些类型的模型可能适用性更广,需要调整的超参数更少以及对超参数选择不太敏感的情况...例如,在fast.ai课程中,初学者只需要选择学习率这一个超参数,我们甚至会给你一个工具来做到这一点! (请期待后续文章)

    73420

    7年程序员贡献出来的10大Python开源免费工具!

    Keras - Keras是一个高级神经网络API,提供了一个Python深度学习库。 对于任何初学者来说,这是机器学习的最佳选择,因为与其他图书馆相比,它提供了一种表达神经网络的简便方法。...然而,当谈到速度时,Keras比其他库更不利。 **Scikit-Learn **- 这是一个用于数据挖掘和数据分析的开源工具。 虽然它在本文的机器学习中列出,但它也适用于数据科学。...最重要的是,它是免费的! Theano - 可以说是最成熟的Python深度学习库之一,Theano以希腊毕达哥拉斯哲学家和数学家的名字命名,据称他是毕达哥拉斯的学生,女儿或妻子。...数据科学工具 SciPy - 这是一个基于Python的数学,科学和工程开源软件生态系统。 SciPy使用各种软件包,如NumPy,IPython或Pandas,为常见的数学和科学编程任务提供库。...同时,谷歌还将推出专用的人工智能芯片,帮助加速和运行机器学习训练——Edge TPU 是谷歌专用的 ASIC 芯片,专为在 Edge 运行 TensorFlow Lite ML 模型而设计, 用来处理

    1.4K00

    2021年11个最佳无代码低代码后端开发利器

    ◆ Airtable 最适合想要一个可视化的、灵活的后端并且刚刚开始了解API的初学者。 Airtable是谷歌表格或典型电子表格的增强版。然而,它提供的功能不止于此。...上手简单,它有丰富的API支持。它允许创建一个基于电子表格的数据库,而不需要写代码的麻烦。此外,它是一种快速和灵活的方式来组织数据表(被称为基地)。 它包含诸如计算字段的功能。...定价 免费版:每月0美元,有无限的API请求,实时功能,以及高达500MB的数据库空间。 专业版:每月25美元,无限制的API请求,实时功能,数据库空间高达8GB,支持自动备份和日志保留长达7天。...定价 免费版:费用为0美元,包括1GB的数据透支 标准版:每月费用为99美元,包括20GB的数据透支 ◆ FAUNA 最适合那些能够处理一点学习曲线并正在寻找一个交易型无服务器数据库的专家。...它提供了一个API构建器,支持配置高级API设置,以进行认证的API请求、用户管理和事件处理,而无需设置基础设施。它还包括过滤、验证、排序和自定义查询参数处理。

    16.7K20

    麻省理工为大数据护航,保障私人隐私不受侵犯

    在很多方面,“大数据”和“加密”是对立的,前者收集、存储和分析信息,以此来揭示对学者、法律实施和企业有用的规律;而后者的目标是窥探隐藏的数据。...如今,在社交网络和其它的公共网站上,可以免费获得大量关于个人的数据,任何一个想要做坏事的人都可以从任意数量的在线资源通过交叉引用来建立关于他们的目标的轮廓(profile)。...尽管CryptDB 只能进行有限种类的查询,谷歌是该技术的一大支持者,并使用它在其基于云计算的、搜索大量数据集的BigQuery服务中提供加密查询。...麻省理工的小组成员还提出了不依赖于加密的安全措施,例如,有差异的隐私是一种替代的匿名数据。...正如2012年12月份的科学美国人网站上文章所指出的,差异化的私人数据发布算法允许研究人员提问关于有敏感信息数据库的任何问题,同时提供经过模糊化处理的答案,因此,实际上不会暴露任何私人数据,即使某人是排在数据库中的首位也不会被暴露

    53670

    这可能是史上最全的常用学术网站

    DOAJ收录的OA期刊数量非常多,属于目前最好的OA期刊目录网站。目前DOAJ除了查询OA期刊外,还可以查询部分期刊的文章内容。...目前arXiv文章类型主要分为七大类:物理、数学、非线性科学、计算机科学、定量生物学、定量金融学和统计。每个大类下面又分有若干子类,例如物理下面又具体分为:天体物理、凝聚态物理、广义相对论等。...PLoS出版了多种生命科学与医学领域的开放获取期刊,可以免费获取全文,比较具有影响力。Plos系列的期刊目前都已被SCI收录。虽然期刊数量不多,但是文章总体数量相当庞大。...每月覆盖范围包括国立材料研究所的最新研究活动,管理政策,在国际合作方面取得的进展,世界著名学者的访问、优秀的研究人员和工作人员,以及其他信息,报告当前的科研进展以及材料科学的重要趋势。...主要提供快捷权威的科学新闻报道,丰富实用的科学信息服务以及交流互动的网络平台,目标是建成最具影响力的华人科学社区,查询国际会议也很方便。

    4.6K10

    数据科学工具包(万余字介绍几百种工具,经典收藏版!)

    在实际应用中,数据科学包括数据的收集、清洗、分析、可视化以及数据应用整个迭代过程,最终帮助组织制定正确的发展决策数据科学的从业者称为数据科学家。...使用H2O的最佳方式是把它作为R环境的一个大内存扩展,R环境并不直接作用于大的数据集,而是通过扩展通讯协议例如REST API与H2O集群通讯,H2O来处理大量的数据工作。...批处理只是一个具有开始和结束状态的流式处理的特殊情况,Flink提供了API来应对不同的应用场景,无论是API(批处理)和数据流API。...Drill使用ANSI 2003 SQL的查询语言为基础,所以数据工程师是没有学习压力的,它允许你连接查询数据并跨多个数据源(例如,连接HBase表和在HDFS中的日志)。...NiFi的用户界面允许用户在浏览器中直观的理解并与数据流举行交互,更快速和安全的进行迭代。

    1.3K110

    大数据技术人员必备工具包,为工作提质增效

    在实际应用中,数据科学包括数据的收集、清洗、分析、可视化以及数据应用整个迭代过程,最终帮助组织制定正确的发展决策数据科学的从业者称为数据科学家。...使用H2O的最佳方式是把它作为R环境的一个大内存扩展,R环境并不直接作用于大的数据集,而是通过扩展通讯协议例如REST API与H2O集群通讯,H2O来处理大量的数据工作。...批处理只是一个具有开始和结束状态的流式处理的特殊情况,Flink提供了API来应对不同的应用场景,无论是API(批处理)和数据流API。...Drill使用ANSI 2003 SQL的查询语言为基础,所以数据工程师是没有学习压力的,它允许你连接查询数据并跨多个数据源(例如,连接HBase表和在HDFS中的日志)。...NiFi的用户界面允许用户在浏览器中直观的理解并与数据流举行交互,更快速和安全的进行迭代。

    1.6K50

    数据科学家的必备技能有哪些?

    2 技术技能 雇主们正在寻找的具备以下技能的数据科学家: 其中名列前20位的特定语言、库和技术工具如下: 1. Python Python这种开源语言的受欢迎程度已广为所知。...初学者容易接受,而且有很多支持资源。绝大多数新的数据科学工具都与它兼容。Python是数据科学家的主要语言。 2....SQL是结构化查询语言,是与关系型数据库交互的主要方式。在数据科学领域,SQL有时会被忽视,但如果打算进入就业市场,这是一项值得展示的技能。 4....Spark是一个快速、内存数据处理引擎,它具有优雅的、有表现力的开发API,使数据工作者能够高效地执行需要快速迭代访问数据集的流、机器学习或SQL工作负载。 5....Java和SAS 这两种语言的背后都有大公司支持,至少有一些免费产品。Java和SAS通常在数据科学社区中很少受到关注。 6.

    69530

    从硬件配置到框架选择,请以这种姿势入坑深度学习

    深度学习初学者经常会问到这些问题:开发深度学习系统,我们需要什么样的计算机?为什么绝大多数人会推荐英伟达 GPU?对于初学者而言哪种深度学习框架是最好的?如何将深度学习应用到生产环境中去?...目前我们有很多深度学习库能够选择,例如 TensorFlow(谷歌)、PyTorch(Facebook)、MXNet(华盛顿大学和亚马逊)、CNTK(微软)、DeepLearning4j(Skymind...静态计算图 在很多教学和研究中,我们优先考虑开发者是否能快速进行实验与迭代,而不是考虑具体的理论性能或计算效率。...你可以使用任意服务器(如 Flask),将推断设置为一个简单的 API 调用。 如果你能够高效分批处理数据,GPU 仅提供加速。...:比你想象的少得多 尽管很多文章声称需要谷歌级别的数据集才能做深度学习,这种说法是错误的。

    79260
    领券