Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >训练AI写代码还在用GitHub ?Project CodeNet或是更优解:1400万代码,50种编程语言

训练AI写代码还在用GitHub ?Project CodeNet或是更优解:1400万代码,50种编程语言

作者头像
新智元
发布于 2023-05-22 07:12:41
发布于 2023-05-22 07:12:41
3170
举报
文章被收录于专栏:新智元新智元


新智元报道  

来源:thenextweb

编辑:LRS

【新智元导读】深度学习的转折点往往都发生在不经意间。IBM的Project CodeNet发布五个多月仍未引起过多关注,但它可能是助力AI编程的最有用的数据集,但它的风头似乎都被Copilot抢走了,至今未见过多宣传,沦为小众数据集。

如今写代码已经成为各行各业的必备技能,学会写代码可以让计算机代替我们做一些重复的工作,极大提升工作效率。

但一个真正能帮你写代码的AI程序离我们还有多远?

5月5日,IBM向极少数媒体和学术界发布了Project CodeNet,在当时并未引起过多关注。

CodeNet完美继承了ImageNet的思想。ImageNet是一个大规模的图像及其描述数据集,为CV 的模型发展和标准化提供了巨大的帮助,也是深度学习计算机视觉进步的核心, 并且图像可免费用于非商业用途。 

CodeNet的目标是为人工智能写代码提供一个标准的数据库,它包含超过1400 万个代码样本,涵盖50种编程语言,能够解决4000个编码问题。该数据集还包含许多附加数据,例如软件运行所需的内存量和运行代码的日志输出。

IBM表示,Project CodeNet是同类中最大、最具差异的数据集,它解决了当今编码中的三个主要用例:代码搜索(自动将一种代码翻译成另一种代码,包括像COBOL这样的遗留语言);代码相似性(识别不同代码之间的重叠和相似性);还有代码约束(根据开发人员的特定需求和参数定制约束)。

然而有安全研究人员认为CodeNet和类似项目最重要的影响不是优化代码,而是增加了自然语言编码(Natural Language Coding, NLC)的可能性。

近年来,OpenAI和Google等公司一直在快速改进自然语言处理(NLP)技术。这些是机器学习驱动的程序,旨在更好地理解和模仿自然人类语言并在不同语言之间进行翻译。训练机器学习系统需要访问包含以所需人类语言编写的文本的大型数据集。

但写代码是一项很难学习的技能,更不用说掌握了,经验丰富的编码员应该精通多种编程语言。相比之下,NLC利用NLP技术和诸如CodeNet之类的庞大数据库,能够利用英语来进行编程,最终使用任何其他自然语言都可以进行编码。

它可以使诸如设计网站之类的任务变得简单,只需输入一句话,然后就会出现一个符合要求的网站,这要求生成的代码都是可以运行的。

例如“制作带有飞机图像的红色背景,中间是公司的logo,下方有一个与我联系的按钮。“

很明显,如此科幻的想法除了IBM以外还有很多人在做。

GPT-3是OpenAI的一个NLP模型,在多项文本生成任务都遥遥领先,目前也已经被用于生成代码,输入就是预期的网站或者应用程序的自然语言描述,输出可运行的代码。

但是,在IBM的消息发布后不久,微软宣布已获得GPT-3的独家授权。

除了GPT-3外,微软还于2018年收购了互联网上最大的开源代码集合网站 GitHub。并且还开发了一个人工智能代码助手GitHub Copilot,可以在VS code等IDE辅助开发,能够简化开发过程,但它是付费的。

虽然Copilot离NLC的目标还有很大距离,但它已经是向前迈了一大步了。

不过后续的测试来看,Copilot除了抄袭开源代码和注释外,并不能创造代码,还会把其他用户的漏洞代码扩散开。

Copilot是朝着NLC迈出的一大步,但它还远远没有实现AI写代码的功能。

虽然NLC还没有完全可行,但目前的研究方向正在迅速走向一个不需要长时间训练也能编程的未来,并且影响是巨大的。

首先,更多的研究和开发人员会产生更多的成果。有人认为潜在创新者的数量越多,创新率越高。

如果每个人都能写代码,那编程带来的创新潜力就会更大。

此外,计算物理学和统计社会学等学科越来越依赖于定制的计算机程序来处理数据,简化编写这类程序所需的技能要求,将提高计算机科学以外专业领域的研究人员部署新方法、做出新发现的能力。

然而,NLC所需的人工智能的开发和部署资源相当昂贵,小公司根本无法支撑这种应用的开发和运行,所以最终很可能被微软、谷歌或IBM等主流巨头公司垄断。该服务可以收费提供,或者像大多数社交媒体服务一样免费提供。

并且我们有理由相信,由于机器学习需要大数据的支持,这些技术将由平台公司主导。从理论上讲,像Copilot这样的程序在引入新数据时会变得更好,也就是说使用的用户越多,效果越好,这种特性也使得新的竞争对手更难入场,即使他们有更强大或更良心的产品。

除非有强力的反垄断措施,否则大型资本主义企业集团似乎将成为下一次编码革命的把关人。

参考资料:

https://thenextweb.com/news/programming-natural-language-syndication

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-10-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
“自然”语言编程(NLC)的到来比你想象的要快
GPT-3 是一个训练集45TB、参数规模1750亿、预训练结果700G的AI模型,其一经问世就成为了万众瞩目的焦点。在其出现之后,使用GPT-3作诗、作曲甚至作画的应用纷至沓来。
一个会写诗的程序员
2022/09/23
1.6K0
“自然”语言编程(NLC)的到来比你想象的要快
IBM开源了5亿行代码数据集,里面最多的编程语言却不是Python
让 AI 自动生成代码,是很多开发者的梦想,近些年来,有关这一方面的研究屡见不鲜。但要想训练一个好用的 AI,最重要的工作或许就是找到优质数据。
机器之心
2021/06/08
5980
程序员终结者还是“白嫖”开源代码?GitHub火爆新编程工具刚推出就陷入争议
整理 | 褚杏娟 微软是否违反了开源许可协议规定? 6 月 30 日,微软旗下代码托管平台 GitHub 推出了名为“ Copilot ”的 AI 编程辅助工具。但刚发布不久,这款工具便陷入了争议之中。 基于数十亿行开源代码训练 根据官方介绍,GitHub Copilot 工具由 OpenAI 开发的全新 AI 系统 OpenAI Codex 提供支持。Codex 基于 GPT-3 自然语言处理 (NLP) 模型演化而来,基于开源代码和自然语言进行了训练,可以理解编程语言和人类语言,并独立生成各种形式的文本
深度学习与Python
2023/04/01
5860
程序员终结者还是“白嫖”开源代码?GitHub火爆新编程工具刚推出就陷入争议
支持文字和语音指令,AI实时自动编程,OpenAI升级版Codex终于面世了
机器之心报道 机器之心编辑部 前段时间,OpenAI与GitHub联合发布的AI代码补全工具GitHub Copilot吸引了广大程序员的关注,其背后的技术支撑OpenAI Codex也浮出了水面。今日,OpenAI正式发布了基于自身API的改进版Codex,不仅可以根据用户输入的文字指令执行相应任务,更能够输入语音命令。 6 月 30 日,OpenAI 和 GitHub 联合发布了新的 AI 代码补全工具 GitHub Copilot,并展示了技术预览版。该工具可以在 VS Code 编辑器中自动完成代码
机器之心
2023/03/29
1.2K0
支持文字和语音指令,AI实时自动编程,OpenAI升级版Codex终于面世了
成熟的AI应该自己写代码,IBM发布5亿行代码数据集,包含55种语言|开源
在ImageNet频频出现在计算机视觉研究的今天,IBM也为智能编码(AI for Code)带来了它的专属数据集——CodeNet。
量子位
2021/06/17
6670
GitHub 的 AI 编程工具漏洞高达 40% ,再次陷入争议……
在近日发表的一篇论文中,研究人员对 GitHub Copilot 人工智能编程辅助工具进行了深入调查。结果发现,仍处于测试预览阶段的 Copilot 具有高达 40% 的错误代码率,意味着开发者必须在使用时对其保持清醒的认知。此外在多场景测试项目中,约 40% 都被发现包含了安全漏洞。
AI科技大本营
2021/09/27
5450
数十亿行代码训练,GitHub原生AI代码生成工具上线,网友:要终结编程?
GitHub Copilot 是一个 AI 代码合成器,并不是搜索引擎:它提出的绝大多数代码建议都是新生成的,此前从未出现过。
肉眼品世界
2021/07/13
5410
数十亿行代码训练,GitHub原生AI代码生成工具上线,网友:要终结编程?
会写代码的AI开源了!C语言写得比Codex还要好,掌握12种编程语言丨CMU
萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 比Codex还会写C语言的AI代码生成模型,现在开源了! 这段时间,用AI写代码可以说是大火,其中最著名的要属OpenAI的Codex和DeepMind的AlphaCode。 △基于Codex的Copilot 然而,这两个AI模型,全都没有开源: 其中AlphaCode只给出了一些测试样例,而Codex只开放了API。 为此,来自CMU的几个研究人员,用GPT-2搞出了一个名叫PolyCoder的AI代码生成模型,而且还是开源的。 据研究人员表示,虽
量子位
2022/03/10
1.5K0
AI 要取代码农?DeepMind 祭出超越近半程序员的编程版“阿尔法狗” AlphaCode!
在国内欢度虎年春节之际,作为 Google 母公司 Alphabet 旗下的人工智能企业——DeepMind,发布了基于 Transformer 模型的编程 AI:AlphaCode,并声称其编写的计算机程序具有竞争力,能与人类普通程序员相媲美。
数人之道
2022/02/14
7980
AI 要取代码农?DeepMind 祭出超越近半程序员的编程版“阿尔法狗” AlphaCode!
是成就还是削弱?AI代码生成工具与程序员的「相爱相杀」
选自IEEE 作者Craig S. Smith 机器之心编译 编辑:杜伟 当 AI 代码生成工具越来越深入地参与到编程工作中,一些人担心长此以往它会不会取代人类程序员呢?IEEE 的一篇文章探讨了这类 AI 辅助工具的发展历程、对程序员的影响以及未来走向。 程序员注定要被取代吗?自从 OpenAI 的大规模语言模型 GPT-3 展示其基于简单的书面指令创建 HTML 网站这一惊艳的能力以来,计算机编程社区便一直被该问题笼罩着。 自那之后的几个月里,更是出现了可以根据自然语言描述(口头或书面人类语言)编写简单
机器之心
2022/10/08
4600
是成就还是削弱?AI代码生成工具与程序员的「相爱相杀」
敲代码、作诗、写论文无所不能?史上最大AI模型GPT-3霸榜Github
场主发现最近GPT-3好火!相信你已经在网上看到各种有关GPT-3的演示。这个由OpenAI创建的大型机器学习模型,它不仅可以自己写论文,还会写诗歌,就连你写的代码都能帮你写了。
养码场
2020/09/28
1K0
敲代码、作诗、写论文无所不能?史上最大AI模型GPT-3霸榜Github
《AIGC辅助软件开发》002-AI智能化编程助手:GitHub Copilot
文章链接:https://cloud.tencent.com/developer/article/2465816
愚公搬代码
2024/11/16
1380
和AI结对编程!OpenAI与GitHub联手推出AI代码生成工具,比GPT-3更强大
昨日,微软与OpenAI共同推出了一款AI编程工具GitHub Copilot,这款工具基于GitHub及其他网站的源代码,可根据上文提示为程序员自动编写下文代码!
AI科技评论
2021/07/27
8010
和AI结对编程!OpenAI与GitHub联手推出AI代码生成工具,比GPT-3更强大
数十亿行代码训练!OpenAI升级Codex,直接将书面语言转为计算机代码
刚刚,OpenAI发布了Codex的改进版本,API以私有测试版的形式发布出来,可以将自然语言转换为代码的AI系统。
新智元
2021/08/25
2K0
从GPT-3到DETR,一起来盘点2020有哪些突破?
2020年是巨大飞跃的一年。从OpenAI的GPT-3,再到AlphaFold,都是令人振奋的成就。与此同时,数据科学在机器学习、自然语言处理(NLP)、计算机视觉等领域中蓬勃发展。
深度学习技术前沿公众号博主
2021/01/06
8480
从GPT-3到DETR,一起来盘点2020有哪些突破?
AIphaCode 并不能取代程序员,而是开发者的工具
DeepMind 是 AI 研究实验室,它引入了一种深度学习模型,可以生成具有显著效果的软件源代码。该模型名为 AIphaCode,是基于 Transformers,OpenAI 在其代码生成模型中使用的架构相同。
AI科技大本营
2022/04/05
3270
AIphaCode 并不能取代程序员,而是开发者的工具
深度学习也有武林大会!八大科技巨头:我的「流派」才能实现AGI
从AlphaGo到MuZero以及最近的AlphaFold 2,DeepMind一直在寻求强化学习方面的突破。
新智元
2021/10/12
4870
AI播客下载:Practical AI(人工智能最新进展)
Practical AI这是由 http://Changelog.com推出的节目。Changelog 本身做了许多跟软件开发的 podcast 节目 。比如《The Changelog》播客 ,这是一个专注于软件领域的播客,每周一发布最新新闻摘要,周三进行深入技术访谈,周五则是访谈节目。该播客涵盖了从Web开发、开源项目、创业公司建设到人工智能和人脑研究等多个方面。此外,还提到了一些特定的话题和事件,如Go社区的最新动态、Apple的WWDC大会、隐私泄露问题、以及Google Go团队的工作方式等。通过这些内容,可以看出《The Changelog》旨在为听众提供一个关于软件和技术世界的全面视角,同时也关注行业内的最新发展和重要讨论。
AIGC部落
2024/06/26
1320
AI播客下载:Practical AI(人工智能最新进展)
一文读懂 OpenAI
OpenAI 是一家美国人工智能(AI)研究实验室,由非营利性 OpenAI Incorporated(OpenAI Inc.)及其营利性子公司 OpenAI Limited Partnership(OpenAI LP)组成。OpenAI 进行 AI 研究的目的是促进和开发友好的 AI。OpenAI 系统运行在世界上第五强大的超级计算机上。该组织于 2015 年由 Sam Altman、Reid Hoffman 在旧金山成立,杰西卡·利文斯顿(Jessica Livingston)、埃隆·马斯克(Elon Musk)、伊利亚·萨茨克维尔(Ilya Sutskever)、彼得·泰尔(Peter Thiel)等人共同认捐了 10 亿美元。马斯克于 2018 年辞去董事会职务,但仍是捐助者。微软在 2019 年向 OpenAI LP 提供了 10 亿美元的投资,并于 2023 年 1 月向其提供了第二笔多年期投资,据报道为 100 亿美元。
李维亮
2023/05/16
1.2K0
从GPT-1到GPT-4,再到未来的GPT-5,一文带你了解GPT的前世今生和未来!
ChatGPT爆火的余热还没退去,GPT-4又横空出世,各大媒体都争相报道,朋友圈也在不断刷屏,打工人更是感叹饭碗要被AI夺走了!作为一名理性吃瓜群众我们还是得去了解一下GPT的过去、现在和未来,正所谓知己知彼,百战不殆,只有充分了解"对手",我们才能驾驭AI为我所用!话不多说,立马开始!
itvv
2023/03/23
9K0
推荐阅读
“自然”语言编程(NLC)的到来比你想象的要快
1.6K0
IBM开源了5亿行代码数据集,里面最多的编程语言却不是Python
5980
程序员终结者还是“白嫖”开源代码?GitHub火爆新编程工具刚推出就陷入争议
5860
支持文字和语音指令,AI实时自动编程,OpenAI升级版Codex终于面世了
1.2K0
成熟的AI应该自己写代码,IBM发布5亿行代码数据集,包含55种语言|开源
6670
GitHub 的 AI 编程工具漏洞高达 40% ,再次陷入争议……
5450
数十亿行代码训练,GitHub原生AI代码生成工具上线,网友:要终结编程?
5410
会写代码的AI开源了!C语言写得比Codex还要好,掌握12种编程语言丨CMU
1.5K0
AI 要取代码农?DeepMind 祭出超越近半程序员的编程版“阿尔法狗” AlphaCode!
7980
是成就还是削弱?AI代码生成工具与程序员的「相爱相杀」
4600
敲代码、作诗、写论文无所不能?史上最大AI模型GPT-3霸榜Github
1K0
《AIGC辅助软件开发》002-AI智能化编程助手:GitHub Copilot
1380
和AI结对编程!OpenAI与GitHub联手推出AI代码生成工具,比GPT-3更强大
8010
数十亿行代码训练!OpenAI升级Codex,直接将书面语言转为计算机代码
2K0
从GPT-3到DETR,一起来盘点2020有哪些突破?
8480
AIphaCode 并不能取代程序员,而是开发者的工具
3270
深度学习也有武林大会!八大科技巨头:我的「流派」才能实现AGI
4870
AI播客下载:Practical AI(人工智能最新进展)
1320
一文读懂 OpenAI
1.2K0
从GPT-1到GPT-4,再到未来的GPT-5,一文带你了解GPT的前世今生和未来!
9K0
相关推荐
“自然”语言编程(NLC)的到来比你想象的要快
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档