前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >代码写的比Codex还溜的AI代码生成器

代码写的比Codex还溜的AI代码生成器

作者头像
郭好奇同学
发布2022-04-12 15:11:48
9860
发布2022-04-12 15:11:48
举报
文章被收录于专栏:好奇心Log

出品 | CSDN(ID:CSDNnews)

近几年来,AI 代码生成器十分流行,从OpenAI的Codex再到DeepMind的AlphaCode。DeepMind甚至表示,AlphaCode在Codeforces(一个编程竞赛平台)举办的编程竞赛(有5000多名参赛者)中,取得了平均排名前54.3%的成绩,并且声称它是首批可与人类程序员竞争的代码生成系统之一。但无论是Codex还是AlphaCode,截止目前都还没有对外开源。

卡内基梅隆大学(Carnegie Mellon University,以下简称CMU)的研究人员表示,“大型科技公司没有公开发布他们的模型,这确实阻碍了科学研究和这种大型语言模型代码的应用。”为此,几个来自CMU的研究人员开发了PolyCoder——一个具有 27B 参数,基于 GPT-2 架构且开源的自动代码生成器模型,在12种编程语言的249GB代码数据库中进行训练。

12种编程语言代码集

研究人员声称,PolyCoder在编写C语言方面的表现优于所有的已知模型(包括Codex)。

和其他开源模型比较,PolyCoder在C、JavaScript、Rust、Scala和TypeScript方面的表现都比类似模型GPT-Neo 2.7B要好。

但是在C语言之外的其他十一种语言中,所有其它开源模型包括PolyCoder可能要略逊Codex。

作为一个开源的 AI 代码生成器,PolyCoder算是取得了不错的成绩。但研究人员担心,像PolyCoder这样的模型可能会提示生成有漏洞的程序,即使是带有一些难以检测的安全漏洞程序。而且他们还担心未来其对手可以在代码生成模型中“隐藏”恶意行为,所以他们建议将Codex大小的模型开源,这不仅可以避免上述情况的发生,还有另一个额外的好处,即开发人员可以通过微调对模型进行个性化操作,这比从头训练模型的成本低很多。

其研究人员还表示,希望能够通过开源,节约资源以及促进科技研究的发展。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-03-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 好奇心Log 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档