代码写的比Codex还溜的AI代码生成器

郭好奇同学

发布于 2022-04-12 15:11:48

9860

发布于 2022-04-12 15:11:48

文章被收录于专栏：好奇心Log

出品 | CSDN（ID：CSDNnews）

近几年来，AI 代码生成器十分流行，从OpenAI的Codex再到DeepMind的AlphaCode。DeepMind甚至表示，AlphaCode在Codeforces（一个编程竞赛平台）举办的编程竞赛（有5000多名参赛者）中，取得了平均排名前54.3%的成绩，并且声称它是首批可与人类程序员竞争的代码生成系统之一。但无论是Codex还是AlphaCode，截止目前都还没有对外开源。

卡内基梅隆大学（Carnegie Mellon University，以下简称CMU）的研究人员表示，“大型科技公司没有公开发布他们的模型，这确实阻碍了科学研究和这种大型语言模型代码的应用。”为此，几个来自CMU的研究人员开发了PolyCoder——一个具有 27B 参数，基于 GPT-2 架构且开源的自动代码生成器模型，在12种编程语言的249GB代码数据库中进行训练。

12种编程语言代码集

研究人员声称，PolyCoder在编写C语言方面的表现优于所有的已知模型（包括Codex）。

和其他开源模型比较，PolyCoder在C、JavaScript、Rust、Scala和TypeScript方面的表现都比类似模型GPT-Neo 2.7B要好。

但是在C语言之外的其他十一种语言中，所有其它开源模型包括PolyCoder可能要略逊Codex。

作为一个开源的 AI 代码生成器，PolyCoder算是取得了不错的成绩。但研究人员担心，像PolyCoder这样的模型可能会提示生成有漏洞的程序，即使是带有一些难以检测的安全漏洞程序。而且他们还担心未来其对手可以在代码生成模型中“隐藏”恶意行为，所以他们建议将Codex大小的模型开源，这不仅可以避免上述情况的发生，还有另一个额外的好处，即开发人员可以通过微调对模型进行个性化操作，这比从头训练模型的成本低很多。

其研究人员还表示，希望能够通过开源，节约资源以及促进科技研究的发展。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2022-03-13，如有侵权请联系 cloudcommunity@tencent.com 删除

开源