00:00
现代计算的革命在很大程度尚得益计算机系统和硬件的显著进步。随着摩尔定律和灯纳的缩放的放缓,世界正在转向专用硬件,以满足指数增长的计算需求。然而,今天的芯片需要数年时间来设计,导致需要推测如何为25年后的机器学习M模型优化下一代芯片。大幅缩短芯片设计周期将是硬件能够适应快速发展的机器学习领域。如果M本身可以提供缩短芯片设计周期的方法,在硬件和MMU之间建立更加集成的关系,并且相互促进对方的进锢,那会怎样在具有深度强化学习的芯片方式?我们将芯片贴装是为强化学习RO问题,我们在其中训练代理及RO策略以优化芯片贴装质量。与之前的方法不同,我们的方法能够从过去的经验中学习,并随着时间的推移不断改进,特别是让我们训练更多的芯片快时,我们的方法在为以前看不见的芯片快快速。
01:00
生成优化布局方面变得更好。现有的机械需要循环中的人类专家仅需要数周时间才能生成,而我们的方法可以在不到六小时的时间内生成优于不匹配及手动设计的对应物的展示位置。虽然我们表明我们可以为Google加速器芯片t po生成优化的布局,但我们的方法适用于任何类型的芯片。芯片布局规划问题一个计算机芯片被分成几十个块,每个块都是一个单独的模块,从内存、子系统、计算单元或控制逻辑系统。这些块可以通过网点电路组件图来描述,例如宏存储器组件和标准单元n an nor和X等罗辑门,所有这些都通过电线连接确定芯片块的布局,这一过程称为芯片布局规划,是芯片设计过程中最复杂和最耗时的阶段之一,设计将网表放置在芯片画布2D网格上,从而降低功耗,性能和面积PK被最小化。同时遵守。
02:00
密度和路由拥塞的限制。尽管对该主题进行了数十年的研究,但人类专家仍然需要数周的迭代才能产生满足多方面设计标准的解决方案。deep learning model我们模型的输入是芯片、网表、节点类型和图连接信息、当前要放置的节点的A以及一些网表的数据,例如总线数、我可标准细胞组网表图和当前节点。通过我们开发的基于编的图神经网络来编码输入状态,就会生成部分放置的图和候选节点的嵌入,然后将边缘同和网表元素去嵌入连接起来,形成单个状态嵌入,然后将其传递给乾馈神经网络。乾馈网络的输出是一个学习到的表征,它不会有用的特征,并作为策略和价值网络的输送。策略网络在所有可能的网格单元上生成一个概率分布,当前节点可以放置在这些网格单元上。在每次训练迭代中,同由RR代理一次放置。
03:00
然后标准细胞促游力导向放置方法将电路建模为弹簧系统,以最小化现场RO训练由一个快速但近似的响励信号池吧该信号使用近次现场集绊出现场apl和近似用测被消耗的路由资源的比例的加权平均值为每个代理的芯片放置计算放置的网点结果。据我们所知,这种方法是比一种具有泛化能力的芯片放置方法,这意味着他可以利用在放置以前的网表时学到的知识为新的看不见的网表生成更好的方式。我们表明,随着我们增加执行与序列的芯片网表的数量级,随着我们的方法在布局优化方面变得更有经验,我们的策略可以更好的推广到新的网友。例如与训练的策略有机的确定的一种安排,将红放置在芯片边缘附近,中心有一个凸空间用于放置标准单元,这导致红和标准单元之间的线场更短,而不会引入过多的不限音色。相比之下,从头开始。
04:00
训练的策略从随机放置开始,需要更长的时间才能收敛到高质量的解决方案。重新发现需要在芯片画布的中心留下一个开口。下面的动画演示了这一点。我们观察到预训练提高的样本效率和放置质量。我们将使用于训练策略生成的展示未知质量与从头开始训练策略生成的展示位置质量进行比较。为了为以前看不见的芯片快生成布局,我们使用了零样本方法。这意味着我们只需使用预先训练的策略没有微调来放置形态,在不到一秒的时间内产生布局。通过对新区块的策略进行微调可以进一步改善结果。从头开始训练的策略需要更长的时间来收敛,即使在24小时后,其芯片放置也比回调策略在12小时后达到的效果差,当我们在更大的数据其上训练时,我们的方法的性能会提高。我们观察到,当我们将训练及从两个块增加到五个块,然后再增加到20个块时。无论是在零量。
05:00
还是在针对相同的序练挂重时间进行微调之后,该策略都会产生更好的方式。我们的方法从经验中学习并随着时间的推移不断改进的能力为芯片设计人员开启了新的可能性。随着代理接触到更多数量和种类的芯片,他在卫星芯片快生成、优化布局方面变得更快更好。一种快速、高质量、自动的芯片放置方法可以极大的加速芯片设计,并能够与芯片设计过程的早期阶段进行协同优化。虽然我们主要评估加速器芯片,但我们提出的方法广泛适用于任何芯片放置问题。在所有硬件都为机器学习做了很多工作之后,我们认为是时候让机器学习回报他们的青睐了。更新说明,优先更新微信公众号语言的博客后,更新博客之后才会陆续分发到各个平台。如果先提前了解更多,请关注微信公众号雨业的博客。博客来源,雨夜的博客。
我来说两句