(本文翻译自Semiconductor Engineering)
Semiconductor Engineering与AMD的CAD基础设施和物理设计研究员Philip Steinke、 Cadence负责云业务开发的副总裁Mahesh Turaga、Lightmatter硬件工程副总裁Richard Ho、Siemens数字工业软件公司云解决方案副总裁Craig Johnson,以及Synopsys研究员Rob Aitken讨论了芯片设计向云上的转变速度是如何加快的,在云上进行芯片设计的好处有哪些,以及当今芯片云上设计面临的一些最紧迫的挑战。
SE:向芯片云上设计的转变正在加速,相应的商业模式也正在制定,工作负载也得到了更好的理解,半导体生态系统中的几大参与者之间的一些合作就是最好的证明。那么,从用户的角度来看,在云上进行芯片设计带来的最大好处有哪些?在云上设计一定能有好处吗?
Steinke: 在AMD,我们采用了混合多云策略。采用云的最大好处是帮助我们扩展了计算基础设施,使我们在需要进行计算时获得更大的灵活性,也和我们的项目周期和路线图非常契合。
我们也很好奇在云上探索差异化解决方案会有什么样的收获。云基础设施在一些方面可能会为我们带来便利,如一些我们选择不部署或难以部署的东西,例如真正的高速网络或一些不同的存储模型。这些都是我们一直在进行探索的,看看它们能给我们带来什么样的价值。
Ho:作为一家无晶圆厂半导体初创公司,在云上设计对我们至关重要。这样我们无需为了进行设计而建设自己的基础设施。但优势还不仅仅就这一个。灵活和增加资源的能力,尤其是在验证等方面,对我们来说也至关重要;我们不必为一个工作负载就调整整个基础设施的大小,而是可以根据需要进行调整。当达到峰值负载,并要进行流片时,云能够根据我们的需求同时进行扩展。
无论是从应用的容量角度,还是从性能角度,这种外包整个基础设施的方式都具有极大的价值。我们可以使用最新的CPU核心,而无需不断升级自己的内部CPU,事实上我们还可以受益于云运营商在后台进行的自动升级。
此外,我们也能减少IT部门的人员配置,并能够利用云上的安全性和他们提供的支持,这是我们能够快速实现流片并向前迈进的关键因素之一。在云上的这些工具,以及可以在云上使用的一系列工具,对我们来说都非常有价值。
SE:从EDA工具提供商的角度来看,你们怎么看芯片云上设计的优势?
Johnson:云基础设施对于服务动态需求的应对非常好。另一个令人惊讶的是其硬件的可用性。这和五年前的情况大相径庭。新冠疫情导致的供应链问题,让交付周期变得非常长,即使是大公司也要比正常情况下等待更长的时间。能够利用云基础设施来解决这一问题已经毋庸置疑。
Turaga:我们从客户那里听到了很多商业优势,包括工程生产力的提高、创新的增加、更快的上市时间,这些都是一些商业利益。有一个例子是基于Arm的服务器在云上对Cadence工具进行基准测试,他们预测能够以多快的速度将上市时间缩短两个月。他们工作得也非常愉快。
还有一件我们都很在意的事,那就是如果无需等待工作运行,无需排队,但我们所有人工作起来都会很快乐。这提高了生产力和整体吞吐量。然后你也可以有时间做更多的事。
Aitken:另一个好处是能够进行控制和监控,因此,作为云管理员,你可以跟踪用户在做什么,这和以前不同,每个人都需排队等待。在这种情况下,你能够了解在既定时间内,项目需要计算的级别,所以这对设施的管理也很有帮助。
SE:芯片云上设计需要解决的最大挑战是什么?
Ho:需要解决的问题之一是启动大型项目时需要的延迟非常低。有时,云中会有一定数量的虚拟机(VM),并且想运行100,000个模拟项目时,拆分这些额外的VM实际上需要很长时间,这样就会变成一个问题。在基础设施方面,我们可以做一些事情来进行准备,让虚拟机也做好准备,并能够管理这些事情,以实现大容量的低延迟启动。
另一个大问题是,这不仅仅与基础设施有关,还与许可证有关。EDA供应商仍在以10年前的模式,按三年为期签订合同。在云端,则需要他们具有灵活性。当我们处于项目低峰时,EDA供应商需要允许我们在任何情况下都能取得许可。然后,当我们达到项目高峰时,他们则需要能够快速为我们提供许可,并能够让我们立即调度它们,这样我们就不会受到资源的阻碍和约束。
这是目前比较麻烦的事情之一。我们不仅要为机器进行预案,还要为获得许可进行提前预案。如果一切都是无缝衔接的,那就完美了。
Steinke:目前云计算能力分布全球,但我们仍使用90年代风格的数据中心,算法仍在低数量的CPU内核上运行,并寻找某种非常接近计算的POSIX存储。你能扩展的只有这么多。
从现代计算基础设施的角度来看,云带来的是一个真正的全球分布式网络,在这里,每个云提供商都建立了一个跨越不同地理位置的庞大骨干网,以及基于对象存储的系统,这些系统能实现在不同位置都可使用数据。例如我可能想要在南极洲或廷巴克图进行计算,而其他人可能不需要它,那里的价格就会变得最低,我的数据也可以在合理的时间内到达那里。但要做到这一点,我们将需要能够在这种分布式环境中工作的工具,并了解如何在需要数据时获取数据,而且不需要一直增加工作负载。我们还需要能够扩展CPU的数量,以真正加快这些大项目的周转时间。
Ho:如今,假如许多工具流都使用POSIX风格,共享NFS存储,这样导致将数据从一个云移动到另一个云既昂贵又耗时。这是个大问题。现在很多EDA工具都预设了您已经拥有共享数据存储,我们必须解决这种情况。
Aitken:就某些算法来说,这说起来容易做起来难。有一些类型的工作负载,如模拟等,很容易转移到云计算模型。还有一些,比如布局布线,则会很难,因为这些算法本身是在很久之前的时代——人坐在工作站前打字和文件系统进行交互——开发的。该解决方案的结构使得使用现代文件系统和通信在数据中心上扩展该算法变得毫无意义。
因此,研究团队需要做的工作就是要如何设计一个新的布局布线算法,或者其他可以映射到云环境的本地数据密集型算法。实际上,如果你要从头开始,在还没有人意识到这个问题前,你可能需要另一种不同的方法来解决这一问题。但在这个领域经营了三四十年之后,移动是很困难的。
Johnson:对于大多数问题,如许可,甚至计算的存储和可用性,总是有三个限制,即经济限制、技术限制和运营限制,通常他们是代表这些不同派别的公司的不同利益相关者。
从技术角度来看,可能很容易找到一个解决方案,但它不能兼顾经济利益或运营的便利性。之所以一直无法解决这些问题,归根结底是如何找到组合的最小公分母和最佳公分母。我们认为这些是EDA供应商的共同问题。
Turaga:我同意以上都是我们目前面临的一些挑战,我们也正在努力解决其中的一些挑战。我们已经开始提供灵活的许可模式。就数据问题,我们仍在研究正确的数据量到底是多少,并在正确的时间以正确的数量提供。这是一个挑战。有一些行业解决方案具有flex缓存,IBM有一些开源解决方案可以解决一些数据同步问题,可以使数据在预置型(on-prem)模型和云之间无缝传输。
正如Rob指出的,有一件事仍然是一个问题,那就是一些工作负载更适合于此,而另一些工作负载则更复杂,这取决于特定的数据需求。例如,通过验证,将正确的项目数据发送到云中并返回结果变得非常有意义。对于像实现或多物理分析这样的大数据项目,你必须采取不同的策略。
采用混合工具也是我们正在考虑解决这一问题的另一个方法,因此基本上,处于预处理工具舒适区的客户可以只发送所需的数据,然后只返回他们所需要的结果。
领取专属 10元无门槛券
私享最新 技术干货