cover_image

芯片老化成为数据中心的关键挑战

晶上联盟
2024年05月20日 10:51
图片


图片



芯片老化正在成为数据中心内部的一个更大的问题,它会影响服务器正常运行时间、利用率以及驱动信号和冷却整个服务器机架所需的能量。



芯片老化是逻辑利用率提高和晶体管密度增加的结果。一般来说,这对数据中心来说是有问题的,但对于数字逻辑有望以最大速度运行的人工智能芯片来说尤其如此。这会产生更多的热量,随着每平方毫米硅的专用和通用加工元件数量不断增加,热量变得更加难以消散。热量通常被困在鳍式场效应晶体管和栅极全场场效应晶体管的鳍片之间,从而加速电迁移并减少电介质击穿所需的时间。它还可能导致翘曲,从而破坏高级封装或 PCB 中不同组件之间的键合和接触。



对于数据中心来说,这带来了许多挑战:


  • 热管理:这需要深入了解工作负载和由此产生的瞬态热梯度,因为处理在片上、芯片或小芯片之间以及服务器之间都是负载平衡的;


  • 更多数据:来自各地传感器的数据,以及更大的训练集,都需要比过去更快地处理,以跟上数据的洪流,但所有这些都需要在相同或更小的占地面积内进行,而不会使设备的任何部分过热,并且


  • 在线监控:传感器可以添加到芯片中,以检测不同路径中的热量和数据速度的变化,但跟踪数以万计的监控器要困难得多,因为它们从异构处理元件收集数据,每个元件都可能以不同的速率老化,具体取决于工艺变化、缺陷、不同的工作负载、 和环境热条件。


“今天的服务器比 10 年前更强大,问题是功率没有像以前那样扩展,”Rambus 研究员和杰出发明家 Steven Woo 说。“现在,如果你想在服务器中做更多的工作,你必须消耗更多的电力来做到这一点。二十年前,一台服务器可能会耗散几百瓦的功率。但是随着NVIDIA刚刚在Grace Blackwell周围宣布的最新服务器,整个机架是120千瓦,单个服务器是许多千瓦。仅仅向这些机架供电就会引起行业基础设施的变化。现在你必须在一个小空间里引入和耗散更多的能量,你会得到各种有趣的事情,这些事情可能会随着时间的推移而发生。散发的热量会对芯片产生影响,有时您必须担心热循环,因为芯片正在做很多工作,也许部分芯片停止,然后它做更多的工作。你会得到这些快速的循环,消耗大量的功率,然后不消耗,然后消耗大量的功率,然后不消耗。这种循环会导致局部加热和冷却,从而导致热应力,这会影响所有芯片,包括内存。


因此,从数据中心经理到芯片架构师,每个人都必须了解芯片在现场的表现,以及随着时间的推移,越来越多的定制芯片和系统架构将如何运作。对于数据中心来说,停机成本高昂,但利用率不足和性能下降也会带来高昂的代价。这反过来又会影响裕量被认为是必不可少的,例如,如果其中一些数据路径被电迁移完全或部分封闭,则会产生额外的数据路径,以及该裕量将如何影响芯片预计寿命期间的性能、功耗和面积/成本——尤其是在具有专用计算元件的异构设计中。


Cadence 产品管理总监 Dan Lee 表示:“对于适用于各种不同工作负载的超大规模芯片和高功率、高度定制的异构芯片,这些芯片 24/7 全天候运行,因此持续的正常运行时间至关重要。“由于所有这些芯片都是在真正先进的节点上完成的,设备尺寸更小,因此越来越多的开发人员希望进行老化分析,并得出磨损情况,以便他们能够看到芯片是否会持续一年或五年。同时,一个重要的考虑因素是热——尤其是当我们谈论这些异构集成时,你并没有真正获得在简单的单片设计中所能获得的导热性。需要更多的思考或计划,因为老化和加热是相关的。在所有条件相同的情况下,如果你在一个非常炎热的环境中工作,你会期望寿命更短。


尽管如此,确定寿命会缩短多少并不总是一个精确的计算。Arm 高级技术经理 Padmakumar Karthik 表示:“执行任务关键型工作负载的数据中心 SoC 需要提供可扩展的可见性,在问题发生之前预测问题,对问题进行深入分析,并进行优化以延长投资寿命。“数据中心诊断模式通常用于测量 SoC 制造后运行状况,以防止静默数据损坏 (SDC) 问题。但片上传感器提供了额外的洞察力,可以检测片上的下垂、老化或热事件,所有这些都可能导致SDC事件。因此,可扩展、可定制的传感器框架将变得越来越重要,这些框架可以在设备的整个使用寿命期间进行监控和调整,从而实现持续的设计优化和预防性维护。


有多种方法可以实现这一点,但每个数据中心可能非常不同。在某些情况下,芯片是由系统公司设计的,供内部使用。在大多数情况下,不同的硬件和软件混合在一起,并非所有硬件和软件都是最先进的。“许多数据中心的遗留基础设施可能本质上不是为最佳电源效率而设计的,”proteanTecs系统副总裁Noam Brousard在最近的一篇博客中指出。“升级或改造此类基础设施对实现全面电源优化提出了挑战。”


即使在单个机架中,即使在同一台服务器中,不同服务器之间的应力也可能有很大差异,并且从一个芯片到另一个芯片的应力也会有很大差异。“你可以想象,当你有一个非常大的芯片时,它会比小芯片的边缘膨胀得更多,这会增加压力,”Rambus的Woo说。“你必须非常小心你如何冷却东西,记忆也不例外。你对内存有非常具体的担忧,比如保留数据的能力,这取决于芯片的热度。


此外,随着芯片的老化,参数会漂移。Ansys半导体部门产品营销总监Marc Swinnen表示,传统方法是使用一个以全新芯片为特征的库。“该库的特点是 1 年、5 年、10 年、15 年,您可以使用这些不同老化的库多次运行所有分析。这在纸面上听起来不错,很多人都是这样做的,但问题是,并非芯片的所有部分都以相同的速度老化。这就是为什么衰老通常与活动和温度有关。芯片的某些部分比芯片的其他部分更活跃、更热,因此不同部分的老化时间不同。这意味着您希望将一些旧库应用于芯片的某些部分,而将较年轻的库应用于芯片的其他部分,因为如果信号在它们之间运行,则会出现设置和保持问题。如果所有东西都同时变慢——或者一个变慢了,另一个变慢了——你就会得到不匹配,这就是困难所在。在底层,这很容易。每个门都有其正确的年龄。这很简单。你对每个门都进行分析。但是,如何为每个门分配年龄呢?你从哪里得到这些信息?你需要大量真实的活动,然后在整个生命周期和温度上进行预测。这就是问题所在。你是如何构建这张老化地图的?一旦你有了它,分析就不那么难了。


老化映射是特定于应用程序和工作负载的。每个芯片的老化程度都不同,具体取决于其执行的功能。


但老化只是影响数据中心正常运行时间的众多因素之一。Ansys高级首席应用工程师Kelly Morgan表示:“当我们关注数据中心时,我们首先会关注整个应用,然后将其缩减到芯片和封装的意义。“从数据中心运行的机械可靠性角度来看,我们显然经历了热循环。我们处于一个受控的环境中。但这会产生什么影响呢?当您经历热循环时,这对芯片的完整性有何影响?通常,我们会研究焊料疲劳和其他影响等因素。


另一个需要考虑的因素是运输和处理,这可能会影响芯片、封装和电路板的老化。


“甚至在设备到位之前,就有可能发生振动,”摩根说。“你可能会撞到什么东西,这有点令人震惊。我们的客户正在研究跌落、冲击和振动等问题,他们有需要测试的目标。通常,标准流程是进行大量物理测试。现在,正如您可以想象的那样,这可能是非常具有挑战性的。在你真正开始测试之前,你必须在设计过程中走得很远,如果有问题,那么你必须回去重新测试。早期仿真在这方面很有帮助,特别是对于那些更大规模的事件,这归结为机箱、电路板和所有组件,包括 IC。


图片

图:完整电子系统分析的组件。来源:Ansys


当涉及到可能影响老化的机械应力时,质量控制仍然是一个巨大的挑战。Synopsys 的杰出架构师 Adam Cron 指出,英特尔最近发布了一份白皮书,其中指出,按照目前可接受的缺陷率,每两天就会有一个内核出现故障。为了说明这一点,Cron指出,某些商业工具支持BiST模式下的系统内延迟测试。通过添加特定的IP,可以将任何ATPG模式添加到其中。(英特尔的论文称,其解决方案仅适用于卡住测试。


“在非常大、数百万个核心的数据中心类型环境中,这意味着你最好做好准备,”Cron说。“他们在这篇论文中谈论的一件事是系统内扫描。英特尔引入了一个测试模式数据库,然后在隔离内核后将其应用于系统。然后,一旦失败,他们就会隔离并继续前进。但数据中心显然已经没有机会主义的时间段来做这些事情了。我们听到了一些有趣的对话,关于人们在某些时候确实会做很多事情。但是,其他时间更便宜,因此所有漏洞都在运行时方面得到填补。监测器当然是值得关注的,但监测器正在研究系统性退化。如果你愿意的话,这是众所周知的。因此,当事情退化时,V分钟会改变,也许频率会改变。他们会跟上步伐。他们可以弄清楚何时这样做。这很容易弄清楚。但是,如果其中存在边缘或某些损坏的组件,则无法由工具找到它。坦率地说,在系统扫描并不能解决芯片上的所有组件。它只有高达 80% 的卡住覆盖率,这并不算多,尤其是当您不查看模具内的所有部件时。关键是,仍然有机会做得更好。


Cron指出,一家大型系统公司提出了一种双核锁步机制,以双核锁步模式启动数据中心X个月。“当你看起来已经挤出了曲线的主要部分时,就找到这些有缺陷的组件而言,然后解锁它们,将你的容量增加一倍,像这样运行一段时间,然后定期再次连接一些。这意味着至少一切都被利用了。当然,有些人在这里和那里以一半的产能工作,但这不是全部。从设计的角度来看,至少对硬件有一些影响,但也可能对操作系统产生影响,这取决于谁决定使用什么物理内核和使用什么虚拟内核。


测量老化的方法


任何关于老化电路的讨论实际上都归结为延长数据中心机器的使用寿命,并且在发生故障时不会措手不及。


“你是怎么做到的?你必须测量这些机器的老化,“西门子EDA公司IC部门营销总监Neil Hand说。“现在,如果你和这些拥有大数据中心的大公司的首席信息官交谈,他们会说,'我们必须在三年后摆脱这些机器,因为我们不能冒着它崩溃的风险。如果你看一下嵌入式分析功能,你可以开始在这些设备中嵌入老化的监视器,你可以开始实时监控这些设备。从汽车的角度来看,它看起来没有什么不同。实际上,这些都是相同的技术,但您正在监控它们。然后你可以说,'我们现在已经为这台服务器使用了 90% 的寿命。然后,我们就可以更换该服务器了。


这也为企业可持续发展的目标提供了信息。“归根结底,首先是建造最好的东西,然后在建造时考虑到制造设计,这样你就不会在制造过程中产生浪费,获得更好的产量,并最终延长产品的使用寿命,并以环境可持续的方式建造它们,”汉德说。“如果你能将数据中心的生命周期从三年延长到五年,那就太重要了。特别是如果你开始使用这些高性能的、特定于应用程序的集群类型,你可能不需要经常更改它们,因为如果底层功能没有改变,这可能会推动它的循环。就生物计算机而言,如果潜在的蛋白质折叠机制没有新的变化,你可能会说,“我们不需要一个新的计算平台。这真的很好。


产品寿命延长越长越好。老化设计是首先使用铸造模型进行老化分析的问题。“运行模拟并观察效果,”Cadence 的 Lee 说。“当你进行模拟时,你希望有正确的任务配置文件,这样你就可以准确地预测你的设备在部署一定年限后的行为。例如,您可能希望将其与热分析相结合,因为老化的行为将取决于该设计将在什么温度下工作。你可能认为它是 22 摄氏度,但也许通过一些热分析,你意识到它实际上大部分时间都会在 35 或 40 度下运行。这可能会改变你的老化分析结果。


就相关的热分析而言,这可以扩展到单个设备之外。“这也是热量的移动方式,”李说。“假设你有这种集成设计,你有一些功率器件和一些逻辑,或者其他一些低功耗的功能。您可能想知道的是,如果这些带隙或电源电路产生大量热量,则可能会转移到设计的其他部分。因此,当您运行老化分析时,您可能会假设您以 25 度的速度运行,而功率器件的运行角度为 40 或 45 度。它们在同一个芯片上,它们彼此非常接近,你必须了解有多少热量转移到你的逻辑上,以及这将使温度升高到什么程度。你想知道这一点,这样你就可以根据更高的温度进行老化分析。


另一个考虑因素是将老化分析和互连寄生效应相结合,由于互连中的寄生效应,这与高级节点尤其相关。“在性能和功能方面,它们占主导地位,”Lee补充道。“因此,在考虑老化时,你还必须考虑它是一个老化的设备,必须推动电子通过这个互连。这是一个相当沉重的负担。当您进行老化分析时,您可能必须使用提取的寄生效应来进行分析。你只是不能在纯粹的原理图设计上做到这一点。它没有给你足够的细节,让你了解物理上真正发生的事情。这可能包含在老化分析工具中。当大多数人谈论衰老时,他们可能不会想到它的寄生方面。


对抗老化、内存中的热


虽然标准不适用于定制芯片,但它们确实适用于这些设备中的某些标准组件,例如内存。在过去的 10 到 15 年里,内存标准已经开始解决热量的影响。


“如果你开始超过某些温度限制,你必须更频繁地刷新设备,因为电荷会更快地从电池中泄漏出来,”Rambus的Woo说。“因此,刷新率与温度有关。还有其他一些事情可能会加剧,比如电容器越来越小,它们容纳的电子越来越少,因为现在芯片上的电子太多了,所以我们已经看到存储器采用片上纠错。这种片上纠错是隐藏在外界之外的东西。在许多情况下,您甚至不知道错误已经发生并在芯片上得到纠正。这些技术现在变得更加重要,因为温度可能更高。


对更多遥测数据以提供监视信息的需求也在不断增长。“你只是想知道是否有任何东西过热,”Woo说。“有什么东西看起来像是出了故障吗?数据中心经理将定期获得有关系统主要组件状态的更新。现在服务器中的许多板都有基板管理控制器 (BMC),它们是位于每个板上的小芯片,除其他外,还负责在服务器可能有五到六个板时报告该板的运行状况。我们经常看到更多这样的BMC芯片。


芯片设计


虽然目标是能够保证数据中心芯片的一定寿命,但实现这一目标的挑战正在扩大。“在设备的整个生命周期中,可能对设备有害的东西越来越多,”Woo说。“这是在不增加太多成本之间的平衡,即使你必须提高可靠性,也许还要添加新功能,而且所有这些事情都是相互影响的。


无论是液体冷却还是系统中更高水平的 RAS ECC,对于每种应用都没有单一的最佳答案。总的来说,该行业正在朝着更高的可靠性和更高的弹性迈进,但有很多方法可以实现这一目标,每种方法都面临挑战。


“就像15年前我们不一定总是认为我们必须谈论权力一样,现在我们必须一直谈论它,”Woo说。“弹性和可靠性也是如此。它将成为人们思考架构的方式的一部分,其中一部分是内存系统如何提高其可靠性。除非你能对某些数据进行计算,否则你真的什么都做不了,而且你必须确保数据是可靠的。它将涉及内存在 DRAM 中的存储方式。它将触及内存如何跨链接进行通信。它甚至会触及处理器在缓存和计算管道中掌握数据后如何操作数据。此外,人们会担心的关键问题之一是,这种易感性有多少是由与年龄相关的问题引起的,例如加热循环等。


最后,甚至还存在进入系统的电源质量问题。“服务器在电源轨上会发出噪音,这是你愿意为电力输送支付多少钱与电力质量之间的平衡,”Woo说。“你也必须容忍这些事情。电源管理变得更具挑战性,以及这些系统目前使用的电量。NVIDIA 系统将 48 伏电源带入机架,并且有传言称电压水平更高。基础设施的这些变化都会影响热量,并且会以不同的方式老化组件。



晶上联盟诚邀加入


这里有最新的技术资讯、深度的行业分析,还有一群热爱半导体事业的伙伴。加入我们,与志同道合的伙伴一起分享资源,共同成长



晶上系统行业交流群

图片

扫描二维码
添加工作人员微信进群


图片


图片
图片
报名福利




图片



限量领取精品书籍

《软件定义晶上系统技术年度发展报告2024》



扫码进群获取大会最新进展

图片


晶上系统生态大会



若提示二维码失效,

请添加微信17631816115,备注“大会”进群






内容来源:编译自Semiengineering
声明:本文不构成任何投资建议。我们尊重原创,也注重分享;文字、图片版权归原作者所有。如有侵犯您的权益请及时联系,我们将第一时间删除,谢谢!



PREVIOUS REVIEW

相关阅读
  1. 十年预言:芯片产业格局将改写

  2. 孙凝晖院士给正国级、副国级讲课的万字长稿发布——《人工智能与智能计算的发展》

  3. 三星转舵——停止合作AMD,将自研Exynos 2600

  4. 别让 AI “为电折腰”

  5. 国产智能算力硬件供应,谁在抢跑?

  6. 半导体产业新风口显现:人形机器人加速演进

  7. 极限施压下的半导体产业:谁来拯救中国“芯”?

  8. 华为加码半导体,上海新设研发重地



图片


创作不易,点赞鼓励!
图片


继续滑动看下一个
晶上联盟
向上滑动看下一个