我们对市场上的先进封装需求进行了一些讨论。但其实具体到各个厂商,无论是英特尔(EMIB、Foveros、Foveros Omni、Foveros Direct)、台积电(InFO-OS、InFO-LSI、InFO-SOW、 InFO-SoIS、CoWoS-S、CoWoS-R、CoWoS-L、SoIC)、三星(FOSiP、X-Cube、I-Cube、HBM、DDR/LPDDR DRAM、CIS)、ASE(FoCoS、FOEB)、索尼( CIS)、美光 (HBM)、SKHynix (HBM) 还是YMTC (XStacking),他们的封装的各不相同,而且这些封装类型也被我们所有最喜欢的 AMD、Nvidia 等公司使用。
在本文中,我们将解释所有这些类型的封装及其用途。
倒装芯片是引线键合后常见的封装形式之一。由代工厂、集成设计厂商、外包组装测试公司等多家公司提供。在倒装芯片中,PCB、衬底或另一个晶片将具有着陆垫。然后把芯片准确的放在上面,凸点用来接触焊盘。之后将芯片送入回流焊炉,加热元器件,回流焊凸点,将两者键合在一起。助焊剂被去除,底部填充料沉积在它们之间。这只是一个基本的工艺流程,因为倒装芯片有很多不同的类型,包括但不限于无助焊剂。
虽然倒装芯片非常常见,但间距小于100微米的高级版本不太常见。关于第1部分中建立的高级封装的定义,只有TSMC、三星、英特尔、Amkor和ASE涉及大量使用倒装芯片技术的逻辑高级封装。三家公司也生产完整的硅片,而另外两家公司外包组装和测试(OSAT)。
这个尺寸是大量不同类型的倒装芯片封装开始涌入的地方。我们将以TSMC为例,然后扩展和比较其他公司与TSMC的包装解决方案。TSMC所有包装选项的最大差异与基板材料、尺寸、RDL和堆叠有关。
在标准倒装芯片中,最常见的基板通常是有机层压板,然后涂上铜。从这里开始,布线围绕核心的两侧进行,味之素积层薄膜(ABF)是讨论最多的一个。内核由许多层组成,负责在整个封装中重新分配信号和电源。这些信号承载层通过干膜层压和用CO2激光或紫外激光构图来构造。
这是TSMC的专业知识开始发挥其综合扇出(信息)。TSMC不使用ABF薄膜的标准工艺,而是使用与硅制造更相关的工艺。TSMC将使用东京电子涂布机/显影剂、ASML光刻工具和应用材料铜沉积工具来光刻定义再分布层。再分布层(RTL)比大多数OSAT能生产的更小更密集,因此它能容纳更复杂的布线。这个过程被称为扇出晶圆级封装(FOWLP)。日月光是最大的OSAT。他们提供FoCoS(衬底上的扇出芯片),这是一种FOWLP。它还利用了硅制造技术。三星也有他们的扇出系统封装(FOSiP),主要用于智能手机、智能手表、通讯和汽车。
通过InFO-R (RDL),TSMC可以封装具有高IO密度、复杂布线和/或多芯片的芯片。使用InFO-R最常见的产品是苹果iPhone和Mac芯片,但也有各种移动芯片、通信平台、加速器甚至网络交换机ASIC。三星也凭借思科Silicon One在网络交换机ASIC扇出市场胜出。InFO-R的进步主要是扩展到更大的封装尺寸,功耗和IO更多。
有很多传言称AMD即将推出的Zen 4客户端(如上图所示)和服务器CPU将采用扇出封装。半分析可以确认基于Zen 4的台式机和服务器产品将使用扇出。然后,扇出将被传统地封装在标准有机基板的顶部,并且基板的底部将具有LGA引脚。封装这些产品的公司以及转向扇出的技术原因将在稍后揭晓。
标准封装将有一个核心基板,每侧有2至5个再分布层(RDL),包括更先进的集成扇出。TSMC的InFO-soi(集成衬底系统)将这一概念推向了一个新的高度。它提供了多达14个再分布层(RDL),可以实现芯片之间非常复杂的布线。在靠近管芯的衬底上还有更高密度的布线层。
TSMC还提供InFO-SOW(片上系统),它允许扇出包含几十个芯片的整个晶片的大小。我们用这种特殊的包装形式写了一篇关于Tesla Dojo 1的文章。在特斯拉去年AI日宣布这项技术的几周前,我们还独家披露了这项技术的使用情况。特斯拉将在HW 4.0中使用三星FOSiP。
最后,在TSMC的集成扇出产品线中,还有InFO-LSI(局部硅互连)。InFO-LSI是InFO-R,但是多个芯片下面有一块硅片。这种局部硅互连将从多个管芯之间的无源互连开始,但它在未来可以发展成有源(晶体管和各种IP)。最终也会缩小到25微米,但我们认为第一代不会出现这种情况。这种包装的第一个产品将在后面展示。
立即想到的比较最有可能是英特尔的EMIB(嵌入式多芯片互连桥),但这并不是真正的最佳选择。它更像英特尔的Foveros Omni或日月光的FOEB。我们来解释一下。
英特尔的嵌入式多芯片互连桥被放置在传统的有机基板腔中。然后继续构建衬底。虽然这可以由英特尔来完成,但EMIB的放置和构建也可以由传统的有机基板供应商来完成。由于EMIB芯片上的大焊盘以及沉积叠层布线和通孔的方法,没有必要将芯片非常精确地放置在基板上。
通过继续使用现有的有机层压板和ABF供应链,英特尔放弃了更昂贵的硅基板材料和硅制造工艺。总的来说,这个供应链是商业化的,虽然目前由于短缺而相当紧张。自2018年以来,英特尔的EMIB已经在产品中出货,包括Kaby Lake G,各种FPGA,Xe HP GPU和某些云服务器CPU,包括Sapphire Rapids。目前所有的EMIB产品都使用55微米,但是二代是45微米,三代是40微米。
英特尔可以通过这个芯片将功率推送到上述有源芯片。如果有必要,英特尔还可以灵活地设计封装,使其在没有EMIB和一些小芯片的情况下运行。对Intel FPGA的一些拆解发现,如果Intel出货的SKU不需要,Intel是不会放置EMIB和active芯片的。这允许围绕某些细分市场的BOM进行一些优化。
最后,英特尔可以通过仅在需要的地方使用硅桥来节省制造成本。这与TSMC的CoWoS形成鲜明对比,cow OS将所有芯片放在一个大型无源硅桥的顶部。后面会详细介绍,但TSMC的InFO-LSI和英特尔的EMIB最大的区别在于基板材料和制造工艺的选择。
更复杂的是,Sunmoon也有自己的2.5D封装技术,与英特尔的EMIB和TSMC的InFO-LSI完全不同。它用于AMD的MI200 GPU,该GPU将用于许多高性能计算机,包括美国能源部的Frontier exascale系统。日月光半导体的FOEB封装技术更类似于TSMC的InFO-LSI,因为它也是扇出的。TSMC使用标准硅制造技术建造RDL。一个主要的区别是ASE使用玻璃基板,而不是硅。这是一种更便宜的材料,但它有一些其他的好处,我们将在后面讨论。
ASE不是将无源互连芯片嵌入到基板的空腔中,而是放置芯片,构建铜柱,然后构建整个RDL。在RDL的顶部,有源硅GPU芯片和HBM芯片通过微凸点连接。然后,使用激光脱模工艺从封装中去除玻璃夹层,然后在使用标准倒装芯片工艺将其安装在有机基板上之前,完成封装的另一侧。
关于ASE FOEB和EMIB已经有了很多说法,但其中一些说法是完全错误的。可以理解的是,日月光需要销售他们的解决方案,但让我们消除噪音。EMIB收益率不在80%到90%的范围内。EMIB的收益率接近100%。第一代EMIB确实对芯片数量有比例限制,但第二代则没有。事实上,英特尔将发布有史以来最大的封装,第二代EMIB的92mm x 92mm BGA封装的高级封装。通过在整个封装中使用扇出和光刻定义的RDL,FOEB确实保留了布线密度和芯片到封装凸点尺寸的优势,但也更昂贵。
与TSMC相比,最大的区别似乎是原来的玻璃基板材料和硅。部分原因可能是日月光的成本更有限。日月光必须以较低的价格提供优秀的技术来赢得客户。TSMC是芯片大师,专注于他们熟悉的技术。TSMC有一种将技术推向极致的文化。在这种推动下,他们最好选择硅。
现在回到TSMC的其他先进的包装选择,因为我们仍然有一些事情要做。CoWoS平台还包括CoWoS-R和CoWoS-L平台。它们与InFO-R和InFO-L几乎1比1对应。两者的区别更多的与工艺有关。信息是一个芯片过程,首先放置芯片,然后围绕它构建RDL。使用CoWoS,首先建立RDL,然后放置芯片。对于大多数试图了解高级包装的人来说,区别并不那么重要,所以今天我们将轻松地讨论这个话题。
最大的亮点是CoWoS-S(硅夹层)。它包括采用一个已知良好的芯片,用图案化导线将其倒装封装在无源晶片上。这就是CoWoS名字的由来,基片上的晶片。从长远来看,是最大的2.5D封装平台。如第一部分所述,这是因为英伟达数据中心GPU如P100、V100和A100使用了CowOS-S,虽然英伟达销量最高,但博通、谷歌TPU、亚马逊Trainium、NEC Aurora、富士通A64FX、AMD Vega、Xillinx FPGA、英特尔Spring Crest和Habana Labs Gaudi只是CowOS使用的几个显著例子。大部分使用HBM计算的重型芯片,包括各种创业公司的AI训练芯片,都使用CoWoS。
为了进一步说明CoWoS的受欢迎程度,这里有一些来自AIchip的引用。AIchip是一家台湾省设计和ip公司,主要利用TSMC CoWoS平台辅助与AI芯片相关的EDA、物理设计和生产能力。
TSMC甚至没有参加所有与考沃斯产能相关的会议,因为TSMC已经销售了他们生产的所有产品,支持所有这些设计需要太多的工程时间。另一方面,TSMC拥有高度集中的客户(Nvidia),因此TSMC希望与其他公司合作。AIchip有点像中间人。即使一级客户(Nvidia)预订了一切,AIchip仍有一些容量。即便如此,他们也只能得到自己想要的50%。
我们回头看看英伟达在做什么。第三季度,它们的长期供应义务跃升至69亿美元。更重要的是,英伟达预付了16.4亿美元,未来还将再预付17.9亿美元。Nvidia正在吞噬供应,尤其是对CoWoS。
回到技术上,CoWoS-S经历了多年的发展。主要特点是中间层的面积越来越大。因为CoWoS平台采用的是硅制造技术,遵守的是被称为掩膜限制的原理。193纳米ArF光刻工具可印刷的最大尺寸为33毫米x 26mm毫米(858毫米2)。硅内插器的主要用途也是由光刻定义的,即非常密集的导线连接位于其上的芯片。Nvidia的芯片已经接近标记极限,但仍需要连接封装的高带宽内存。
上图包含一个Nvidia V100,是Nvidia四年前推出的GPU。它的面积是815平方毫米。一旦HBM被包括在内,它将超过光刻工具可以打印的掩模限制,但TSMC想出了如何连接它们。TSMC通过拼接面具来做到这一点。TSMC在这里增强了他们的能力,可以提供3倍硅插入物大小的掩模。鉴于标记拼接的局限性,英特尔EMIB、TSMC LSI和日月光FOEB方法具有优势。它们也不必像大型硅内插器那样处理大量成本。
除了增加掩模尺寸,他们还进行了其他改进,例如将微凸点从焊料改为铜以提高性能/功效、iCap、新的TIM/ cover封装等。
关于TIM/封面包装有个有趣的故事。在Nvidia V100上,Nvidia有一个无处不在的HGX平台,它可以被运送到许多服务器ODM,然后再运送到数据中心。为获得正确的安装压力,可以施加到冷却器螺钉上的扭矩非常具体。这些服务器ODM过度拧紧了这些10,000美元GPU上的冷却器和芯片。Nvidia A100转移到芯片上有盖子的封装,而不是直接冷却芯片。当Nvidia的A100和未来的Hopper DC GPU仍然需要散发大量热量时,这种封装的问题就会出现。为了解决这个问题,TSMC和英伟达在包装方面做了很多优化。
三星也有类似于CoWoS-S的I-Cube技术..三星唯一使用该套餐的主要客户是百度的AI加速器。
接下来,我们有福韦罗斯。这是英特尔的3D芯片堆叠技术。Foveros不是一个在另一个模具上移动的模具,而后者本质上只是一个密集的电线。Foveros涉及两个包含移动元素的模具。借此,英特尔第一代Foveros于2020年6月在莱克菲尔德混合CPU SOC上市。这个芯片不是一个特别大容量或令人惊叹的芯片,但它是英特尔的许多第一批芯片,包括3D封装和他们的第一个混合CPU核心架构,一个高性能核心和一个低效率核心。它使用55微米的凸点间距。
下一个Foveros产品是Ponte Vecchio GPU,在多次推迟后应该会在今年推出。它将包括47个不同的有源小芯片,采用EMIB和Foveros封装。Foveros芯片到芯片连接使用36微米的凸点间距。
未来,英特尔的大部分客户端阵容都将采用3D堆栈技术,包括代号为流星湖、箭湖和月亮湖的客户端产品。流星湖将是第一个具有Foveros Omni和36微米凸点间距的产品。第一个采用3D堆栈技术的数据中心CPU叫钻石激流,名字叫花岗岩激流。在本文中,我们将讨论其中一些产品使用的节点以及英特尔和TSMC之间的关系。
foo OS omni的全称是foo OS全向互联(ODI)。它弥补了EMIB和Foveros之间的差距,同时提供了一些新的功能。Foveros Omni可以作为另外两个芯片之间的有源桥接芯片,可以作为完全在另一个芯片下面的有源芯片,也可以作为在另一个芯片上面但悬空的芯片。
Foveros Omni从来没有像EMIB那样嵌入基板,无论如何都是完全在基板之上的。堆叠式会导致封装基板与位于其上的芯片之间的连接高度不同的问题。英特尔开发了一种铜柱技术,允许他们将信号和功率传输到不同的Z高度,并通过芯片传输,这样芯片设计师在设计3D异构芯片时可以有更多的自由。Foveros Omni将从36微米的凸点间距开始,但在下一代中将会减少到25微米。
我们要注意的是,DRAM也采用了先进的3D封装。HBM多年来一直在三星、SK海力士、美光使用先进封装。制造存储单元并将其连接到暴露并形成有微凸块的TSV。最近,三星甚至开始推出DDR5和LPDDR5X堆栈,使用类似的堆栈技术来增加容量。SKHynix正在将混合结合引入其HBM 3。SKHynix将把12个芯片粘合在一起,每个芯片的厚度约为30微米,采用混合粘合TSV。
混合键合是一种不使用凸点,而是将芯片直接连接到硅通孔的技术。如果我们回到倒装芯片工艺,芯片之间的区域没有凸点形成、焊剂、回流或模内填充。铜与铜直接相遇。实际过程非常困难,如上一节所述。在本系列的下一部分,我们将深入研究工具生态系统和混合绑定类型。与之前描述的任何其他封装方法相比,混合键合可以实现更密集的集成。
最著名的混合绑定芯片当然是AMD最近宣布的3D堆栈缓存,将于今年晚些时候发布。这利用了TSMC的SoIC技术。英特尔的混合绑定品牌叫Foveros Direct,三星的版本叫X-Cube。Global Foundries公开了一种使用混合键合技术的Arm测试芯片。产量最高的混合键合半导体公司不是TSMC,今年甚至明年也不会是TSMC。混合粘合芯片出货量最大的公司其实是拥有CMOS图像传感器的索尼。事实上,假设你有一部高端手机,你的口袋里可能有一个包含混合粘合CMOS图像传感器的设备。如第1部分所述,索尼已将间距降至6.3微米,而AMD的V-cache间距为17微米。
索尼目前提供2栈和3栈版本。2在堆栈中,像素在电路的顶部。在3层堆栈版本中,像素堆叠在电路顶部的DRAM缓冲区高速缓存的顶部。由于索尼希望将像素晶体管从电路中分离出来,并创建一个具有多达4层硅的更先进的相机,这一进展仍在继续。由于其CMOS图像传感器业务,三星是混合粘合芯片的第二大出货量。
粘合的另一个大规模应用是长江存储技术公司的Xtacking。YMTC使用晶圆到晶圆键合技术将CMOS外围堆叠在与非门之下。我们在这里详细介绍了这项技术的好处,但简而言之,它允许YMTC在给定一定数量的NAND层的情况下安装更多的NAND单元,而不是任何其他NAND制造商,包括三星、SK海力士、美光、Kioxia和西部数据。
关于各种类型的倒装芯片、热压焊接和混合焊接工具有很多要说的,但是我们将在下一篇文章中讨论这些。投资者对Besi Semiconductor、ASM Pacific、Kulicke and Soffa、EV Group、苏斯中晶、SET、Shinkawa、Shibaura和Applied Materials的常见理解是不正确的。这里各个公司和包装类型使用的工具的多样性非常广泛。但赢家并不像看起来那么明显。