一款革命性的Arm处理器

共 8918字,需浏览 18分钟

 ·

2021-08-09 14:21


导读:大约50年前,英特尔创造了世界上第一个商业生产的微处理器,一个普通的4位CPU(中央处理器),2300个晶体管,使用10μm工艺技术在硅中制造,只能进行简单的算术计算。自这项突破性的成就以来,技术不断发展,越来越复杂,目前最先进的64位硅微处理器已经拥有300亿个晶体管(例如,AWS Graviton2微处理器,使用7纳米工艺技术制造)。


本文报道了一种32位Arm架构的微处理器,采用金属氧化物薄膜晶体管技术在柔性衬底(PlasticARM)上开发。与主流半导体行业不同,柔性电子产品通过超薄的外形、整合性、极低的成本和大规模生产的潜力,与日常用品无缝集成。PlasticARM是将数十亿个低成本超薄微处理器嵌入日常用品的先驱。




与传统半导体器件不同,柔性电子器件建立在诸如纸张、塑料或金属箔等基底上,并使用有机或金属氧化物或非晶硅等活性薄膜半导体材料。与晶体硅相比,它们有许多优点,包括薄、一致性和低制造成本。在柔性衬底上制备薄膜晶体管(TFTs)比在晶硅薄片上制备金属-氧化物-半导体场效应晶体管(mosfet)的加工成本低得多。

TFT技术的目的不是要取代硅。随着这两种技术的不断发展,硅很可能在性能、密度和功率效率方面保持优势。然而,TFTs使电子产品具有新颖的外形因素和硅无法达到的成本点,从而极大地扩大了潜在应用的范围。

微处理器是每一个电子设备的核心,包括智能手机、平板电脑、笔记本电脑、路由器、服务器、汽车,以及最近组成物联网的智能物品。虽然传统的芯片技术已经在地球上的每一个“智能”设备中嵌入了至少一个微处理器,但它面临着让日常物品更智能的关键挑战,比如瓶子、食品包装、服装、可穿戴贴片、绷带等等。成本是阻碍传统硅技术在这些日常用品中可行的最重要因素。虽然芯片制造的规模经济有助于大幅降低单位成本,但微处理器的单位成本仍然高得令人望而却步。此外,硅芯片并不是天然的薄、柔韧性和一致性,而这些都是这些日常用品中嵌入电子产品的非常理想的特性。

另一方面,柔性电子产品确实提供了这些令人满意的特性。在过去的20年里,柔性电子产品已经发展到提供成熟的低成本、薄的、柔性和兼容的设备,包括传感器、存储器、电池、发光二极管、能量采集器、近场通信/射频识别和打印电路,如天线。这些是构建任何智能集成电子设备的基本电子元件。缺失的部分是柔性微处理器,目前还不存在可行的柔性微处理器的主要原因是,为了执行有意义的计算,需要将相对大量的TFT集成在柔性衬底上,这在以前的TFT技术中是不可能的。在这种技术中,在进行大规模集成之前需要一定程度的技术成熟度。

中间方法是将基于硅的微处理器芯片集成到柔性衬底上,也称为混合集成,其中硅片变薄,芯片集成到柔性衬底上。虽然薄硅芯片集成提供了一个短期的解决方案,但该方法仍然依赖于传统的高成本制造过程。因此,要在未来10年乃至更长的时间内生产数十亿日常智能物品,这不是一个可行的长期解决方案。

我们的方法是利用柔性电子制造技术开发微处理器,也称为柔性加工引擎。我们用柔性电子技术在聚酰亚胺基板上构建本机柔性微处理器。金属氧化物薄膜晶体管成本低,而且可以缩小到大规模集成所需的较小几何尺寸。

早期的原生灵活处理器工作是基于使用低温多晶硅TFT技术开发8位CPU,这具有较高的制造成本和较差的横向可伸缩性。最近,二维材料晶体管被用于开发处理器,如使用二硫化钼(MoS 2)晶体管的1位CPU 13和使用互补碳纳米管晶体管构建的16位RISC-V CPU。然而,这两项工作都是在传统的硅片而不是柔性衬底上进行的。

第一次尝试构建基于金属氧化物TFT的处理元件是一个8位算术逻辑单元,它是CPU的一部分,与在聚酰亚胺上制造的打印可编程ROM相结合。最近,Ozer等人在金属氧化物TFTs中提出了天生灵活的专用机器学习硬件。尽管机器学习硬件拥有最复杂的柔性集成电路(FlexIC),它由1400个门的金属氧化物TFT组成,但FlexIC不是一个微处理器。可编程处理器方法比机器学习硬件更通用,并支持丰富的指令集,可用于对从控制代码到数据密集型应用程序(包括机器学习算法)的各种应用程序进行编程。

原生柔性微处理器有三个主要部件:(1)32位CPU,(2)包含CPU和CPU外设的32位处理器,(3)包含处理器、存储器和总线接口的片上系统(SoC),所有这些部件都是用金属氧化物TFT在柔性基板上制造的。本机灵活的32位处理器源自支持Armv6-M架构的Arm Cortex-M0+处理器(一组80多条指令)和现有的软件开发工具链(例如,编译器、调试器、连接器、集成开发环境等)。整个灵活的SoC被称为PlasticARM,能够从其内部内存运行程序。PlasticARM包含18334个NAND2等效栅极,这使其成为迄今为止在柔性基片上使用金属氧化物tft制造的最复杂的FlexIC(至少比以前的集成电路复杂12倍)。

PlasticARM系统架构


PlasticARM的芯片架构如下图所示。它是一种SoC,包括源自32位Arm Cortex-M0+处理器产品的32位处理器、存储器、系统互连结构和接口块以及外部总线接口。

PlasticARM架构和特性

a,SoC架构,显示了内部结构、处理器和系统外设。处理器包含一个32位的Arm Cortex-M CPU和一个嵌套向量中断控制器(NVIC),并通过互连结构(AHB-LITE)连接到它的内存。最后,外部总线接口提供了通用输入输出(GPIO)接口,用于芯片外与测试框架通信。

b,与Arm Cortex-M0+CPU相比,PlasticARM使用的CPU的特点。这两个cpu都完全支持Armv6-M架构,32位地址和数据能力,以及来自整个16位Thumb和32位Thumb指令集架构的一个子集的86条指令。CPU微架构具有两级流水线。寄存器在Cortex-M0+的CPU中,但在PlasticARM中,寄存器被移动到SoC中的基于锁存的RAM中,以节省Cortex-M的CPU区域。最后,两个CPU之间以及与同一体系结构家族中的其他CPU之间都是二进制兼容的。

c,PlasticARM的模具布局,,表示Cortex-M处理器、ROM和RAM等白框中的关键块。

d,PlasticARM的模具显微图,显示模具和核心区域的尺寸。

该处理器完全支持Armv6-M指令集架构,这意味着为Cortex-M0+处理器生成的代码也将在其派生的处理器上运行。处理器包括CPU和一个与CPU紧密耦合的嵌套向量中断控制器(NVIC),处理来自外部设备的中断。

SoC的其余部分包括存储器(ROM/RAM)、AHB-LITE互连结构(高级高性能总线(AHB)规范的一个子集)和将存储器连接到处理器的接口逻辑,以及用于控制两个通用输入输出(GPIO)引脚进行片外通信的外部总线接口。ROM包含456字节的系统代码和测试程序,并已实现为组合逻辑。128字节的RAM已经实现为一个基于锁存的寄存器文件,主要用作堆栈。

上图b显示了PlasticARM中使用的Cortex-M与Arm Cortex-M0+的比较。虽然PlasticARM中的Cortex-M处理器不是一个标准产品,但它实现了支持16位Thumb和32位Thumb指令集架构的一个子集的Armv6-M架构,因此它与同一架构家族中的所有Cortex-M类处理器(包括Cortex-M0+)都是二进制兼容的。

PlasticARM中的Cortex-M和Cortex-M0+之间的关键区别在于,我们将SoC中RAM的特定部分分配给CPU寄存器(约64字节),并将它们从CPU移动到PlasticARM中Cortex-M中的RAM,而Cortex-M0+中的寄存器仍保留在其CPU中。通过消除CPU中的寄存器,并使用现有RAM作为寄存器空间,以较慢的寄存器访问为代价,实现了CPU面积的大幅缩减(约3倍)。

结果


PlasticARM采用PragmatIC的0.8μm工艺,采用工业标准芯片实现工具。为了实现PlasticARM FlexIC,我们开发了工艺设计工具包、标准单元库和器件/电路模拟。上图c显示了FlexIC布局,其中划分了Cortex-M处理器、RAM和ROM。实现方法的细节可以在Methods中找到。

PlasticARM是使用商业的“fab-in-a-box”生产线FlexLogIC制作的,其芯片显微照片如上图d所示。该工艺使用基于IGZO的n型金属氧化物TFT技术,并在直径为200 mm的聚酰亚胺晶圆上生成FlexIC设计。IGZO TFT电路是使用传统的半导体加工设备制成的,该设备适用于在厚度小于30μm的柔性(聚酰亚胺)衬底上生产器件。其通道长度为0.8μm,最小供电电压为3v。

n型金属氧化物薄膜技术的设计面临着许多相同的挑战,这些挑战影响了20世纪70年代和80年代初第一代硅(负沟道金属氧化物半导体,NMOS)技术的复杂性和产量,特别是低噪声容限、高功耗和大的工艺变化。制造方法的细节可以在“方法”中找到。

我们报道了一种功能齐全的弹性塑料臂这已经通过在制造之前运行预编程(硬连线)到ROM中的三个测试程序来证明。尽管测试程序是从ROM执行的,但这不是系统的要求;它简化了PlasticARM的测试设置。当前的ROM实现不允许在制造之后改变或更新程序代码,尽管这在将来的实现中是可能的(例如,通过可编程ROM)。

测试程序的编写方式使得指令执行CPU内部的所有功能单元,如算术逻辑单元、加载/存储单元和分支单元,并使用设置为“cortex-m0plus”的CPU标志,使用armcc编译器进行编译。测试程序的流程图和详细描述如图2所示。当每个测试程序完成其执行时,测试程序的结果通过输出GPIO pin-off芯片传输到测试框架。

测试程序

a,一个简单的累加程序从ROM中读取值并将它们相加。如果总和与预期值匹配,则会向测试仪读取的GPIO输出引脚发送确认信号。该测试使用加载、添加、比较和分支指令。

b,一组32位整数值被即时写入RAM并在检查读取值与预期值的同时将它们读回。如果所有写入的值都被正确读取,则会向GPIO输出引脚发送确认信号。该测试使用加载、存储、添加、移位、逻辑、比较和分支指令。

c,从测试仪通过GPIO输入引脚连续读取一个值。该值被一个常量值屏蔽。如果屏蔽结果为1,则计数器递增。如果为0,则计数器复位。如果计数器值等于预期值,则会向GPIO输出引脚发送确认信号。该测试使用加载、存储、添加、逻辑、比较和分支指令。斜体字表示测试程序中的变量;粗体和大写的术语是引脚和存储。

众所周知,IGZO TFT可以弯曲到3毫米的曲率半径而不会损坏,PragmatIC还通过将其自己的电路反复弯曲到这个曲率半径来验证这一点。然而,所有PlasticARM测量都是在柔性晶圆保留在其玻璃载体上的情况下进行的,使用位于Arm Ltd的标准晶圆测试设备,在室温下进行。PlasticARM的测量结果与其模拟结果进行了验证。测量设置、结果及其对模拟的验证的详细信息可以在方法中找到。

表1显示了PlasticARM的实现和测量的电路特性,并与以前使用金属氧化物TFTs构建的最佳天然柔性集成电路进行了比较。PlasticARM的面积为59.2 mm 2(无焊盘),并包含56340个器件(n型TFT加电阻)或18334个NAND2等效门,至少比之前最好的集成电路(即二进制神经网络(BNN)FlexIC)高出12倍。微处理器的时钟频率最高可达29 kHz,功耗仅为21 mW,主要是(>99%)静态功耗,其中处理器占45%,存储器占33%,外设占22%。SoC使用28个引脚,包括时钟、复位、GPIO、电源和其他调试引脚。此设计中没有使用专门的静电放电缓解技术。相反,所有输入都包含140pF电容器,而所有输出都由带有有源上拉晶体管的输出驱动器驱动。

表1:用金属氧化物TFT构建的柔性集成电路的优点

任何电阻负载技术的一个关键挑战是功耗。我们预计正在开发的低功耗单元库将支持更高的复杂性,高达约100000个门。迁移到超过1000000个门可能需要互补金属氧化物半导体(CMOS)技术。

结论


我们报道了一种柔性32位微处理器PlasticARM,采用0.8μm金属氧化物TFT技术制作。我们已经演示了一个SoC的功能,它有一个32位Arm处理器制作在一个灵活的衬底上。它可以利用现有的软件/工具支持(比如编译器),因为它与Armv6-M架构中的Arm Cortex-M类处理器兼容,所以不需要开发软件工具链。最后,据我们所知,它是目前为止用金属氧化物tft制作的最复杂的柔性集成电路,包含超过18000个栅极,至少比以前最好的集成电路高12倍。

我们设想,PlasticARM将率先开发低成本、完全灵活的智能集成系统,使“万物互联”成为可能,包括在未来10年将超过一万亿无生命物体集成到数字世界中。为日常用品提供超薄、兼容、低成本、天生灵活的微处理器将带来创新,从而带来各种研究和商业机会。

方法


  • 执行

为了充分利用现代集成电路设计流程提供的高度自动化、快速周转实现和验证,我们开发了一个小型标准单元库。标准单元库是一些小的预先验证构建块的集合,使用复杂的电子设计自动化工具,如合成、放置和布线,可以快速而轻松地构建更大更复杂的设计。

在开始实施标准单元库之前,先进行了一些初步调查,以便在目标技术的限制下确定最适合该库的标准单元架构。单元架构是库中每个单元共有的一组特征,例如单元高度、电源带尺寸、布线网格等,它们允许单元以标准方式咬合在一起以形成更大的结构。这些共同特征主要受制造过程的设计规则支配,但也受最终设计的性能和面积要求的影响。

一旦建立了单元架构,下一步就是确定单元库的内容,不仅要考虑各种逻辑功能,还要确定每个逻辑功能的驱动强度变体的数量。由于设计、实施和表征每个标准单元所涉及的工作量很大,因此决定使用小型原型库进行一些试验,然后根据需要扩展库。为了评估这个小型原型标准单元库的性能,实施、制造和测试了一些简单的代表性电路(例如环形振荡器、计数器和移位阵列)。

我们从1.0-μm设计规则迁移到新的FlexIC 0.8-μm设计规则以减少面积,从而提高产量。由于这意味着用更小的晶体管重新绘制库中的每个单元,我们也借此机会更改了标准单元架构,以包括MT1(金属跟踪1)引脚,以便路由器更容易连接单元。电阻材料的改进(更高的薄层电阻,R s)也使电阻器的尺寸减小了3倍。

晶体管和电阻器尺寸的显着减小使大多数单元的面积减少了约50%(参见扩展数据图1),这反过来又通过降低设计的整体尺寸提高了制造良率。但是,由于仍然存在制造良率问题,我们可以通过更改标准单元架构来进一步缓解这些问题,因此再次重新绘制了该库。这一次,我们专注于可以提高最终设计整体良率的事情,例如包含冗余过孔和触点、减少源极-漏极多边形中的顶点数量(如果可能)以及将堆叠晶体管的尺寸保持在最低限度。此外,我们恢复到较低的薄层电阻以改善工艺扩展,但我们能够通过使用更窄的电阻器来保持面积节省。为了提高逻辑综合的整体质量,库中添加了许多复杂的AND-OR-INVERT和OR-AND-INVERT逻辑门以及一些高驱动强度的简单逻辑门,例如NAND2_X2和NOR2_X2。

FlexLogIC工艺是NMOS工艺,因此依赖电阻负载将单元输出拉向电源以驱动逻辑1。因此,单元输出上升时间比下降时间慢得多,而且这种不对称性会影响性能,尤其是对于重载网络。为了改善关键网络(例如时钟)的时序,我们添加了带有有源晶体管上拉的缓冲器。虽然这些有源上拉增加了少量的面积,但它们确实具有降低静态功耗的额外好处。具有上拉电阻和有源晶体管上拉的缓冲器的布局和模拟传输特性如图2所示。

这个简单的标准单元库随后被成功用作目标技术,使用基于行业标准电子设计自动化工具的典型集成电路设计流程来实现PlasticARM SoC。扩展数据表1显示了标准单元库内容和单元使用信息。

由于我们还没有专用的静态随机存取存储器FlexIC,我们通过将一些修改过的标准单元小心地放置在一个平铺的阵列中,通过邻接连接形成一个32×32位的存储器(这个块可以在图1c中的芯片布局)。

FlexLogIC技术(见扩展数据表2)有四个可路由的金属层,其中只有较低的两层在标准单元内使用。这使得最上面的两层金属层可以用于标准电池之间的互连,然后可以在相邻电池的顶部进行路由,从而大大提高了总体栅极密度,约为每平方毫米300个栅极。

  • 制造

扩展数据表2中总结了工艺参数和TFT参数的统计变化.FlexLogIC是一种专有的200毫米晶圆半导体制造工艺,可创建金属氧化物薄膜晶体管和电阻器的图案层,根据FlexIC设计将四个可布线(无金)金属层沉积在柔性聚酰亚胺基板上。FlexIC设计的重复实例是通过运行多个薄膜材料沉积、图案化和蚀刻序列来实现的。为了便于操作并允许使用行业标准工艺工具并实现亚微米图案化特征(低至0.8μm),柔性聚酰亚胺基板在生产开始时旋涂到玻璃上。该工艺已经过优化,以确保在20毫米的横向距离内厚度变化基本上小于3%。薄膜材料沉积是通过物理气相沉积、原子层沉积和溶液处理(例如旋涂)的组合实现的。基板处理条件已经过精心优化,以最大限度地减少薄膜应力和基板弯曲。使用光刻5倍步进器工具实现特征图案化,该工具对在200毫米直径晶圆上的多个实例重复的镜头进行成像。每个镜头都是单独聚焦的,这进一步补偿了旋铸薄膜内的任何厚度变化。技术测量是使用过程控制监控结构进行的。使用光刻5倍步进器工具实现特征图案化,该工具对在200毫米直径晶圆上的多个实例重复的镜头进行成像。每个镜头都是单独聚焦的,这进一步补偿了旋铸薄膜内的任何厚度变化。技术测量是使用过程控制监控结构进行的。使用光刻5倍步进器工具实现特征图案化,该工具对在200毫米直径晶圆上的多个实例重复的镜头进行成像。每个镜头都是单独聚焦的,这进一步补偿了旋铸薄膜内的任何厚度变化。技术测量是使用过程控制监控结构进行的。

  • 模拟、测试和验证

我们使用测试测量设置捕获了功能性PlasticARM FlexIC的时序特性,并将测量结果与其寄存器传输级(RTL)仿真的结果进行比较,以验证功能。

RTL仿真如图3所示。它首先将RESET输入设置为“0”,将PlasticARM重置为已知状态。然后RESET设为\\'1\\',处理器从重置状态释放,开始从ROM执行代码。首先,GPIO[0]输出引脚被切换一次,然后执行如图2所示的三个测试。在第一个测试中,从ROM中读取数据并将其添加到累加器中,并与期望值进行比较(见图2a)。如果值匹配,将两个脉冲的短脉冲发送到GPIO[0],如图3a扩展数据所示。如果值不同,扩展数据图3b中GPIO[0]上脉冲的周期和占空比会增加。在第二个测试中(图2b),将数据写入RAM,读回并进行比较。如果数据在从RAM中写入或读取时没有损坏,则3个脉冲的短脉冲发送到GPIO[0],如图3a中的扩展数据所示。如果数据被破坏,GPIO[0]上脉冲的周期和占空比会像以前一样增加。在最后的测试中(图2c),处理器进入一个无限循环并测量GPIO输入引脚[1]上应用\\'1\\'的时间。如果GPIO[1]保持在\\'1\\'而没有任何故障,GPIO[0]从\\'0\\'变为\\'1\\'。PlasticARM的时钟频率为20khz。由于它不使用任何计时器,软件中选择了一个值来表示GPIO[1]信号在20khz工作时保持在\\'1\\'约1秒。在扩展数据图3a的模拟中,该值对应于20,459个时钟周期,在20 kHz时产生1.02295 s。

制造完成后,PlasticARM在晶圆探针台上进行测试,同时仍连接到玻璃载体上。包括时钟信号在内的输入信号是使用Xilinx的ZC702 FPGA评估板在外部生成的。输入和输出信号都是使用Saleae Logic Pro 16逻辑分析仪捕获的。测量在3 V和4.5 V下进行,具有不同的时钟频率。扩展数据图4显示了电源设置为3 V和时钟频率为20 kHz的实验。ZC702 I/O电压将输入和输出限制为2.5 V。测量数据波形显示在扩展数据图4a中,与扩展数据图3a中所有三个测试的RTL仿真中的波形相匹配.PlasticARM在3 V时最高可达29 kHz,在4.5 V时最高可达40 kHz。

英文链接:

https://www.nature.com/articles/s41586-021-03625-w


Arm架构服务器的开源应用

Arm架构服务器和存储

ARM系列处理器应用技术完全手册

CPU和GPU研究框架合集

1、行业深度报告:GPU研究框架

2、信创产业研究框架

3、ARM行业研究框架

4、CPU研究框架

5、国产CPU研究框架

6、行业深度报告:GPU研究框架


本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料






免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。


电子书<服务器基础知识全解(终极版)>更新完毕,知识点深度讲解,提供182页完整版下载。

获取方式:点击“阅读原文”即可查看PPT可编辑版本和PDF阅读版本详情。



温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。


浏览 31
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报