基于FeFET的动态可重构FPGA：实现亚纳秒级上下文切换的硬件加速新架构-北京尧图网络科技有限公司

1. 项目概述与核心挑战如果你在硬件加速领域摸爬滚打过几年大概率会对FPGA又爱又恨。爱的是它无与伦比的灵活性恨的是它在“灵活”和“高效”之间那道难以逾越的鸿沟。传统基于SRAM的FPGA其可重构性是通过烧写配置位流到SRAM单元来实现的。这带来了一个经典矛盾想要支持多套配置上下文来应对不同任务要么在芯片上堆砌多份硬件资源导致面积和成本爆炸要么就得忍受漫长的位流重加载时间导致性能断崖式下跌。在需要实时、动态切换任务的场景比如自适应深度学习推理、多协议通信切换这个矛盾尤为突出。最近几年学术界和工业界一直在寻找破局之道。从早期的“时间复用FPGA”到后来的“部分可重构”技术思路都是“空间换时间”或者“时间换空间”始终没能跳出这个权衡的怪圈。直到新型非易失性存储器技术特别是铁电场效应晶体管FeFET的成熟才让我们看到了从底层器件层面颠覆架构设计的可能性。FeFET的妙处在于它本身既是一个标准的晶体管又是一个非易失的存储单元。这意味着用它来构建FPGA的基本逻辑和路由单元可以做到前所未有的紧凑并且因为“非易失”静态功耗几乎为零。我们这次要深入探讨的就是基于FeFET构建一套支持动态上下文切换的FPGA架构。它的核心目标很明确在几乎不增加额外芯片面积的前提下实现配置的“零延迟”切换从而让FPGA在需要频繁切换任务的场景下真正发挥出硬件加速的威力。这不仅仅是换了个存储器件那么简单而是一次从技术、电路到架构的协同设计。2. 技术选型为什么是FeFET在深入架构之前我们必须先搞清楚在众多新兴非易失性存储器中为什么FeFET成为了这项设计的基石。这关乎到整个方案的可行性与优势上限。2.1 主流存储技术的FPGA实现对比传统的SRAM开关是6T结构6个晶体管加一个传输管结构复杂面积大而且最要命的是静态泄漏功耗高在FPGA漫长的互连线上这部分功耗能占到总功耗的60%-70%。为了追求高密度和低功耗人们把目光投向了嵌入式非易失性存储器。闪存Flash非易失、密度高但编程速度慢毫秒级需要高压~10V与先进逻辑工艺兼容性差。阻变存储器ReRAM和相变存储器PCM都是两端器件密度高但通常需要较大的编程电流写功耗高而且开关电阻比有限~100倍往往需要额外的晶体管来构成可靠的开关单元如1T2R结构反而增加了复杂度。自旋转移矩磁存储器STT-MRAM速度快耐久性好但开关电阻比更低~5倍需要更复杂的支持电路来确保读写的可靠性。2.2 FeFET的独特优势FeFET的突破性在于它将铁电材料如掺杂的HfO₂集成到了晶体管的栅极叠层中。通过改变铁电畴的极化方向可以可逆地调节晶体管的阈值电压VTH从而将“0”和“1”状态以低VTH和高VTH的形式存储下来。这带来了几个对FPGA设计至关重要的特性真正的1晶体管单元一个FeFET自身就能同时完成存储和开关功能。实现一个单配置路由开关只需要1个FeFET实现一个支持动态重配置的双配置开关也仅需2个晶体管2个FeFET。相比之下SRAM方案需要6T1T之前的FeFET/CMOS混合方案也需要2T-1FeFET。面积优势是碾压性的。场控编程能效极高FeFET的状态切换依靠的是电场而非大电流。这意味着其写操作能耗极低通常在飞焦耳每比特级别这对于需要频繁更新配置的动态场景至关重要。优异的CMOS工艺兼容性基于HfO₂的铁电材料可以直接在标准的28nm乃至更先进的高K金属栅工艺上集成无需颠覆性的产线改造量产可行性高。大的开关电流比实验表明其高、低VTH状态下的电流比可达10⁶量级这保证了在作为开关或存储单元读取时信号“0”和“1”之间有非常清晰的区分度电路设计容差大可靠性好。实操心得技术选型的权衡选择FeFET并非仅仅因为它“新”。在评估时我们建立了一个包含面积、读写延迟、功耗、工艺成熟度、可靠性等多个维度的评分卡。FeFET在面积和写功耗上的优势是决定性的。虽然其作为开关的绝对传输速度可能略低于理想MOSFET但结合其非易失性带来的系统级优势如无需刷新、快速唤醒在整体系统性能评估中脱颖而出。对于硬件架构师来说永远不能只盯着单个器件的峰值性能必须放在系统上下文里权衡。3. 核心电路设计从单元到阵列有了FeFET这个利器接下来就是如何用它来构建FPGA的三大核心部件查找表、连接块和开关盒。3.1 超紧凑的FeFET查找表单元传统SRAM查找表的核心是一个SRAM阵列加一个多路选择器。每个存储位需要一个6T SRAM单元。在我们的设计中一个存储位仅需1个FeFET加1个共享的PMOS管。工作原理写操作编程通过向FeFET的栅极施加正或负的写脉冲如±4V 1µs将其设置为低VTH代表‘0’或高VTH代表‘1’状态。读操作在读取时对选中的FeFET栅极施加一个介于高、低VTH之间的读电压VREAD。如果FeFET处于低VTH状态它将被强导通输出节点通过FeFET下拉至近地电平逻辑‘0’如果处于高VTH状态FeFET几乎关闭输出节点被共享的PMOS管上拉至近电源电压逻辑‘1’。这个共享的PMOS管其栅极偏置VB经过精心设计使其导通电阻介于FeFET两种状态的导通电阻之间从而确保输出信号能实现轨到轨的完整摆幅。动态双配置支持为了支持动态重配置我们将两个这样的单配置LUT并联并增加一个多路选择器。这两个LUT共享输入选择线但拥有独立的字线和体线用于编程。这样当配置A正在执行计算时我们可以通过字线和体线对配置B的FeFET阵列进行后台编程加载新的逻辑功能。切换时仅需改变多路选择器的选择信号通常在亚纳秒内完成即可激活新的配置实现“上下文切换”。3.2 高效的路由单元连接块与开关盒路由资源连接块CB和开关盒SB占据了FPGA绝大部分的面积和功耗。用FeFET实现路由开关是降低面积和功耗的关键。单配置路由开关1FeFET这是最精简的形式。一个FeFET直接作为传输门其栅极电压由配置位控制。导通低VTH即连接关断高VTH即断开。由于非易失保持状态无需功耗。双配置动态路由开关2T-2FeFET这是实现动态重配置的核心。每个配置分支由一个FeFET和一个与之串联的CMOS传输管组成。CMOS管的作用是“使能”控制。正常执行阶段活动分支的使能管打开其FeFET根据存储的状态决定信号通路是否连通。非活动分支的使能管关闭彻底切断该支路避免干扰。后台重配置阶段假设配置1正在运行我们需要加载配置2。此时配置2分支的使能管保持关闭我们通过其FeFET的栅极和体线施加编程电压将其状态更新为目标值低VTH或高VTH。由于使能管关闭编程操作产生的任何扰动都不会影响到正在活动的配置1分支的信号完整性。实验验证我们在28nm HKMG工艺的FeFET器件上进行了电路功能验证。通过示波器捕捉的波形可以清晰看到在对一个分支进行编程写入脉冲的同时另一个分支的信号传输完全不受影响输出稳定。编程结束后通过切换使能信号新配置被瞬间激活输出信号随之切换。这从实验上完美证实了“运行中重配置”的可行性。注意事项编程干扰的抑制在双分支结构中对一个分支的FeFET编程时尽管有使能管隔离但通过共享的硅衬底体仍可能存在微弱的耦合干扰。我们采用了经典的“抑制偏置”方案来解决在编程目标单元时对同一行非目标单元的体线施加一半的编程电压如Vprog/2从而将栅-体电压差控制在不足以改变其状态的范围内。实验和仿真均证明该方案能有效保证非目标单元的数据保持特性。4. 架构实现与系统级评估将上述紧凑的单元组合起来就构成了支持动态上下文切换的FPGA整体架构。4.1 架构全景架构的核心思想是为每个可配置逻辑块和路由资源都配备双份的物理副本分别对应两个配置上下文。这些副本在空间上是并排放置的。整个芯片的配置存储器也相应地被组织起来可以独立地向两个上下文加载配置数据。执行与重配置并行上下文A正在执行计算任务时配置数据可以通过后台总线悄悄地加载到上下文B的存储单元中。由于FeFET的非易失性加载过程无需刷新功耗极低。亚纳秒级切换当需要从上下文A切换到上下文B时只需将全局或局部的“配置选择”信号翻转将信号路径从A的副本切换到B的副本。这个操作本质上是一个多路选择器的切换延迟在1纳秒以内与动辄毫秒量级的SRAM位流重加载相比可以忽略不计。面积代价分析你可能会担心双副本带来的面积翻倍。但由于FeFET单元本身极其紧凑一个双配置的FeFET LUT单元面积仅为传统SRAM单配置LUT的37%一个双配置的FeFET CB单元面积仅为SRAM单配置CB的29%。也就是说我们用不到SRAM方案一半的面积实现了双配置支持。4.2 性能与能效评估我们使用HSPICE仿真和业界标准的FPGA架构评估工具链VTR进行了全面的评估并与SRAM、ReRAM、STT-MRAM方案进行了对比。单元级对比45nm节点组件技术方案单元结构读取延迟读取功耗面积占比 (vs. SRAM)6输入LUTSRAM (基准)6T SRAM阵列127.6 ps18.8 µW100%FeFET (单配置)1FeFET 单元阵列124.3 ps13.1 µW18.5%FeFET (双配置)双份1FeFET阵列MUX137.3 ps22.6 µW37.0%连接块 CBSRAM (基准)6T1T2.0 ps137.6 nW100%FeFET (单配置)1FeFET5.3 ps8.0 nW8.5%FeFET (双配置)2T-2FeFET7.8 ps23.8 nW28.9%开关盒 SBSRAM (基准)6T1T25.5 ps2.8 µW基准FeFET (单配置)1FeFET29.2 ps0.7 µW显著降低FeFET (双配置)2T-2FeFET47.4 ps1.3 µW显著降低关键结论面积与功耗碾压FeFET方案在面积和动态功耗上具有绝对优势。双配置FeFET CB的功耗仍比单配置SRAM CB低一个数量级。延迟的权衡FeFET作为开关的传输延迟确实比理想MOSFET高约2-3倍。这导致FeFET路由单元的延迟稍大。系统级关键路径影响然而将单元延迟代入完整的FPGA布局布线流程进行评估后发现由于LUT的延迟在整体关键路径中占主导地位而FeFET LUT的延迟与SRAM相当甚至略优因此FeFET单配置FPGA的整体关键路径延迟比SRAM基准降低了8.6%。即使对于双配置版本由于增加了选择MUX关键路径延迟也仅比SRAM基准增加9.6%。这是一个用微小的延迟代价换取面积、功耗和重配置能力巨大提升的绝佳交易。5. 应用案例与性能收益理论再好也要看实战效果。我们设计了三个典型的应用场景来验证架构的价值。5.1 案例一动态推理的图像分类Super-Sub网络这是最能体现动态上下文切换价值的场景。一个两阶段分类网络先由“超类”网络判断图像属于“狗”、“猫”还是“鸟”如果判断为“狗”则立刻切换到一个更精细的“子类”网络如识别哈士奇、金毛等。传统FPGA的困境方案A双芯片用两块FPGA芯片分别承载超类和子类网络。无切换延迟但面积和成本翻倍。方案B单芯片重配置一块FPGA先运行超类网络完成后停止计算花费数毫秒甚至更长时间重配置为子类网络再运行。切换延迟巨大。FeFET动态可重构FPGA的方案将超类网络配置A和所有子类网络配置B1 B2...预先加载到FPGA的双配置上下文中。运行时先执行配置A超类网络。得到“狗”的结果后在1纳秒内切换到对应的“狗子类”网络配置例如配置B1。继续执行得到最终子类结果。收益实现了零感知的配置切换。与方案A比面积更小与方案B比延迟极低。实验表明这种动态推理策略能将分类准确率提升高达3%。5.2 案例二双配置预加载与快速切换考虑一个需要频繁在两种神经网络如ResNet50和MobileNetV1间切换的应用。传统FPGA每次切换前都需要经历完整的重配置过程耗时巨大。本设计将两个网络的配置预先加载到两个上下文中。切换时仅是电路通路的选择切换耗时1ns。性能提升在这种场景下平均可获得78.7%的时间节省极端情况下计算时间与重配置时间重合度高提升可达97.5%。5.3 案例三多配置动态重配置更一般的场景是需要按顺序执行A、B、C三个不同的网络任务。传统FPGA总时间 A执行时间 A到B重配置时间 B执行时间 B到C重配置时间 C执行时间。重配置时间是完全的额外开销。本设计当任务A在执行时后台可以同时加载任务B的配置。理想情况下如果B的加载时间小于等于A的执行时间那么B的加载时间就被完全“隐藏”了。切换到B之后又可以后台加载C。性能提升通过这种重叠平均可获得20.3%的总任务时间节省最高可达37.4%接近50%的理论上限。6. 设计挑战与未来展望尽管前景光明但将基于FeFET的动态可重构FPGA推向实用化仍面临一些工程挑战。6.1 耐久性与可靠性铁电材料有写耐久性限制通常为10¹⁰到10¹²次循环。对于需要极端频繁重配置的应用例如每时钟周期都切换这可能成为一个瓶颈。需要在架构层面引入磨损均衡算法动态地将写操作分布到不同的FeFET单元上类似于SSD中的做法。6.2 工艺变异与良率新型器件在量产初期的均匀性和良率是关键。HfO₂基FeFET的阈值电压窗口记忆窗口会存在工艺波动。这需要在电路设计时留足噪声容限并可能引入片上校准或纠错机制。6.3 设计工具链支持现有的FPGA CAD工具综合、布局布线、位流生成都是为SRAM架构优化的。需要开发新的工具来支持FeFET器件的特性建模、双配置资源的描述、以及动态重配置的调度策略。6.4 更广阔的应用场景除了深度学习这种动态可重构架构在软件定义无线电SDR、实时视频编码转换、自适应加密算法等领域都有巨大潜力。任何需要硬件功能“即时切换”的场景都是它的用武之地。从我个人的工程实践角度看这项技术正处在从实验室走向产业化的前夜。它解决的不是一个痒点而是FPGA作为“灵活硬件”在动态自适应场景下的一个核心痛点。FeFET器件工艺的不断成熟将是其最终落地的关键推手。对于硬件开发者而言现在开始关注并理解这种架构的潜力意味着在未来一到两年内当相关芯片或IP核面世时你能率先将其应用于那些对灵活性和能效有极致要求的场景中构建出真正具有颠覆性的系统。

基于FeFET的动态可重构FPGA：实现亚纳秒级上下文切换的硬件加速新架构

相关资讯