二十年前,它看起来像一个准备就绪的概念:将可编程逻辑放入ASIC和SoC中。当时,此举似乎是不可避免的。ASIC掩模价格正在快速上涨,这是因为需要从一堆光学技巧中拉出越来越多的东西以保持摩尔定律的正常进行。仅凭重新设计的成本就足以说服设计人员在其SoC中保留一些可重新编程的“缝纫工具包”,以使他们在流片后消除错误,而不必为该项目投入数万美元以获取新的防护罩。
尽管由于掩模成本飙升至100万美元甚至更高而引起的明显吸引力,但嵌入式现场可编程门阵列(FPGA)内核的供应商发现很难获得任何吸引力。初创企业和成熟的FPGA厂商(例如Actel)都将自己的脚趾浸入水中,但却找不到客户群。
设计公司eSilicon的业务和企业发展副总裁Patrick Soheili说:“关于将定制FPGA架构放入ASIC的争论来了又去了。每次都关闭。该方法的问题在于您正在使用ASIC,因为您想要ASIC的效率。通过添加可能未充分使用的FPGA内核,您将增加开销。”
野蛮经济学
从纯硅成本的角度来看,嵌入式FPGA内核的经济效益是残酷的。即使包括了硬存储器宏,由于可编程路由的灵活性带来的密度损失,通常要以10到20的比率作为经验法则。但是嵌入式FPGA专家一直坚持不懈。法国初创公司Adicsys的起源可以追溯到M2000,后者在十年前成功赢得了一些设计大奖。
诸如Flex Logic和Menta之类的较新的初创公司试图减少路由开销。当Menta推出其第四代嵌入式FPGA内核时,Menta专注于查找表(LUT)之间最常用的连接配置,以试图降低开销。Flex Logic首席执行官Geoff Tate声称相对互连密度是他的初创企业的主要区别:“我们的联合创始人提出了一种更高效的互连,我们最终使用了更少的金属层,但仍实现了90%或更高的利用率。”
尽管硅面积仍然是一个问题,但与其他问题相比,正在出现使成本方面退居第二位的市场。几年前,由于相信嵌入式FPGA内核的时代已经来临,Achronix决定从销售独立部件中脱颖而出。尽管该公司在英特尔生产自己的Speedster FPGA,但该公司选择将其自定义核心IP移植到台积电的16nm finFET工艺中,以迎合使用台湾代工厂的更大潜在客户群。
自从那时起,Achronix营销副总裁Steve Mensor表示,由于认识到态度的转变,该公司已将重点转移到将自己展示为“数据加速”公司。与其将精力集中在设计团队的财务成本(例如掩模更换)上,不如着重强调其他成本(例如功耗)以及构建高度灵活的数据加速器的能力,这些数据加速器可以在运行时更改其算法。在短期内,Achronix的主要市场是5G通信。
Tate看到了相同的趋势:“从历史上看,[无线电信]一直是[离散] FPGA的少数大批量应用程序之一。但是它们有问题:它们不能足够快地将数据移入和移出FPGA。它们还存在协议变得更加复杂并分阶段实施的问题。[使用eFPGA]如果他们犯了错误并且仍然可以迅速推向市场,他们可以进行调整。”
军事部门帮助Flex Logic脱颖而出。泰特(Tate)说,与DARPA和Sandia Laboratories达成了一项将核芯放入辐射硬化的180nm工艺中的协议,这有助于向finFET工艺移植。他补充说:“这导致了在GlobalFoundries的14nm工艺上的大量设计。”
涌现出了其他对使用嵌入式FPGA感兴趣的市场。Mensor指出,至少在短期内,加密货币挖矿对Achronix至关重要。从长远来看,更大的市场可能在于机器学习,这是一个快速增长的领域,其需求与5G基站制造商的需求相似,而如果有的话,其标准可能需要近十年的时间才能固化。
机器学习
尽管他总体上对嵌入式FPGA的机会持怀疑态度,但Soheili仍将机器学习视为该技术可以得分的地方:“我认为现在是时候出现了。您也许可以成批使用一百万个LUT或十万个LUT,并将它们用于您知道将要更改的功能。”
Soheili说,机器学习设计的一种选择是使用封装级集成:“也许以小芯片的形式进行集成,因此您无需更改ASIC。”
英特尔的可编程系统部门正在采用小芯片的方法,即使用该公司的EMIB技术来互连封装内的小芯片。最初,这种技术已被用于将高速收发器置于独立的FPGA核周围,但相同的技术将允许FPGA和ASIC并排放置。
Mensor表示,需要降低功耗并充分利用片上互连的高带宽,这表明需要单片集成。除了提供基于LUT的通用模块之外,Achronix和Flex Logic还开发了算术模块,这些算法模块已针对当今针对嵌入式系统(如自动驾驶车辆,语音处理器和机器人)的深度学习管道中使用的处理类型进行了调整。主要关注点是8位乘加,因为该位分辨率已迅速成为在基于深度神经网络的机器学习中进行推理的最佳地点。但这是一个快速发展的领域,每周都会出现深度学习架构的新变种。
Achronix为客户提供了定义自己的算术单元的能力,这些算术单元可以与LUT和现成的DSP模块一起放入并通过阵列进行复制。泰特(Tate)说,Flex Logic希望随着时间的推移为机器学习增加算术核心的其他变体。他说:“我们希望参与的客户能够告诉我们'这是我们真正想要做的'。”
Mensor说,Achronix的机器学习客户将嵌入式FPGA的使用视为战略性的,而不仅仅是最终将被硬连线的原型设计的一种方法:“所有对话都涉及CEO。对于机器学习功能非常繁重的应用程序,它的使用更具集成性和体系结构性。”
与Mensor一样,泰特(Tate)希望加速将成为促进将嵌入式FPGA推广到机器学习之外的因素。泰特(Tate)指出,赛灵思Zynq产品线的成功之处在于帮助说服微控制器制造商采用了该技术。他说:“我认为大多数人都希望拥有自己的类似Zynq的加速功能产品。”
Tate认为,安全性将成为MCU中基于FPGA加速的目标之一。“将有一些用于加密的硬核。但是,有很多适合嵌入式FPGA的加密方式。他们可以使用嵌入式FPGA的另一件事是I / O功能,以解决诸如SPI的非标准版本之类的问题。”
泰特说:“我们正在与MCU厂商合作,向他们展示他们可以将两者融合:I / O支持和加速。” “此外,我们还有其他想法可以使FPGA的行为更像处理器,从而使事物的进出交换变得更加容易。对于嵌入式FPGA设计,我们有一种切片方法:每个切片都可以运行不同的代码。然后,您可以将其更像是多核处理器,在其中可以想到每个子进程都运行一个子例程,并且无需学习RTL就可以创建它。”
悬而未决的问题是嵌入式FPGA在这些市场中的吸引力能否克服成本方面的障碍并最终加速其增长。