专用的的嵌入式处理器可加速端点AI工作负载

当前位置：首页 > 嵌入式培训 > 嵌入式学习 > 讲师博文 > 专用的的嵌入式处理器可加速端点AI工作负载

专用的的嵌入式处理器可加速端点AI工作负载时间：2020-05-12 来源：原创

尽管AI和ML应用程序的加速仍是一个相对较新的领域，但涌现出各种处理器来加速几乎任何神经网络的工作量。从处理器巨头到行业中一些最新的初创公司，它们都提供不同的东西–无论是针对不同的垂直市场，应用领域，功率预算还是价格点。这是当今市场上的快照。

应用嵌入式处理器

Intel Movidius Myriad X Myriad X

由爱尔兰初创公司Movidius开发，并于2016年被Intel收购.Myriad X是该公司的第三代视觉处理单元，也是第一个配备专用神经网络计算引擎的设备，每秒可提供1兆兆位运算的运算速度（专用深度神经网络（DNN）计算。神经计算引擎直接与高吞吐量智能存储结构接口，从而避免在传输数据时出现任何存储瓶颈。它支持FP16和INT8计算。Myriad X还具有16个专有SHAVE内核以及升级和扩展的视觉加速器的集群。
Myriad X可用于英特尔的Neural Compute Stick 2，实际上是USB拇指驱动器形式的评估平台。可以将其插入任何工作站，以允许AI和计算机视觉应用程序快速启动并在专用Movidius硬件上运行。

NXP半导体i.MX 8M加上
该i.MX 8M加是多相嵌入式处理器提供来自芯原（图芯VIP8000）专用的神经网络加速器IP。它为消费和工业物联网（IIoT）中的端点设备提供2.3 TOPS的加速推理能力，足以进行多对象识别，40,000个单词的语音识别甚至是医学成像（MobileNet v1，每秒500张图像）。

除神经网络处理器外，i.MX 8M Plus还具有以2 GHz运行的四核Arm Cortex-A53子系统，以及Cortex-M7实时子系统。

对于视觉应用，有两个图像信号处理器支持两个用于立体视觉的高清摄像机或一个12兆像素（MP）摄像机。对于语音，该设备包括一个800-MHz HiFi4音频数字信号处理器（DSP），用于语音数据的预处理和后处理。

i.MX 8M Plus是该公司首款带有专用神经网络加速器的应用处理器。专为物联网应用而设计。

的xcore.ai旨在使物联网（AIoT）应用人工智能语音控制。该设备是交叉处理器（具有应用处理器的性能以及微控制器的低功耗实时操作），旨在用于机器学习对语音信号的推理。
它基于XMOS专有的Xcore架构，它本身基于称为逻辑核心的构建块构建，可用于I / O，DSP，控制功能或AI加速。每个xcore.ai芯片上有16个这样的内核，设计人员可以选择为每个功能分配多少个内核。通过将不同功能映射到固件中的逻辑内核，可以创建完全由软件编写的“虚拟SoC”。XMOS在Xcore中增加了向量流水线功能，可用于机器学习工作负载。
xcore.ai支持32位，16位，8位和1位（二进制）网络，可提供3200 MIPS，51.2 GMACC和1600 MFLOPS。它具有1 MB的嵌入式SRAM以及一个用于扩展的低功耗DDR接口。

XMOS的xcore.ai基于专有架构，是专门为语音处理嵌入式程序中的AI工作负载而设计的。

汽车SoC

德州仪器
（TI）TDA4VM TDA4VM是用于汽车高级驾驶员辅助系统（ADAS）的Jacinto 7系列的一部分，是TI的首个片上系统（SoC），其片上具有专用的深度学习加速器。该模块基于C7x DSP以及内部开发的矩阵乘法加速器（MMA），可实现8 TOPS。
SoC可以处理高达8 MP的前置摄像头的视频流，也可以处理四到六个3-MP摄像头以及雷达，LiDAR和超声传感器的组合。例如，MMA可用于在自动代客泊车系统中对这些输入执行传感器融合。TDA4VM设计用于5至20 W之间的ADAS系统。

显卡

Nvidia Corp. Jetson Nano
Nvidia著名的Jetson Nano是一个小型但功能强大的图形处理单元（GPU）模块，用于端点设备中的AI应用。Nano模块上的GPU具有与Jetson系列更大成员（AGX Xavier和TX2）相同的Maxwell架构，具有128个内核，并具有0.5 TFLOPS的容量，足以对来自高据该公司称，分辨率图像传感器。使用时功耗仅为5W。该模块还具有四核Arm Cortex-A57 CPU。
与Nvidia系列产品中的其他部件一样，Jetson Nano使用CUDA X，这是Nvidia用于神经网络的加速库集合。廉价的Jetson Nano开发套件可广泛获得。

Nvidia的Jetson Nano模块在边缘装有功能强大的GPU，具有128个AI内核。

消费者协处理器

Kneron Inc. KL520
美国台湾创业公司Kneron的第一款产品是KL520神经网络处理器，它专为智能家居，安全系统和移动设备等应用中的图像处理和面部识别而设计。它经过优化，可以运行卷积神经网络（CNN），这是当今图像处理中常用的类型。
KL520可以运行0.3 TOPS并消耗0.5 W（相当于0.6 TOPS / W），鉴于芯片的MAC效率很高（超过90％），该公司表示这足以实现精确的面部识别。芯片架构是可重新配置的，可以针对不同的CNN模型进行定制。该公司的互补编译器还使用压缩技术，以帮助在芯片资源内运行更大的模型，从而帮助节省功耗和成本。
KL520现已上市，也可以在制造商AAEON的加速卡（M2AI-2280-520）中找到。

Kneron的KL520使用可重新配置的体系结构和巧妙的压缩功能来在移动设备和消费类设备中运行图像处理。

Gyrfalcon Lightspeeur 5801

专为消费电子市场而设计，Gyrfalcon的Lightspeeur 5801在224 mW的功耗（相当于12.6 TOPS / W）下提供2.8 TOPS的延迟，延迟为4毫秒。与其他架构相比，该公司使用了内存处理器技术，该技术特别节能。通过在50和200 MHz之间改变时钟速度，实际上可以用时钟速度来权衡功耗。Lightspeeur 5801包含10 MB的内存，因此整个模型都可以安装在芯片上。
这部分是公司的第四款生产芯片，已经在LG的Q70中端智能手机中找到，该芯片可以处理相机效果的推断。现在提供USB拇指驱动器开发套件5801 Plai Plug。

超低功耗

Eta Compute ECM3532
Eta Compute的首款生产产品ECM3532专为电池供电或物联网的能量收集设计中的AI加速而设计。低至100 µW的功率预算可实现图像处理和传感器融合中的始终在线应用。
该芯片具有两个内核-Arm Cortex-M3微控制器内核和NXP CoolFlux DSP。该公司使用专有的电压和频率缩放技术，该技术可调节每个时钟周期，以将两个内核的最后一滴功耗拧干。机器学习工作负载可以由任一核处理（例如，某些语音工作负载更适合DSP）。
ECM3532的样品现已上市，预计将于2020年第二季度开始量产。

Syntiant Corp. NDP100
美国初创公司Syntiant的NDP100处理器设计用于在功率紧张的应用中对语音命令进行机器学习推理。它的基于内存的处理器的硅片消耗的有功功率小于140 µW，并且可以运行用于关键词发现，唤醒词检测，说话者识别或事件分类的模型。该公司表示，该产品将用于实现诸如耳塞，助听器，智能手表和遥控器等消费类设备的免提操作。开发套件现已上市。

Syntiant的NDP100设备专为超低功耗应用中的语音处理而设计。

GreenWaves Technologies GAP9
GAP9是法国初创公司GreenWaves的第一款超低功耗应用处理器，它具有由9个RISC-V内核组成的强大计算集群，其指令集已经过大量定制以优化功耗。它具有双向多通道音频接口和1.6 MB的内部RAM。
GAP9可以处理电池供电的IoT设备中用于图像，声音和振动感应的神经网络工作负载。GreenWaves的数据显示，GAP9在160×160的图像上运行MobileNet V1，仅在12毫秒内通道缩放为0.25，功耗为806μW/帧/秒。

上一篇：嵌入式开发套件可加速物联网设计

下一篇：未来十年的嵌入式音频发展趋势

热点文章推荐

华清学员就业榜单

高薪学员经验分享

热点新闻推荐