AI加速器初创公司Hailo在5月推出其第一款芯片Hailo-8之后,就透露了其新颖的计算架构的一些关键细节。
该公司于2017年2月由以色列国防军精锐情报部门的成员创立。如今,Hailo在特拉维夫总部拥有约60名员工。
Hailo在不到两年的时间里就成功地从概念转变为产品,迄今为止已经获得了2100万美元的A轮融资。他们拥有“至少十项”专利正在申请中。
性能和力量
在嵌入式视觉峰会上发布的Hailo-8拥有26 TOPS的性能和2.8 TOPS / W的显着功率效率。功耗是在ResNet-50上以8位精度在低分辨率视频(224 x 224于672 fps)上运行时进行测量的,批量大小为1。这比当前市场领先的汽车视觉解决方案好一个数量级。边缘推断。
Hailo产品营销总监Liran Bar在接受EETimes采访时强调,2.8 TOPS / W数字是基于实际应用的真实数字。
他说:“公司声称各种能效,但实际上他们将理论上的数量乘以拥有的TOPS,然后将其除以,”(按功耗)。“ [Hailo-8的26 TOPS是最大理论值,但这是假设您具有100%的利用率,在实际应用中情况并非如此。”
使用Mobile-Net-SSD在720p视频上进行图像检测以及在1080p视频上使用FCN-16进行语义分割的结果同样令人印象深刻。
在高清分辨率的镜头上运行[语义分割]网络,与其他需要降低输入传感器分辨率以满足实时要求的解决方案不同,这意味着我们可以识别更远的物体,并且OEM可以利用昂贵的输入他们正在使用的传感器,”巴尔说。
计算架构
Hailo的架构与CPU和GPU的主要区别在于缺少外部内存。相反,计算资源(内存,控制和计算模块)分布在整个芯片上。无需在芯片上和芯片外发送数据,就可以节省大量功率。
神经网络由层组成,每个层包括多个节点。在节点处,数据值乘以各种权重值,然后相加在一起,然后将结果传递到下一层。一层可能需要与下一层略有不同的计算资源。
Hailo的软件分析网络中每一层的需求并分配相关资源。分配给每一层的内存,控制和计算块都尽可能地彼此映射到芯片上,并且随后的各层都紧挨着安装。这个想法是使数据必须传播的距离最小化。
“创新来自架构本身,” Bar说。“我们没有做任何分块,我们没有做任何压缩,我们没有做任何稀疏性,传统计算体系结构不需要任何技术来克服带宽问题。”
他补充说:“没有硬件定义的管道,因此我们非常灵活,可以采用其他神经网络,硬件支持它们。但是,我们需要通过补充软件来弥补差距。”
在过去的两年中,软件和硬件已经紧密合作开发。包含专有量化方案的软件堆栈支持TensorFlow,第四季度将提供ONNX支持。
Hailo新颖的计算架构使用软件根据需要向神经网络分配片上存储器,控制和计算块
驾驶员协助
Hailo-8专为边缘设备中的神经网络加速而设计,特别针对汽车领域,目标是高级驾驶员辅助系统(ADAS)和自动驾驶应用。它正在通过芯片级别的ASIL-B(和系统级别的ASIL-D)认证,并且已通过AEC-Q100认证。
Hailo-8还适合需要延迟和数据保密性的应用程序,这些延迟和数据保密性是通过在边缘设备而不是云中本地执行AI推理来提供的。
巴尔说:“汽车是我们的战略市场,我们的大多数投资者都来自汽车市场。” “我们已经与汽车Tier-1和OEM进行了接触,但这需要一段时间才能产生收入。”
Hailo到目前为止的市场看法是,当今的汽车客户在AI加速器选择中的目光不再局限于原始计算,而优化变得越来越重要。
充当协处理器,意味着Hailo-8可以与汽车Tier-1已经开发的SoC一起设计,而无需进行深度学习。
“为了缩短上市时间,[客户]可以将Hailo-8作为协处理器进行连接,保留他们在SoC上所做的所有开发,但是可以减轻神经网络任务的负担。从他们的角度来看,这是一个很大的优势。”
Hailo如何把握机会与数十家其他AI边缘加速器初创公司对抗?
巴尔说:“目前仍有许多创新技术需要证明。” “关于FPGA,模拟设备,基于存储器的架构,人们有很多想法,但是最终,挑战在于将其作为产品并将真正的芯片摆在桌面上。当我们环顾四周并看到可用的[竞争对手]芯片时,实际上今天没有太多可以集成的芯片。”