扶扬C M S
www.fuyanghui.com

人工智能芯片杀出一匹黑马

 二维码 6553
作者:扶扬科技

本文我们将评估Kneron的NPU是如何达到谷歌和英特尔的同类芯片。


随着边缘计算越来越受欢迎,许多大公司都致力于开发人工智能工作负载专用芯片。值得注意的是,谷歌和英特尔等大品牌分别凭借Coral的Edge TPU和Movidius Myriad X VPU在市场上站稳了脚跟。


人工智能芯片杀出一匹黑马:Kneron



现在,一个新玩家杀进了这个领域,并声称要与该行业的一些大公司竞争。总部位于加州的初创公司Kneron最近发布了KL720 AI SoC,他们称该SoC在速度、能效和成本方面优于市场上的任何其他SoC。为了证明这是否言过其实,我们着手对这款芯片与谷歌和英特尔的设备进行了比较。


边缘计算Coral Edge TPU芯片


Coral是谷歌开发边缘计算平台的一个鲜为人知的项目。用该公司自己的话来说,“Coral是一个用于构建具有快速神经网络推理功能的智能设备的软硬件平台。”


Coral的设备的核心是Edge TPU(张量处理单元)协处理器是 Google 专门为在边缘运行 AI 而打造的 ASIC,它体型小、能耗低,但性能出色,让您可以在边缘部署高精度 AI。ASIC是为最先进的神经网络设计的,速度快,功耗低,Edge TPU 可实现高品质 AI 在边缘的广泛部署。


Edge TPU 不仅仅是一种硬件解决方案,它将定制硬件、开源软件和最先进的 AI 算法结合在一起,为边缘提供优质、易部署的 AI 解决方案。

人工智能芯片杀出一匹黑马:Kneron



TPU以2瓦的成本提供了4瓦的最大速度,使其功率效率为2瓦。在功能方面,Edge TPU能够执行深度前馈神经网络(DFF),如卷积神经网络(CNN),这使得它对于各种基于设备视觉的机器学习应用程序非常有用。


这个芯片唯一头大的地方是它的可访问性。谷歌不会将这些芯片卖给设计师;相反,它需要通过Coral的加速器模块集成。这是一个表面安装模块(10毫米x 15毫米),包括Edge TPU和所有需要的电源管理与一个PCIe Gen 2和USB 2.0接口。因此,虽然这可能提供了集成的便利,但它使设计者无法使用Edge TPU作为独立设备来实现他们独特的设计。


Edge TPU 是对 CPU、GPU、FPGA 以及其他在边缘运行 AI 的 ASIC 解决方案的补充


人工智能芯片杀出一匹黑马:Kneron



英特尔Movidius Myriad X VPU


在Intel的阵营中,我们将着眼于Movidius Myriad X虚拟处理单元 (VPU)。


根据Intel的说法,VPU的工作方式是将高度并行的可编程计算与特定工作负载的硬件加速耦合在一个独特的架构中,使数据移动最小化。通过这种方式,它们能够实现功率效率和计算性能的平衡,使设备具有深度神经网络和基于计算机视觉的应用。


人工智能芯片杀出一匹黑马:Kneron



它可用于无人机、智能相机、VR/AR 头盔等设备的深度学习及其他人工智能视觉应用加速。这款设备是继上个月英特尔基于 Myriad 2 处理器的 Movidius Neural Compute Stick 之后发布的又一新产品。Movidius 表示,Myriad X 将会在同样功耗条件下提供 Myriad 2 十倍的深度神经网络(DNN)性能。


Myriad X 的强大之处在于 Movidius 引入了被称之为神经计算引擎(Neural Compute Engine)的新结构,这是一种片上 DNN 加速器。Movidius 称,在该组件的帮助下,Myriad X 可以在 Myriad X 理论计算能力 4+ TOPS 的基础上达到超过每秒万亿次(TOPS)的 DNN 峰值吞吐量。


人工智能芯片杀出一匹黑马:Kneron



英特尔表示,这种芯片的运行速度一般可达4级,在进行深度神经网络推断时,其性能可达1级。这样做的代价是最小的TDP为1.5瓦,因此该芯片的总体性能为2.67TOPS /瓦,DNN推理性能为0.67TOPS /瓦。


此外,Myriad X 还有四个 C 编程 128 位 VLIW 向量处理器,来自 Myriad 2 的可配置 MIPI 通道,以及扩展的 2.5 MB 片上存储器,更多固定功能的图像/视觉加速器。像 Myriad 2 中的一样,Myriad X 的向量单元是针对计算机视觉工作负载优化的专门 SHAVE 处理器。Myriad X 同样也支持最新的 LPDDR4。在随附的发布视频中,Movidius 通过核心图展示了 Myriad X 功能。


Myriad X 的另一个新功能是 4K 硬件编码,支持 30 Hz (H.264/H.265) 和 60 Hz (M/JPEG) 的 4K 硬件编码。在接口方面,Myriad X 支持 USB 3.1 和 PCIe 3.0,两者对于 Myriad VPU 系列都是新功能。所有这一切都在 Myriad 2 一样的2W 的包络功率内完成,更准确地说是 1W。


显而易见,Myriad X 很多相同的 Myriad 2 功率的额外性能似乎来自其新的 16 FFC TSMC 进程节点。在从 28nm 平面工艺缩小到 16nm FinFET 的情况下,Movidius 能够将功率节省投入到上升时钟(upped clock)以及更多的 SHAVE 处理器、加速器、接口和内存中,所有这些都具有相似的封装尺寸。虽然英特尔确实有自己的晶圆厂,Movidius 表示在英特尔 2016 年的收购之前,Myriad X 已在良好研发之中,并且 16nm FFC 是选择的节点。16nm FFC 迭代发生于在 28nm HPM 和 HPC 成为 Myriad 2 的典型体现之后。


Kneron KL720 NPU


最后,本文的主角Kneron的KL720 AI SoC。


该芯片的核心是Kneron的神经处理单元(NPU)。NPU是专门为边缘设备设计的,他们介绍在小区域内可提供高计算性能和低功耗。


人工智能芯片杀出一匹黑马:Kneron



KL720的功率为每瓦0.9次,最高可达1.5次。该芯片还可以处理1080P的4K静止图像和视频,并提供面部识别的3D传感功能。


它还为自然语言处理应用程序提供了新的音频识别工具。


VPU vs. TPU vs. NPU


当比较这三种人工智能芯片时,我们看到了很多相似之处和不同之处。


除了不同的人工智能处理器(TPU, VPU, NPU)之外,这些芯片的性能也不同。虽然英特尔的芯片可以达到4 TOPS,但它减慢了运行DNN推断。这使得谷歌的Edge TPU成为三款中最快的——具体来说,是英特尔的四倍。在推理速度方面,Kneron的芯片也超过了英特尔的芯片,最多能增加50%左右。


在能效方面,谷歌胜出。Edge的TPU为2 TOPS / watt,而KL720的TPU为0.9 TOPS / watt,英特尔的TPU为.67TOPS / watt。


然而,谷歌失败的地方在于可访问性。由于你不能购买去作为一个独立设备的Edge TPU,设计师不能将TPU单独纳入他的设计中。从这个意义上说,Kneron宣称自己是市场上最大的竞争对手似乎胸有成竹,因为它提供了比其他独立芯片(即英特尔的Movidius Myriad X)更好的能效和速度。


总的来说,这三款设备都是非常令人印象深刻的,它们将有助于引领边缘计算的未来。


四川星号教育科技有限公司