物理科技生物学-PHYICA

一个用于边缘AI设备的四兆位nvCIM宏

技术工程 2022-03-18 21:55:24

A four-megabit nvCIM macro for edge AI devices芯片照片和宏结构以及建议的方案(输入整形方案、非对称调制输入和校准方案、校准和加权电流电压叠加方案以及2位输出全范围电压模式读出放大器)。功劳:Hung等边缘AI设备,结合人工智能(AI)和边缘计算技术的系统,正在成为快速增长的物联网(IoT)生态系统的重要组成部分。这些设备包括智能扬声器、智能手机、机器人、自动驾驶汽车、无人机和数据处理监控摄像头。虽然这些技术在过去几年中变得越来越先进,但它们中的大多数都表现出有限的能效、推断准确性和电池寿命。非易失性内存计算(nvCIM)架构是一类新兴的方法,可以最大限度地减少处理器和内存组件之间的数据移动,有助于显著降低与复杂人工智能计算相关的延迟和能耗。

台湾半导体制造公司(TSMC)的研究人员最近开发了一种新的4兆位(4Mb) nvCIM方法,有助于提高边缘人工智能设备的整体性能。他们提出的架构发表在《自然电子》杂志的一篇论文中,将存储单元与基于互补金属氧化物半导体技术的外围电路相结合。

“使用传统冯·诺依曼计算架构为人工智能应用运行的神经网络的计算延迟和能耗被处理元件和内存之间的数据移动所主导,产生了一个被称为内存墙的性能瓶颈,”进行这项研究的研究人员之一张梦凡告诉TechXplore。“NvCIM可能有助于克服电池供电的AI边缘设备的内存墙瓶颈,它允许向量-m atrix乘法的模拟运算,这是神经网络在推理阶段的主要计算操作。”

NvCIM架构可以显著减少AI边缘设备中处理器和存储器之间传输的数据量,尤其是当设备在片上执行推理和上电操作时。这反过来又能提高能效,延长电池寿命。

Chang和他的同事已经开发内存计算(CIM)设备将近10年了。在过去的研究中,他们使用了各种不同的存储器组件,包括静态随机存取存储器、STT-MRAM、相变存储器、随机存取存储器和与非门闪存,来评估最终的性能。

“在过去的五年里,我们在顶级微电子会议(ISSCC、IEDM和数模转换器)上提交了40篇与计算机集成制造相关的论文,”常解释说。“我们最近的工作建立在我们对CIM的长期研究基础上,该研究概述了存储器电路设计的技术背景、神经网络的系统级芯片设计以及AI算法。”

研究人员创建的新4Mb nvCIM架构基于22纳米铸造电阻随机存取存储器(ReRAM)设备,也称为忆阻器。值得注意的是,Chang和他的同事发现它可以执行高精度点积运算,包括8位输入、8位权重和14位输出,延迟小,能效高。

“我们开发了一个基于硬件的输入整形电路,使用软硬件协同设计的方法来提高能效,而不会降低系统级的推理精度,”Chang说。"为了减少计算延迟和提高读出精度,我们开发了一种非对称调制输入校准方案."

为了减少设备的计算延迟,研究人员构建了一个校准和加权的电流电压叠加电路,该电路具有2位输出和全范围电压模式读出放大器。该电路还可确保最高有效位(MSb)的良好读出结果,从而降低架构的整体读出能量。

常和他的同事创建的体系结构可以在各种应用场景中处理复杂的计算任务。此外,与过去提出的其他nvCIM架构相比,它更精确,具有更高的计算吞吐量和更大的内存容量,消耗的能量更少,计算延迟更低。

“我们还专注于软硬件协同设计,以进一步提高芯片级性能,”Chang说。“用于AI和支持AI的物联网(AIoT)应用的现有高级边缘设备通常采用nvCIM进行断电数据存储,以抑制待机模式下的功耗并减轻唤醒期间的计算任务。”

未来,该研究团队开发的架构可用于增强从智能手机到更复杂的机器人系统等不同边缘AI设备的性能和能效。其中,它可以支持由各种神经网络模型执行的基本向量矩阵乘法(VMMs),包括用于图像分类的卷积神经网络(CNNs)或深度神经网络(DNNs)。

“电路级优化、nvCIM架构新鲜感、规范的提升、nvCIM宏的性能绝对是我们路线图的下一步,”Chang补充道。“软硬件协同设计也是我们未来的研究课题之一,我们旨在开发nvCIM友好的神经网络算法,进一步最大化nvCIM宏的性能。除此之外,我们的目标是将nvCIM宏和其他必要的数字电路集成到下一代AI芯片的芯片级系统设计中。”

来源:由phyica.com整理转载自PH,转载请保留出处和链接!

本文链接:http://www.phyica.com/jishugongcheng/12657.html

发表评论

用户头像 游客
此处应有掌声~

评论列表

还没有评论,快来说点什么吧~