CPU算法训练深度神经网络的速モース.ビアンコ度比顶级GPU训练器快15倍

Rice, Intel optimize AI training for commodity hardware Anshumali Shrivastava是莱斯大学计算机科学助理教授。credit:Jeff Fitlow/Rice University Rice University计算机科学家展示了一种人工智能(AI)软件，它运行在商品处理器上，训练深度神经网络的速度比基于图形处理器的平台快15倍。赖斯布朗工程学院计算机科学助理教授安舒玛利·施赖瓦斯塔瓦说:“培训成本是人工智能的实际瓶颈。“公司每周花费数百万美元只是为了培训和微调他们的人工智能工作负载。”

来自莱斯和英特尔的Shrivastava和合作者将在4月8日的机器学习系统会议MLSys上展示解决这一瓶颈的研究。

深度神经网络(DNN)是一种强大的人工智能形式，在某些任务上可以胜过人类。DNN训练通常是一系列矩阵乘法运算，这是图形处理单元(GPU)的理想工作负载，其成本大约是通用中央处理器(CPU)的三倍。

“整个行业都专注于一种改进——更快的矩阵乘法，”Shrivastava说。“每个人都在寻找专门的硬件和架构来推动矩阵乘法。人们现在甚至在谈论拥有专门的硬件-软件栈来进行特定种类的深度学习。我不是拿一个昂贵的算法，投入整个系统优化的世界，而是说，‘让我们重新审视这个算法。’"

Shrivastava的实验室在2019年做到了这一点，将DNN训练重新定义为一个可以用哈希表解决的搜索问题。他们的“亚线性深度学习引擎”(SLIDE)是专门为在商品CPU上运行而设计的，来自英特尔的Shrivastava和合作者在MLSys 2020上展示了它时，展示了它可以超越基于GPU的训练。

他们将于本周在MLSys 2021上提交的研究探讨了SLIDE的性能是否可以通过现代CPU中的矢量化和内存优化加速器来提高。

“基于哈希表的加速已经超过了GPU，但CPU也在不断发展，”该研究的合著者、莱斯大学研究生莎安娜米黄·达加吉说。“我们利用这些创新让SLIDE走得更远，表明如果你不专注于矩阵乘法，你可以利用现代CPU的能力，训练AI模型的速度比最好的专用硬件替代品快4到15倍。”

这项研究的合著者、莱斯大学本科生尼古拉斯·梅斯伯格(Nicholas Meisburger)表示，“CPU仍然是计算领域最流行的硬件。让它们对人工智能工作负载更具吸引力的好处不可低估。”

来源：由phyica.com整理转载自PH，转载请保留出处和链接！

本文链接：http://www.phyica.com/jishugongcheng/2565.html