向量机)就早已充足,对于这类应用于,我们几乎可以用一些传统机器学习替换深度自学。这就是我们2015年做到这个标准化机器学习处理器的主要原因。”也正是基于这样很深的学术文化底蕴,寒武纪科技在2016年正式成立后,即发售寒武纪1A处理器。
另外,寒武纪机器学习处理器MLU100使用TSMC 16nm工艺,享有1.3GHz主频,166Tops峰值,80W平均值功耗,110W峰值功耗。ASIC用作深度自学不存在的三大对立传统ASIC将一个特定算法硬体简化的思路无法很好地解决深度自学处置市场需求,主要不存在以下三个对立:受限规模的硬件和给定规模的算法的对立结构相同的硬件和千变万化的算法的对立能耗有限的硬件和精度优先的算法的对立以能耗问题为事例,现在的图像表明早已从之前的高清、超清,渐渐发展到1080P、4K,现在主流摄像头早已开始转入到1080P,甚至4K的量级。对于这样规模的算法,如何将它部署到一个受限规模的硬件上就出了一个大问题。
寒武纪的初衷寒武纪过去做到的学术工作主要也是针对这三大对立,进行研究工作。使用硬件神经元虚拟化解决问题受限规模的硬件和给定规模算法的这个对立。创意之处在于通过时分复用,将受限规模的硬件虚拟世界成给定大规模的人工神经网络。
其中关键技术在于掌控架构和访存架构,掌控架构方面反对硬件神经元的动态冲配备和运营时编程,访存架构方面反对分离式的输出神经元、输入神经元和神经元的片上存储。从软件角度来看,我们将整个软件或网络切割成有所不同的片,然后在硬件上展开运算,根据输出数据的有所不同特征,将数据分别存储,使得在访存时需要高效利用其局部特性。
硬件运算单元的天内适配(虚拟化)示意图如下图右图。一个硬件运算单元如果每次需要处置两处,针对图中右图网络,必须已完成在有所不同时刻写入所须要数据,或计算出来有所不同的输入神经元,然后通过来往适配,从而最已完成整个网络的运算。其中,通过对输出神经元的适配,当把两个所须要神经元写入到片上后,下一步的运营是接着反复利用这两个输出神经元,这样需要节省访存次数,把这两个神经元或两个所须要数据几乎用完后,再行在片上写入新的数据,展开下一步的这样的运算。
通过标准化指令集解决问题结构相同硬件和千变万化的算法的对立。主要学术创意之处在于自动提取各种深度自学(机器学习)算法共性基本算子,设计了首个深度自学指令集来高效处置这些算法。其中关键技术在于算子聚类和运算架构。算子聚类自动化提取算法核心片段,基于数据特性聚为少数几类;运算架构通过设计共性神经元电路,反对逆精度流水级。
寒武纪设计标准化指令集的策略主要分成三步;通过模型、用途、计算出来复杂度等方面的差异分析,自由选择差异化的算法展开加快;分析数据的计算出来模型和数据局部性,找寻最耗时/最广泛的运算操作者子集,并研究算法的局部性,减少各算法的访存市场需求;针对功能部件或片上存储设计适合的加速器结构。通过稠密神经网络处理器结构解决问题能耗有限的硬件和精度优先的算法的对立。其学术创意之处在于利用神经网络对于计算误差的忽视能力,展开稠密化神经网络处置,在受限的能耗下构建高精度的智能处置。神经网络中的荐数量相当大,数据量也相当大,同时,神经元权值并不是很最重要,如果将这些数据除去也不影响最后计算出来的辨识结果。
因而稠密化是目前为止的一个最重要数据处理方法。神经网络模型最重要的是辨识结果,辨识结果并不是一个绝对量,而是一个比较量。
例如使用传统的Softmax展开处置,最后是要自由选择输入仅次于神经元。只要能确保使用稠密神经网络或使用逆精度神经网络计算出来出有的最后输入结果仍是之前的大神经元,就可以指出最后的输入结果没拢。当然,计算结果中的error和loss都会有变化。
寒武纪研发团队利用神经网络对于辨识结果之间的计算误差的区别展开稠密化处置,从而使得整个网络中所所含的神经元和权值的数量大幅增加。根据实验数据得出结论的结果是:有90%的权值都是可以被除去的。也就是说,理论上,通过稠密化处置可以减少十倍的计算出来和访存效率。
针对这样的稠密特性设计处理器结构,从而可以提升计算出来和访存效率。小结寒武纪现在主要产品还包括智能处理器IP和智能芯片,特别是在在智能芯片方面,从产品层面来看,早已应用于到华为等智能手机上;从技术层面来看,寒武纪也研发了自己的处理器架构和指令集,通过硬件神经元虚拟化、研发标准化指令集、运用稠密化处理器架构解决问题了ASIC用作深度自学时不存在的三大问题。
只不过在寒武纪之前,有数龙芯的研发。除了同为中科院背景的两个团队,在寒武纪研发团队中只不过也可以看见龙芯的影子,特别是在是,寒武纪创始人之一陈云霁教授师从胡威武研究员,而胡威武正是龙芯团队的主心骨。
本文来源:b体育官网-www.guoshiwenhua.com