基于NoC的众核处理器可靠性仿真分析研究
z(+r2x&Z*'5p((biiM'7Iƥx54L0Ϳ㖡"http://www.xcysycw.com/k/fangan/" target="_blank" class="keylink">方案来计算系统的可靠性,然后在此基础上实现了基于可靠性感知的优化算法,该方法可以通过较小的代价实现可靠性的较大提升。上述这些文献在进行可靠性评估时,都是把众核芯片简单地等效成处理器内核的集合,实际上,众核芯片广泛采用NoC(Network on chip)通信架构,研究芯片的系统级可靠性,不仅需要考虑内核本身的失效,还要考虑NoC拓扑结构中链路、路由等通信组件造成的影响。
本文在现有文献的研究成果基础上,首先通过众核模拟器GEM5[6]模拟2D-Mesh结构的同构众核平台的运行状况,获取相关数据,然后结合芯片的失效机制,使用蒙特卡洛方法对众核系统级可靠性进行仿真分析,以此来研究NoC通信架构对众核芯片系统级可靠性的影响大小。
1 系统平台模型和失效分析
众核芯片是由大量处理器内核通过互连网络连结而成,内部包含了极为密集而复杂的集成电路,受到芯片上热点(hotspot)的影响,很容易发生失效。集成电路的失效主要包括两类,临时性失效和永久性失效,临时性失效一般是由于外部辐射引起的单粒子翻转(SEU)造成,对芯片本身的可靠性不会造成影响。永久性失效一般是因为电路元件老化引起的,如果芯片内部没有冗余元件,这类型的失效会对系统可靠性造成致命影响,本文只考虑永久性失效。
1.1 基于NoC mesh架构的众核平台
本文针对2D-mesh拓扑结构的NoC众核芯片平台进行研究。如图1(a)所示,m×n个同构内核(PE)通过链路和路由(R)进行互连通信,本文通过GEM5仿真的众核平台上PE为Alpha 21264 处理器核,如图1(b)所示,具体包括了Int Exec、L1Cache、L2Cache等组件,这些组件中任意一个失效都会导致PE失效。
PE通过R链接到NoC上,PE与PE之间的通信,首先要经过R再通过选定的链路进行数据传送,而R是独立的工作器件,芯片温度的升高或通信负载的增大,都会加速其老化甚至失效,而R的失效与PE是相互独立的。
下一篇:云计算平台仿真机制研究