当前位置:首页 > 毕业设计翻译 10031124陈扬
外文科技文献译文
原因,一个分析建模方法是理想而不是在计算上昂贵的吞吐量模拟器。吞吐量模型推导开始通过分离模面积(Adie)在两个主要部分作为
Adie?Acores?AL2(N). (1)
AL2(N)A1MB缓存区域共享缓存。以兆字节
Acores是总面积分配给内核,其中每个芯假定包含私有级(L1)指令和数据缓存。
AL2(N)与芯的总电平2(L2)高速NSL2(N)?为单位的二级缓存大小为计算公式为
SL2(N)?
AL2(N)A1MB (2)
其中A1MB是每1字节的高速缓存区域,如由下式确定工艺技术。
对于一个给定的工作负载,每个指令(CPI)的周期为一单核被建模为
CPI(1)?CPIcom?Mrate(SL2(1))Lmiss(Fclk). (3)
CPIcom消费物价指数的计算组成部分,是核心CPI具有完善的L2缓存(即,无缓存未命中)。CPIcom是独立处理器的时钟频率的(Fclk)。Mssim(SL2(1)),命中率。是每个SL2(1)指令未命中的高速缓存中的数的大小。Lmiss(Fclk),丢失率,是平均 每个L2高速缓存未命中周期数。Lmiss(Fclk)是一种Fclk的函数。Lmiss(Fclk)和
Mrate(SL2(1))的产物指内存延迟和内存带宽的组件的消费物价指数。SL2(1)是有效的二级缓存大小为一个核心。如果铁心没有在高速缓存共享的代码或数据,则平均每个核心的缓存大小为1/Nth整个二级高速缓存的大小(SL2(1)?SL2(N)/N)。对于共享的代码或数据应用,工作集大小是由平均数调整(Nshare)内核共享的L2高速缓存行的,Nshare(N)是一个N函数。平均缓存大小为一个单一的核心是计算如[10]
4
外文科技文献译文
SL2(1)?SL2(N) (4)
(N?Nsha(N)?1)re投影的命中率对于不同大小的高速缓存中,平方根规则的拇指是典型的应用,该款机型缓存缺失率
Mrate(1MB)Mrate(SL2(1))?SL2(1)/S1MB (5)
S1MB是一兆。对于一些应用,所述平方根模型(5)中比工作集模型,不准确的
地方的命中率保持不变,为高速缓存大小的增加,直到工作组适合在高速缓存中,随后,在命中率急剧脱落。由于高速缓存大小的命中率相关性是应用具体的,单个核心的命中率是在模拟多个高速缓存大小与工业周期精确模拟器以确定个别适当的命中率模型应用程序。根据在宽的应用范围的模拟,平方根模型提供了最准确的逼近平均命中率。
建模每个周期指令(IPC)的多核处理器,有限的片外存储器带宽的影响被捕获通过Lmiss(Fclk)分离成两个分量为
Lmem(Fclk)Lmiss(Fclk)??Llink(Fclk). (6)
Npr片外DRAM内存延迟,计算作为周期的平均数目DRAM阵列中使用Lmem(Fclk),
了取得数据。在建模外的顺序利用非阻塞核心内存级并行(MLP),Lmem(Fklc)是因为平均数并行内存请求(Npr)分每个请求块中的处理器总数的一小部分内存延迟[11]。对于顺序阻断核心,Npr等于之一。Llink(Fclk),总的链路延迟,包括延迟OFTHE物理片环节,排队等待时间(例如,守候在思念处理状态寄存器
5
外文科技文献译文
(MSHRs)和总线队列)。Llink(Fclk)被计算为周期为一个平均数片外存储器的访问。Llink(Fclk)被分离成两个分量如
Llin(kFcl) k?Ls(Fcl)k?Lq(Fcl)k (7)
Ls(Fclk)和Lq(Fclk)是服务和排队延迟每个高速缓存未命中,分别。Ls(Fclk)是物理片链路延时数据对面的链接遍历处理器的DRAM芯片和背部,在没有传输假设错误。Lq(Fclk)被计算为平均排队延迟。假设物理片连接到内存代表一个M/D/1队列(马尔可夫到达率与要求一个确定性的服务时间和要求提供无限多源),被
Lq(Fclk)被建模为
ULs(Fclk)Lq(Fclk)?2(1?U) (8)
U是链路利用率。使用小定律,U被计算为
U??Ls(Fcl) k. (9)
?该参数是每个周期的存储器请求的数目,其计算公式为
??IPC(N)Mrat(eSL2(1)) (10)
IPC(N)代表了IPC的多核处理器与N核心。由(7) - (9),总链路等待时间
的计算如
?(Ls(Fclk))2 Llink(Fclk)?Ls(Fclk)?. (11)
2(1??Ls(Fclk)) 如在页面的底部,在IPC中所述(12)对于多核处理器从(3),(6),并计算出(11)[10]。从?是IPC(N)的一种函数,IPC(N)(12)简化为一元二次方程,其中的根源,公式导致的显式IPC(N)表达式。Ls(Fclk)和Lmem(Fclk)依赖于Fclk被
建
模
为
Lmem(Fclk)?Lmem(Fclk,nom)?Fclk/Fclk,nom和
Ls(Fclk)?Ls(Fclk,nom)?Fclk/Fclk,nom,,Fclk,nom是标称处理器的时钟频率。假设所有N
6
外文科技文献译文
核具有相同的Fclk吞吐量(TP)中的说明每秒的多核处理器的计算(13)在该页面的底部。CPImem,lat(Fclk)/Fclk和CPImem,bw(Fclk)/Fclk代表了内存延迟和通过带宽的组件,这被建模为
CPImem,lat(Fclk)Fclk?Mrate(SL2(1))Lmem(Fclk,nom)Fclk,nomNpr (14)
和(15)中在该页面的底部。额外的假设适用于权衡精度运行效率:1)吨基准测试是完全并行(即只有水货MT的应用部分为蓝本);2)平均基准性能是一个合适的指标,用于评估一般趋势,以及3)将附加的线程间的相互作用和操作 系统开销当在多核调度线程处理器可以忽略不计。
在(13)的分析模型 - (15)被验证为单线程(ST)和高度并行的应用程序的MT。对于意法半导体的应用,1芯被假定为具有访问整个L2缓存。虽然该模型主要针对的表现高度并行的MT的应用中,分析模型是容易通过调整命中率修改为ST的应用Mrate(SL2(1))到Mrate(SL2(N))。在验证分析型号为ST的应用,平均的模型预测IPC从460工作负荷与工业相比,周期精确模拟器不同的核心类型和缓存尺寸。 460的工作负载包括服务器,多媒体,游戏,SPEC2K,和办公室生产力应用程序。唯一的工作量,具体型号参数CPIcom,Mrate(1MB),和Npr.CPIcom是通过用一个完美的L2缓存操作模拟器中提取;
IPC(N)?N?CPI(1)N(12) 2L(F)?(Ls(Fclk))?Mrate(SL2(1))(memclk?Ls(Fclk)?)Npr2(1??Ls(Fclk))CPICOM
TP(N)?IPC(N)Fclk?NCPIcomCPImem,lat(Fclk)CPImem,bw(Fclk)??FclkFclkFclk (13)
1Fclk?Ls(Fclk,nom)1?()CPImem,bw(Fclk)Ls(Fclk,nom))2Fclk (15) ?Mrate(SL2(1))Fclk?Ls(Fclk,nom)FclkFclk,nom1?()Fclk,nom7
共分享92篇相关文档