◇◆AMD你不是我对手：绝密武器intel——Conroe详测◆◇『精』 - 瑞星卡卡安全论坛bbs.ikaka.com

瑞星卡卡安全论坛综合娱乐区 Rising茶馆 ◇◆AMD你不是我对手：绝密武器intel——Conroe详测◆◇『精』

	瑞星“1+2”全新解决方案巡展在广州画上圆满句号		叶院长揭秘：瑞星如何运用AI技术革新网络安全		俄乌冲突加剧网络攻击风险白俄罗斯政府遭APT攻击		瑞星ESM防病毒系统助力矿业大学筑牢网络安全防线
	实力拉满瑞星第52次通过VB100测评		请移步新论坛反馈问题或参与讨论		护航司法，瑞星助力山西省高院构建安全防线		人工智能在网络安全领域的风险和机遇

2 / 7 页

跳转页

◇◆AMD你不是我对手：绝密武器intel——Conroe详测◆◇『精』

intel 版主帖子:96277 注册: 2003-02-28 来自:大连市	发表于： 2006-07-29 07:46 \| 只看楼主短消息资料字号：小中大 11楼这样折衷的处理方案使P6构架在处理128-bit数据时增加了一倍以上的延迟，而当时PowerPC G4的AltiVec只需要1个周期就能完成。同样不幸的是，Netburst的Pentium 4和Pentium M构架也都有这个弱点。附件: 您所在的用户组无法下载或查看附件
intel 版主帖子:96277 注册: 2003-02-28 来自:大连市

intel 版主帖子:96277 注册: 2003-02-28 来自:大连市	发表于： 2006-07-29 07:46 \| 只看楼主短消息资料字号：小中大 12楼全新的Core终于拥有了一个周期完成128-bit向量运算的能力，INTEL终于把浮点和整数运算的内部带宽扩大到了128-bit，这不仅改进了延迟一周期的缺点，只有过去半数的微指令处理量也同样提高了解码、派址和带宽利用等多方面的速度。这样全新构架的CPU将可以把128-bit的大量multiply/add/load/store/compare/jump等6套指令集成在一个周期中全部完成，其运用性能的飞跃幅度可想而知。
intel 版主帖子:96277 注册: 2003-02-28 来自:大连市

intel 版主帖子:96277 注册: 2003-02-28 来自:大连市	发表于： 2006-07-29 07:47 \| 只看楼主短消息资料字号：小中大 13楼 3、Core的内部线程 Core的流水线 INTEL还不能透露Core具体的流水线详情，目前我们只能告知Core采用14条流水线-这和 PowerPC 970是一样的，而之前的Pentium 4 Prescott拥有30条，P6构架为12条。短的流水线意味着Core在频率上的提升只能是缓慢的，而不能够像Pentium 4那样急速上升。也可以这样猜想，其实Core的流水线设计和P6构架中的流水线是一模一样的，额外多出来的2条流水线完全是为了预留下CPU频率提升的空间而已。2条新的流水线各自成为Core流水线的入口和出口，成为了宏指令融合（Macro-Fusion）、微指令融合（Micro-Ops Fusion）等整合技术的输送站。 Core的内部出口 Core的ROB重排序缓冲区( Reorder Buffer)和RS预留缓存（Reservation Station）要比过去的Pentium M大了接近一倍，而事实上还必须考虑到新的宏指令融合（Macro-Fusion）、微指令融合（Micro-ops Fusion）等高效率的融合技术，这样以来，Core的内部转接速度至少要比Pentium M提高了3倍以上。 Core的处理前站-指令解码下图为P6构架的指令解码环节，它内置2组SD简单编译器（Simple/fast Decoders）和1组CD复杂编译器（Complex/slow Decoder），2组SD简单编译器负责将简单X86指令转换至Uops微指令（Micro-ops）然后传送到MB微指令缓冲区（Micro-op Buffer）。复杂编译器可以编译4个Uops微指令，而一些类似字符串处理的旧式复杂任务还要通过专门的ME微码引擎（Microcode Engine）来转换为更加复杂的微指令，这些微指令再同时输入到MB微指令缓冲区等待下一步重排序。附件: 您所在的用户组无法下载或查看附件
intel 版主帖子:96277 注册: 2003-02-28 来自:大连市

intel 版主帖子:96277 注册: 2003-02-28 来自:大连市	发表于： 2006-07-29 07:47 \| 只看楼主短消息资料字号：小中大 14楼这样的P6构架共有3个编译器每周期能执行6条Uops微指令，传送到MB微指令缓冲区，然后MB微指令缓冲区每次再传送3条微指令到ROB重排序缓冲区。附件: 您所在的用户组无法下载或查看附件
intel 版主帖子:96277 注册: 2003-02-28 来自:大连市

intel 版主帖子:96277 注册: 2003-02-28 来自:大连市	发表于： 2006-07-29 07:47 \| 只看楼主短消息资料字号：小中大 15楼对于分支构架比P6宽的多的Core而言这样的旧式微指令处理能力是不够的，所以INTEL在Core中多加入了一组简单编译器（Simple Decoders），并且将MB微指令缓冲区的出口被扩宽至同时传送4条微指令。而更特别的是，过去需要堵塞着等待CD复杂编译器处理的许多内存和SSE数据现在可以由简单编译器来处理了，这都得宜于新的MIF微指令融合技术（Micro-ops Fusion）和改进的SSE，在下文中会详细介绍。
intel 版主帖子:96277 注册: 2003-02-28 来自:大连市

intel 版主帖子:96277 注册: 2003-02-28 来自:大连市	发表于： 2006-07-29 07:48 \| 只看楼主短消息资料字号：小中大 16楼 4、Core的指令融合技术宏指令融合 Core前端处理环节新的突出能力是宏指令融合（Macro-Fusion），可以把多个X86指令融合在一起发送到到一个编译器转换为一个Uops微指令。多种指令将可以被融合，其中特别将compare和test指令融合到了分支指令（Branch Instructions）中。4个编译器都具有融合能力，但整个单元每周期只能完成一次宏指令融合。附件: 您所在的用户组无法下载或查看附件
intel 版主帖子:96277 注册: 2003-02-28 来自:大连市

intel 版主帖子:96277 注册: 2003-02-28 来自:大连市	发表于： 2006-07-29 07:48 \| 只看楼主短消息资料字号：小中大 17楼除了在占用更少ROB和RS的情况下，宏指令融合（Macro-Fusion）还节约了内核前端的带宽，Core的解码单元能比过去快的多得清空IQ指令列队（Instruction Queue），而内核执行带宽也同样宽阔了很多，因为单个的ALU能同时执行2个X86指令，这些综合性能的提高使Core的实际处理效率比P6构架要提高多倍，远高于其可见的硬件单元增加幅度。附件: 您所在的用户组无法下载或查看附件
intel 版主帖子:96277 注册: 2003-02-28 来自:大连市

intel 版主帖子:96277 注册: 2003-02-28 来自:大连市	发表于： 2006-07-29 07:49 \| 只看楼主短消息资料字号：小中大 18楼微指令融合 MIF微指令融合早先在Pentium M构架上就已经采用过，它和MF宏指令融合有着相似的功效，但是原理完全不一样。SD简单编译器（Simple/fast Decoder）把接收的单条X86指令转译为两条微指令，连接的两条微指令通过ROB发送到RS后，RS将把两条微指令分开来传输到不同的PORT中，平行的双通道同时传输，也可以是单通道的连续传输，这则取决于具体的处理情况。相对旧的MIF微指令融合技术，新的MIF支持了PORT的连续传输。同宏指令融合技术相结合，Core构架在ROB和RS最大效率的流通更多的微指令、指令执行单元的处理速度和能力也极大提高的同时，反而占用了更少数量的硬件，这符合了Core高效率低功耗的设计原则。
intel 版主帖子:96277 注册: 2003-02-28 来自:大连市

intel 版主帖子:96277 注册: 2003-02-28 来自:大连市	发表于： 2006-07-29 07:49 \| 只看楼主短消息资料字号：小中大 19楼 5、Core的分支预测单元在性能与能耗的平衡决策中，INTEL最终在Core的BP分支预测单元（Branch Predictor）上投入了大量的晶体管。作为连接内存和CPU的重要环节，在BP分支预测上投入宝贵的晶体管资源是十分值得的。相对于预测错误后让CPU浪费时间和电耗来等待再次预测，一次准确的预测不仅仅节约了处理时间、提高了性能，也同样降低了CPU的功耗。 Core的三重分支预测单元实际上与Pentium M的预测单元是一样的，在Core的分支预测核心中存在一个双模态预测器和一个球型预测器，这些预测器记录下过去的执行历史并随时通知内核前端的ROB和RS，ROB和RS从BTB分支目标缓冲器（Branch Target Buffer）中快速取回所需要的数据地址，常规预测如通知一个分支在循环中仅在奇次迭代发生, 而不在偶次迭代中发生等，这些在动态执行(P6系列)处理器上的静态预测技术还有有着长远的发展空间。 Core的分支预测单元拥有新的预测器- 循环回路预测（Loop Detector）与间接分支预测（Indirect Branch Predictor）。循环回路预测分支历史表（Branch History Tables）不能够记录下足够详细的循环回路历史来准确预测下次的运算，所以每次循环回路的运行都浪费了大量的亢余时间。循环回路预测（Loop Detector）则可以记录下每个循环回路结束前的所有的详细分支地址，当下一次同样的循环回路程序需要运算时，内核前端的ROB和RS就可以以100%的准确度来快速完成任务，Core构架拥有一个专门的运算法则来进行这种循环回路预测。间接分支预测间接分支预测(Indirect Branch Predictor)在运用时并不是立即分支，而是从寄存器中装载需要的预测目标，它实际上是一个首选目标地址的历史记录表。在ROB和RS需要间接分支的时候它就可以提供帮助，ROB和RS就可以快速提取到适用的结果，这与P6构架用可预测的条件分支替换间接分支来改善性能是相反的。
intel 版主帖子:96277 注册: 2003-02-28 来自:大连市

intel 版主帖子:96277 注册: 2003-02-28 来自:大连市	发表于： 2006-07-29 07:50 \| 只看楼主短消息资料字号：小中大 20楼 6、Core的存储器改进乱序执行OOOE必须有序输出BIO的一个简单原因就是：存储器未确定其它操作全部结束前是不能轻易修改一个存储单元的。附件: 您所在的用户组无法下载或查看附件
intel 版主帖子:96277 注册: 2003-02-28 来自:大连市

<<上一主题|下一主题>>

2 / 7 页

跳转页

页面顶部

Powered by Discuz!NT