MCPLive > 杂志文章 > 移动版Haswell 处理器完全测试

移动版Haswell 处理器完全测试

2013-08-22王阔《微型计算机》2013年8月上

不管你欢迎还是不欢迎,关心还是不关心,反正一年一度的升级换代就这么来了。既然英特尔一直孜孜不倦坚持着的“Tick-Tock”节奏,那么我们也应该与时俱进。因为从现在开始,处理器市场已经改朝换代了。而这个新生的Haswell“王朝”,至少会持续一年。我们在5月下刊就已经对新王朝表示了欢迎——对桌面版本的Haswell处理器进行了深度解析。现在,是时候看看移动版本Haswell处理器的表现了。

移动版Haswell 处理器完全测试

CPU:增强的多线程性能,更高效的功耗控制

在英特尔的“Tick-Tock(嘀嗒)”升级策略中,Haswe ll是一次“Tock”,表明这是一款基于英特尔现有22nm 3D三栅极制造工艺的全新架构。明年代号为“Broadwell”的升级将采用同样的架构,但将转向14nm的制造工艺。

新加入的TSX扩展和AVX 2.0指令集

相比Ivy Bridge处理器,Haswell在CPU架构方面改进大的当属加入了有利于多线程执行的TSX扩展以及大幅度提升运算性能的AVX 2.0指令集。

TSX扩展指令集示意图
TSX扩展指令集示意图

多线程多核处理器问世几年来,在AMD和英特尔的轮番推动下双核、双核四线程CPU已经是基本的配置,四核以及四核八线程也不是少数人的玩物了,但是你也许早已经发现日常应用中八线程并不能总是比双线程快。其中的原因除了软件开发商对多核优化不够之外,CPU自身也存在一定限制,比如传统操作中一个线程访问了某部分内存数据之后就会通过一个“lock(锁)”操作来保证数据的统一性。这个锁操作过程又分粗粒度锁定以及细粒度锁定,因为这两种“锁”操作互斥,极大影响了多线程并行处理的效率问题。因此英特尔在服务器处理器中引入了“Transactional Memory(事务内存)”来解决这样问题,但消费级CPU在这方面一直有所缺失。现在Haswell引入了TSX扩展指令,终于也可以实现这个功能。

简单来说,TSX将允许程序员指定事务型同步代码空间,使得目前使用粗粒度线程锁定的程序更自由地使用细粒度线程锁定,进而提高多线程效率和性能。举个简单的例子,在编辑word文档时,如果打算同时编辑两份拷贝,word就会提示你该文件正在编辑,只能以只读方式打开但不能编辑,这种情况叫做粗粒度线程锁定,这种锁定比较简单,很容易实现,但是效率不高。细粒度线程锁定则可以实现自由度更高的数据同步,还是前面的例子,如果使用细粒度线程锁定,那么每个线程都可以操作不同纵列的数据,明显提高了CPU效率,不过这样做也有更大的风险,比如数据出错的几率更大,特别是多个线程同时向一个区域写入数据时。而粗粒度线程锁定则可以避免这个问题,同时保持不需要的核心处于休眠状态,更节能。为了避免出错,程序员往往钟爱粗粒度线程锁定,而TSX扩展的设计目的就是评估软硬件状况并为程序员提供无错的细粒度线程锁定,特别是在复杂的多线程应用中让多核处理器有着更好的处理效率。不过回到现实中,这一技术还需要系统在内存管理和线程调度上做相应的优化,特别是受限于软件支持,短期内TSX可能还不会带来太明显的CPU多线程性能进步。

AVX 2.0指令集同样是Haswell一大重要的改进亮点。AVX 2.0是AVX指令集的升级版,后者仅支持256bit浮点指令集,但AVX 2.0中整数数据也扩展到256bitSIMD阵列,这可极大提升处理器在图像及视频处理中的处理效率。AVX 2.0指令让每核心每时钟周期的单精度、双精度浮点均翻一番,可执行双FMA操作,这极大地提升了浮点峰值速度—能够同时执行8条内部指令(uOPs),实现4倍整数运算,这对于高性能计算、专业图形处理以及脸部追踪等方面的应用都有极大的益处。

除此之外,英特尔为了提升Haswell处理器的多线程性能还在微架构上进行了强化。如Haswell的前端设计和Sandy Bridge基本相同,但Haswell的Decode Queue(解码队列)数量支持56个并可以集中管理使用,而Sandy Bridge为2组、每组28个。这样做的好处是当只有一个线程时,整个56个微指令都可以被更有效的利用,而不像之前的SandyBridge那样对单一指令来说,只能使用28个,无论是缓存还是指令排序效率都会更为出色。此外,英特尔还改进了Haswell的分支预测技术,如增加了分支单元,这让处理器可以更快地提前知道哪些指令可能会在近期执行。如果处理器知道哪些指令会从管道上下来,那么分配处理器资源的效率有望大大提高,只开启处理器中需要的那些部分元件即可。综合来看,这所有的改进和加强让Haswell在多线程操作特别是超线程等应用中有了更为出色的表现,更多的分支预测和更强大的ALU显然能够带来更优秀的性能。

节能,还是节能!

这一次,英特尔更多地注重降低功耗,将Haswell称作“英特尔史上产品换代中电池续航时间大幅度的提升”。根据英特尔的数据,采用Haswell处理器的笔记本电脑电池续航时间比采用Ivy Bridge处理器的笔记本电脑多长1/3。Haswell的节能主要是由于,这是第一款针对22nm制造工艺设计的CPU架构,而此前Ivy Bridge架构针对上一代制造工艺,仅仅只是为了适应22nm工艺对架构进行了微调。

Haswell处理器运算架构示意图
Haswell处理器运算架构示意图

正如你知道的,为了让处理器更节能,新一代处理器都加入了电源管理,内核拥有“活动状态”和“睡眠状态”两个主状态:在低负载时关闭供给处理器中大部分元件的电源,在需要时又及时打开。不过睡觉容易,起床有时就有点难了—相信各位每天早上起来,大都会磨蹭几分钟吧。磨蹭几分钟,可能对于你没事,但对电脑而言可是个大问题—当然,这个唤醒的过程没有这么久,但如果每次笔记本电脑进入睡眠状态都要等上一分钟,那么你在沮丧之下可能会将笔记本电脑一扔了之—针对这个问题,Haswell引入了一项“SOix活动闲置状态”模式,这是一种功耗极低的活动状态,耗电量比Ivy Bridge少20倍。PC系统本身认为它醒着,但处理器仍然基本上处于睡眠状态。这一技术意味着唤醒时间长也只有几百毫秒。从用户的角度来看,长半秒的唤醒时间远胜过唤醒目前的处理器所需要的好几秒。Haswell在运行时,几乎总是处在这个“即时恢复”状态。这项技术有点类似于Atom处理器电源管理。

其次Haswell内部架构的一些创新设计可进一步降低功耗,Haswell加入了FIVR(Fully Integrated Voltage Regulator,全集成式电压调节模块)用来实现对Haswell的电压更准确的控制和调节,并还将系统的频率和供电区域进行了细分,以实现更好的能耗比。值得注意的是,Haswell在加强电源管理的优化方面,有超过20项的改进,结成果是使得Haswell低可以做到7W。Intel曾做了这么一个有意思的演示:在演示里面,一块看上去很单薄的太阳能电池完整支撑了一套基于Haswell架构的电脑正常运行!按照Intel的“新架构能达到10天待机”的说法,或许我们可以期待在不久的将来笔记本也能像平板那样不用关机随便用了。

GPU:更强大,更多选择一

直以来,英特尔显示核心存在的问题除了技术和架构设计外,主要还是规模。早期在北桥中集成的显示核心规模不可能大,后来和CPU合二为一后规模也一直受到控制,晶体管数量少再加上本身架构设计不够成熟、驱动表现也不够理想,因此一直都是“功能意义大于性能意义”。不过这种情况在Haswell上将有所改变。

和AMD、NVIDIA的独立显卡一样,英特尔的显示核心中也有名称为EU的流处理器簇(AMD功能相近的单元称为GCN单元,NVIDIA功能相近的单元称为SMX),每个EU单元有4个ALU。根据EU数量的不同,Haswell中的集成显示核心分为GT1、GT2和GT3三个版本。其中GT1有10个EU单元,总计40个ALU,1个曲面细分单元;GT2则拥有20个EU单元,80个ALU和2个曲面细分单元;GT3则直接翻倍到40个EU单元、160个ALU单元和4个曲面细分单元。同时三者均支持DirectX 11.1、OpenCL 1.2通用加速运算等新技术标准。不过GT3仅仅用于移动设备,桌面CPU只能使用GT1和GT2两个版本。

为了解决移动显卡的带宽问题,英特尔会为GT3版本的产品配备昂贵的512bit、128MB的eDRAM缓存用作显存,带宽估计64GB/s 。在GT3大幅度提高规格、使用eDRAM这种昂贵的缓存后,英特尔宣称GT3高性能相比在Ivy Bridge中使用的HD 4000系列提升了接近3倍之多。不过代价也比较昂贵—你除了需要为这块eDRAM支付额外增加的50美金外,电费也要涨一些(TDP增加了不少),看来性能和功耗果然不可兼得。

英特尔核芯显卡分类示意图
英特尔核芯显卡分类示意图

Haswell核芯显卡还支持4K显示和3路显示输出。
Haswell核芯显卡还支持4K显示和3路显示输出。

既然GT3的性能大幅度提升了,继续叫做HD系列显卡就不太恰当了。英特尔为Haswell上的高性能集成显示核心起了新名字,叫做Iris,中文名为“锐炬”。目前分为Iris和Iris Pro两个版本,全称是“英特尔锐炬显示芯片”和“英特尔锐炬Pro显示芯片”两种。GT3带eDR AM版本,称为IrisPro Graphics 5200,面向高性能笔记本。

非eDRAM版本GT3又分Iris Graphics5100、Iris Graphics 5000两个型号,都面向超极本。至于低一级的GT2又划分为HD Graphics 4200/4400/4600三个系列,其中4200/4400面向超极本,4600则面向普通笔记本电脑。

除了在核心性能上的飞越外,Haswell视频引擎还引入了基于硬件的SVC(可扩展视频编码)解码器(可用于视频点播和多方会议视频等)、Motion JPEG硬件解码器、MPEG 2硬件编码器,并通过SD K继续提升编码质量。同时Haswell核显在显示性能和分辨率方面也做了前所未有的改进,如加入对4K分辨率支持,可提供DIsplayPort 1.2及菊花链式显示器连接,多提支持三路同步1080P显示。

“intel inside”的logo重新进行了设计。
“intel inside”的logo重新进行了设计。

枝繁叶茂的Haswell移动处理器家族

移动版Haswell共有M、H、U以及Y四大系列,其中M、U和Y系列之前我们就已经见到过了,分别对应“主流”、“超低压”和“甚低压”(比超低压系列的功耗还低)。H系列则是一员新军,定位于“高性能”。M和H系列将会面对普通笔记本电脑,H系列处理器大的亮点就是高端的型号可以选择“封装缓存”的GT3显卡,也就是HD Graphics 5200,而低端的仍搭配HD 4600 GPU。U系列则是面对超极本,Y系列是Ivy Bridge时代才出现的新成员,主要是多了一个“场景设计功耗”(SDP),一般TDP功耗都控制在11.5W,低为7W。

Haswell处理器规格

参与测试的4款机型主要配置

针对主流移动市场的M 系列是成员丰富的系列,除了主流的Core i7/i5/i3外,两大经典老品牌赛扬、奔腾继续在M 系列中发挥余热,分别命名为Celeron 290 0M、Pentium 350 0M系列。前者包括2950M(2.0GHz)、2960M(2.1GHz)、2970M (2.2GHz)三个型号,后者则有3550M (2.3/2.4GHz)、3560M(2.4GHz)、3570M (2.5GHz)。

测试表现

参与本次测试的两台Haswell样机是华硕A450J和索尼VAIO Pro 13,二者分别搭载了Core i7 4700HQ和Core i5 4200U处理器。也就是说,我们能以此了解普通电压版本和超低电压版本,这两种Haswell移动处理器的真实表现。跟以往一样,为了方便考察Haswell移动处理器的表现,我们特意找来两款采用了前代IvyBridge处理器的机型作为测试参照物。

CPU性能

从测试表现来看,Haswell移动处理器与前代Ivy Bridge的CPU性能是否有差异,主要取决于测试或者应用是否支持AVX2.0之类的新指令集。在支持AVX2.0指令集的测试和应用中,Haswell的CPU运算性能明显强于Ivy Bridge:Core i7 4700 HQ的Sandra2013多媒体处理器测试子项成绩达到了293.19MPixel/s,比Core i7 3630 QM的2 27MPixel/s高出29.2%。超低电压版本处理器的情况也比较类似,Core i54200U的多媒体处理器测试成绩也要比Core i5 3317U高35.4%。考虑到此次测试中普通电压和超低电压两类处理器,各自的两款参测型号之间频率很接近,因此可以说这里的性能提升基本来源于AVX2.0之类的新指令集。

只不过,目前支持AVX 2.0等新指令集的软件和应用还很少。除了Sandra2013的多媒体处理器测试子项之外,此次测试中用到的Super PI、CINEBENCH等测试软件,以及用Winrar压缩文件夹、用excel 2010计算期权方程式等模拟实际应用中,Haswell移动处理器都没有体现出性能上的优势。也就是说,在大多数测试和应用中,不管是普通电压还是超低电压版本,相同频率的Haswell和Ivy Bridge的CPU性能其实没有多大区别。值得一提的是,Haswell在用MediaConverter8软件对视频进行转码操作时,表现强于Ivy Bridge。这说明Haswell在部分多线程应用中的实力得到了一定程度的提升。

总的来说,Haswell的CPU性能在大多数环境下相比前代Ivy Bridge没有多大区别,只是在支持AVX 2.0之类新指令集的软件,以及部分多线程应用环境下,Haswell的表现要更好一些。

GPU性能

虽然参与测试的两款Haswe ll处理器集成的核芯显卡分别是HD 4600和HD4400,只是Haswell核芯显卡的中等型号而已,不属于规格高的GT3系列,但是与上代Ivy Bridge集成的HD 4000核芯显卡相比,它们的性能优势仍然十分明显。不论3DMark之类的软件理论测试,还是《英雄联盟》之类的热门网络游戏测试,Haswell核芯显卡的表现都要高出一截。唯一的例外是在面对《古墓丽影9》这样的大型3D游戏时,Haswell核芯显卡与Ivy Bridge核芯显卡的测试成绩都在18fps左右。这说明GT2系列的Haswell核芯显卡虽然明显强于Ivy Bridge核芯显卡,但仍然不足以满足大型3D游戏的性能需要。要想在保证画质的前提下流畅运行大型3D游戏,中高端定位的独立显卡是有必要的,至少GT2系列核芯显卡还没办法取代独立显卡的位置。

移动版Haswell 处理器完全测试

移动版Haswell 处理器完全测试

移动版Haswell 处理器完全测试

移动版Haswell 处理器完全测试

移动版Haswell 处理器完全测试

移动版Haswell 处理器完全测试

移动版Haswell 处理器完全测试

移动版Haswell 处理器完全测试

移动版Haswell 处理器完全测试

移动版Haswell 处理器完全测试

写在后

或许是之前长时间的曝光和剧透,已经让Haswell失去了创造惊喜的机会。Haswell在测试中的表现固然没有让人不满之处,但总体感觉波澜不惊。从目前已上市的产品来看,Haswell移动处理器在支持AVX 2.0等新指令集的应用环境,以及部分多线程应用中提升了CPU运算能力,并对GPU性能进行了深度优化。不过,这些测试表现更像是循规蹈矩和按部就班,并没有带来突破性的进展。被称为Iris和Iris Pro的GT3系列(即HD 5000系列)核芯显卡或许性能真的很强,但这还有待确认。而目前能看得到的GT2系列还不能称得上革命性的集成显卡产品,它们只是在上一代的基础上,获得了比较明显的加强而已。

所以,就目前的测试情况来看,把Haswell看做超极本甚至整个PC行业的强心剂,有了Haswell就万事大吉的想法还存在不小的风险。所幸Haswell的产品线足够丰富,后续的新品也很让人期待。一批TDP功耗为15W和28W的超低电压版本处理器已经陆续发布,它们分别集成了HD 5000和HD 5100核芯显卡。同时,甚低压版本处理器到了9月也会增加到10款之多,其中不乏热设计功耗(TDP)11.5W、场景设计功耗(SDP)仅4.5W的型号。

这样一来,英特尔可以让13英寸或者14英寸超极本在不增加独立显卡的前提下,保证比较优秀的3D图形性能。从而让主流尺寸的超极本有机会在不损失性能的前提下,获得更轻薄的机身或者更好的散热效果。同时,英特尔也有机会凭借逐渐形成规模的甚低压处理器,迅速发展10英寸到11英寸的超便携市场。这个介乎平板和PC之间的新兴市场,或许就是IT厂商必须抓住的下一个“蓝海”。

至于实际情况会不会像英特尔计划的那样发展,实际产品的表现到底能不能让人满意,我们会在后续的报道中继续跟进。敬请关注。

8系列移动芯片组,移动版Haswell的新坐骑

与以往一样,新一代移动Haswell将配备新款移动芯片组:英特尔8系列移动芯片组,毕竟如果没有芯片组,处理器就成了无源之水。在规格上,8系列芯片组是在目前7系列基于上升级而来,均支持14个USB接口和6个SATA接口,不过8系列提供了6个USB 3.0接口(7系为4个)以及6个SATA III接口(7系为2个SATA III和4个SATA II)。所有USB 2.0和USB 3.0接口都由xHCI控制器来控制,这简化了驱动堆栈,在空闲状态下功耗比EHCI更低。

Haswell处理器把原本在芯片组里的数字输出显示给拿了过来,只留下VGA,并且删除了LVDS/SDVO。这可以让系统更好地支持S0ix超低功耗电源状态,大幅度降低待机功耗、提高休眠唤醒速度,并且在数字输出配置方面也更为灵活,尤其是支持WiDi的时候。需要说明的是,之前7系列芯片组与处理器之间有一个8xFDI显示通道,而现在数字显示都到了Haswell处理器内部,因此8系列中的FDI界面也大大简化了,仅需2x用来满足VGA。

8系列移动芯片组

分享到:

用户评论

用户名:

密码: