ngan: 七月 2013

CPU和GPU真融合 APU异构系统架构解析

　　任何一种处理器芯片的发展，都是为了要面向未来的应用而设计的。那么我们就从最近几年的互联网、PC、平板、智能手机的应用和交互形式来看，新一代处理器应该满足什么样的需求：
　　 1. 用户越来越希望能够借助手势、眼睛、身体，用自然表达的方式和机器交互；
　　 2. 人们更加追求高像素、高清电影和视频交互；
　　 3. 基于社交网络的应用和游戏应用会越来越多地介入到人的生活当中；
　　 4. 越来越多的人喜欢大屏幕，越来越多的人喜欢在同一时间协同工作，而不是像以前的点对点工作方式，协同工作会增加效率；
　　 5. 云计算作为下一代互联网、或整个人类在生存环境当中特别需要看重的一种应用。

AMD A10-5800K

亚马逊：￥749.00| 京东商城：￥755.00| 易迅：￥755.00更多商家

市面上所有的应用包括未来应用基本上都是基于这几大类，那这些东西对CPU的要求又是什么呢？
1. 性能与效率
　　目前有两大处理器：CPU和GPU。不管CPU还是GPU，所有人都在追求性能，但性能受制于半导体制造工艺的限制，又不能无限制的提升，否则功耗和成本就无法控制，应用领域会受到严重的限制。所以现在很多人都看重“每瓦性能”，或者是说效率。
2. 功能与架构
　　在处理器发展历史中，为了解决各种特定的问题，不断有互不兼容的特定功能计算模块被加入系统，却很少从全局优化的角度加以考察。计算机整体效率不高的现状正是这种设计模式的直接后果。常见情况是软件的计算负载被调度在一个并不适合当前任务的模块上低效执行。
　　无论X86架构还是ARM架构都是同步处理器系统，一种处理器系统能否解决所有的运算？CPU和GPU都有独特的运算能力，他们有没有被用于执行最适合自己架构的应用？处理器是用来处理器数据的，而数据是在不同的子系统中来回搬迁的，而搬迁数据的难易程度又会严重影响处理器的效率。
3. 应用与开发
　　硬件的性能需要软件来发挥，软件开发者需要强大的编程模型来充分利用新的计算能力。应用软件需要支持和兼容广泛的硬件平台也日益变得重要。对开发者而言，随着平台种类的不断增多，目前反复移植代码的惯常方法必然难以为继。

　　综上，处理器产业需要一种新的发展思路——让处理器架构更加高效，才能在上述需求交织的复杂环境中前行。这种新的思路需承诺在功耗、性能、可编程性和可移植性这四个维度上同时都有改进。

异构系统架构解决CPU+GPU计算难题

　　计算机从诞生之日起就配有中央处理器，即执行通用计算任务的CPU。但在过去的二、三十年中，主流的计算系统同时配置了其他计算处理单元，其中最常见的是图形处理器(GPU)。最初，GPU应用于并行化的特殊的图形计算。随着时间推移，GPU的绝对计算能力越来越强，而专用芯片的特点则逐渐淡化，此消彼长的结果是，GPU可以极佳的性能-功耗比完成通用并行计算的任务。

今天数量越来越多的主流应用要求兼具高性能和低功耗的素质，并行计算是达成目标的唯一途径。但是，当前的CPU和GPU是分立设计的处理器，不能高效率地协同工作，编写同时运行于CPU和GPU的程序也是相当麻烦。由于CPU和GPU拥有独立的地址空间，应用程序不得不明确地控制数据在CPU和GPU之间的流动。

　　 CPU代码通过系统调用向GPU发送任务，此类系统调用一般由GPU驱动程序管理，而驱动程序本身又受到其他调度程序管理。这么多的环节造成了很大的调用开销，以至于，只有在任务所需处理的数据规模足够大，任务的并行计算量足够大时，这样的调用开销才是划算的。而其他的调用形式，比如由GPU向CPU发送任务，或者GPU向自己发送任务，在今天则根本不被支持！

为了充分释放并行处理器的计算能力，架构设计者必须打破既有格局，采用新的思路。设计者必须重塑计算系统，把同一个平台上分立的处理单元紧密整合成为不断演进单颗处理器，同时无需软件开发者的编程方式发生重大的改变，这是HSA设计中的首要目标。

为此，异构系统架构(HSA，Heterogeneous System Architecture)创造了一种更佳的处理器设计，展示了CPU和GPU被无缝集成后所带来的益处和潜能。通过HSA，程序可以在统一的地址空间中建立数据结构，在最合适的处理器上创建任务。处理器之间的数据交互不过是传递一个指针。多个计算任务之间通过coherent memory，barrier，和atomic等操作来保证数据的同步(和多核CPU的方式相同)。

HSA架构精髓：让最适合的单元处理任务

　　 HSA用一句话来概括就是：一种智能计算架构，通过无缝地分配相应的任务至最适合的处理单元，使CPU、GPU和其他处理器和谐工作在单一芯片上。

　　上一代APU虽然已经将CPU和GPU无缝融合在了一起，但并没有实现“分配相应的任务至最适合的处理单元”，这就是HSA架构的精髓，也是AMD未来APU想要努力实现的方向。

　　 HSA系统的几大特性：

　　 1. 任何处理单元的数据可以轻易地被其它处理单元所访问；
　　 2. 异构计算不仅包括GPU，还包括其它专用处理单元或协处理器；
　　 3. 编程人员不用知道程序在什么处理单元上运行；
　　 4. GPU和其它处理单元无缝访问虚拟内存，解决数据搬迁瓶颈，数据无需复制。

　　 HSA成功的一个关键是最小化应用程序移植的代价。从过去的经验来看，要求软件供应商修改代码以适应新的硬件的这种做法充其量只能获得有限度的成功。对于厂商专有解决方案就更是如此了。要成为主流技术，必须降低使用者的门槛。这就是HSA的设计思路。HSA解决方案为应用程序员提供了硬件、接口、通用的中间语言和基本的运行时环境，封装并隐藏了内存一致性，任务调度管理等等复杂的底层细节。

　　我们的系统中会有很多处理器、音频处理器、视频处理器、固定功能加速器，图形信号处理器等，很多时候这些处理器都是需要协同工作的，实际上在异构系统当中已经变成可能，由完全一致性的共享内存使整个处理器的各个子系统一次性的可见变成一种可能。HSA架构下，GPU也是支持C++的，最重要的是CPU指针，在现在操作系统当中，内存实际上是通过虚拟内存的管理来实现的，实际上在异构系统当中最重要的变化是这种配置是全局可见的，在未来GPU将变成可抢占性的，意味着操作系统是可以参与调配的。

HSA架构关键：hUMA异构统一内存访问

　　可以看到，在硬件层面，HSA架构当中的异构统一内存访问是一项关键技术，因此有必要详细介绍一下UMA：

　　一个真正的UMA系统中，所有的计算核心共享一个单一的内存地址空间，而NUMA采用非统一内存访问的GPU计算系统，不同的地址需要额外的数据来实现堆栈管理，频繁的拷贝，同步和地址转换增加了编程复杂性。HSA恢复GPU到统一内存访问，异构计算取代GPU计算。

　　 hUMA的主要特性：

　　 1. 双向的一致性，CPU和GPU任何一个处理单元做出的更新对其他的处理单元都是可见的。

　　 2. GPU支持分页内存管理，GPU可以产生缺页异常，不再受限于传统的页表锁定内存；

　　 3. 系统整体内存空间的全局管理，CPU和GPU进程可以从整个内存空间中动态分配内存。

　　以往的处理器都不支持hUMA架构，此时数据需要在CPU和GPU之间复制，CPU先把数据从内存复制到显存中，等GPU完成计算之后，再从显存中复制到内存中。如此频繁的转移数据，会浪费不少处理器时间，导致处理器效能不高，同时占据了大量的系统总线带宽。

　　未来处理器采用hUMA架构之后，数据就无需复制了，CPU只需将指针传递到GPU，GPU处理完毕后，CPU就可以直接读取结果，这样将极大的提高处理器效能，并降低对总线带宽的占用。

　　最后再来回顾一下hUMA架构的特性：整体内存空间访问、分页内存、双向一致性、GPU快速访问系统内存、动态内存分配。值得一提的是，目前已经上市的APU产品还不能支持hUMA架构，AMD会在下半年发布的下一代APU产品中提供支持，届时异构计算的效能将会得到释放。

HSA基金会成立！HSA成为开放式行业标准

　　如果意图在更广泛的应用中被采纳，HSA必须超越自身，不再仅仅是某个硬件厂商的独家解决方案。软件开发者的理想一直是“一次编码，处处运行”，实现这个理想需要具备一个跨平台和跨设备的基础架构。这也是HSA的愿景。HSA基金会由此成立，作为一个开放的工业标准组织，基金会的工作是把计算产业的参与者们联合到同一面旗帜之下。HSA的五家创始会员分别是：AMD、ARM、Imagination Technologies、MediaTek, TI和Samsung。

　　 HSA基金会的目标是协助系统设计者把CPU、GPU这样不兼容的计算单元很好地整合在一起，消除计算单元之间数据共享和任务调用的开销。透过HSA中间语言(HSAIL, HSA Intermediate Language)，不同的硬件实现向上暴露出统一的软件接口。HSAIL也是所有底层软件模块、开发工具一致的目标平台。同时，HSAIL足够灵活并且接近硬件，各个硬件厂商可以高效地把它映射到自己的硬件设计上。HSAIL也解放了程序员，后者不必为不同硬件平台裁剪自己的代码，同一套代码可以顺利运行在不同CPU/GPU配置的系统上。

　　由于HSA是面向未来的架构，所以首先需要软件开发者配合，他们开发出来高质量高性能的软件，再加上操作系统层面的支持，最终用户将会得到丰富完美的体验，当然这需要较长的时间才能实现并完善。

　　硬件方面，一旦处理器使用HSA架构之后，异构计算的效率将会大幅提高，这样就能用相同尺寸和成本的芯片提供更高的性能，OEM厂商可以降低产品的整体厚度和重量，产品拥有更长的电池续航，从而给用户带来更好的使用体验。

AMD内部实测：HSA让性能提升2.5倍

　　由于目前还没有支持HSA的处理器产品问世，所以所有的技术介绍及数据都来自于AMD内部。AMD大中华区游戏，软件及异构计算合作与技术总监楚含进向大家分享了HSA架构的应用实例——人脸识别技术：

　　人脸识别技术看似简单，实则是通过暴力计算的方式来实现，处理器需要在一张图片中画出无数个搜索框，从中寻找人脸的关键特征，一张1080p像素的全高清图片需要分析200万次……

　　一张图片中可能会有无数个人脸，处理器一开始并不知道人脸有多大，所以需要不断地对图片进行缩放从而寻找合适大小的脸。

　　最终，人脸识别的过程被细分为22个阶段，每一个搜索框都需要重复这22个阶段，如果是静态图像还好，动态视频的话30FPS就需要每秒1.4万亿次的计算能力……而且这个速度仅能识别正面人脸。

　　经过测试，这22个阶段中，并不是所有阶段都是GPU处理速度更快，也有CPU占据明显优势的，也有性能速度差不多的，毕竟两者计算架构完全不同，适应不同的运算。

　　 22个阶段CPU和GPU各有所长，最终根据效率高低，第0阶段让CPU独立计算，第9-22阶段让GPU独立计算，而1-8阶段让CPU和GPU协同计算会更快一些。

　　最终经过测试获得的数据显示，HSA为CPU和GPU智能分配任务后，人脸识别速度提高了2.5倍之多！

　　这个案例意味着什么呢？我们再来回顾一下本文第一页提到的内容：用户越来越希望能够借助手势、眼睛、身体，用自然表达的方式和机器交互——没错，体感！然后呢？游戏机——索尼PS4和微软Xbox One——它们都用的是AMD下一代的APU，都是基于HSA架构而设计的，而且是低功耗的CPU架构搭配为计算优化的GCN GPU架构！

　　只有HSA架构才能彻底的将GPU强大的运算能力释放出来，从而降低对CPU的依赖，大幅提升性能功耗比，降低应用开发难度，这就是索尼和微软不约而同的选用AMD APU的根本原因，否则传统PC架构顶级CPU搭配独立显卡不是更好么？游戏机硬件一旦确立，未来5年内甚至更长时间都不会再改变，因此必须选用前瞻性的架构，索尼的微软为次世代游戏主机选择了HSA和APU，PC同样是大势所趋，让我们一同期待AMD下一代桌面级APU的表现吧！■

32块Raspberry Pi主板组建超级电脑

泡泡网机箱频道7月4日 HotHardware报道美国的博伊西州立大学有位名叫Joshua Kiepert的强人通过32块Raspberry Pi主板去组装一部高性能计算机。

Kiepert的专题是希望能开发一种新的无线传感器网络数据共享系统，他需要通过局域网去进行分布式模拟的测试。本来他可以通过学校的Onyx机群去搞，但在操作时发现存在不便，于是决定使用Raspberry Pi主板去组装一部超级电脑。

因为使用了Raspberry Pi主板，所以造价会较便宜。Onyx机群每个节点需要1000美元至1500美元，而带8GB SD卡的Raspberry Pi主板则需要约45美元，32块主板加起来形成了一个低廉的解决方案。

Onyx机群有32个节点，每个节点配有英特尔至强E3-1225四核处理器，主频为3.1GHz，还有8GB内存，Kiepert组装的方案自然不能与其相比，而且从x86系统转移到ARM系统还有一些因素要重新考虑，不过这表现了他的创新性思维。　　他为这款组装起来的电脑加入了装饰灯，看起来效果还不错。

水冷神马的都弱爆了！看液态金属散热

泡泡网散热器频道7月10日中科院理化所全球首创的液态金属热管理技术，突破了传统技术观念，其本身拥有的相关特性，使其有望成为第四代芯片散热技术。而与企业顺利开展产业化合作，也再次证明该所的研究成果并不甘心只停留在实验阶段。科幻大片《终结者2》中的大反派T1000是个液态金属机器人，在高温下才会被融化。而现实中，科研人员也找到了一种金属，在室温下就呈现液态，并成功地将其应用在计算机 CPU散热系统中。

在室温条件下，以镓为主要成分的液态金属可以像水一样流动

　　中国科学院理化技术研究所（以下简称理化所）低温生物与医学实验室主任刘静和他的团队完成了这项工作。他在接受《中国科学报》记者采访时表示：“在CPU热管理领域引入液态金属，突破了传统技术观念，其本身拥有的相关特性，有望成为第四代芯片散热技术的关键。”

两年多来，理化所和北京依米康散热技术有限公司（以下简称依米康）就高性能液态金属CPU散热器展开产业化合作，在中科院理化所产业策划部的指导下，产业化进展顺利。
全球首创新一代散热技术
　　 “目前市面上的主流CPU散热技术经历了三代变革。”刘静说。第一代CPU散热器（翅片风冷）主要依靠铜、铝等金属的导热来实现散热；第二代CPU散热器（热管）则采用相变吸热、毛细回流的热展开方式；第三代CPU散热技术（以水冷为代表）采用水对流传热来实现热展开过程。
　　刘静谈到，这三代散热技术在面临极端高热流密度散热问题时，都存在不易克服的瓶颈。就拿水冷来说，管道内易发生沸腾相变，会导致严重的系统稳定性问题，且其驱动需要借助机械泵，这会使得硬件设备较大。
　　 “这对新一代散热技术提出更高要求，在确保结构尽量简单、可靠性强的前提下，散热器应提供远优于当前耐极限热流密度的能力。”刘静说，这就需要寻找具备更优异热物理性能的材料。
　　幸运的是，刘静及其团队研发的液态金属就是此类典型。其导热系数是水的60~70倍，捕获热量的能力比水强悍得多。此外，液态金属的沸点高达2000℃，抗击极端温度的能力异常强，且性质稳定、无毒。
　　综合其系列优势，液态金属冷却方法有望成为CPU散热领域的第四代高端散热技术。刘静团队这项于十余年前提出的全球首创技术，陆续得到了国际学术界的高度认可，著名刊物《电子封装杂志》将2010~2011年度唯一的最佳论文奖授予该团队。

更低温！革命性第四代液态金属散热器

2013年07月12日 00:46 出处：泡泡网【原创】作者:卓克编辑:卓克

泡泡网散热器频道7月12日近日，依米康散热技术有限公司（Emikon）在京推出了全新散热器品牌COOLLION。其与众不同之处在于全线产品采用革命性第四代液态金属散热技术，大幅提升散热器在性能、稳定性方面的表现！

在发布会现场，COOLLION展示了3款液态金属散热器，这也是目前国内市场上唯一零售的采用液态金属技术的散热器产品。

波浪A-1，是目前COOLLION已经发布产品线中的顶级产品，采用6根灌注液态金属铜管，12cm散热风扇，并配备独立的电子泵供电模块，可以提供最强的散热器表现。

波浪A-3，定位在中高端市场，配置2根灌注液态金属铜管，9cm散热风扇。

冰魔方特种冰，是一款入门级的液态金属散热器，它采用1根灌注液态金属铜管，并采用8cm风扇，在很好的控制体积的情况下，价格也容易被市场接受，同时由于采用了液态金属散热技术，散热效能依然维持在较高水平。
---------------------------------------------
　　液态金属是一种导热性能数十倍于水，数千倍于空气的导热介质。而COOLLION的液态金属不是水银，是无毒的合金。

通过合金配比不同，它可以在常温下保持流动的液态。据COOLLION工程师介绍，如果有需要，通过调整合金配比，甚至可以在零下的温度维持液态金属的流动性。而目前COOLLION也在不同的产品上使用了熔点不同的液态金属，以达到最佳的导热性能。

由于液态金属本身的特性，在导管内的循环流动采用电磁泵的形式，没有任何机械运动部件，在可靠性和噪音表现上由于水冷系统的机械泵。而且通过改变电子泵的功率，可以方便的调节液态金属的循环速度，改变散热能力，比传统热管只能靠自然蒸发更具可控性。
　　现场媒体亲自体验了液态金属各种神奇特性。

　　在热水和冷水中迅速改变状态的液态金属。

　　在温水中成完美球形的液态金属。

---------------------------------------------
　　液态金属热管理技术是中国科学院理化技术研究所与2002年首创，在这一领域处于世界领先水平。

在国际上率先取得了液态金属散热技术的专利。

北京依米康散热技术有限公司是由北京依米康科技发展有限公司、中国科学院理化技术研究所、北京首科集团共同出资建立的。具备强大的科研和政府支持，可以第一时间将最新中科院研究成果转化为商业技术和产品。

目前公司在北京建立有研发中心，在广东建立有生产基地，充分发挥区域优势。后续还规划在山东建立更大的产业园区，用于研发制造高等级商业、工业领域的液态金属散热产品。
　　依米康在推出PC用液态金属散热器后，也规划了集变电、LED、手机、投影机、激光等领域的液态金属散热器产品，并将根据技术和市场的变化适时推出。■

ngan

2013年7月15日星期一

CPU和GPU真融合 APU异构系统架构解析

CPU和GPU真融合 APU异构系统架构解析

32块Raspberry Pi主板组建超级电脑

32块Raspberry Pi主板组建超级电脑

水冷神马的都弱爆了！看液态金属散热

更低温！革命性第四代液态金属散热器

更低温！革命性第四代液态金属散热器

关注者

博客归档

我的简介