|
2007年6月6日 研发中心
当前,高性能计算是学术界和产业界关注的热点,但传统的机架式机群HPC技术受到了巨大的挑战,它一方面来自于因特网时代多种计算形态的竞争替代,更主要是高性能计算机技术本身的发展遇到了屏障。系统规模也越来越大,耗电越来越多,编程困难,应用效率低。HPC技术如今面临重重困难,归纳起来主要有以下几点。
·实际应用的持续性能低,I/O性能同CPU的不平衡发展;
·复杂性挑战,包括结构的复杂性,使用的复杂性,管理的复杂性;
·可靠性与可用性问题,系统的平均故障间隔时间(MTBF)明显地下降;
·功耗问题,功耗过高影响整机系统的稳定可靠性,高的用电成本制约了普及。
随着高性能计算向高性能服务转变,超级计算机系统追求的目标也将从“高性能
”(High Performance)走向“高效能”(High Productivity)。即超级计算机的研发重视系统的实际效率,可靠性、可用性、好用性,努力提高单位面积的性能,降低单位面积的功耗和造价;更加重视高端计算的总体拥有成本(应用系统生命周期内的成本+拥有/获得成本);愈来愈复杂的高端系统需要自动化、人性化的环境支撑(系统的自管理、自配置、自优化和自愈性等)。曙光刀片服务器正是基于这一理念进行设计的。
1.优异的系统平衡架构设计
HPC以CPU为核心而绝大多数高端计算系统实际使用的持续性能只有其峰值性能的5%~10%。造成这一现象的主要原因是主机性能与外围设备性能不匹配,系统资源难以有效调度以获得负载均衡、架构平衡。
高效能刀片服务设计之初,充分分析了机架式机群系统以及市场十几款厂家的刀片服务器产品,对其架构的优缺点进行分析,进行了详细的功率计算,对CPU、硬盘内存发展趋势进行分析,对目前主流高速互连技术进行分析,采用7U10片的系统架构,计算密度相对1U机架服务器提高1.43倍,同时保证计算密度同系统I/O带宽、散热能力等方面的平衡设计。
在背板带宽和延迟方面,是刀片服务器性能瓶颈。而在曙光刀片服务器系统中,整个刀片背板总带宽为950Gb,信号延迟为纳秒级,大大提高了计算系统带宽并降低延迟,很好的实现了计算能力同I/O能力的平衡问题。同时,创新的把PCI-E总线引入背板。因为背板信号为PCI-E,在背板的后端,可以根据系统需要灵活的设计各种高速交换设备,比如InfiniBand交换、Myrinet交换、ASI交换、FC交换等。
2.方便的部署和管理
部署简化
曙光刀片服务器在部署方面. 安装维护过程大大简化:由于所有计算刀片通过背板实现互联,而背板在与网络交换模块,存储交换模块以及监控管理模块互联,而这些互联完全是通过PCB布线完成的。这样做的至少有四点:1、大量节省电缆线的成本;2、对于安装过程而言,可以节省了传统机架式服务器的外部多如牛毛的布线工作,节省大量工作时间,降低安装成本;3、有效的降低系统由于接入问题(虚接、错节)而引起的不稳定性因素,从而提高系统的稳定性与可靠性;4、对于更换节点的维护工作而言,比传统的方便了许多。更换工作只是把旧刀片从机箱中拔出来,插入新刀片,就像更换热插拔硬盘一样方便,而不用考虑网络与光纤的再连接,对于传统的机架式服务器而言这也是一个比较繁琐的工作。
集成管理,便捷维护
曙光刀片服务器管理监控高度集成:通过统一的监控界面,监控所有刀片资源,包括机箱电源、风扇、计算刀片、背板、交换机。管理系统整合目前两大监控技术,即IPMI以及KVM (Over IP),真正实现监视控制一体化。同时,为实现方便快捷的刀片服务器管理,通过优化的管理软硬件设计,改善可管理性,增强部署和可服务性,这些将降低总的所有权成本。
曙光刀片服务器监控管理系统实现以下功能,分别为:
·对各部件的在线检测,工作状态监控,通过检测得知当前工作情况; 2优异的电源管理策略,以及功率管理策略;
·智能冷却系统管理策略;
·刀片健康信息监测,系统资源监测;
·实现所有本地控制操作,如KVM、Share Media、各部件上下电管理;
·实现所有远程控制操作,如IP KVM、Virtual Media、部件远程上下电控制;
·良好的人机交互界面,实现多元化报警、提供日志、数据分析、实现用户管理策略定制和部件故障预报警;
·管理系统支持冗余,通过心跳实现监测和切换;
·为其它管理软件提供通讯接口。
其中真正解决计算刀片远程管理的主要依靠KVM over IP以及Virtual Media两项技术。所谓KVM Over IP,指透过Internet环境,以TCP/IP网络为接口传送视频信息,并远程操控散布在各地机房中的服务器的解决方案。相对于模拟式KVM,KVM over IP技术提供了相对弹性的管理方案,网管人员可以在全球任何地方,透过TCP/IP网络来远程管理任何机房中的刀片服务器。
基于IP的数字化KVM系统作为向标准化和灵活的集中化迈进的一部分,不仅克服了传统模拟KVM系统的局限性,也为管理不同种类的分布式网络提供了可能。KVM
over IP系统,充分利用了现有的以太网和其他IP网络,取代了对专用电缆和信号系统的依赖。为确保路由能力,KVM系统必须使用真正的IP协议,而不是仅仅将IP网络用来传输专用模拟信号。
Share Media以及Virtual Media技术
该技术实现了USB共享及远程化,即在远程通过一台主机连接到管理系统的网络,而不是计算刀片的网络,把远程机器的存储介质通过管理网络映射成计算刀片的USB设备,实现远程的系统安装,软件拷贝等。
配合KVM over IP以及virtual Media技术可以透过网络远程实现在本地刀片所有的操作,例如开关机、操作鼠标、键盘、显示器,安装各种软件等。采用曙光刀片服务器可以大大降低部署工作及其成本,而采用曙光刀片服务器监控管理系统则可以把管理员从机房解放出来,在远程进行所有的管理工作,大大降低系统的维护成本。
3.节能设计
为降低功耗,曙光刀片服务器采用先进的多渠道节能技术,主要体现在三个层面:
1)根据实时功耗确定工作电源个数,使电源工作在最佳效率曲线上。
系统充分对功率部分进行设计,设计分成静态功率设计及动态功率设计,控制方式如下:第一,在对第一个刀片上电时,并没有作功率计算,是建立在一个电源模块能够支持至少一个刀片服务器和所有其他辅助模块的假设前提下,如果这个假设不成立则需要在第一个刀片上电前进行计算;第二,对于功率分配计算分为两步,第一步是上电前的电源功率预分配,在这一步功能模块是把自身在固定Flash中存储的最大满配情况的功率需求发送给管理模块进行审批(满配并不代表实际配置),等刀片完成了BIOS自检之后还要提交电源功率实际分配的申请给管理模块,这是第二步电源分配的结果。例如,根据不同的配置刀片中可以插入8条内存、4条内存、2条内存或者两块硬盘或者一块硬盘,甚至将来的单双CPU不同,以上情况功耗有明显差异。通过这种两步电源分配的策略,一方面可以保证刀片不会误上电(最大满配功耗),另外一方面可以保证功耗使用的精确性,使功耗分配更加合理。
本项目刀片服务器采用6颗电源,每颗1KW,在管理系统确定功耗后,进行最佳电源效率判断,然后确定是否需要关闭或者打开电源。例如一个系统中有6颗1kw电源模块,在最大90%负荷时电源转换效率最高,为85%,而在其负载为40%时其效率为65%。在系统工作的某个时刻,经过监控系统测出实际功耗为2700W,这样就可以关闭3颗电源,实现电源转换效率为85%,而如果不采用任何手段时,其效率仅仅为65%,系统实现节能30%左右,同时减少热量排放,降低冷却成本。
2)修改计算刀片操作系统内核,实现节能
更改操作系统内核,优化程序执行队列或者根据负载情况动态调整CPU频率。主要原理是对CPU的运行状态进行计算,分析任务队列,对不同时刻进行功耗计算,同时建立一些CPU散热器的散热模型,在工作过程中,尽量把功耗高的任务与功耗低的任务交叉进行,这样可以保持CPU在稳定的负载下运行,减少热能的散发并提高运行效率。同时,当发现CPU任务队列对功耗需求较低,则通过BI/OS接口进行CPU功率的动态调整,比如一个刀片,CPU为AMD2218,主频为3.0GHZ,在CPU任务队列较少的时候,就可以根据任务需要把服务器的CPU从3.0Ghz调整倒一个比较低的频率,这样就可以使CPU的功耗大大降低。
3)多计算刀片任务调整调度
在刀片系统的管理软件上,进行任务调度管理。例如,一个计算任务分在10刀片上部署进行,一旦管理软件探测到实际负载很轻,则把作业迁移刀片其中5个计算刀片上,关闭掉余下的计算刀片,实现系统功耗减少,从而完成节能。
如果采用使用曙光刀片服务器搭建十万亿次级别的超级计算机,整体功耗估算为50KW,是传统机群功耗的1/6,大大提高了单位面积以及单位功率的计算性能。
4.先进的散热设计,采用工业通用部件
刀片服务器设计的障碍主要有散热问题以及对工业标准件的支持问题,例如市场上许多厂家的刀片服务器要求采用低电压的CPU,非标准的内存,非标准的I/O卡。曙光刀片服务器首先确定科学的系统架构(7U10片,每个刀片宽度类似1U服务器),保证系统散热和计算密度达到平衡。另外,尽可能多采用工业标准部件,例如CPU,内存,热插拔硬盘,标准I/O卡等。
基于以上的理念,对系统的散热风道进行研究和设计,通过软件模拟散热仿真进行反馈和修正。最终在软件模拟仿真中通过了7U机箱内安装20颗120W高性能CPU,创造了业界记录。曙光第三代高效能通用刀片服务器散热仿真模型及单个刀片温度分布如图1、图2所示:
|
|
|
图2 单个刀片的温度分布图
在支持工业通用PCI-e I/O卡上,曙光刀片服务器创新的提出的I/O扩展模块的设计,为每个计算刀片提供一个标准的PCI-e ×16的槽位,可以插入任何标准的工业I/O卡,不需要单独设计子卡。
|
5、支持计算刀片异构
目前曙光刀片服务器仅有支持AMD 双核/四核CPU的计算刀片,而支持其他类型CPU的计算刀片会陆续推出,包括Intel,龙芯,以及Power PC等。这些计算刀片可以同时在一个刀片服务器机箱中工作。
6、可重构计算实现通用刀片服务器的行业定制化
在曙光刀片服务器中,支持通用的PCI-E I/O设备,同时设计了基于PCI-E采用FGPA实现的加速部件,加速部件主处理器为Xilinx最新的Virtex-5 系列高端FPGA。通过FPGA实现各种加速算法,加载此加速部件,可以实现刀片服务器在不同计算应用下的计算加速。目前这种加速部件称为可重构计算结构,以较低的硬件复杂度实现指令、数据及线程级的并行。
目前刀片服务器应用涵盖了多个领域,有着不同的计算需求。例如在商业数据分析和基因测序中,要进行大量的数组运算、线形数据匹配、逻辑测试等等,而对于医疗成像,计算化学而言,其主要工作是同步映射、过滤等等。这些不同的应用需要不同的数学逻辑操作,以及有效的内存连接读取等。
FPGA作为一个可重构计算引擎,可在软件控制下进行硬件单元优化工作来满足不同HPC应用需求而提高计算效率。FPGA的结构非常容易实现并行操作,因而,通过配置,它可以同时执行大量的数据吞吐操作,在这种情况下,该设备相当于多个传统CPU在同时工作。一个200Mhz的FPGA处理能力将远远超过一个3Ghz的通用CPU,然而功耗仅仅是后者的1/4。例如在生物计算中,FPGA相对于一颗传统处理器在处理DNA基因排序上能往往能够加速50倍到100倍,在医疗CT的2D,3D的图像处理上能够加速10倍左右,对于一些通用的算法,类似于FFT,一般情况下FPGA的加速至少可以达到10倍以上。
根据刀片服务器的应用环境我们可以在加速部件上调用不同的数据库,这样通用的刀片服务器就变成了行业定制的特殊机器,在运算能力上大大提高,同时功耗大大降低。采用此技术可以实现刀片服务器的高效能同时实现通用刀片服务器定制化。
综述:
曙光刀片服务器的设计在计算I/O平衡上,在系统带宽和延迟上,在能耗设计方面,在虚拟化支持方面都体现了高效能。而曙光刀片服务器采用了从CPU、内存、硬盘、I/O扩展卡一系列的工业标准部件,实现了刀片服务器的通用化。
(待续)
|