新闻 NEWS  
     

新一代高性能计算机发展的挑战与机遇
——访中科院计算所副所长樊建平

科技日报记者 胡永生


   

  年前遇到中科院计算所副所长樊建平,聊起高性能计算的发展趋势。他对我说:“高性能计算机体系结构研究正出现转折,机群式体系结构已经走到尽头。”

  “这个话题很好,节后我们好好聊聊。”我立即响应。于是有了2月13日的专访。

高性能计算的市场需求

  “毫无疑问,市场对于高性能计算机的需求在增长。一方面,随着网络的普及,电子邮件的流行,各种数据库的建设及完善,企业数据仓库正在向 PB(1000T,即1000万亿字节)的容量发展。美国已经有人研制成太阳能传感芯片,这种传感器可以在野外全天候采集数据,并通过无线通信相互联系,发送数据。利用这种芯片可以在美国国土建立一个巨大的传感器网,把美国真正变为数字化美国。同时,由于人口老龄化趋势,利用配备无线传感器的家电可以构成能够照料老人的数字化家庭。设想这样一个庞大的传感器网,有一万亿个传感器采集各种微观数据,每个传感器传输1KB数据,就是1PB的数据量。处理这样的数据量,对高性能计算机提出了更高要求,发展新一代高性能计算机势在必行。”樊建平的语气非常肯定。

  美国计算机科学家 JordanB.Pollack提出了现代社会对于高性能计算技术的“十大挑战”,这些挑战涉及政治、教育、全新的国家工业基础设施、软件开发、重建电信业等多个领域。

  “我们也可以设想高性能计算技术的未来。例如,能不能利用传感器系统以及高性能计算机缓解北京的交通堵塞?能否利用高性能计算技术帮助解决能源问题?能否利用高性能计算技术帮助解决沙尘暴问题?高性能计算技术可以涉及的领域还有生命科学、医疗保健等等,与人民生活息息相关。”“一方面需要高性能计算技术解决的问题越来越大,越来越重要;另一方面高性能计算技术发展的条件非常优越,因为关键部件如微处理器、内存、硬盘等等性价比不断提高,人们可以利用工业化生产的部件构建高性能计算机。也正因如此,高性能计算机的体系结构问题就越发突出了。”

主流高性能计算机面临困境

  目前商业化高性能计算机的主流体系结构是 Cluster,就是机群式。机群式体系结构已经有大约十年的历史。为了提高性能,机群式高性能计算机的节点数不断增长,多的已经到300个以上。系统的可扩展性、可靠性的瓶颈已经成为突出的问题。“以每个节点的可靠性为99.99%计算,很容易看出,300个以上节点的机群式计算机每周甚至每2-3天就会有一个节点失效,需要换主板,用户的应用程序就不得不中断。现在用户一般都要求连续计算,已经处于进行之中的计算任务可能因为某一个节点失效而不得不重新开始,这样问题就更严重。为了解决这一问题,用户必须把阶段性计算成果进行备份,存到硬盘里,以确保系统在失效节点修复以后从断点开始计算,而不是重复计算。所以,用户使用高性能计算机的难度越来越大。”樊所长的叙述很客观,也很严谨。

  这里需要解释一下可靠性的概念。99.99%的可靠性意味着如果由一万个节点构成的系统总会有一个节点失效;或是一个节点工作一万个小时会有一个小时失效,那么300个节点构成的机群式系统在连续工作了300小时后出现某个节点失效是很正常的。实际上由于节点的增多,系统的复杂性提高,平均每个节点的可靠性会下降,或者说失效率会增加。所以系统连续工作一周甚至2-3天出现某个节点失效是可以理解的。

  这种现象意味着什么?“工业界仍然试图通过增加节点数的办法来提高机群系统的性能,这是一种惯性。从表面上看,系统的峰值计算速度随着节点数的增加而提高,可是如果我们继续因循这种惯性发展机群式系统,结果系统的可用性会大大下降。从可扩展性、可用性的角度看,可以说,机群式体系结构已经走到尽头。”这就是樊建平的结论。

  美国一家超级计算中心的主任丹尼尔指出,美国在高性能计算领域有重大决策失误,因为美国现在没有关于高性能计算机体系结构的重大研究项目。

  美国著名的高性能计算机专家 Dave Patterson是RISC以及磁盘阵列技术的发明人,他认为如果20年以后,高性能计算系统的可靠性及可用性还像现在这样脆弱,后果是不可想象的。

挑战与机遇

  樊所长在他的笔记本电脑上打开一个文件:

  “你看这幅图。这是一项统计分析,把每年国际学术研讨会上发表的关于高性能计算机体系结构的论文按专题分类统计,可以看出一种发展趋势。1975年,关于高性能计算机体系结构的论文五花八门,没有一个专题占突出地位,看不出明显趋势。关于多处理器体系结构的论文数量分别在1985年以及1993年达到高峰,可是到2000年、2001年,形势似乎又回到1975年。我们可以看到,没有一个专题占据主流地位,一片混沌。”

  历史经常会发生“似曾相识”的现象。不过,有的一目了然,有的需要深入分析。对在国际水平的学术会议上正式发表的论文进行统计分析,揭示出这种历史上深层次雷同的现象。如果仅仅比较计算机的性能,1975年与2001年当然不能同日而语,当年的大主机性能甚至远逊于今天的 PC。人们似乎应当欢呼技术的巨大进步,不过这样的欢呼未免肤浅。那么系统体系结构研究的这种历史上深层次雷同又为我们提供了什么信息呢?

  “这表明学术界在高性能系统体系结构研究领域已经迷失方向。这对于我们来说,既是挑战,又是机遇。说这是挑战,是因为在这一领域,我们不能仅仅跟踪,因为不存在主流,一片混沌,跟踪已经失去方向。说这是机遇,是因为这样的形势恰恰为我们开展独创性研究、发展新一代高性能计算机提供了机遇。”

  党的十六大已经明确提出,在研究战略上,我国科技界应当从主要是跟踪转向自主创新研究。今天的形势与上一世纪九十年代初完全不同。我们在产业方面,已经建立了相当的基础,例如曙光计算机;我们在未来的高性能计算机体系结构研究领域已经取得一系列成果,研究力量也大大增强;在市场方面,我国的高性能计算技术市场正在急剧增长;从我国发展战略来看,高性能计算技术应当成为我国力争的一个战略制高点;从发展时机的角度看,过去几年我国在高性能计算技术领域的发展已经经历了一个量变的过程,现在对于质变的需求,也就是对于新一代高性能计算机的需求已经提上议事日程。因此,我们不应当放弃在高性能系统体系结构研究领域的机遇。

网格化的高性能计算

  在国际学术界没有明确结论的形势下,我国高性能计算机体系结构研究应当朝哪个方向发展?

  樊建平认为,发展基于光互连技术的网格化高性能计算机体系结构势在必行。理由如下:

  首先,现在网格的研究正在兴起,而且势将逐步形成基础设施;第二,从光信号与电信号相互转换的基础研究来看,电信号的速度已经接近光的速度,光信号在频谱上的移动也已经接近电信号的水平,两者在理论基础上有一个结合点,就是 Terahertz(太赫,万亿赫兹)。樊建平在计算所领导 HPC-OG项目研究小组,就是研究光互连网络化的高性能计算机。在这一领域,光器件以及光电转换器件在板卡级水平已经趋于成熟;同时计算所在网格领域的研究已经积累了不少成果,两者有一个结合点。所以,光互连技术与网格技术都已经发展到一个新的水平,我们就有可能把两者结合起来,构建新一代网格化体系结构的高性能计算机,在高性能计算机体系结构领域取得突破。

  网格化体系结构与面向网格的体系结构有什么不同?今年将要发布的曙光4000是面向网格的高性能计算机,这种体系结构只是在硬件及软件方面适应了网格技术的发展,但是它的体系结构从本质上看还是机群式,当节点数增加到300-400个,这样的体系结构无法解决可用性问题;网格化体系结构就完全不同,从硬件特征看,网格化的体系结构应当实现网络化的 CPU,网络化的内存以及网络化的磁盘存储系统;从软件特征看,网格化的体系结构是把现在的操作系统完全拆开,例如 CPU管理系统、文件管理系统、任务管理系统等操作系统的主要模块分开。总的思想是网格化体系结构是拆,机群式体系结构是合。

鼓励原创要敢于冒风险

  “网格化的体系结构在实验室已经实现了吗?”我问。

  “还没有。无论是理论模型方面还是工程技术方面,都还有大量的研究要做。但是这是一个方向,如果取得突破,那就是真正的原创。当然,凡是原创性研究都有失败的风险,国家从政策上鼓励原创,政府有关部门的官员应当敢于冒风险。”

  历史上曾经有过很好的例子。曙光一号在开发初期,就有过争论。当时国内计算机界一说体系结构就是“巨大中小微”,用多个微处理器构建高性能并行处理计算机对许多人而言是匪夷所思。当时国家科委高新技术司的冀复生同志敢于冒风险,全力支持曙光一号的开发,最终曙光系列高性能计算机取得巨大成功。

收复失地与开拓新疆

  “我们现在一些重大研发项目的基本立足点是收复失地。收复失地的目标无可非议。然而我们的研究战略已经从支持跟踪转向鼓励原创,政府有关部门能不能拿出一些钱来支持开拓新疆的工作?新一代高性能计算机体系结构的研究开发就属于开拓新疆的工作。”谈到鼓励原创,樊建平很有一番想法。

  我对他的想法表示赞同:“开拓新疆也许是收复失地最好的办法。我们经常说要站在巨人的肩膀上发展,就是这个意思。如果只是想一切从头开始,重新打造一个巨人去与别人竞争,最终结果恐怕事与愿违。”

  其实在这个问题上,我们已经有很多历史教训。例如国产操作系统,不是不能做,而是难以建立用户群。没有足够大的用户群,做出来的操作系统无法不断升级。收复失地的目标不可能实现,自主知识产权也只是空谈。

  信息技术的发展历史表明,在许多领域,只有第一,没有第二。如果发达国家在新一代高性能计算机体系结构领域又先行一步,我们除了跟踪,还能做什么呢?


稿件来源:《科技日报》

   
    返回

Copyright for NCIC All Rights Reserved
本网站版权归国家智能计算机研究开发中心所有