新闻 NEWS  
     

访曙光4000A总设计师孙凝晖:最重要的不是世界前十
科技日报记者 胡永生
2004.6.26


  十万亿次高性能计算机曙光4000A尚未正式发布,网上已经公布这台计算机在世界计算机“500强”(TOP500)中排名第十的消息。我国自主设计制造的高性能计算机在Linpack测试中性能排进世界前十名,这是第一次。

  作为这台超级计算机的总设计师,孙凝晖对这个排名却不屑一顾: “TOP500排名不重要,Linpack测试有误导作用。十年前Linpack测试很重要,现在已经过时了。美国有个林肯研究所,正在开发更科学的高性能计算机测试方案。”

  那么什么是重要的呢?于是我与孙凝晖之间有了以下一番对话。

正确的技术路线

  记者:你做曙光机到这个水平,自己体会最深的一点是什么?

  孙凝晖:高处不胜寒。

  曙光4000A进入世界前十(TOP10),我并不激动。同现在相比,我做曙光3000的时候很激动,因为那真是第一次把机群系统做到商用、实用的程度,现在反而冷静了。从这个角度来说,我感到比较自豪。如果是十年前,我告诉你做机群系统就能做到全世界最好,没有人会相信。如果当时大家相信机群体系能做到世界前十,IBM为什么做那么贵的专有系统SP?我们回头看,好像没什么了不起。不过曙光机一步一步走到今天,从技术道路看,我很自豪。最重要的是我们中国人没有走错误的技术路线,选择了正确的路线,就是做这个工业标准化的机群系统,这是很重要的。

  记者:现在看,当年计算所、曙光公司坚持用工业化大批量生产的芯片、板卡建造机群体系结构的高性能计算机,以较低的成本实现高性能计算,技术路线确实走对了。当时曙光机的开发得到了国家科委的大力支持。现在曙光机进入世界前十名,你怎么又感到高处不胜寒呢?

  孙凝晖:因为到这个水平再进一步发展有相当难度。我们只是把工业标准的机群系统做到世界最好水平,这个我是有证据的。但是我们同时碰到一个玻璃天花板,透过这个玻璃天花板能看到外面的天空,但是出不去。当然我不是说曙光机已经走到头了,毫无价值了。因为在玻璃天花板之下是很大的应用空间,无论是国家安全,还是各种行业的应用,都有很大的空间。象我国石油行业要找油,就是靠曙光高性能计算机,曙光机的确为国家做了很多贡献。那些世界级厂商如IBM、SGI等也同样碰到高处不胜寒的问题。因为你到了一个层次的顶端,也就是到了更高层次的底部。

突破玻璃天花板

  记者:你打算怎么突破这层玻璃天花板?听说你提出MCC,就是大规模机群计算?

  孙凝晖:这是我提出来的,这不是新的体系结构,只是一个思路。为什么提出MCC? 首先,工业标准化的机群体系结构从提出到现在,没有本质的变化,就像当年的个人电脑在体系结构上同现在的PC比较,基本上没有本质变化,但是每一部分做得更小更精致了。机群体系结构可以追溯到上一世纪90年代初的VAX机群系统,那是第一代机群。现在是第二代机群,已经做得很细了,各个部件都做的非常的细致。但是,核心技术没有突破。为什么提出MCC呢?就是想把MPP(大规模并行计算,一种高性能计算机的体系结构)的固有优点加到机群系统里去。如果技术更新了,肯定市场面会扩大,老的技术不会用了。

  第二,我一直不甘心机群体系在性能上落后于专有技术,或者说是定制系统达到的水平。现在世界上前十名中最好的那些计算机,还是定制系统。我们能不能把集群技术提高一下,追上定制系统。曙光4000A跟定制系统比规模还差三年,比技术还差两年。这两点是我们提出MCC的理由。

  记者: 我曾经采访樊建平副所长,他说国际上高性能计算机体系结构的发展目前处于混沌状态,没有明确的发展方向。机群以后是什么,有很多方案,但是没有一种方案能真的被大家所公认,将来能替代机群。另外也有人说将来就是机群,继续搭积木就行。微软的研究员Jim Grey就说,政府不应当投资建造那些专有体系结构的高性能计算机,应当投资研究软件技术,软件跟机群相配合就可以了。微软自己做研究真做不下去,因为这家公司太商业化,某种意义上研究做不下去。所以需要政府投资于大学及相关研究机构来刺激真正的软件技术创新,你对这方面的前景怎么看?国际上最近有什么新动向?

  孙凝晖:从商业上看,机群还是有生命力的。因为机群系统有其固有优点。机群的技术路线和微机的想法一样,就是标准化、构件化,跟PC一脉相承。从商业角度说,我觉得机群在相当长的时间里还能发展。我们现在面临的问题就是机群上的应用软件不多,能干的事还比较少。我有一个典型的技术上的需求,高性能计算有一个完整的软件栈,有通信,有MPI,可以比较好的工具软件,但是对机群的商业计算,没有相应的软件栈。石油勘探信息处理,我可以用C语言,用那些面向对象语言来编码,但是商业应用上,缺少一个软件栈,只能用汇编语言来编程。

  从体系结构角度看,现在人们已经看出机群的很多不足,的确需要体系结构的创新,也有很多人做这件事情,我们也在做。但是技术发展有周期性,一个周期一般是10-15年。下个周期什么时候开始,我自己觉得大概在4-5年之内,我们希望2008年左右计算所会推出新一代体系结构的高性能计算机,同现在的曙光机群系统比能够有明显的不同。在2000年,高性能计算机做到十万亿次很难,可现在不同了,所以要新的研究。现在这项研究对美国国家科学基金会(NSF)来说,也刚开始。NSF是高性能计算技术发展的晴雨表。前几年NSF觉得网格就够了,现在看来网格只能解决一部分问题,不是唯一的发展方向。现在NSF又转过来强调高性能计算机。我最近看到NSF发展高性能计算技术的指南,有一个跟计算机体系结构有关,另一个是完全讲操作系统和软件的事。所以说,NSF也在转变。

  而且有一些大公司正在做一些事,我们也能看到创新的萌芽。例如,SUN公司在做两件事,如果突破就不得了。一个是电容耦合,做芯片之间的通讯,原先是走线,如果靠耦合,性能提高得不得了;第二个是要改变高性能计算机编程模型。现在的编程模型都是消息传递,数据迁移,任务分解,多少年都是这样,Sun要改变这些。这两大技术任何一项取得突破的话,对未来的影响都不得了。

  记者: 还有IBM、微软公司呢?

  孙凝晖:微软主要是做操作系统,它自己叫网格操作系统,其实就是在应用和服务级的互联互通服务系统。IBM我不太了解,有个PERCS系统。IBM公开发布的计划都很商业化,后台做的事情没有公开发布。

  记者: 克雷公司在做什么?

  孙凝晖:克雷公司主要是做processor in memory(内存中处理器),这是把处理器同内存结合起来的一种新型体系结构,能够缓解数据传递的瓶颈。

  当然最厉害的是干脆CPU都变了,IBM做的Cell CPU在体系结构上有创新,4颗CPU做在一块板子上,计算速度就能突破万亿次。据说到2008年这种CPU可以商品化。我觉得对我们来说创新能力还没有达到那个水平,我们还不具有那种核心器件级的技术创新能力。我们现在还是做整机系统上的创新。有一些创新是需要CPU做支撑的,例如要降低整机功耗,CPU功耗必须要低。至少从我的角度说,我希望龙芯能成为我们所需要的CPU。从曙光来说,还是希望能用龙芯开发系统。因为只有这样,才能实现我们的理念。用美国的CPU,高性能计算机的价格降不下来。但是并不是说所有用户的应用都能享受到龙芯系统这样低成本的好处,但是在某一些应用点是可以的。我们不可能全面跟发达国家竞争,但是一定要找到自己发展的关键点。低价格就是这样一个关键点。如果我们走美国道路,按照摩尔定律增长,我们死定了,永远达不到美国现在的信息化水平。我们必须把每单位GDP的能耗降低,7-8%的增长才能保证。要降低价格,降低能耗,各行各业必须广泛应用高性能计算机模拟、仿真。所以我说高性能计算机的应用才刚刚开始。

我们的目标

  记者: 你刚才谈到了我们发展高性能计算机的理念。主要有哪几点?

  孙凝晖: 我觉得对中国,最重要的是下面三个目标,而不是技术,目标是最重要的。第一个要大幅度降低价格,为什么曙光高性能计算机对国家能产生这么大的作用,我觉得倒退十年,曙光、银河都在做,但是没有今天高性能计算机对国家经济的作用这么大,把它叫生产力。当时开发超级计算机只是国家战略目标。今天高性能计算机已经为制造业的发展、改变人民生活发挥了巨大的作用。为什么?高性能计算机便宜了,我们最起码能做便宜了,这是机群系统最了不起的优点。手机就是这样,就是老百姓用得起。所以我们最终要看到高性能计算机的普及和对经济增长、对生活变化的作用。

  我觉得我们发展高性能计算机,下一步最重要的目标还是低价格。我非常欣赏我的好朋友,香港高性能计算研究所的W.K. Lam(林伟坚)先生讲的一句话,如果你把高性能计算机做便宜了,那每个美容院都会用。美容是个性化的产品,一定有人会写一个软件来定制你的美容方案。我觉得高性能计算机下一步发展一定要降低成本。现在国家中长期科技规划的提法叫新型信息化,普及、低成本的高性能计算机就是新型信息化的内容之一。我国信息化按美国的路走得用十万亿人民币,根本不可能,高性能计算机也是一样,一定要想办法降低价格。

  第二个目标是提高可靠性,造十万亿次这样的机器,你再用这种简单的办法像搭积木一样去组合这些部件,已经不可能在规定的时间内完成一项应用了,等于没有用。比如你拿火箭发动机做汽车也许速度很快,但是根本不能用。另外一个因素是我们现在高性能计算机还得专家去管,好歹是个硕士才能管。你没有硕士的水平,想把机群系统应用得很好,还做不到。高性能计算机的可靠性,必须达到Unix服务器那样的可靠性才行,现在坏了修起来还是很麻烦,所以可靠性要大幅度提高。

  第三,美国人把高性能计算机的效能看得很重要。对我们国家而言,我觉得应用的深化更重要。高性能计算机其实能在我们国家很多领域发挥很大的作用,但是很多人没有认识到这一点。例如,建水库,修大坝,就应当用高性能计算机做模拟。大坝防洪问题、坝体材料抗腐蚀、抗冲刷的问题,都可以用计算机模拟的办法事先得出结论,还能发现新的问题,真正做到防范在先。这种场合用微机做模拟是远远不够的,需要高性能计算机做模拟。日本的地球模拟器世界排名第一,可以模拟地球气候演化历史。用高性能计算机模拟全球的气候变化也不是新鲜事。

  深化应用的案例很多。例如宁波跨海大桥建设,必须考虑杭州湾的水流变化、台风影响等等各种外界因素。这里有抗震力学方面的问题,还有一旦出现事故怎么办?很多东西可以用计算机模拟,例如突然台风来了会发生什么情况,就是要把高性能计算机应用在实际项目上。用高性能计算机做淮河的排污模拟也很好,污染怎么回事,怎么样会产生污染,都能模拟。现在高性能计算技术发展要靠应用来驱动,一定要跟应用结合,应用越深入,高性能计算技术发展获得的驱动力就越大。最典型的例子,我们国家要求做两亿多个条目必须在线一万个用户能够像雅虎一样的查询,那是非常大的搜索计算,因为有用户需求。

  记者:搜索问题现在全世界都很热,这包括PC上的搜索及互联网上的搜索。曙光4000A在这方面能发挥作用吗?

  孙凝晖: 硬件只是一个方面。搜索引擎是关键。全世界只有两家的解决方案接近这一需求。一个是GOOGLE,用了两万台计算机,加上自己的搜索引擎;第二个是IBM曾经做奥运会信息系统,搜索引擎的能力也比较强。因为有这个新的需求,所以对高性能计算技术产生了新的驱动力。现在一说高性能计算机应用,就是石油勘探,就是天气预报,如果永远停留在这些领域,不会产生技术的进步。数字天气预报,网格划分,20年来就这几招,我们的确不需要研究更高性能计算机了。但是如果你有新的应用,应用交叉深入的话,就产生新的需求。电力调度是个典型的例子,现在电网管理,因为电力调度不好,浪费很大。从原始数据采集到做出决策,形成反馈需要两个多小时,用户要求反馈速度提高到秒这一级,这是三个数量级的差距,绝对不是扩大机群规模就能满足的。因为原始数据采集以后,要进行计算,再实时把结果反馈出去,现在计算机不能满足用户需求。这种需求就会对高性能计算技术发展产生推动力。

发展的障碍

  记者: 你刚讲了一些高性能计算应用的案例,我觉得你讲的这些要在中国付诸实施,都不是很容易的事。像你说的这些应用案例,如果我们要推广的话,面临哪些障碍?

  孙凝晖:第一,我们国家没有系统地建设科技基础设施。美国这方面做的很多,美国人当年先建设铁路网,然后是公路网、高速公路网,各大城市建地铁网,同时建设通信网,信息高速公路。科技基础设施中有高性能计算基础设施,包括超级计算机中心,超级计算机应用中心,还有一些加速器、天文望远镜等等。如果你想提高技术水平,政府应该建设科技基础设施,提供资源。我们现在还停留在构建交通、能源、通信这些基础设施建设上,还没有发展到建设科技基础设施这个阶段。曙光4000A的用户是上海超级计算中心,上海市明确提出要构建科技基础设施,这在全国是第一。上海超算中心购买曙光4000A机器的经费只是总预算的三分之一,购买软件的钱占三分之一,采购服务的钱三分之一。软件没人会用不行,软件需要人去用,需要编数据,需要看懂结果,就要靠服务。所以我觉得基础设施是最重要的。

  第二,我国高性能计算领域非常缺乏第三方商业化应用软件,如果跟欧洲比的话,这一点差距非常大。现在有一个说法,高性能计算的软件应该靠开源软件来解决,这在美国非常热,高端软件实现共享,这对我们来说也许是一个机会。我们国家也开发了一些应用于高性能计算机的软件,大部分都是能够实用的,但是做不到商业化应用的水平。所谓实用就是开发完,算一次,不能做到大范围应用,没有面,只有点。我国引进一些商业软件以后,没有专门机构针对这些商业软件进行培训,进行二次开发。比如说给你一个WORD,还得教你怎么用。不做二次开发,用户就用不好软件。现在我国高性能计算领域第三方商业软件缺乏相关培训及二次开发的服务支撑。

  第三,还是观念问题,很多人没有意识到高性能计算机可以帮助解决重大疑难问题。例如修水坝之前,没有人想到要用高性能计算机模拟,结果就会出现许多意料之外的问题。

  有一些行业用户,例如石油行业,为什么那么迫切需要高性能计算机?因为他能看到经济效益。我国石油企业跟西方企业竞争的时候,用了国产高性能计算机以后形势立刻改观,把机器往国外一放,立刻就能拿到经济效益,所以他对高性能计算机就是生产力这一点领会很深刻。气象预报领域比石油领域差一些,大量的气象数据还是靠资深预报员看,进行预报。飞机的设计也是采用计算机仿真模拟,计算机模拟风洞效果跟实际的一模一样。汽车业也开始用计算机模拟撞车试验,不像以前要用真车撞击,上面放一个模拟人。

  记者: 我补充一个应用领域,就是金融业。从民用领域看,美国信息技术主要是在金融业及电信业需求的推动下发展起来的。我们讲信息化,美国英语里原本没有这个词,据说这个英文词是中国人杜撰的。你可以看上世纪70年代以来的金融业发展史,大量衍生金融产品的发生、发展与信息技术完全同步。现在熟知的客户机/服务器结构首先就是在华尔街应用的。你要看到美国人现在的战略重点,越来越往金融上转。将来世界范围竞争是靠脑子,信息系统非常关键。现在的金融交易体系已经复杂到什么程度?交易已经不仅是股票交易,不仅是外汇交易、商品期货及债券交易,而且是期货期权,期权指数,再到指数交易。我们国家没有这个。而且交易手段已经发展到计算机自动化交易,只要到了这个点就交易,就赚钱,完全排除人的情感及心理因素。计算机自动交易系统盈利的概率很高,否则不会有人用。金融业是真正靠信息、靠信息系统赚钱的行业。我国在金融领域落后太多。汇丰银行去年的数字,外汇交易及相关服务净赚27亿美元。我国银行的情况我不清楚,业内有朋友告诉我不赔钱就不错,钱最后都叫人家赚走了。美国大量计算资源集中在金融业,IBM主要的客户群就在金融业,这块特别关键。最新的数字是美国第一季度经常帐赤字高达将近1500亿美元,它靠什么平衡?实际上就是靠别的国家的钱跑到美国去。为什么?因为它的金融业效率高。

  孙凝晖: 看起来信息安全还要加上金融安全。

  记者: 对!该赚的钱你赚不到,就是亏损。我国在信息技术应用领域有认识误区。我们总是说信息化带动工业化,问题是怎么带动?我们有最先进的计算机设备,有先进的CAD软件,为什么天上的飞机、地上的汽车、水里的轮船都用进口发动机?我国自己制造的汽车发动机,汽缸寿命比进口的短很多,上一世纪七十年代就有单位做过研究,关键是材料热处理技术不过关,我国制造的汽缸缸体材料表面有缺陷,因此容易坏;而进口汽缸表面缺陷分布均匀,当然耐久。那么如果你做出一套软件,用高性能计算机模拟汽缸材料热处理过程,最后给出一套数据,解决这个问题,信息技术就真正带动工业化了。可是这种计算机模拟层次很高,我还没听说国内有这样的应用。你认为这样的应用在我国有可能实现吗?

  孙凝晖: 我觉得真要做这件事不是不可能。但是有一个人才资源的问题。我觉得还有一个很重要的问题就是教育。我们国家整个高性能计算的教育还是阳春白雪。如同李国杰老师说的,计算机教育已经不应该是专业教育了,应该是公共教育,应该跟学英语、学政治、学体育一样是必修的公共课。高性能计算应该是平民化教育,相关专业的大三、大四或是硕士生阶段应当普及高性能计算技术的教育,要了解为什么计算机能仿真。现在计算机公共课学的都是Windows,都是Word,光掌握这些对于推广高性能计算技术没用。对于工业界,还是需要有一批专业人才。我跟有些大学的老师谈,我们没有一个人才的基础,没有一个金字塔底层的支撑,很多人不懂计算机模拟,计算机仿真,用计算作为第三种手段开展研究。生物制药研究还是那种单纯用试管的办法,不知道信息大量化以后,通过高性能计算技术手段能找到有用信息,不了解那是一种手段。所以我觉得教育、培训这块也很重要。要让所有行业的人,所有学科的人都了解这是一个手段,我这个专业都要跟高性能计算技术交叉,这也是非常重要的。

  记者:你讲的这点我很赞同。某种意义上很奇怪,一方面我们国家大学毕业生占我国人口比例跟发达国家比起来差得很远,只是人家的十分之一甚至几十分之一,可是我国大学毕业生居然就业会成问题。如果大学生的知识面更宽广一些,如果受的训练更合理一些,我觉得他们就业根本不会困难。

  孙凝晖:其实各行各业需要大量的人才。我们搞高性能计算机的专业人士到一些地方看一下,同一些行业的专业人士一聊,发现他们的知识面真是需要提高。

为用户服务

  记者:我们已经讲了很多了,我们在高性能计算技术应用上有软件的障碍,服务的障碍,人才的障碍,包括教育上的问题。

  孙凝晖:国家一定要建超级计算机应用中心。如果过一段时间,发展成超级计算机应用服务中心,那就到位了。计算所当年是建立高性能计算中心。我是这样想,超级计算中心、超级计算应用中心、超级计算机应用服务中心,三部曲。这三部曲就是一个高性能计算技术产业逐步完善的过程。

  记者:我个人理解,IT业发展方向,尤其是软件业,是在向服务业发展。你看软件业的商业模式,原来主要靠使用授权费(license fee)支撑,现在越来越转到服务收费这块。发展服务业恰恰是解决我国就业问题的一大出路,因为服务是需要人去提供的,大量的就业机会在里面,服务业越发达,就业机会越多。懂高性能计算的人才可以成立专门的服务公司,去为用户服务。汽车业需要解决热处理的问题,有专业公司来提供服务,来想办法设计方案,帮用户解决问题,要是能够产生这样的服务业的话,这里的就业机会多得不得了。

  孙凝晖: 说到服务,我觉得曙光4000A的营销模式比机器本身重要。我们不是把机器卖出去就不管了,而是建立了跟用户紧密结合的模式,这非常重要。我们与用户结合得非常紧密,包括应用软件的安装,能够有很好的效果。我们跟上海超算的用户一起合作,把用户的问题转换成计算机能懂的程序,还要帮助计算这些问题,最终用户不需要懂曙光4000A。以前我们都是卖机器的,软件找分销商去。上海超算这种模式,我觉得是对未来会产生影响的模式。

最重要的是用户

  记者:这种模式对科学院研究所这种体制来讲,也是一种启发。

  孙凝晖:也是一脉相承,我们跟地方经济结合,开展院地合作,这个结合是很重要的。

  归根到底是信息技术本身驱动力不足。不像别的行业,技术一提高,就有明显效果,比如说水稻良种,亩产从900到1200斤,立刻大规模普及。你把主频提高2倍,看不出什么来。所以我们必须与用户紧密结合。

  记者:跟用户紧密结合的模式,我还需要你进一步说细一些,你现在搞什么应用了?

  孙凝晖:最主要是制造业仿真,上海是现代制造业。上海超算希望为上海大众提供模拟仿真服务,为此还采购了专业应用软件,计算结果也已经出来,这样的模式能够帮助上海制造业解决问题。其次是为政府服务,上海的社会信息化工作做得特别好;最后才是科研,比如说四分之一租用给科研用户,资源保证。我们主要是两点支持他们,一个是应用软件,上海超算对动态要求特别高,服务就不一样了,老要换来换去,操作系统要换,硬件配制也要换。第二点我们要派专家跟他一起干,我们有高性能计算中心,有很多懂应用的人,跟他一起做应用服务,我们不只是维护机器,还要维护应用,我们专门雇了一些人做应用,这也产生不少就业机会。

  记者:可以专门成立一家公司干这个事。

  孙凝晖:为什么在上海这个模式能运作起来?因为上海的商业化环境很好,这一点很重要。上海超算通过这样的模式能有收入了,这也非常重要。

  记者:但是要都那么干的话,你机器卖不动了。

  孙凝晖:不是这么说,你是靠扩大应用面,靠更多的应用,来推动高性能计算机的技术发展。我觉得曙光现在发展势头这么好,一个原因是机群的技术路线,还有一个原因是联想来参与,扩大了市场,让用户知道愿意买,饼做大了,市场前景明显看好。所以还是要靠这种方式,要让更多的用户来觉得有收益,用户有收益才愿意投入。现在很多用户没有看到高性能计算机带来的收入。这一点我们也比较幸运,曙光1000的时候,我们找到物理所晶体材料结构分析用户,曙光2000找到网络中心,曙光3000我们找到杨焕民做人类基因组及水稻基因组破译,曙光4000找到上海超算。找到用户跟你合拍,比造机器重要。

  而且我觉得一定要好好宣传宣传,应该让政府以及潜在用户认识到,这种模式是高性能计算机的发展模式,我们不能再搞低水平重复。

 

   
    返回

Copyright for NCIC All Rights Reserved
本网站版权归国家智能计算机研究开发中心所有