|
新闻调查:中国超级计算机兵败政府采购始末 |
2009-05-05 |
|
2004-11-4 14:11:00 文/ 出处:信息系统工程 联想深腾6800,5万亿次的峰值计算表现、2004年6月曙光4000A名列Top500第十名,这些围绕高兴能计算所给中国IT带来的荣耀,在面对国内一次价值为2000万美元的高性能机群招标面前,荡然无存。
一句“我们没有核心竞争力!”,倒出了所有国产高性能机群IT厂商的话语。没曾想到,由于IBM进货分为两批,国内IT厂商纷纷打探其中原委。“机群计算能力与当初招标有出入”、“进货出现变故”、“美国政府对华出口高性能计算机存在限制”,等等一系列传言流传出来。
IBM和中国气象局,作为供货方和用户,对此次价值2000万美元,计算峰值达到21T(21万亿次)的高性能机群采购,做出了回应。
高性能计算机国产军团遭受重创;当IBM将进货分为两批时,传言四起,“我们被IBM愚弄了”这是参与此次项目招标的中国IT厂商的第一反应。
2004年5月14日,中国气象局就高性能计算机机群项目的招标正式启动。 最令IT厂商“兴奋”的是,中国气象局在招标伊始,便公开了这次招标项目的采购金额——2000万美元。“反正2000万美元,这个钱是封顶的,就看这些IT厂商谁能够提供计算性能最高的高性能计算机机群系统了。”一位参与竞标的IT厂商说道。
中国气象局原本计划整个采购进程为:2004年5月14日开标、2004年6月14日公布结果并签订合同、2004年9月14日中标的IT厂商开始产品供货,供货期为3个月。
当IBM最终以峰值计算能力21T(即峰值计算能力为21万亿次)的高性能计算机机群夺得项目之后,国内的竞标者大多输得心服口服。但由于IBM将进货分成两批进入中国,外界便出现各种传言。再加上高性能计算设备出口中国,一直受到美国政府严重关注,因此有消息透露,IBM可能兑现不了当初的诺言——提供一个整套峰值计算能力为21T的高性能计算机机群。
交锋:国内外高性能厂商正面对抗
正式参与中国气象局此次招标项目的IT厂商共有9家。他们是联想、曙光、银河、Cray、HP、IBM、NEC、SGI等。从参与竞标的厂商名单中可以看出,此次招标范围无论是国内还是国外厂商,均是在高性能计算领域有代表性的厂商。不能不说此次招标是国内厂商与国外厂商,在高性能计算领域的一次正面对决。
从目前高性能计算体系架构的分布来看,有望参与此次系统建设的厂商,包括现今仍然占据高性能计算Top500第一名——地球模拟器的制造厂商NEC,以及向量高性能计算机鼻祖Cray公司,同时也包括SGI、HP、IBM,这些在UNIX体系架构中占有一席之地的厂商。作为国内高性能计算机机群厂商的代表银河、曙光、联想等,也参与这个项目的投标。他们希望借助这个项目与国外对手做一次真正体现实力的较量。
这次招标,无论在招标方式上,还是流程中,与以往人们常见的企业、政府招标采购有所不同。据参与竞标的IT厂商透露,中国气象局没有邀请招标公司参与其中,他们自己组建专家组。面对这样的招标方式,IT厂商并没有表示出不满。毕竟,气象部门应该是国内高性能计算应用最广的部门。高性能计算本身又是一个应用狭窄的领域,真正了解的专家并不多,再加上气象应用的特殊性,因此专家组只从气象局内部挑选还是可以接受。为了这项价值2000万美元的项目顺利完成,早在2003年10月,中国气象局就给有意参与竞标的IT厂商提供了10几个科研题目。这些科研题目均是未来在该系统上面运行的实际科研题目。中国气象局希望通过这种方式,来衡量各家IT企业高性能机群的优劣。
在正式招标开始的前一个月,中国气象局又给各个IT厂商一次补测的机会。“因为提供的是原代码,我们同IT厂商签署了保密协议。”中国气象局相关人士透露"像IBM、NEC等国外厂商,有实际计算环境,他们可以直接运行。国内的IT厂商则没有这样的优势。"各个IT厂商最终汇总的数据量达到了270GB,中国气象局根据这些数据来进行分析。
“当时给了我们一个月的测试期。”一位参与竟标的国内IT厂商介绍到。IT厂商将测试结果提交给中国气象局,由专家进行考评。“最终的评比结果,我们并不知道。我们只是知道自己的测试数据。”这位不愿透露姓名的参与者指出。
“客观的讲,在后期应用评测的过程中,IBM提供的测试数据表明,他们在性能方面处在领先位置,他们拥有优化算法、气象模式的专业人才,不仅是国内IT厂商,即便是HP这样的国际性IT公司也没有这样的专业人才。”中国气象局认为,国内从事高性能机群业务的IT公司,在系统优化、专业经验方面仍然与国外同行存在差距。“即便让你(联想、曙光等国内IT企业)中标,下回我们验收时就会按照你当初提供的指标来检测,真能顺利通过么?!”
参与投标的联想、曙光等国内厂商大多在今年“五一”大假期间,组织专人进行系统评估论证。整个投标过程中,讲标、评标历时3天。虽然现在所有参与竟标的IT供应商,均从侧面了解到此次2000万美元的高性能计算机机群项目已经被IBM获得,但直到采访时,即9月下旬,中国气象局仍旧没有给各个参与竞标的IT厂商一个正式的书面答复。按照招标规定的要求,采购额如此巨大的项目,一般情况下应在客户与中标厂商签署合同的同时,向外界以书面形式正式公布中标结果
中国IT输在先手
气象研究是一个专业性质很强的行业。中国气象局给IT厂商提供的测试程序,正是他们今后要实际使用的气象计算模式应用软件,而不是那种通用性很强的评测软件。
摆在国内IT厂商面前的一个现实问题就是:他们谁也没有做过峰值计算能力为20T(即20万亿次)的高性能计算机机群。曙光公司虽然在去年推出过峰值计算能力达到11T的高性能计算机机群,但构建一个计算能力为20T的机群,并非是一个数量上的简单叠加。
据参与竟标的IT公司人员了解,中国气象局此次价值为2000万美元的高性能计算机机群的采购意图,早在3年前便开始运作。在2003年11月,中国气象局便向众多IT厂商发出邀请,希望他们参与此次高性能计算机机群招标。气象局向每一位参与竞标的IT厂商,提供了一系列用于气象、气候预测的计算模式程序。这些应用程序在各家IT厂商系统中性能的表现好坏,对最终能否中标会有直接影响。
没有实战经验,没有实际操作环境,如何给中国气象局提供一个合理的测试结果、合理的解决方案?这成为国内IT厂商所要解决的问题。“我们国内任何一个厂商,都不可能拿一个价值2000万美元的机群来测试。我们只能利用64个节点、128个节点的环境先做测试,然后进行理论性质的递推。”
可以想见,凭借这种依靠理论演算出来的测试结果,其最终能够有多大的胜算把握?据中国气象局相关负责人介绍,NEC公司将测试程序直接运行在地球模拟器系统上面。IBM本身就具备做计算能力为20T的机群,因此他们也直接利用实际环境来进行测试。单单从这个环节上,我们中国的IT厂商,就已经棋输一招。
评标误读:中国IT欠账太多
“不理解,这些专家(气象局)到底是一个什么想法?”参与竟标的国内某位IT人员说道“看到他们给我们提出的要求,让人觉得他们是想做一个世界上最为完美的高性能计算机机群。”
参与竟标的厂商之所以会有这样的想法,主要是因为气象局对整个高性能机群提出的要求,综合了目前世界上所有种类的高性能机群的特点。从另一个角度来看,世界上没有哪一个IT厂商能够真正满足气象局的全部要求。“有些特点,在IBM产品中会体现得好一点,有些特点则可能是SGI产品的特长。”
“也许正是因为没有哪一家的产品能够全部符合气象局的要求,这就为评标之后,给中标的IT厂商与气象局留下一个商讨余地。”一些IT厂商事后推测气象局为什么要采取这样的做法。当然也有另外一种解释,那就是中国气象局希望这次评标尽量公平,不希望看到利用某种机器的特性,而通过技术手段来屏蔽掉某些IT厂商入围竞标的可能。
“说句老实话,气象局所提供的一些计算模式应用软件,在X86上面确实很难运行。而这些应用又恰巧是应用在原有IBM系统之中的,因此对于IBM来讲,优化就非常方便了。”国内IT厂商有些无奈。
国内IT厂商即便是利用现有小环境来运行测试程序,也发现中国气象局给参与竞标的IT厂商提供的测试程序,大部分是运行在现有IBM SP大型机平台上面。
“我们不但要进行系统的重新调试,而且还要对系统进行优化。”面对这样的挑战,国内的IT厂商只能接受,为了能够赢得这个价值2000万美元的项目,国内IT厂商别无选择。从气象局实际工作考虑,最终采用IBM的产品,也是可以理解,毕竟可以保证过去业务的连续性。如果换做另外一家IT厂商中标,那么软件的重新调试、编译都会存在一定的风险。
针对国内IT厂商的这种看法,气象局相关负责人对系统平台与软件之间的依赖程度做出了解释。 “其实我们对某些系统也有些偏爱,但这不是说我们非要采用IBM系统。”之所以气象局提供的很多气象计算模式是从原有IBM SP平台上直接拿过来,其中还有另外一个含义:那就是中国气象局也在估算未来跨平台迁移的困难到底有多大。“我们使用过曙光1000、曙光3000系统,银河系统就不用多说,我们也用过。”
在七、八十年代,气象部门在应用软件调试过程中,经常要涉及到高性能计算机的硬件层面。“当时购买的日立计算机内存只有4MB.”气象局专家介绍道“我们的技术人员,为了达到应用系统性能最优,内存中每一位地址空间的使用情况都要进行了解。”当发现系统性能没有达到气象局的要求,日立会根据气象局的要求修改计算机操作系统。“换句话来说,那时候是让操作系统来适应我们的应用。”
此后的一段时间里,气象部门的应用虽然很少涉及到系统的硬件平台,但一些应用软件还是需要调用操作系统级别的功能。这在软件运行调优阶段是非常重要的。"无论是直接修改操作系统,还是调用操作系统的应用接口,这些都会给系统未来迁移带来很大麻烦。"跨平台迁移非常困难,直接影响气象部门已有的投资。
中国IT厂商没有权利责怪中国气象局为什么要给他们一个运行在IBM硬件平台上的软件,毕竟中国IT厂商出生的太晚。当我们的电力、金融、铁路乃至气象领域,在IT系统建设初期,急需大量IT解决方案的时候,我们的这些国内IT厂商还大多停留在替别人“搬箱子”的状态之中。当那些行业用户开始考虑IT应用系统升级换代的时候,如果国内IT厂商想要与国外同行进行竞争,就必须面对这个对自己不利的现实。
惨败:让中国IT厂商反思
“我们失败了,可以走人了。这是我在招标会上听到IBM提供了峰值计算能力为21T(21万亿次)的系统时的第一个反应。”这是那位参与竞标的国内IT代表当时的心情。他当时真的想立刻离开现场,“没有必要再继续听下去,人家的机群计算能力比你高,价钱是2000万美元封顶。我们还有什么获胜的机会?!”
“所有国内IT同行,包括中国气象局的负责人,也都没有想到IBM会拿出一个计算能力达到21T的系统。”参与投标的一位厂商代表说道“我们当时估计IBM顶多会拿出一个峰值计算能力为15T的系统。”这样的推测是有根据的,毕竟IBM在国内没有做过整体计算性能超过10T的项目。
一个有趣的现象就是,在争夺这个2000万美元的机群项目上,联想、曙光所提供的系统,在峰值计算能力上均是20T。“这种现象的出现很正常,曙光在一开始投标的时候,就处于一个完全透明的状态。”去年曙光发布的4000A系统,其造价达到1亿人民币,而曙光4000A的峰值计算能力达到11T.“2000万美元,折合人民币1.6亿元,按照硬件成本降价的幅度来测算,曙光此次出手肯定要投一个20T计算能力的系统。”
曙光4000A的推出,将曙光以及联想这样的国内IT参与者,置于一个很“被动”的局面。国外竞争对手很容易地分析出他们所提供的高性能计算机机群实际成本。
高性能计算受到关注要从两年前开始算起。从联想高性能机群进入TOP500,再到曙光4000A峰值计算能力达到11T,这一系列举措,让外界感觉国内高性能机群市场如火如荼。
“我们度日如年,高性能机群项目利润低得可怜。”只有身处这个行业的IT人员才真的能够了解高性能机群市场的实际情况。“中国IT企业在高性能机群领域,没有核心竞争力。”这位IT人员接着说道“什么叫做核心竞争力,说白了就是你到底有没有定价权,我们没有定价权。”
所有从事高性能机群的中国IT厂商没有定价权。在硬件体系架构上,从处理器到硬盘、从网络设备再到电源,全部需要依靠采购。无论是惠普、IBM还是Cray、NEC,他们在硬件领域均拥有自主知识产权。相对这些国外IT竞争对手,中国IT厂商处在一个完全透明的境地。“一旦IBM把价格调低85%,我们还有什么可玩?他们不是没有这么做过。”某国内IT销售代表向记者讲到。
传言四起 “我们被IBM愚弄了!”
IBM最终给气象局提供的产品为IBM Cluster 1600,整体计算能力达到21T。整套系统分两批进入中国。正是因为分批进入,而且在进货过程中传闻IBM出现了一些问题。因此相关参与过此次招标的国内IT公司,纷纷进行探询。汇总之后的答案却矛盾重重,中国气象局否认IBM会采用两套高性能计算机群,通过叠加的方式来最终达到事前承诺的21T计算能力。但就在记者询问的当天,国内某IT公司专门跟踪此项业务的代表,仍然坚持他所了解到的情况,即IBM会采取17T 4T,或是其他叠加手段,来完成此次价值2000万美元的项目。
中国气象局招标时要求,所有参与此次竞标的厂商,应该有能力在2004年9月14日开始供货,供货期为3个月,即从中标结果6月14日算起。但是据一直跟踪此次项目的国内IT某厂商人士了解到,“据说,他们(气象局与IBM)在7月份,还在沟通之中。现在看来供货期实际上已经滞后。"该人士继续补充道"听说,现在在进货过程中,IBM仍然面临一些问题。”
国内参与此次IT竞标的厂商,为了拿下中国气象局这个2000万美元的项目,投入成本在5万到10万不等。他们组建了10到20人的攻坚队伍,进行封闭式管理、制定标书、规划系统方案。此外,各家国内IT厂商还花费数目不小的资金聘请高性能专家。“我相信所有国内IT厂商均为这个项目,投入了很大的心血。但我们真的不希望IBM最终给我们的是这样的高性能机群系统,我们有种被涮了的感觉。”参与招标的某IT厂商如此抱怨。
“我们不能容忍IBM提供的最终系统,与我们当时参与投标的方案大相径庭。”一名参与投标的IT厂商代表说道“我们已经听到有消息说,IBM原来招标时承诺峰值计算能力达到21T的系统,会拆开成两个系统,通过简单叠加的方式得到一个21T的计算能力。”那名IT厂商有些气愤:“这是胡闹,如果是这样,我们输的太冤了。”
原本预计10月安装完毕的21T系统,确实分两批从国外进货。一些国内IT厂商通过中国气象局人士了解到,最终IBM提供的系统可能不是像当初承诺的21T,而是两个高性能计算机机群。一个专门负责气象业务工作,另一个系统则担任科研工作。当国内IT厂商听到这个说法之后,早先已经认赌服输的心态,立刻转变成了一种被别人所愚弄的感觉。
“世界上目前还没有一个机群的计算能力达到1000T,没有人有把握做这样的一个系统,但你要让我做100个10T计算能力的高性能机群,问我有没有把握,我肯定说‘没问题’。”这句话代表了所有参与此次竟标的国内IT厂商的心态。他们无法容忍IBM的这种做法。建立两个计算能力分别是17T和4T的高性能机群,与单独构建一个完整的、峰值计算能力达到21T的难度、维护成本、设备成本,是有天壤之别。曙光4000A,共有600个节点,其峰值计算能力达到了11T,机群使用效率达到71%,实现这样一个结果的技术难度要大于安装两套峰值计算能力仅为5T的机群。
当记者询问气象部门相关负责人时,得到的答案有两种,一种是确实存在两套系统,但其中一套是此次招标中涉及到的,由IBM提供的峰值计算能力为21T的机群,另外一个则是规模较小,用于科研的机群。另外一个回应是,目前IBM进货确实出现了问题,问题涉及很多方面。能否影响最终的系统建设,记者没有得到正面答复。
美国出口管制 也应随需应变
原本预计10月安装完毕的21T系统,确实分两批从国外进口。“他们的设备出口可能出现了问题。”一位参与竞标的IT厂商说道"而且我听说,为了能够让美国人放心,避免他们担心这套设备使用在其他领域,气象局还要签署某些安全协议。“这种做法,让人们不得不回忆起早在上个世纪八、九十年代,美国政府对中国政府严格限制高性能机群出口的做法。”
“玻璃房子”,这个名字很少有人听到过。美国政府担心中国气象部门、石油地质勘探等领域,将所购买的高性能计算机用于其他目的,因此对出口中国的高性能计算机进行监视,即在计算机机房安装监视仪器,由于当时机房大多采用玻璃幕墙。因此无论是高性能用户还是IT厂商,管这样的机房叫做“玻璃房子”。“我担心他们(美国)会要求进行远程登陆检测,察看此套价值2000万美元的设备的运行情况。”
“在上个世纪90年代,美国出台了一个考克斯报考,这份报告探讨的问题,主要针对的就美国IT企业出口中国高性能计算机给美国安全带来多大的威胁。"中国气象局负责人指出"我们仔细研读过这份报告,里面提到了‘融化’技术,这项技术会嵌入到美国出口中国的高性能计算机之中,在某种条件下,‘融化’软件能够销毁整个高性能机群的管理系统。”
“出口中国的高性能机群产品,峰值在几千亿次以内的,不需要特批。而像这次计算性能达到21T级别的系统,IBM确实需要美国政府特批。”中国气象局人士没有正面回应是否此套系统之中也装有‘融化软件’。本套系统尽管应用领域属于民用范围,中国气象局仍然要签署某种承诺性质的协议,例如承诺只用于气象相关的业务和科研使用。至于美国政府是否会采取远程登陆来检测本套系统的使用情况,气象相关部门没有做直接回答。
“现在美国对我们的限制有些放宽,以前还曾经出现过,每月例行对系统进行检查的事情。”从中国气象局负责人的谈话中可以了解到一点,尽管我们改革开放已经很长,但作为美国政府来说,仍然没有完全放开对中国的高性能计算机出口。IBM公司只不过是一个商业公司,一切以盈利为目标,但他又必须遵循美国法律所圈定的“游戏规则”。
在这里,人们不得不对国内高性能机群的发展感到欣喜。从另一个侧面看,中国气象局也感谢国内从事高性能机群生产的IT厂商。“他们的成长,从另外一个角度来讲,有助于打破美国对我们进行的技术封锁。”这位气象局官员说道“如果我们有10万亿次的高性能机群,你美国人还限制我,那我就直接采购国产产品。这样的话,那些美国IT企业会坐不住的。当然美国政府对出口中国高性能计算机有防范心理。”
用户眼中的 本国IT软肋
“在我眼里,国内高性能机群厂商与国外对手在硬件平台上的差距并不明显”气象局负责人指出“国内IT厂商薄弱的是在软件层面。”在并行计算环境的管理软件,并行计算操作系统软件,并行环境的文件系统等方面,国内IT厂商同国外同行相比的差距,不是通过一年、两年的钻研所能够弥补的。
高性能计算是一个专业性强的领域,需要有专门的人才为用户提供服务。“如果你(国内IT厂商)对用户在应用上的支持做不好。可以想见他们整套高性能机群的表现也不会好到哪里。这种技能需要一个时间的积累。”
自从IA架构的服务器被采用在高性能机群上面,给人们造成一种观念,高性能计算机群的搭建,犹如DIY电脑那么简单。“如果你连接十几台电脑,可能没有什么太多的技术难度。”气象局专家指出“如果连接数目达到上百台,上千台,那么这样的机群系统对技术人员的要求就非常高。”即便是目前拥有专业技术人才的曙光和联想,他们在机群技术领域里面仍然也要面临很多技术难题。
一个高性能机群的性能能否得到充分发挥,同该机群的应用特点有关。如果是运行粗粒度应用,即每一个节点的计算相对独立,之间应用的联系不是很紧密,那么这样的机群实际上就是几十台或是几百台电脑独立运行。如果运行的是细粒度应用,即每个节点之间的应用紧密耦合,相互之间要进行大量通讯。这种高性能计算机群的集成就非常困难。而且它的难度是随着节点数目的增加,成几何数的增长。
“如果集成的不好,你会发现处理器长时间处于空闲状态,而大量数据是在网络之中,即滞留在网络里面,这样计算机机群效率很低。”气象部门的负责人说道。“国内的机,我们使用过。它每一个节点配
备了4颗处理器,为了提高性能,我们添加处理器数量。当处理器总体数量达到64颗的时候,我们发现再添加处理器,对系统计算性能的提高已经没有什么作用,瓶颈出在整体架构上面,数据传输不通畅。”
气象局与IBM关系并非总是良好
1999年IBM的产品正式运行在中国气象局气象预报业务系统之中。当时气象局本打算引进NEC公司的产品,但是由于价格问题,这才考虑IBM的产品。
“我们也曾经有过撤换IBM产品的做法。”在气象局卫星系统上面,四台设备一直采用IBM 4381产品。在设备升级的时候,气象局希望购买IBM S/390产品。“当时IBM给出的价格很高,我们不得已采用IBM兼容产品——富士通770设备,过了一段时间我们将主机系统全部迁移到惠普HP9000的UNIX平台上面。”稍微了解大型主机的人士就能够明了,从大型主机系统迁移到UNIX平台的风险到底有多大。
针对此次2000万美元的机群项目,气象局负责人说道“你以为他们(IBM)能挣到钱,哪有那么容易!”IBM对于搭建21T计算能力的高性能机群还是有信心,但是当看到中国气象局拿他们的系统参数与向量机进行比较的时候,也给IBM造成了不小的压力。
断点重起功能 难住所有国内IT厂商
“断点重起”(英文为CheckPoint)实际上是高性能计算机群应具备的一项功能。针对不同的应用领域,对“断点重起”的需求是不一样的。“有些应用领域对CheckPoint的功能要求不高,甚至可以作为一个附属功能,但气象部门的业务特点决定,CheckPoint功能应该是高性能机群的基本功能,尽管我们也知道国内IT厂家在这方面的技术能力还较弱。”
一个气候研究课题,计算时间至少要花去10天,而且前提是这个科学计算将消耗所有的高性能机群的资源。“我们存在这样的情况,无论系统的计算能力有多大,我们的科研项目均能够把所有计算能力吃光。”气象局负责人说道。
这种特点,造成气象科研与气象业务在使用高性能机群上面会出现冲突。“气象业务部门需要定点、准时启动机群。对于气象局来说时间是第一优先级,必须把所有运行在高性能机群的科学研究停下来。”气象局负责人指出。当气象业务计算开始运行时,必须要把早先已经运行的科研项目停掉。如果没有“断点重起”功能,人们会发现那些不能在一天之内完成的科学计算,永远也没有计算结束的一天。因为科研项目每天均要重新从头来过,而且又被中途停掉。
“我们目前还没富有到,给任何一个科研项目单独提供一套高性能机群的能力。”气象局负责人介绍到“以前我们曾将一个科研课题单独运行在一个小型机上面,那个课题跑了半年,这样的做法实际上是不可取的。”在科研过程中,计算的中间结果是无法写出。保存在计算机系统内的数据精度是用几十次方来衡量的,如果保留成文件,那么它的准确性会大打折扣,甚至保留的数据根本就没有再次进行研究的必要。
“断点重起”所解决的就是,将那些占用系统资源较大的应用,暂时停掉。通过保留系统各个参数,当系统重新启动时,通过参数回放重新运行早先的应用程序。被保留的参数包括处理器、寄存器的工作状态。在参与此次2000万美元竟标的过程中,国内IT厂商对这项功能的认识本身就不足,同时在技术实现上存在困难。
|
|
|
|
|
|