对于PC服务器的使用者和研制厂商而言,服务器管理(甚至更广义的计算机管理)从未面临如今的局面——多种令人兴奋的新技术和整合机遇与前所未有的挑战并存。
在展开全文之前,先让我们看一下,在2008年的北京奥运会上,IT管理能够实现的理想状态:不管是服务器、PC、笔记本,还是PDA、智能手机,甚至是Swatch的电子监测仪,无论它们的生产厂商是谁,安装的是何种操作系统,只要他们接入了大会的无线和有线网络,都能立即被识别并被配置—即使这台设备有操作系统和硬件故障,管理者也能通过网络进行诊断并远程修复;更令人激动的是,即使是设备上运行的VMware虚拟机或者其中的应用软件出现了故障,管理者也能通过远程网络进行修复—换句话说,届时将实现网格化的IT管理。
敢于做出如此大胆预测的人,是克里斯·托马斯—英特尔公司解决方案市场开发部首席战略专家,兼战略计划集团总监,也是分布式管理任务组(Distributed Management Task Force)的创始主席—而且在做上述描述之前,他也说了一个前提—如果我们足够幸运,实现了面向应用的管理,而不是传统的单纯的硬件管理。
尴尬:一个规范 多种定义
现在如果要问一线的技术人员,PC服务器管理的最大问题是什么,答案应该只有一个:服务器管理软件各自为政,各种软件只能承诺对单一或少量服务器的管理,而无法实现一个界面上对所有服务器的统一管理—此时请不要考虑IBM Tivoli、HP OpenView或者Site View等大家伙,严格说来,它们都属于IT系统管理工具,而不仅是服务器管理工具,更何况也不是每个服务器用户都能用得起的。
对于服务器管理工具各自为政的局面为何产生,业界厂商观点颇为一致。曙光信息产业(北京)有限公司研发总经理曾宇认为,1998年以前,服务器从硬件、操作系统到应用都处于各大厂商割裂的局面,谈不上统一管理的可能。而在Intel推出IA架构,进入企业级市场后,推出了一系列众多厂商认可的规范,才使服务器统一管理有了探讨的可能。实际上,曙光在1998年以前,在管理上就是采用的自定义ISA和PCI接口,采用专有协议的路子,不过从1999年开始,曙光便开始转向研究基于IPMI(智能平台管理接口)、SNMP等通用规范的服务器管理研发。
联想中国服务器事业部产品开发处资深工程师韩红认为,即使是都采用IPMI规范的产品,也很难说就能统一管理。以联想万全慧眼服务器管理系统为例,联想采用的是“智能监控卡+驱动+客户端代理(Agent)+以太网+SNMP协议+控制台”的本地管理模式和“智能监控卡+Modem+PSTN+远程诊断工具”的远端管理模式结合的方法。在理论上,联想万全慧眼可以管理所有采用IPMI 2.0(或1.5)规范设计、符合SNMP(简单网络管理协议)的服务器。但实际上,只要其他服务器上的BMC(Baseboard Management Controller)芯片的初始值设定、外围相关硬件的职能、IPMI标准的命令集翻译与联想定义的不同,就无法实现管理——例如慧眼收到了某个服务器上的传感器发送的一个70摄氏度的温度数据,却没法做出判断和操作,因为它不知道这个数据来自处理器、内存还是硬盘。
幸运的是,这一尴尬的局面正在得到改善。自1998年Intel、Dell、HP和NEC呼吁建立IPMI规范以来,目前几乎所有的PC服务器、存储和操作系统厂商以及众多半导体厂商都加入到这一技术联盟中,而且也已开始关注到自定义接口的兼容性等问题。
挑战:虚拟机管理
从某些角度看,虚拟机技术带来的或许不只是幸福体验—起码对于服务器管理工具开发商而言,虚拟机是个挑战。正如克里斯·托马斯所言,未来服务器管理最大的挑战就是对应用的管理,不管应用是在一台物理服务器上,还是运行在一个虚拟机中。
浪潮(北京)电子信息产业有限公司服务器研发部副经理黄家明说,采用IPMI规范可以让系统管理者通过网络或串口来监控系统上各种硬件的健康状况,如CPU运作、风扇转速、系统温度及电压等。但是,还没有哪家厂商能够实现对服务器上的所有应用进行集中管理,仅有针对Exchange Server、SQL Server这样的典型应用的专门网管工具。
方正科技服务器产品业务部高级经理朱莲芳则说,“目前方正RME(圆明服务器管理系统)能实现的是采用IPMI2.0规范和遵循SNMP协议,使得整个产品可以被嵌入到IT系统管理软件中,例如IBM的Tivoli、HP的OpenView、CA的Unicenter等,而这些大型工具通常具备对应用的管理功能。但要独立实现对应用的管理,近期还不无法实现。”
稍稍乐观的消息来自于IBM,在9月份发布的Director 5.10的白皮书中,赫然写着“包括更新的虚拟机管理功能,可以提供对VMware、微软Virtual Server2005和运行它们的物理主机服务器的整合。”虽然还没有达到对虚拟机上应用的管理,但能够做到这步已属不易。
上游的技术商也正在做一些尝试。虚拟机管理的难度在于对虚拟机和物理服务器的识别和管理,例如,当技术人员做网络状况分析时,以虚拟机形式运行的操作系统里面的网络状况分析工具将只会报告该虚拟机自己的网络状况,而这并不等同于整台机器的真实情况。为了解决这一问题,英特尔在Vanderpool技术中引入了一个软件层,即虚拟机监视器,据英特尔的说法,硬件系统资源将由该软件层来控制。尽管这种构架的具体细节现在还不明了,但从英特尔提供的初步文档来看,VMM 事实上起着相当于宿主机的作用,而Windows 、Linux 和其他所有操作系统都将以客户的身份运行在该VMM 软件层内。基于VMM层的管理工具,将能实现对虚拟机的管理。
VMware的尝试则侧重于虚拟机本身管理功能的增强。在10月份发布的VMware VirtualCenter 2和VMware的ESX Server 3中,出现了几项值得注意的新管理能力。例如被称为分布式可用性服务的一项新功能,可以实现自动故障恢复(Fail-Over),如果一台运行有5个虚拟机的物理服务器出了故障,这5个虚拟机能够即时自动地恢复到其他由VMware管理的计算机上。ESX Server 3的另一项新功能是分布式资源调度,它能够对虚拟服务器负载在ESX Server主机间进行平衡,使它们能够以一种与网格相似的方式被管理。自动故障转移和分布式资源调度这两种技术过去通常在集群上使用较多,VMware在虚拟机上实现这两种技术,意味着虚拟机管理将朝着跨虚拟机、跨物理服务器的方向发展。
总体看来,克里斯·托马斯所设想的远景要顺利实现,的确还需要点运气。
相关链接
IPMI:智能平台管理接口,1998年由Intel、Dell、HP以及NEC共同提出。2001年IPMI从1.0版改成1.5版,增加了LAN、Serial/Modem、PCI Management Bus等系统管理的沟通界面。2004年IDF上,Intel正式发表了IPMI 2.0版,提供更高的安全性、远程服务器主机画面监控、刀片服务器支持以及向下兼容1.0及1.5规范。
BMC Firmware:正如CPU一样,IPMI规范中定义的BMC其实也是一个独立的运算单元,它必须有独立的固件来驱动BMC的功能。通常BMC的固件必须负责BMC芯片的起始值设定、外围相关硬件的职能、IPMI标准的命令集翻译及执行,以及一些独特硬件设计所需的OEM命令的解释。

