第一情报 ---信息产业

日本第一大通信运营商NTT DOCOMO的NFV部署实践经验

供稿人:李远东  供稿时间:2016-8-5   关键字:NTT  DOCOMO  NFV  网络功能虚拟化  虚拟机  通信APL  半虚拟化  

1、引言

 

全球范围内,2016年,NFV(网络功能虚拟化)技术在通信网络中的部署进入到初级阶段,相关实践案例很具有参考价值。为此,本文介绍日本第一大通信运营商NTT DOCOMO在部署NFV技术的实践过程中,所遇到的主要技术问题及解决方案。

 

NTT DOCOMO正致力于基于NFV(网络功能虚拟化)ISG(行业标准组)所规范的架构框架的虚拟化平台建设,以期通过部署虚拟化技术,使运营商网络运行于通用硬件之上。由于网络运营商的特性所在,NFV平台的建设中尚存在诸多需要考量的实际问题,包括:(1)底层资源池的设计与运营;(2)对于在云环境(基于VMwareOpenStack的虚拟化平台)中运行/操作通信APLAPpLication,应用。通信APL”指的是在提供电信服务时,形成某个功能所需的功能组件,具体指的是运行于交换机、传输设备及无线网络设备中的应用)的需求;(3)运营商网络建设、运营及维护模式的变革。

 

对于上述问题,网络运营商须根据自身的实际情况与规划想好应对之策,讨论如下:

 

1)虚拟资源池的设计与运营取决于网络运营商的基础设施及其实现高可靠通信APL的方式。因此,网络运营商应该自己来设计资源池。

 

2)由于是通过软件来为众多用户提供各类通信服务,通信APL在性能与质量方面的降低,将会直接带来用户服务体验质量的下降。因此,运行于云环境之中的各个通信APL的性能、质量与可靠性必须要能到保证。

 

3虚拟化就意味着要新增一个虚拟层,于是,当通信APLs出现故障后,对于问题的解决就将变得越来越复杂,从而,运营维护工作就必须变得更为高效。

 

基于上述需求,NTT DOCOMO明确了建设NFV平台所需解决的问题,并研究了解决方案,由此在20163月基于NFV平台推出了相关的商用业务。

 

2、云环境中运行通信APLs所存在的问题

 

为了充分发挥出网络功能虚拟化之后所能带来的效益,网络运营商必须高度重视以下问题:

 

2.1 由资源共享所带来的两大问题

 

总体上,网络功能虚拟化使得多个上层应用(软件)共享使用底层(虚拟化)资源成为可能,由此将可提高资源利用率。此外,对计算、存储与网络等物理实体资源进行虚拟化(比如通过Hypervisor这种虚拟化技术)处理,可以创建出对所有上层应用均不可视的虚拟计算资源、虚拟存储资源、虚拟网络资源。此处,于一个虚拟设备上运行一个通信APL就称为“VM(虚拟机),这使得应用提供方不再需要担心设备的物理配置不够。于虚拟资源池上部署通信APLs的概念图如图1所示。

 

通信APLs的部署示意

 

目前,通信APLs的各个功能组件的编排与设计、与处理性能及抗故障相关的设计工作,均是基于底层网络的硬件配置来进行的。但是,如果要在云环境之中来运行通信APLs,物理硬件就由一个个虚拟机代替,从而会产生诸如更大的处理时延、抗故障能力降低等新的问题,主要包括:

 

1)问题一:通信APLs的处理延迟/时延

 

向上层所有通信APLs隐藏底层物理资源的细节,优势在于可以按需安装及执行通信APLs,且无需考虑各服务器与各网络设备间的布线、物理服务器的实际配置等问题。另一方面,在资源池上编排各个上层应用意味着物理服务器将不再是专用而是通用的。从而引起了这样一个顾虑:具有图2及图3所示的内部架构的服务器之中,CPU或内存的运行效率较低,且在这两种情况下,都将会导致处理延迟增大。在引入一个虚拟化平台后,某个上层应用将会被安装于多个虚拟机上(具体个数,取决于该应用的功能组件的配置),且这些虚拟机将会被部署于资源池之上。但是,考虑到物理服务器的内部结构与带宽不能得到优化,而且Hypervisor这种虚拟化技术的部署将会导致处理时间抖动的增大,从而,就将会出现处理延迟/时延。

 

低效的服务器使用方式1

 

低效的服务器使用方式2

 

由虚拟化所带来的处理延迟/时延问题具体如图4所示,与未虚拟化(即仍然采取直接使用底层专用物理设备的方式),虚拟化造成了处理时间的变化/抖动。这是由于,通过Hypervisor以软件来对多种虚拟资源及底层物理资源的控制,就需要各种虚拟资源之间的计算、Hypervisor自身也需要计算,从而会产生对于底层物理资源的竞争(如图5所示)。也是由于这个原因,通信APL计算的TAT(从执行计算到输出结果所经历的时间)将会出现大幅波动。

 

虚拟化所带来的处理时延分布曲线

 

处理延迟/时延的产生机制

 

于是,虚拟化平台就不能产生稳定的处理速率,对于各个通信APLs的计算性能的保证就将变得很困难。为了解决这一问题,就需要研发一种独立于Hypervisor计算的资源控制方式。

 

2)问题二:各通信APLs的抗故障能力

 

资源共享就意味着多个虚拟机可以安装并运行于同一个物理服务器,单另一方面,如果服务器发生故障(如宕机),通信APLs就将会受到很大的影响,用户对于服务的体验质量就由此被降低。从而,网络运营商就很有必要面向每个通信APL的每个组成部件进行冗余(备份)配置,并研发一种虚拟机编排技术以防止双重故障(double failure。主系统与备份系统均宕机)的发生。

 

2.2 由虚拟应用维护所带来的问题(问题三)

 

新增的各个虚拟应用有望扩展云环境及资源池。而且,用于执行通信APLs功能的虚拟机将在资源池迁移作为由虚拟平台所提供的自愈功能的一部分。从而,相比于传统系统中对于软件与硬件的集成维护,虚拟平台中对于虚拟应用的维护将变得更为复杂。于是,工程师的运维工作量将会增加,且工程师需要学习更多、更复杂的技能才能胜任解决网络故障的工作。为了促进基于各个通信APLsNFVI(网络功能虚拟化基础设施。包括部署于云中的通用的服务器、存储及网络设备)的状态来解决新型网络故障,虚拟机与物理服务器的运行环境均需得到虚拟化。

 

2.3 上述三大问题的解决方式探讨:云环境中的虚拟化平台的需求

 

为了高效地解决上文第2.12.2小节所述的三大问题,可运行各个通信APLs的虚拟化平台必须要具备以下的三大能力:(1)通过底层物理资源独占来创建可以消除计算延迟/时延的虚拟资源;(2)创建可以使能对虚拟机编排策略进行定义的资源池;(3)对各个通信APLs的物理配置与逻辑配置进行虚拟化处理。

 

具体在下文进行探讨。

 

3NFV虚拟平台的部署实践

 

3.1 通过底层物理资源独占来创建可以消除计算延迟/时延的虚拟资源

 

1)解决数据传输延迟的对策

 

应用半虚拟化(paravirtualization)技术是业界提高虚拟环境性能所采取的普遍方式。于其中,在执行某些软件处理时,物理硬件设备(包含虚拟组件)对组成Hypervisor的功能进行支撑。半虚拟化技术的应用使得网络运营商对于与Hypervisor相关的中间处理的控制成为可能,且可避免由延迟/时延所带来的影响(如图6所示)。

 

半虚拟化技术的应用模式

 

但是,部署了半虚拟化技术之后,各种功能均是由物理硬件来提供的。从而,通信APL或虚拟平台就必须要根据功能或系统配置来发布控制指令。此外,也很有必要详细地定义虚拟资源与物理资源之间的关系,从而就增大了创建公共资源池的复杂性。综上,半虚拟化技术的应用范畴也有其局限性。

 

对于通信APL,需进行延迟/时延控制的主要是在数据传输部分。由此,NTT DOCOMO对于CPUNIC(网络接口卡。连接通用服务器与局域网的扩展卡)的结合使用进行了定义:将其定义为一个单元(cell),且其可提供最大的通信性能,并仅对不容许延迟/时延的网卡部署半虚拟化技术。此处,通过对内存及存储的虚拟化,可以选择所需使用的服务器或单元,具体如图7所示。

 

半虚拟化技术的部署方式

 

2)解决执行某个通信APL时所产生延迟/时延的对策

 

通信APL是运行于虚拟机之中的,从而,若要稳定运行虚拟机,相关需求就是独占CPU。也即,相同的CPU不能运行超过一个的虚拟机。为了实现“CPU独占NTT DOCOMO对目标NFVI服务器的CPU、内存及网卡架构进行了集成,并把虚拟资源定位成一个CPU中的核数(运行虚拟机所需)。

 

采取上述两大措施之后,NTT DOCOMO构建了可完全满足通信APLs性能需求的虚拟资源平台。

 

3.2 创建可以使能对虚拟机编排策略进行定义的资源池

 

在传统的系统之中,组成某个通信APL的各个功能模块的冗余备份(以提高可靠性及可扩展性),是通过ACT-SBY配置或nACT配置来进行。然而,如果采取ACT-SBY配置、运行有功能组件的虚拟机均仅被安装于单台服务器,则当该服务器发生故障后,就会连接发生双重故障,进而,业务就会被中断。所以,有必要定义虚拟机编排规则,以使得备份的功能组件被部署于其他服务器。同时还要设计与这些编排规则相对应的虚拟资源池。但此处必须要注意的是,对于虚拟机在物理服务器上的编排的执行,需与诸如扩展(通过增加或减少虚拟机来优化处理能力)、自愈(在虚拟机或硬件发生故障后使通信软件恢复正常状态的流程)、实例化(云环境中发布通信APL的流程)等控制功能同步地进行。

 

1)虚拟资源池的构建

 

虚拟资源池需以VIM(虚拟基础设施管理器)模块为单元来构建,其中的每个单元被分成多个区,这些分区又被配置成多个栈,以方便进行冗余备份,提高抗故障能力。虚拟资源池与分区之间的关系如图8所示。其中,通过把具备ACT-SBY冗余配置的虚拟机编排部署至不同的分区,防止当服务器或分区发生故障时产生双重宕机现象。此外,具备nACT冗余配置的虚拟机可防止由网络设备多处故障引起的分区宕机效应。虽然所需的分区数目等同于nACT之中的“n”,但是实际的具体数目可由网络运营商根据其设施及通信APLs特性来决定。

 

虚拟资源池与分区之间的关系

 

2)对虚拟机编排策略的定义

 

虚拟基础设施管理器对虚拟资源池、分区的定义进行管理,并控制单独的物理服务器,而VNFM(虚拟网络功能管理器)及NFVO(网络功能虚拟化编排器)则仅执行对于虚拟资源池(分区)的管控操作。当虚拟基础设施管理器在某个选定的服务器选择分区时,VNFM将会检查每个虚拟机的冗余配置,并根据ACT-SBY配置或者nACT配置来选择分区。同时,NFVO将会对虚拟资源池的容量进行管理。这种在虚拟平台上的功能分割使能了可维持通信APLs抗故障能力的虚拟机编排。

 

3.3 对通信APLs逻辑配置与物理配置的虚拟化

 

NTT DOCOMO云数据中心所承载的通信APLs替代了传统通信APLs的软件配置,这意味着用于监控通信APLsOSS(运营支撑系统)就可以延续传统的监控功能。

 

传统通信APLs具有同硬件集成的配置,使得OSS系统可以从通信APL处接收故障告警,从而可以缩小对已经发生故障的硬件设备进行定位的范围。但是,在云环境之中,由于虚拟机具备自愈能力,就难以把发生故障的虚拟机从其所运行的物理服务器中独立出来。所以,当通过检查软件(逻辑配置)或硬件(物理配置)解决通信APLs或相关设备的故障问题时,逻辑配置与物理配置的虚拟化就显得非常重要——用以确定发生故障的虚拟机究竟运行于哪一台物理服务器之中。

 

在逻辑配置的虚拟化方面,NTT DOCOMO面向通信APL组件及虚拟机统一了命名规则,以使能这些组件(显示于OSS)及虚拟机名称(在虚拟资源池)之间的通讯,并明确了它们之间的关系。

 

在物理配置的虚拟化方面,由于虚拟基础设施管理器对物理服务器及虚拟资源池之中的虚拟机之间的连接进行管理,NTT DOCOMO就把相关信息传送至OSS系统,以使能逻辑配置及有待进行虚拟化的OSS通信APL的物理配置。采取这种方式时,需要延续使用传统的监测与控制功能(如图9所示)。

 

逻辑配置及通信APL物理配置的虚拟化

 

4、结论及展望

 

上文介绍了日本第一大通信运营商NTT DOCOMO在实际部署NFV技术的实践过程中,所遇到的主要技术问题及解决方案。为了在云环境之中运行通信APLs,网络建设及运营维护工作需要更加高效。为了达到这个目标,NTT DOCOMO计划研发一种新兴的网络服务,以减小其在实例化时所需进行的配置数目。NTT DOCOMO还计划研发能在具有多个供应商设备的虚拟平台上实现网络自动运维及智能运营的功能。

 

 

参考文献

 

[1] Tooru Kamada, Yuuya Kuno, Hironao Tamura, Hiroshi Iwamiya.

Practical Implementation of Virtualization Platform in NTT DOCOMO Network[EB/OL].

https://www.nttdocomo.co.jp/english/binary/pdf/corporate/technology/rd/technical_journal/bn/vol18_1/vol18_1_004en.pdf, 2016-07-05.

 


注册成为正式用户,登陆后,获得更多阅读功能与服务!
转载本文需经本平台书面授权,并注明出处:上海情报服务平台www.istis.sh.cn
了解更多信息,请联系我们

§ 请为这篇文章打分(5分为最好)