谷歌、微软另起炉灶 推25GbE以太网标准

www.net130.com     日期:2014-7-14    浏览次数:
出处:ZDNet

云计算[注]巨头谷歌和微软对目前的以太网交换机和适配器的千兆带宽成本甚为不满,因而与两个交换机芯片提供商Broadcom和Mellanox Technologies公司以及交换机制造商Arista Networks联手,另起炉灶建立起一个以太网速度规范,规范与由IEEE官方认可的以太网速度不同。为了得到更好的端口密度和降低成本,云服务提供商谷歌和微软想在机架内部运行25Gb/秒和50Gb/秒速度的以太网,而不是目前的10Gb/秒、40Gb/秒和100Gb/秒速度。

谷歌、微软另起炉灶 推25GbE以太网标准
以太网最初在Xerox PARC实验室运行了近十年,后来进入商业化,上世纪80年代初以3 MB/秒、10 MB /秒的速度运行。除此以外,其他的以太网的速度均是由参加IEEE的一群网络供应商建立的。今年三月,IEEE在中国开会,微软提交了所谓的“倡议书” (Call for Interest,缩写为CFI),提出建立25 Gb /秒的以太网速度,以及在某些应用中容许以太网以50 Gb /秒的速度运行。但微软的CFI没有获得批准。像谷歌和微软的云建设商对此类速度的以太网极为需要,所以他们自己组了个联盟,名字自然叫25 Gigabit以太网联盟,要建个25 Gb/秒以太网标准,同时亦遵循IEEE 802.3规范,以太网标准历来是由IEEE管的。

Arista Networks客户工程高级副总裁Anshul Sadana向笔者介绍了情况。就目前的以太网规范而言,40 Gb/秒交换机需要4条流量道的串行/解串器(SerDes)芯片,每条道运行10 Gb/秒的速度。 (Sadana解释说,实际上,由于编码开销,每条流量运行的实际速度是11.25 Gb /秒,但这不是人们谈论的东西。)要获得100 Gb /秒的链路,有两种方法:运行10条10 Gb /秒的道或是4条25 Gb/秒的道。这些并行链接(运行10 Gb /秒或25 Gb /秒的速度)会导致不同的网络接口卡和交换机的设计选择,而云服务供应商指,这些设计选择与他们的需求不符。虽然云服务供应商总是乐于拥有更多的带宽,但他们不想在更高的成本或会使得他们的交换机具有更低的端口密度的情况下得到更多的带宽。

Sadana表示,“就40 Gb /秒而言,如果需要4条道,开关芯片上元素更多,用电更多,会导致较低的端口密度,而用单道器件来实现的话端口密度高些。现在的SerDes已经从1 Gb /秒发展到10 Gb /秒到25 Gb /秒,都可以用来实现IEEE速度。但平行道从成本的角度来看不是最佳的,特别是对数据中心而言。在数据中心里可以把大量的服务器放在一个机架上,这些服务器需要一个合适的上行链路。“

举例来说,在时下的标准机架上,使用10 Gb /秒速度的架顶交换机可能有4 8个接到服务器的下行端口和4或8个接到网络聚合层的上行链路。但是,如果接服务器的下行链路改用40 Gb /秒速度,交换机通常只需要32或36个端口——不够一个机架上的机器数目,最终不得不买两个40 Gb /秒交换机,遗下一些废掉的端口。

交换机技术在不断发展,单位千兆比特的成本随着时间的推移从1 Gb /秒到10 Gb /秒到40 Gb /秒不断回落。Sadana指,具有两根电线的25 Gb /秒单道交换机相对于最低单位千兆比特成本而言是个最有效点。联盟提议的25 Gb /秒标准和市场上的40 Gb /秒交换机没有可比性,Sadana也同意这一点。但是,初略地计算一下(25 Gigabit以太网联盟成员无疑也这样做过)后不难发现,设备级别的25 Gb /秒单道交换机用电处于四分之一到一半之间,但却可以在网络接口得到2倍到4倍的开关端口密度。Sadana预测,随着时间的推移,25 Gb /秒以太网交换机进入市场,25 Gb /秒端口的成本会小于10 Gb /秒端口成本的一半或更低。云建设商的计算结果是;25 Gb /秒以太网交换机的带宽是10 Gb /秒以太网交换机的2.5倍,成本却只有1.5倍,功率包络仅仅一半,端口密度也高得多。

现如今,几乎所有的以太网交换机都提供亚微秒级的延迟,500纳秒到1微秒之间属于典型的延迟,对于网页式的、云托管应用程序,这种端口到端口的延迟是可以接受的。Sadana表示,“例如,你用的是一个搜索引擎或分析应用程序,延迟在这个范围内,万事大吉。” Sadana指,高频交易和其他类似的工作负载是例外,在这些情况下,显然低时延(以及低时延的一致性)比纯粹带宽更重要。问题的中心是:40 Gb /秒交换机和适配器的成本相对比较高,企业和云建设者在寻找替代品。

Sadana称,“如果你选40 Gb /秒,你必须多掏钱。因此,许多大型云服务提供商和大型企业在40 Gb /秒变得更具成本效益以前是不会转用40 Gb /秒的——但这可能是很多很多年以后的事。“

尽管联盟提出的25 Gb /秒标准因为有更快的与汇聚层连接的上行链路而对服务器之间的连接有益,但有些应用程序需要更多的其他东西。在这一方面,联盟提议使用一对25 Gb /秒的链路建立50 Gb /秒的以太网速度。虽然这种加倍的流量道确实在交换机和网络接口卡上需要比较强大的芯片,50 Gb /秒交换机比40 Gb /秒交换机多提供了25%的带宽,而流量道数目只有一半。这些50 Gb /秒端口与云存储以及需要更高带宽的任何其他应用程序的带宽成本曲线是相吻合的。

Sadana表示,联盟并不是在重塑以太网,联盟仅仅是在原有基础上加入一些调整,以支持25 Gb /秒和50 Gb /秒,还会加入自动协商机制,使得新速度与现存的以太网速度具有可互操作性。参加联盟的供应商、数据中心运营商或最终用户都可以使用25 Gb /秒和50 Gb /秒的各项规格的资料。联盟正在对两个速度的物理层(PHY)和MAC层的定义进行各项工作,包括虚拟通道兼容的考虑、前向纠错以及上面提到的自动协商。 Sadana指,敲定这些规格至少需时约六个月,出炉ASIC设计需要六个月到一年的时间。所以,在2015年夏季或2016年初之前,就别指望市场上会有25 GbE或50 GbE产品出现,实际的等待时间可能会更长一点点。

Mellanox公司营销副总裁Kevin Deierling告诉记者,公司的第一个100 Gb/秒的InfiniBand交换机上个星期已经成功展示过了,设计交换机和适配器ASIC以及布线等支持25 GbE和50 GbE规格的基础工作不是什么大不了的事。他称,“在核心基础技术方面,我们在相关的技术上做了一些开创性的工作,而布线、SerDes、核心工艺技术则完全是一样的。是的,ASIC集是新的,但25 GbE实际上只是100 Gb /秒的一个子集。“Mellanox公司正在开发一个终端到终端的解决方案,力求可以一次过推向市场。Mellanox认为客户应该现在就根据需要开始考虑将25 Gb /秒,40 Gb /秒,和50 Gb /秒的架顶交换机用于100 Gb /秒核心交换层。Deierling表示,最重要的一条是,在任何使用25 Gb /秒有益处的地方,要充分利用其优势。至于时机问题,Mellanox公司没有给出25 GbE和50 GbE产品进入市场的时间,但重申Mellanox准备在2014年年底或2015年年初将100 Gb /秒的InfiniBand推向市场,并会按步“随后”推出以太网。25 GbE和50 GbE新产品则会在那以后应市。

联盟背后有 Broadcom和Mellanox公司撑腰,再加上谷歌和微软等买家,英特尔、思科、惠普和其他一些有自己交换机ASIC的公司是否会入局呢?看起来是件有意思的事。亚马逊网络服务和Facebook似乎也很可能加入战团,甚至一些受到同样的网络问题困扰的超级计算机中心也会加入联盟也不一定。一旦支持这些新速度的交换机和适配器都出来之后,有事实证明它们是货真价实的以太网产品并且可以与其他以太网交换机进行互操作,如果云建设者和大型企业开始采用它们,那么其他的网络公司必然加入进来,甚至还有可能要求IEEE将这些规格放在IEEE以太标准里。但目前来看,IEEE的眼光放得更远一点,IEEE在考虑发展400 Gb/秒以太网标准的事。

分享道
相关新闻