超大规模数据中心内的数据链路层自动测试案例

译者 | 李睿

如今,数据创建、存储和处理的指数增长正在推动全球对超大规模数据中心的需求。这些数据中心的基础设施大部分由亚马逊、微软和谷歌等云计算服务提供商(CSP)设计和管理,它们依赖于强大的物理连接来确保充分利用部署的存储和计算资源。

用户可以使用自动化解决方案对这些关键物理连接的数据链路层进行测试和故障排除。但首先应该了解和检查链接和链接类型。

超大规模数据中心内最常见的三种物理组件是:直连铜缆(DAC)、有源光缆(AOC)以及连接到收发器的光缆组件。这三个连接元素都可以被视为数据传输的高速公路。

这些组件的基本电气和光学连接功能的正常运行不仅很重要,数据链路层在既定网络/制造商规范内运行也很重要。

这些连接元素主要由于数据速率和物理链路长度(最大覆盖范围)而有所不同。直连铜缆(DAC)用于连接相距很近的设备,并且最常用于连接同一机架内的两个元件。

有源光缆(AOC)具有扩展范围,可以连接同一行机架内的两个设备,甚至可以连接到相邻行。光缆组件(包括连接到数据中心入口面板的长距离电缆)可以连接两个相距很远的设备(根据它们所连接的收发器,通常长达100公里)。

无论其跨度的数据速率或距离如何,都必须对所有这些链路进行监控和测试,以确保物理和数据链路层的功能都在标准范围内。

1.直连铜缆(DAC)

直连铜缆(DAC)是一种替代方案,其电缆本身是由铜线制成的。当信号处理电路集成在直连铜缆(DAC)内置连接器时,直连铜缆(DAC)可以是无源或是有源的,以提供直接连接。

与有源光缆(AOC)一样,直连铜缆(DAC)将由小型可插拔(SFP)模块或四通道小型可插拔(QSFP) 模块端接,具体取决于线路速率。有源光缆(AOC)支持更长的传输距离,并且比直连铜缆(DAC)线缆更轻巧。然而有源光缆(AOC)支出的成本更高,而且光纤比铜缆更容易损坏。有源光缆(AOC)和直连铜缆(DAC)电缆也可作为分支线路提供。

2.有源光缆(AOC)

有源光缆(AOC)用于数据中心的点对点互连应用,通常应用在同一行的机架内。

在将有源光缆(AOC)与带有收发器(也称为可插拔光学器件,例如SFP和QSFP)的光缆组件进行比较时,有源光缆(AOC)提供了一种简单的安装方式,无需考虑互连损耗,也无需在之前清洁和检查光纤端面进行连接。

但是,有源光缆(AOC)不能用于使用配线架的行尾(EOR)或行中(MOR)配置。对于40GE、100GE和400GE的高速链路,这通常意味着在带状电缆上使用多个数据通道。在10GE、25GE或50GE的情况下,每个方向采用单通道或光纤就足够了。

一个关键属性是有源光缆(AOC)使用与可插拔光学元件相同的机笼,并在每个电缆末端执行光电转换。实际上,这意味着40GE和100GE的QSFP端接(400GE的QSFP-DD)和10GE和25GE的SFP端接。

展开全文

因此,有源光缆(AOC)处于活动状态,除了光缆之外,其组件还包括收发器、控制芯片和模块。有源光缆(AOC)电缆的长度固定, 通常从几米开始,以及延伸到100米或更长。

从技术上来说,有源光缆(AOC)不必符合众多以太网接口类型中的任何一种,尽管许多有源光缆(AOC)都在产品信息中宣传符合某种以太网接口类型。

由于直连铜缆(DAC)和有源光缆(AOC)没有提供对实际光纤或铜缆布线的测试访问,因此无法使用传统媒体测试和认证工具对电缆进行认证或故障排除。与其相反,必须使用可以接受双SFP/QSFP收发器并生成和分析流量的测试工具。

测试直连铜缆(DAC)和有源光缆(AOC)是确保网络性能的任何问题都不是由于直连铜缆(DAC)/有源光缆(AOC)或其安装引起的关键步骤。考虑到一旦出现安装故障,不预先对电缆进行测试,其成本会更高。

因此,有必要追踪和定位远端。直连铜缆(DAC)/有源光缆(AOC)故障原因包括简单的制造缺陷,极性错误或反接,以及在运输过程中贴错标签或损坏。

对于有源光缆(AOC),它们可能会过度弯曲导致高损耗或纤维可能被压碎。在采用直连铜缆(DAC)的情况下,可能会出现电磁干扰(EMI),从而导致过多的误码。在超大规模数据中心添加更多要测试的电缆,很容易理解自动化测试过程的需求。

边缘部署和分解:在安装时平衡测试的时间/成本效率

在光纤网络时代,建设和调试超大规模数据中心,意味着承包商还负责对这些多组件白盒网络中每条光纤链路的性能、可操作性、压力、可靠性进行测试和认证。

将此与超大规模数据中心的指数级增长以及更接近最终用户的需求相结合,其结果是更多的边缘部署(网络虚拟化)。这迫使超大规模数据中心在最大限度地减少网络延迟的同时提高速度、安全性和效率。

同时需要快速启动边缘部署,这可能会增加在安装之前不测试所有电缆的决定,而是选择等待,并在故障排除期间解决任何连接问题。

同样,在故障排除过程中,需要尽可能减少停机时间,这通常会导致决定切断或断开电缆并铺设新电缆,而不是排除故障或移除现有电缆。

在通常情况下,从机柜中拉出的未经测试的电缆会被退回给制造商,但制造商却声称电缆没有问题,或者由于电缆大量故障而无法对其进行诊断。

这种情况不仅代价高昂(电缆的价格可能从几十美元到几千美元不等,具体取决于线路速率),在机柜中的无用线缆将造成拥塞,而且还可能导致标签错误或混淆,并增加拔出运行电缆的可能性。

由于原有的电缆具有速率特异性,无法在升级中使用,因此在机柜中留下切断和死线会产生更大的体积和重量,从而影响机架结构主功能。

3.误码率测试的价值

由于电缆成本的变化以及其他因素,很难准确说明在安装时测试和验证每条电缆的时间成本优势。

然而,从理论上不难推断,如果安装时没有测试足够的电缆,未来的故障排除工作以及网络升级将更加耗时和昂贵。

测试电缆最简单且最具成本效益的方法是运行测试模式,将结果与误码率(BER)阈值进行比较。直连铜缆(DAC)和有源光缆(AOC)(包括分线)通常在其数据表上标有误码率(BER)等级,尤其是当它们旨在与实现RS-FEC算法的设备一起使用时。

误码率(BER)等级取决于电缆的类型、线路速率和以太网接口的类型。对于用于RS-FEC编码流量的电缆,通常为400GE、100GE、50GE和25GE,甚至可能同时存在FEC前等级(纠错前)和FEC后等级(纠错后)。

在这种情况下,建议使用接近电缆误码率(BER)额定值的预FECBER阈值执行电缆测试,并确保测量的误码率(BER)小于成功测试的阈值。

对于不使用RS-FEC的40GE和10GE电缆,预期的误码率(BER)阈值需求小很多,因为这些线路上没有纠错功能。在这种情况下,如果没有直连铜缆(DAC)或有源光缆(AOC)的误码率(BER)等级,建议的阈值误码率(BER)为10^-12。

每条电缆进行一分钟的测试足以在10Gbps或更高的线路速率下获得有意义的误码率(BER)结果。电缆测试的最佳实践程序将生成测试报告,包括电缆标识符(例如序列号)等信息,可以从直连铜缆(DAC)或有源光缆(AOC)电缆读取。

因此,根据目标误码率(BER)阈值测试直连铜缆(DAC)或有源光缆(AOC)是一种有意义的方法,可以确保更多电缆在连接时正常工作。

原文链接:https://www.datacenterdynamics.com/en/opinions/a-case-for-automated-testing-of-the-data-link-layer/

发表评论