Nvidia翻新InfiniBand网管平台提供即时监控与AI预测分析

互联网2021-02-12 18:02:27
最佳答案

以InfiniBand与乙太网路交换器与网路卡着称的Mellanox,旗下其实也有管理软体类型的产品,像是用于InfiniBand运算环境的Unified Fabric Manager(UFM),以及网路调度指挥平台NEO,而今年4月底完成併购该公司程序的Nvidia,在6月底发表了Mellanox UFM Cyber-AI 平台,就是从UFM发展而来的产品,当中将运用基于AI的分析能力来侦测资安威胁与营运问题,并且预测网路故障,以便针对採用InifiBand网路技术的资料中心环境,将停机时间减至最低。

Nvidia表示,这套解决方案是既有UFM平台产品系列的延伸,将导入AI来学习资料中心的运作步调与网路工作负载模式,也一併撷取即时与历史遥测与工作负载数据。而有了这样的基準线,UFM Cyber-AI得以追蹤系统的健康状态与网路异动状况,并且侦测效能下降走势、用量起伏与组态变更。

UFM Cyber-AI若察觉异常系统与应用系统的行为,以及潜藏的系统故障与资安威胁,可发出警示,以及採取修正的动作。如果有人尝试侵入系统执行恶意应用程式,像是数位货币挖矿,这套平台也会发送资安警报。

UFM分为三种版本,因应不同的网管功能需求

就产品功能搭配与包装而言,UFM将区分为3种等级:基本款UFM Telemetry、中阶款UFM Enterprise、高阶款UFM Cyber-AI。

首先,UFM Telemetry提供网路验证工具,能够监督网路效能与运作状况,即时撷取丰富的网路遥测资讯(交换器、网路卡、网路线),以及应用程式工作负载的网路用量、系统组态等,可执行网路效能测试与系统验证,并且持续传输送至企业内部建置或位于云端环境的资料库,以便后续进一步分析。

接着是UFM Enterprise,它包含UFM Telemetry所有功能,并添加多种特色,像是强化的网路监控管理、工作负载最佳化,以及定期组态检查,也提供丰富的网页图形管理介面、进阶的统计报表产生机制、广泛的REST API。

在网路监控的应用上,这个版本提供自动化网路探查与验证、网路线安全管理、壅塞追蹤与流量瓶颈识别,同时,还支援工作排程的自动产生机制,可整合Slurm、Platform LSF这两大工作负载调度与管理平台,以及网路自动设置,可在OpenStack、Azure Cloud、VMware等IT基础架构使用。

至于UFM Cyber-AI,包含UFM Telemetry、UFM Enterprise的所有功能,它可基于长期撷取的丰富遥测资讯,运用深度学习演算法,来持续了解资料中心的「心跳」、运作模式、遭遇的各种状况、资源用量,以及工作负载的网路特徵,能够藉此构建一套储存大量遥测资讯的资料库,协助发现事件之间的交互关连,并且提升预测準度。

对于经年累月的网路效能下滑、用量与组态变更,这样的平台也能够侦测出来,并且警示异常的系统与应用程式行为,以及潜在的系统故障状况,及早实施预防性维修,此外,还能执行各种修正动作。

 

从扮演支援角色的产品,逐渐发展成可独当一面的平台

整体而言,UFM Cyber AI的推出,让业界重新认识了UFM的价值。但在此之前,这套产品已历经将近10年的发展。

早在2011年5月Interop Las Vegas大会,Mellanox就推出了UFM,但当时该公司主打SX1000系列的10GbE/40GbE交换器,以及ConnectX-2乙太网路卡、QSFP铜线与光纤缆线,UFM成了配角。

到了隔年11月,Mellanox推出整合应用设备UFM-SDN,强调软体定义网路支援的搭配,里面也採用了UFM软体的4.0版,可增进网路互连管理的有效性,能够记录监控历程,将效能与状态资讯存放在个别的资料库,以利持续追蹤,这里也提供多站点管理的功能,企业可透过单一、集中的管理主控台来监督多个站点的状态。

UFM软体这个版本也提供新的部署形式,能以整合应用设备来贩售,当中搭配了MLNX-OS的使用介面,而MLNX-OS正是Mellanox InfiniBand交换器的作业系统。Mellanox也推出多款UFM-SDN Appliance机型,来管理不同规模的节点丛集。

在2016、2017年,IBM和Mellanox合作,于是在IBM旗下出现了UFM for Power Systems伺服器(里面採用Xeon E5-2630处理器),有两款机型,分别是:8867-FM1、8867-FM2,可协助大型资料中心IT人员,针对运算与储存系统互连基础架构,进行更有效率的监控、设置、维运。

产品资讯

Nvidia Mellanox Unified Fabric Manager
●原厂:Nvidia Mellanox
●建议售价:厂商未提供
●解决方案类型:UFM Telemetry、UFM Enterprise、UFM Cyber AI(包含UFM Telemetry与UFM Enterprise)
●部署形式:软体、应用设备、Docker container
●软体安装作业系统需求:RHEL/CentOS 7、SLES 12/15、EulerOS 2.0 SP2/SP3
●应用设备硬体配置:1U伺服器搭配ConnectX-6 200Gb/s InfiniBand网卡

【注:规格与价格由厂商提供,因时有异动,正确资讯请洽厂商】

免责声明:本文由用户上传,如有侵权请联系删除!