AWS让用户以自定义资源在K8s丛集部署SageMaker机器学习

互联网2021-02-18 14:11:40
最佳答案

AWS机器学习服务Amazon SageMaker推出多个Operator以支援Kubernetes应用,可让用户在Kubernetes丛集部署SageMaker Operators,使其作为Kubernetes的自定义资源(Custom Resource),执行Amazon SageMaker机器学习模型训练、调校和预测工作。目前这项服务在美东、美西和欧洲等地提供。

Amazon SageMake是一个模组化且全託管的机器学习服务,可让资料科学家以及开发人员,快速地完成建置、训练、部署和维护模型等工作。AWS提到,不少用户会使用Kubernetes服务,来部署和管理容器化应用程式,像是资料科学家可以用来建立可重複的机器学习工作管线,并且更好地控制训练和预测工作。

不过用户要在Kubernetes丛集执行机器学习工作负载,有一些工作必须要自己来,需要编写自订程式码,自己管理底层机器学习的基础设施,以最佳化利用率,及确保高可用性和可靠性,同时还要遵守法规和安全性要求。

AWS举例用户可能面临的情况,包括Kubernetes用户使用GPU来进行模型训练和预测时,开发者通常需要更改Kubernetes的调度以及GPU工作负载的扩展,以达到最高利用率与高吞吐量的目的。而且当要把训练好的模型部署到生产环境中时,Kubernetes用户需要花额外的时间,配置和最佳化跨多可用区域的丛集。

因此为了解决在Kubernetes上执行Amazon SageMake机器学习工作负载的障碍,AWS推出了Amazon SageMaker Operators,以此整合Amazon SageMaker和Kubernetes的使用。用户在Kubernetes丛集上安装SageMaker Operators,便能在Kubernetes中将Amazon SageMaker增加为自定义资源,在Amazon SageMaker中操作机器学习模型,目前AWS提供训练、调校和预测3个Operators。

每个Kubernetes的SageMaker Operator都可让用户,透过Kubernetes API或像是kubectl等命令列工具,以原生的方式创建与操作工作负载,企业工程人员也可以直接使用这些Operators,在Kubernetes中为资料科学家建构自动化程式、工具以及自定义介面,而不需维护底层的机器学习基础设施。

免责声明:本文由用户上传,如有侵权请联系删除!