Nvidia与Databricks合作让Spark可用GPU加速模型训练

人工智能2021-02-13 12:02:02
最佳答案

Nvidia与Spark开源社群合作,在即将发布的资料运算引擎Apache Spark 3.0,支援端到端GPU加速功能,Nvidia提到,Spark 3.0建立在开源GPU机器学习平台RAPIDS之上,可大幅提升资料提取(Extract)、转换(Transform)和载入(Load)资料的效能。

Spark 3.0让资料科学家和工程师,能够将GPU广泛地用在SQL资料库,进行ETL资料处理工作负载,而且人工智慧模型训练,也可以在同一个Spark丛集上处理,而不用分开在独立的基础设施以及程序中执行,Nvidia表示,这样的改进可以提升整个资料科学工作管线效能,使用者不需要更改现有企业就地部署或云端平台上的Spark应用程式,就能从资料湖的ETL到模型训练都获得加速。

这项实作是以开源的RAPIDS加速器达成,这个加速器会拦截之前在CPU中执行的功能,并转换到GPU上运算,切确的功能包括在不需要修改程式码的情况下,大幅提高Spark SQL和DataFrame的执行效能,而且机器学习和深度学习可以和资料準备使用同一个基础设施。还能跨Spark分散式丛集中的节点,提升资料传输效能,其函式库由于利用UCF联盟的开源UCX框架,可让资料直接在GPU记忆体上移动,以大幅降低延迟。

由于Adobe和Nvidia建立战略人工智慧合作伙伴关係,因此已经在Databricks上执行Spark 3.0,将GPU资料分析技术,用于开发Adobe Experience Cloud以及支援数位商业的功能上,而运用新技术后,运算效能提升了7倍。Nvidia提到,由于Spark 3.0获GPU加持,可让资料科学家使用更大的资料集来训练模型,并且频繁地重新训练模型,进而提升模型的準确性。

而Spark 3.0之所以能够良好地运用GPU,是因为Nvidia与Apache Spark背后支援的企业Databricks合作,使用RAPIDS套件来最佳化Spark,而Databricks的创办人同时也是Apache Spark的创建者,其提供企业云端服务,让医疗保健、金融和零售等各行业,在其云上执行资料处理运算。

免责声明:本文由用户上传,如有侵权请联系删除!