结合众多开放原码软体IBM打造企业级资料科学协同分析平台

从云端服务、大数据到人工智慧,各种资料科学相关应用的发展,已经蔚为风潮,然而,在资料分析平台与工具的搭配上,大多数人会选择使用开放原始码的软体来进行,不过,若要快速建置整体环境,并且使用经过妥善整合的应用软体,仍然相当困难,所幸市面上已经出现了一些解决方案,像是我们先前介绍的Cloudera Data Science WorkBench,在今年上半问世,而系统软体与云端服务大厂IBM也加入战局,在去年6月推出Data Science Experience(DSX),针对资料科学家、资料工程师、商业分析师、应用程式开发人员,提供彼此能够协同合作的统一开发环境——就算资料科学团队的成员各自习于使用不同程式语言,例如:Scala、Python、R或SQL,也能在这里存取所需的资料,并且将分析模型传递给开发人员。
以提供的功能来看,DSX并非只是技术挂帅的工作平台。基本上,资料科学团队能够运用整合好的开放原始码软体,以及IBM的加值解决方案,建立分析(Create)、管理分析结果的资产,并且进行协作分享(Collaborate),透过专案、版本控管等机制,便于多人合作;同时,还考虑到社群学习(Learn)的层面,内建线上资源与完整教学,协助成员掌握资料科学的相关基础知识,IBM也在此开放多种资料集,并透过Jupyter Notebook的形式,公开记录程式码与分析结果的说明文件。
这套解决方案在发布之初,主要是架构在IBM Cloud云端平台之上,可提供近乎即时的高效能分析能力,提供250套辅助资料集、开放原始码工具软体,以及多人进行协同作业的工作区,让资料科学家将发现到的分析结果分享给开发人员使用,以便加速智慧型应用程式的开发。
到了2017年上半,IBM也推出DSX Local与DSX Desktop的版本,因应企业内部基础架构(可部署在IBM Cloud Private),以及个人桌面环境的使用需求,不再局限在云端服务提供。
而在这三种形式之间,有何不同?台湾IBM公司商业分析部高级技术顾问苏友信表示,DSX Cloud的部份,是提供所有资料分析所需工具,而且能够立即使用的;DSX Local的架构则和DSX Cloud类似,不过,这是一套可安装在企业内部使用的版本,适合有严格资料保护考量的用户,而且,导入的企业需自行準备伺服器来建置,其余维运作业则由IBM Cloud Private协助处理,以自动化的自我管理为中心。
至于DSX Dektop,则是提供整合好的 Jupyter Notebook、RStudio、 Python with Anaconda and R,让资料科学家能一键安装所有开发相关工具,但不包含资料模型管理、协同合作等相关元件,而这也是它与DSX Cloud、DSX Local之间的差异。
就核心技术而言,DSX主要是基于Apache Spark大数据处理框架,强化这套开放原始码资料平台的运算速度与灵活度,希望吸引规模多达2百万人以上的R语言技术社群来运用;同时,IBM在发展DSX的过程中,也贡献了一些程式码,提交到SparkR、SparkSQL与Apache SparkML等开放原始码软体专案当中。
而在使用者操作介面上,DSX也整合了R语言开发者惯用的整合式开发工具RStudio,以及另一套开放原始码的网站应用程式Jupyter Notebook——一般而言,开发者透过这套工具,与多人即时共享正在撰写的程式码、方程式、图表与套用缩排样式的文字内容,而在DSX当中,能用来记录资料团队成员的分析历程,可包含程式码片段与分析结果,作为说明文件。
除此之外,使用者也可运用DSX提供的流程编辑器(Flow Editor),以拖放物件的简易操作,快速完成分析流程的设计,或是透过另一套Cognitive Assistant for Data Scientist(CADS)的精灵介面,引导快速建模。
而经由Jupyter Notebook、Flows或CADS产生的分析模型,可由系统的模型管理(Model Management)功能来掌控,并且汇入採用PMML格式的外部模型,同时,也能将资料模型部署成Restful API,更易于整合到应用系统当中。
基于多种开放原始码软体而成的DSX,本身也支援多种IBM自家发展的商用系统,像是:CADS提供的快速建模机制,能够整合Watson Machine Learning的云端服务,将模型执行在其中;在机器学习的处理流程制定上,DSX的用户除了使用Spark 2.0,也能够延伸整合IBM预测分析建模软体SPSS Modeler;而对于决策制定最佳化的处理,可以透过 IBM CPLEX引擎来进行,亦即运用支援Python语言的DOcplex建模API(Decision Optimization CPLEX Modeling for Python),并且存取DOcplexcloud云端服务(是基于ILOG CPLEX Optimizer系统而成),来处理大型的最佳化模型建立作业。
整体而言,DSX的目标是协助习于R语言的资料科学家,可在更短的时间内存取更多资料;相对地,也能促使更多人透过IBM Cloud的服务或是整合的系统软体,能够更易于产生资料分析结果,并且妥善运用。
产品资讯
IBM Data Science Experience
●原厂:IBM(02)8723-8888
●建议售价:云端企业版每个月5个分析者授权为4,600美元起,包含15个executor的Spark Cluster环境
●产品形式:云端企业版、桌面版、企业内部使用版
●相容程式语言:Scala、Python、R、SQL
●整合软体与云端服务:Spark、Jupyter Notebooks、RStudio、IBM Watson Machine Learning、Kubernetes
●内建程式库:Brunel Visualization、PixieDust、PySpark、matplotlib、SparkML
【注:规格与价格由厂商提供,因时有异动,正确资讯请洽厂商】
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
截至2023年,大众高尔夫GTI的最新款车型为2024款。关于2025款高尔夫GTI的价格和配置信息,目前尚未有官方发布...浏览全文>>
-
在当今社会,汽车已经成为人们日常生活中不可或缺的一部分。对于许多家庭来说,选择一辆适合自己的车不仅关乎...浏览全文>>
-
随着汽车市场的不断变化与发展,2025款大众CC以其优雅的设计和卓越的性能吸引了众多消费者的关注。作为一款备...浏览全文>>
-
安徽阜阳探影新车报价2023款大公开:买车不花冤枉钱随着汽车市场的不断发展,消费者对于购车的性价比和实用性...浏览全文>>
-
在安徽滁州地区,上汽大众途观L是一款备受关注的中型SUV。途观L凭借其宽敞的空间、强劲的动力以及丰富的配置,...浏览全文>>
-
关于2025款大众ID 系列车型在安徽淮南的售价及落地价问题,我们可以从以下几个方面进行详细分析。大众ID 系...浏览全文>>
-
安徽阜阳帕萨特多少钱?选车秘籍与落地价全攻略在安徽阜阳,选择一款适合自己的帕萨特车型需要综合考虑预算、...浏览全文>>
-
在当今的汽车市场中,新能源汽车因其环保性和经济性逐渐成为消费者关注的焦点。对于生活在安徽阜阳地区的朋友...浏览全文>>
-
随着新能源汽车市场的快速发展,消费者对于新能源车型的关注度持续攀升。作为一款备受瞩目的高端新能源车型,...浏览全文>>
-
在2024款的汽车市场中,一汽-大众ID 6 CROZZ以其豪华配置和出色的性能吸引了众多消费者的关注。作为一款纯电...浏览全文>>
- 安徽阜阳探影新车报价2023款大公开,买车不花冤枉钱
- 安徽阜阳帕萨特多少钱?选车秘籍与落地价全攻略
- 安徽阜阳途锐新能源多少钱?选车秘籍与性价比大公开
- 奇骏试驾需要注意什么
- 长安欧尚520试驾操作指南
- 试驾哈弗H6操作指南
- 安徽阜阳探影落地价实惠,配置丰富,不容错过
- 丰田雷凌预约试驾操作指南
- 滁州ID.4 X多少钱 2025款落地价,换代前的购车良机,不容错过
- QQ多米最新价格2025款,各配置车型售价全揭晓,性价比之王
- 阜阳ID.4 CROZZ新款价格2025款多少钱?选车指南与落地价全解析
- 阜阳ID.7 VIZZION多少钱?选车秘籍全攻略
- 滁州大众Polo最新价格2024款,各配置车型售价一目了然
- 天津滨海大众Polo落地价,各配置车型售价一目了然
- 亳州途观X多少钱?选车秘籍全攻略
- 奥迪e-tron GT试驾,如何享受4S店的专业服务?
- 安庆探影落地价全解,买车必看的省钱秘籍
- 岚图梦想家 2025新款价格大揭秘,各配置车型售价一览表
- 山东济南长安启源E07多少钱 2024款落地价,最低售价19.99万起,入手正当时
- 天津滨海T-ROC探歌新车报价2025款,购车前必看的费用明细