看準企业级资料仓储与大数据分析应用商机AWS推出多种服务涵盖安全性、强化查询效能、简化操作与降低储存成本等面向

每日动态2021-02-18 14:06:55
最佳答案

图片来源:

摄影李宗翰

【美国拉斯维加斯现场报导】在今年的re:Invent大会上,AWS针对资料储存与资料库应用,针对物件储存服务S3和资料仓储服务RedShift均新增了新的特色和服务,大幅强化安全性与效能,同时,也针对Elasticsearch和Cassandra这两套NoSQL资料库,分别推出成本更低的储存层级与代管服务。

加强与简化S3的存取控管

以S3来说,AWS执行长Andy Jessy在大会第二天的主题演讲当中,宣布推出S3 Access Points的功能,可简化应用程式对于S3资料存取方式的管理,用户可以更容易管理S3环境当中每个储存桶(bucket)的数百个存取点,针对应用程式自定名称与存取权限许可,这么一来,不只是为共用资料集的存取提供新的方法,针对共享S3资料桶存取方法的建立与维护,也能更为便利。

在存取控管政策的制定上,S3 Access Points能让用户透过前置字元和物件标籤来强制施行许可,因此可限制物件资料的存取。而且,这项功能可将S3资料存取的範围,局限在AWS的VPC到防火墙之间,而当中提供的Service Control Policies,也能用于确保所有存取点都在限用的VPC当中。

企业资料仓储上云需求日增,提升延展性、查询效能与降低操作难度是资料分析应用改善的重点

针对资料库类型的云端应用需求,往年AWS发表的重点都是资料库服务Aurora,今年很特别,主角换成资料库仓储服务RedShift,这套2012年问世的云端服务,在Aurora问世之前,曾经是AWS成长速度最快的业务,今年终于换它独领风骚。

AWS本次发表了几项服务都跟RedShift有关。首先是名为RedShift RA3 with Managed Storage的执行个体本週正式推出,能让用户个别扩展执行个体的运算资源与储存资源,而在这样的扩充弹性之下,若相较于其他云端资料仓储,RA3的效能领先幅度可达到3倍。AWS也公布多家採用这项服务的公司,像是语言学习平台公司Duolingo、商家评论网站公司Yelp、储存装置厂商Western Digital、电信业者NTT DOCOMO、传媒集团福斯公司(FOX Corporation)。

所谓的个别扩展,是指用户可以根据资料仓储的工作负载效能需求,来选择执行个体的数量;而在储存空间的费用上,也只需要支付目前用到AWS代管储存的容量,目前在每一个RA3执行个体搭配的RedShift Managed Storage,使用的是大容量、高效能的固态硬碟,作为本机储存空间,以及S3作为长期、高耐用度的储存空间。如果执行个体当中的资料超过本机储存的容量,RedShift Managed Storage会自动将资料卸载到S3,但不论资料位于本机储存或S3,用户仅需支付RedShift Managed Storage的费率,以及RA3使用的本机储存容量费用。

另一方面,RA3执行个体本身是建构在AWS Nitro System之上,而具有相当高的网路频宽(100 Gb/s),可进一步减少资料卸载至S3或从S3取回的时间。目前在执行个体的供应上,AWS本週已经开放租用16xlarge(ra3.16xlarge)的服务项目,可支援8PB已压缩资料的工作负载,到了2020年初,RA3将提供4xlarge。

接下来是与加速资料仓储查询有关的进阶查询加速器(Advanced Query Accelerator,AQUA),这项服务称为AQUA for Amazon Redshift,预计在2020年中正式登场,这项服务能够为RedShift提供分散式硬体加速快取,与其他云端业者提供的资料仓储服务相比,在查询作业的效能上,改善的幅度可达到10倍之多。目前已採用该项服务的企业,有财务软体厂商Intuit,以及福斯公司。

之所以能够提供如此大的效能提升,在于AQUA能将运算层带到储存层,因此用户不需在两者之间来回搬移,它是建在S3之上的高速快取架构,能够横向跨展多个节点,并且在这些节点之间进行平行的资料处理,而且每个节点都拥有一套硬体模组,当中採用了AWS设计的分析处理器,能够大幅加速资料的压缩、加密,以及过滤、汇聚等资料处理作业。相较于其他云端资料仓储存服务让用户直接查询原始资料,这套架构可提供更快的资料查询速度,以及更大的规模扩展能力,能让用户获得即时反应效果更佳的仪表板,以及缩短开发时间、易于维护系统等功效。

此外,这套架构也相容于现行版本的RedShift,用户可将既有的资料仓储迁移过去,不需要修改程式码。

另一个与资料仓储相关的功能是联邦查询,称为Redshift Federated Query,用户分析资料的範围,可横跨多个AWS云端服务,包括资料仓储(RedShift)、物件储存(S3)、关联式资料库(RDS、Aurora),目前AWS已经开始提供这项服务的预览版本,而先行採用的企业则有福斯公司、网路安全公司Sophos。

基于这项服务,用户可运用熟悉的SQL语法叙述,即能横跨多种资料储存来结合所有资料,进而简化应用程式开发方式。有了联邦查询,RedShift查询也能存取这些作业型的资料库系统,提供更为即时与更新的资料,近来带来更理想的分析与决策支援。当然,这样的作法也对效能带来极大的挑战,对此RedShift query Optimizer会进行智慧型的大规模分散式处理,以便服务底层的资料库。

而在横跨不同资料储存的应用上,AWS本週也正式推出RedShift Data Lake Expert的服务,目前Warner Bros已採用该项服务。

用户可将RedShift资料直接汇出到S3,而这些数据所採用的形态,会是针对分析应用最佳化的开放资料格式Apache Parquet。如此一来,用户能够把他们在RedShift完成的查询结果,以开放格式储存到S3资料湖当中,接下来,就可以运用AWS其他服务,像是SageMaker、Athena、EMR,来进行后续的资料分析。综观现在市面上的云端资料仓储服务,AWS认为并无其他业者可提供如此简便的方法,能让用户查询资料的同时,又能将资料以开放格式回写至资料湖。

针对NoSQL资料库的应用,提供较低储存成本与更多系统的选择

强化对NoSQL资料库的支援,也是AWS今年用户大会在资料分析领域的发布重点。首先,是针对Amazon Elasticsearch Service,提供了暖储存服务(Warm Storage Service),称为UltraWarm,目前开放预览版本试用。这项新的储存层级,能为现行的Elasticsearch Service用户,提供储存成本减少9成的新选项,相较于其他代管式Elasticsearch服务提供的暖储存,也有储存成本减少8成的竞争优势,因此,若要在云端Elasticsearch服务保存大量的现行与历史记录资料,搭配AWS专为该项服务的暖储存,在费用负担上,都将更为轻鬆。目前宣布採用该项服务公司,主要是家庭族谱与基因检测公司Ancestry。

在实际运作上,UltraWarm能针对经常存取的资料,提供分散式快取,这里面运用了进阶资料存放位置管理技术,能够判断较少存取的资料区块,并将它们搬移到S3快取之外;而且,这项服务也採用高效能的EC2执行个体,以便于与存放在S3的资料进行互动。基于上述的架构,能促使UltraWarm的查询速度比其他暖储存解决方案快上50%,同时,用户在面对所有记录资料时,还能保有相同的互动式分析体验。

以目前AWS公布的规格来看,有了UltraWarm,用户在单一Elasticsearch Service的丛集之中,最多可管理3PB的记录资料,并且能够横跨多个丛集进行查询,因此,可以更有效地保存现行与过往记录资料,便于互动式作业型分析与图表式呈现结果──在使用体验上,用户可以透过Kibana这套软体提供使用者介面,轻鬆查询与呈现近期与长期的作业资料,因此,不论是开发人员、DevOps工程师、资安专家,均可更简便地使用AWS Elasticsearch Service,分析短期与长期的作业资料,而不需大费周章,从S3或Glacier存放的归档资料当中,将资料复原到Elasticsearch丛集当中,转为主动、可搜寻的状态,才能开始着手查询,这一来一往之间,可能就要好几天的功夫。

除了Elasticsearch的应用,AWS今年还推出另一套关于Apache Cassandra资料库的完全代管服务,称为Amazon Managed Apache Cassandra Service(MCS)。在这套云端服务之中,开发人员可以继续沿用与Apache Cassandra相同的程式码(相容于Cassandra 3.11)、符合Apache 2.0授权的驱动程式,以及现今所用的工具,以便执行、管理与扩展Cassandra资料库的工作负载,而且,用户可省去维护资料库系统底层IT基础架构的负担。

目前有哪些企业可能有意採用对这项服务?AWS列出了几家公司,像是速食业者麦当劳,以及软体厂商Adobe、Pegasystems、Reltio。

在实际运作上,由于这套资料库代管服务本身採用无伺服器(Serverless)的架构,所以用户毋须自行建立、设定与操作大型Cassandra丛集环境──因此,当资料库流量规模变大或缩小时,用户不必手动增减节点,以及针对多个资料库分割区执行重新平衡的处理。

关于服务的效能保证,也是MCS的卖点之一,不论任何大小的执行规模,AWS提供给用户的性能水準是低于10毫秒的延迟,系统会根据应用程式实际的流量,自动扩张或缩小资料表的规模,并以虚拟的方式提供无上限的网路吞吐量与储存容量。

MCS这套服务的计费方式,未来也会扩增更多选项。以目前AWS提供的选择而言,会随用户所需的服务容量而计价(on-demand capacity mode)──用户仅支付应用程式使用的资源。到了2020年初,这套资料库代管服务将提供预先配置容量(provisioned capacity)的选择,让用户指定每个工作负载所需的服务容量,以便控管相关费用支出。

若是用户在自建IT环境或AWS的EC2云端服务,已有正在使用的Cassandra资料表,届时也可以透过AWS移转工具,搬迁到MCS。

 

免责声明:本文由用户上传,如有侵权请联系删除!