首页 >科技 > 内容

【AWS后疫新战略3:资料库、资料仓储】新增微软资料库应用程式搬迁辅助无伺服器能扩至更大规模

科技 2021-02-09 22:02:46

关于资料库、资料仓储等多种储存与分析服务的发展,是AWS这几年力推企业上云的重头戏。

他们在2018年全球用户大会提出Database Freedom口号,抨击Oracle、微软SQL Server这类旧型商业等级资料库,认为它们成本昂贵、高度綑绑、採用专属设计,并非聚焦于用户需求,因此,AWS鼓吹企业採用开放式的资料引擎与可移植能力,以及强调他们可提供商业等级的关联式资料库效能,因而主推相容于MySQL和PostgreSQL的Amazon Aurora,还可以选择商用等级软体Oracle、SQL Server,以及开放原始码软体PostgreSQL、MySQL、MariaDB,而这些都隶属于他们的资料库云端服务Amazon RDS。

此外,AWS母公司Amazon在11月1日宣布全面改用自家资料仓储服务Redshift,而不再使用Oracle。

到了2019年全球用户大会,AWS将重点摆在资料仓储,宣布推出更多Redshift系列服务与功能,像是Redshift RA3执行个体、AQUA for Amazon Redshift进阶加速查询、Redshift Data Lake Export资料湖汇出,以及Redshift Federated Query联合查询、具现化检视(虚拟资料表)Materialized views,其中的RA3、Redshift Data Lake Export当时已上线提供、Materialized views的支援提供预览版,AQUA for Amazon Redshift今年12月终于释出预览版,Materialized views与Federated Query,则陆续在3月、4月正式推出。

今年AWS全球用户大会的相关技术应用发布,又将目光重新聚焦在资料库,他们也发布协助资料库系统迁移的新功能,这次锁定的对象是微软SQL Server,而非过往针对的Oracle,同时,也强化Aurora的无伺服器应用服务。

关于SQL Server资料库迁移,AWS将推出Babelfish for Aurora PostgreSQL功能,希望能以此协助用户,让他们将既有SQL Server资料库系统,更简易地搬迁至AWS的资料库云端服务Aurora PostgreSQL,用户可在Aurora PostgreSQL环境,继续执行既有SQL Server的应用程式,而且仅需小幅修改程式码即可、甚至不用修改程式码,同时,AWS也计画开放这套软体功能的程式原始码,採用Apache 2.0授权许可,并公布在程式码协作与共享社群平台GitHub。

另一项消息,则是他们针对随需执行的关联式资料库服务Aurora Serverless,宣布将推出第二版。针对那些不打算自行管理资料库容量的用户,Aurora Serverless v2能在一秒之内,大幅扩展执行规模,而能处理数十万笔交易,相较于基于尖峰容量设置的资料库环境,AWS宣称,最高可节省90%的成本。目前,AWS已针对相容于MySQL 5.7版本的Aurora,推出预览版本供用户测试。

在大数据分析的部份,除了上述AQUA for Amazon Redshift本月宣布推出预览版的消息,AWS还针对资料搬移与準备服务Glue,发表了汇集与複製多个资料源的Elastic Views功能,同时,也在商业智慧云端服务QuickSight,增设了自然语言输入查询的功能Q。

取代SQL Server成AWS拓展资料库市场新目标,积极强化迁移能力

为了吸引更多用户将资料库系统迁移到公有云,AWS提供资料库纲要转换工具Schema Conversion Tool(SCT),以及资料库迁移服务Database Migration Service(DMS),但除了资料库纲要的转移,应用程式的资料存取逻辑该如何因应搬迁,又会是另一项大工程,因为通常需要大费周章地手动调整程式码,而且这里面又牵涉到资料库各自专属的指令使用。

过去AWS针对Oracle资料库应用程式的部份,可透过SCT将PL/SQL转换到PL/pgSQL,但并未涵盖到SQL Server应用程式,而影响迁移资料库的工程。另一方面AWS这边也接到越来越多用户想将SQL Server迁移至Aurora需求──这主要是因为微软对于授权的作法越来越积极,增加更多操纵机制,例如,他们将自有授权带入云端服务(BYOL),局限在2019年10月1日购买的用户,使用的软体也只能升级到这个日期之前可用的版本,使得迁移上云的成本变高。

对此,AWS决定开发一套名为Babelfish for Aurora PostgreSQL的功能,能让原先可在SQL Server执行的应用程式,也能在PostgreSQL当中直接执行,而且只需修改少量程式码即可。这项功能会替Aurora PostgreSQL提供转换层,让云端服务能够理解专为SQL Server撰写的应用程式的T-SQL指令。

基本上,Babelfish可支援相关的SQL分支语法、指标、目录检视(catalog views)、资料型别、触发程序(trigger)、预存程序(stored procedure)、函式(function),以及Tabular Data Stream (TDS)通讯协定,用户不需改写应用程式的资料存取请求方式,也不需沿用既有SQL Server驱动程式。

用户在运用AWS DMS迁移资料库之后,只需更新他们的应用程式组态,将资料库的指向从原本的SQL Server改为Aurora即可。由于Aurora会透过Babelfish for Aurora PostgreSQL理解SQL Server与PostgreSQL专属的查询语言,之后用户即可改用PostgreSQL来撰写资料库应用程式的功能,并且能同时执行既有的SQL Server的T-SQL语法叙述程式码。

作为Aurora即将发布的功能之余,AWS也预告,将在2021年公开Babelfish for PostgreSQL的程式原始码,将受益的对象扩大至整个PostgreSQL使用社群,而非局限在Aurora用户。任何人能够参与这项软体开发计画,并加入更多功能,届时Babelfish for PostgreSQL将採用Apache 2.0的授权模式,让各种企业或组织基于这样的授权条款,能够自由使用、散播、修改,相关的工作与规画都会公布在程式码协作平台GitHub。

发表新版资料库无伺服器应用服务,能更快扩展执行规模

在2018年,AWS的无伺服器资料库应用服务Aurora Serverless正式推出,虽然用户不需自行管理资料库容量,但有越来越多的情况,需要快速、更精确地扩展资料库容量,例如,执行更多生产环境的工作负载,以及运用Aurora的多种功能,像是启用多个可用区域(Multi-AZ)实现高可用性、建置全球资料库来达到低延迟、运用读取副本(Read Replicas)以获取高效能、採用时间回溯(Backtrack)来快速复原,或是提供平行查询来加快查询速度。此时,用户若要扩展Aurora Serverless资料库容量1倍,每次需耗费5到50秒。

而在即将推出的Aurora Serverless v2,能在1秒以内大幅扩展资料库工作负载规模,使其能够处理数十万笔交易。相较于现行每次在工作负载需要扩充规模时增加1倍容量的作法,Aurora Serverless v2会根据应用程式的需求来细部调整每次增益的容量,提供最合适的资料库资源容量。

而且,此时用户只需根据他们使用的容量,来支付服务费用。

若是对照基于尖峰容量而配置的资料库资源,由于难免会有过度提供或闲置的状况,而如今Aurora Serverless v2能够更动态扩展与缩减执行规模,在资料库服务的使用上,可望节省更多成本。

而有了这类精细扩展规模的能力,Aurora Serverless预计可支援更多种企业应用系统的需求,甚至也适用于软体即服务(SaaS)供应商,能因应于多租户环境,以及本身需管理大量关联式资料库的环境。

针对用量起伏较大的关联式资料库云端服务应用,例如线上抢票或暴量商品或服务订购,AWS原本就有Aurora Serverless的执行模式,今年推出第二版的功能,能在更短时间内扩充与缩减资料库执行容量规模,最低可扩充0.5个资料库容量单位(Aurora Capacity Unit,ACU),最高可到256个ACU。(图片来源/AWS)

提供更多加速资料仓储查询的应用服务与功能

在大数据分析的应用上,AWS旗下有多种云端服务,可针对不同用途的资料处理需求,例如,Athena能用于无伺服器型态的资料查询(以SQL语法分析存放在S3的资料);Elasticsearch Service可用于资料搜寻与图表化呈现(整合Elasticsearch、Logstash、Kibana);Kinesis能处理即视讯串流与时资料流;Redshift专攻资料仓储;EMR可执行多种大数据框架软体的工作负载,像是Spark、Hive、Presto、Flink、HBase;Glue提供无伺服器执行形态的资料準备服务;QuickSight则是支援商业智慧分析应用的服务。

而在今年全球用户大会期间,AWS特别针对其中三项服务,也就是Redshift、Glue、QuickSight,发布新的消息。

AQUA for Amazon Redshift

首先是去年发表的分散式硬体加速快取技术AQUA for Amazon Redshift,在今年12月开放预览版试用,预计在2021年1月正式推出,而且将依附在RA3执行个体当中免费提供,因此,租这项服务的用户不需变更程式码,即可享受到AQUA的好处。

Glue Elastic Views

第二个则是针对资料汇集的需求,AWS在Glue这项无伺服器ETL资料準备服务当中,即将推出名为Elastic Views的整合功能,目前已释出预览版,用户可透过具现化检视表(materialized views)的建置,而能运用多种来源资料。基本上,这项功能可横跨储存系统、资料仓储、资料库等多个资料储存体,执行自动结合与複製资料的作业。

为了要汇聚分散在多个资料孤岛上的内容,虽然我们可以建置资料湖来进行整合,但考量到存取延迟与实际IT营运挑战,放置在专属储存的资料量仍在大量增加,因此,企业仍须在这些分散或集中的储存体之间,进行资料搬移(Data Movement)的工作,而在Glue Elastic Views当中,用户可使用SQL语法,针对想要从不同来源储存体複製资料、进行彙总,以便建立具现化检视。

而除了将不同来源资料库的内容複製到目标资料库,Glue Elastic Views还会自动更新目标资料库的内容──AWS会持续监控来源资料库的变更,并在几秒之内更新目标资料库,一旦某个来源的资料模型有变动,Glue Elastic Views会主动警告开发人员,让他们更新手上的具现化检视来反映变更。

当然,Glue本身是无伺服器架构的资料準备服务,Glue Elastic Views可随着工作负载加重或减轻,自动扩展或缩减服务容量,确保目标资料库存放的具现化检视表内容,维持最新状态。

Glue Elastic Views目前能汇集哪些资料来源?AWS表示,可支援多种AWS环境的资料库云端服务,像是NoSQL资料库DynamoDB、Elasticsearch Service,关联式资料库RDS、资料仓储Redshift,以及资料储存服务,像是S3。

在资料分析之前的準备与汇集作业上,AWS Glue新增了Elastic Views的功能,可让企业运用SQL语法来建立虚拟资料表,以此来结合与複製多个来源的资料,而在这当中,使用了AWS在2019年推出的SQL相容查询语言PartiQL,可支援DynamoDB、S3、Redshift等资料库与储存服务。(图片来源/AWS)

QuickSight Q

关于企业环境大数据处理需求,除了资料仓储、资料準备(ETL),另一个关键则是资料分析,对此AWS在2015年推出主打商业智慧用途的QuickSight,2019年增设了机器学习与自然语言功能,名为ML Insights,用户可执行异常侦测、趋势预测,以及自动化内容分析陈述(Auto-narrative)。

在今年全球用户大会上,AWS发表另一项结合自然语言应用的资料查询功能,称为QuickSight Q,用户可针对所有现存的资料,在QuickSight Q的搜寻列当中,以自然语言的问句形式键入内容,几秒钟之内就会得到答案(目前以英文为主,但AWS并未提及是否能以其他语言提问)。

值得注意的是,QuickSight Q支援自动完成的关键字词与商业用语建议功能,以及自动执行的拼字检查、缩写、同义词的比对,用户无需担心拼错字,或是资料确切的商业用语。这套云端服务使用了深度学习与机器学习技术,像是自然语言处理、资料纲要理解、语义分析,支援SQL语法程式码的产生,再以此产生能理解问句意义与商业资料关係的资料模型,用户就能很快地接收到高精準的回答,不必耗费几天或几週的时间等待资料模型建构完成之后,才能得到答案。

相较于BI团队建构资料模型、分析预先被决定好模型的资料集的作法,AWS认为,QuickSight Q并不会局限使用者提问範围,而且查询分析的範围是全部的资料,可提供更完整、精确的解答。不过,在深度学习与机器学习的技术应用上,QuickSight Q使用的是预先训练的资料,而这些资料源自不同领域与产业,因此,QuickSight Q的自然语言处理,可被调校成理解複杂的商业语言。

关于提问与回答精準度的部分,QuickSight Q会从使用者互动过程当中来学习,而能随着时间持续提升。此外,如果QuickSight Q无法理解使用者输入的问题,他们也可以在搜寻列,藉由建议选项的下拉式选单来得到提示、引导问题的描述,而在下一次查询互动时,QuickSight Q会记住这词彙,提示给使用者选择。

为了简化企业将SQL Server搬迁至资料库云端服务Aurora的工程,AWS发表了Babelfish for Aurora PostgreSQL的功能,可让SQL Server专属的相关应用程式,在少量或不需修改程式码的状况下,移植到Aurora执行。同时,他们也宣布将在2021年释出Babelfish for PostgreSQL开放原始码专案,让更多PostgreSQL系统也能具备这项功能。(图片来源/AWS)

 相关报导  AWS后疫新战略

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢。