史上最大亚马逊35PB资料仓储上云经验首度大公开

Amazon首度公开过去电商平台採用多年的线上交易与资料仓储服务架构图(还未全面改用AWS资料仓储前)。从这个架构图来看,不只资料仓储是採用Oracle RAC资料库架构,在它上方,还有提供3个针对营运、探查与BIM数据设计的专用资料仓储或资料库,里面用也都是Oracle, 再透过DB Link方式相连,连各种交易资料存放的OLTP资料库,也都有部分使用到Oracle产品。(图片来源/AWS)
「这是一个高达35PB的超大型资料仓储迁移的挑战。」Amazon.com大数据技术资深经理Thomas Park在今年AWS re:Invent一场专谈DBFreedom的黑板开讲(Chalk Talk)上,对着台下听众分享Amazon资料库上云经验时首度公开揭露这项数据。
Amazon在11月1日正式关闭电商平台使用多年的Oracle资料仓储系统,改搬到自家AWS云端资料仓储Redshift上,当时这个消息一出,科技圈譁然,成了热议话题。也让全球云端龙头AWS与企业资料库巨人甲骨文(Oracle)的资料库之争正式浮上檯面。
也因此,今年每一场只要打着Amazon资料库上云的相关议程,都成了今年最抢手的热门场次,早在活动前两周,议程才刚公布,坐位就早已全数被预定一空,只剩下现场候位,甚至活动前一天下午,议程还没开始,场外就已经排满人潮,等着抢听Amazon分享第一手的搬移经验。Thomas Park就是其中一场专谈「Amazon.com从Oracle资料库搬上AWS经验」的讲者。
Thomas Park表示,Amazon很早就开始採用Oracle资料仓储,在换成AWS以前,系统存放的资料总共有多达35PB(压缩后),1个PB(Petabytes)等同于1,000个TB,若以一个1TB硬碟厚度平均0.7公分来计算的话,35PB的硬碟,堆成的高度超过200公尺高,这还不包括还有一个同样压缩过的5PB的核心资料集,也都要一併改上AWS,这正是Amazon资料仓储上云面对的最大挑战。
Amazon电商平台背后採用多年的资料仓储服务架构图大公开
Thomas Park在传授资料库搬迁经验的过程时,也首度公开过去Amazon电子商务平台背后採用的线上交易与资料仓储服务架构图(自11月1日以后,Amazon资料仓储已全面改由AWS取代)。
从这个架构图来看,首先,Amazon所建置的一个超大型资料仓储丛集,全部都是採用Oracle RAC资料库架构,在它上方,还有提供3个针对营运、探查与BIM数据设计的专用资料仓储或资料库,里面用也都是Oracle, 再透过DB Link方式相连,连做为各种交易资料存放的OLTP资料库,也都有部分使用到Oracle产品,并透过Amazon自行开发一个可以用来管理不同资料库处理流程的ETLM管理平台,来进行协助交易资料萃取和转置。
Thomas Park指出,就像其他电商平台,Amazon刚开始,也使用许多OLTP资料库与Oracle资料仓储,用来处理不同类型的工作负载,像是Oracle资料库可以被用于承载交易型与非交易的工作任务,能处理的资料型态,包括目录、库存、线上交易、网页点击串流,以及行销等资料。而资料仓储则是用于蒐集大量交易数据与分析所用。
资料库扩充力,才是Amazon决定换掉Oracle的真正原因但是,为何Amazom后来决定换掉原本资料库?Thomas Park说:「就是为了要让资料库具备横向扩展(Scale Out)的能力。」他表示,Amazon成立20多年来,在业务发展上,从开始用来查询交易资料与储存使用的资料库,用的就是Oracle资料库及其技术,并用这些资料库来建立Amazon网站底层的架构。但是当业务量逐渐成长,需要扩建更多的销售据点与资料中心,并且跨入不同领域市场,对于IT团队来说,必须要能很快扩展原有基础设施,来迎合业务快速成长需求。
但是旧有的资料库设计方式,已无法跟上Amazon事业快速成长的脚步,所以,Amazon决定将自己的旧资料库全部打掉重练,改用新的云端资料库设计方式来取代,以便能够快速横向扩展,来因应业务迅速成长。「这也是我们会决定从使用已久的Oracle资料库搬上AWS的最重要原因。」当然成本也是另一大考量,他事后补充说到。
一般来说,在新旧资料库搬迁过程中,企业会先针对旧资料库的纲要(Schema),先经过複製或转换,改到了目标的资料库后,才接着将旧资料库里存放的资料,透过如AWS DMS等资料库搬迁工具,再将全部资料移到新的资料库。
不过,Thomas Park强调,当一家企业发展成长到达一定规模,要迁移资料库,就不是一件容易的事,随着业务量成长,系统架构也将日益庞大複杂,例如需要不断扩增新资料库与备份资料库,来满足营运所需,还要能依据不同关键性应用,来针对资料库採用分层架构,以便于依资料使用频率与重要程度,对应到不同的资料库层存放,或是配合业务发展需求,採用新的资料库架构设计,如分散式资料库等。
以这次35PB迁移经验来说,Thomas Park坦言,光是要将这些资料全部搬迁到AWS环境,就花了1年多才完成,同时搬移的过程,还要确保整个资料仓储服务不能中断,能持续稳定运作,继续提供原有的数据蒐集与分析服务。对Amazon的IT团队来说,这是一大挑战。
最后,Thomas Park也说到,Amazon至今已经关掉的Oracle资料库,少说也有数千到数万个,现在,都已改用AWS的资料库服务,如Redshift、Amazon RDS、Aurora与DynamoDB等。
除了资料仓储之外,Amazon也将过去沿用了20年关键核心财务系统用的Oracle资料库,也都一併搬上AWS,总共搬迁多达93个资料库、185个实例,累积120TB的资料量,现在都改使用DynamoDB云端资料库。经过改用新的资料库以后,除了更易于管理,更高可靠,更加快近一倍的反应处理时间,也替Amazon省下70%整体成本。
Amazon从资料库迁移学到的10件事
1. 必须先提高能见度,全盘了解资料库使用状况,以利掌控进度。
2. 搬迁工程影响许多单位,事前须尽早寻求高层支持。
3. 须先获得所有资料库管理人员的支持,搬迁才能顺利。
4. 搬迁过程,应单独设立一组开发团队,解决不同资料库团队的共通问题,有助加快迁移。
5. 执行全程须与AWS团队保持密切合作。
6. 团队应克服对技术的恐惧,找出最棘手及真正的技术问题。
7. 认清便宜没好货,应追求最高价值,而非最省成本。
8. 以整体效率的改善,来说服尚未转换的单位。
9. 资料上云后,要建立统一管理平台。
10. 随时保有扩充弹性,然后庆祝胜利到来。
资料来源:AWS,iThome整理,2018年12月
相关报导 杀入敌阵!AWS企业市场新战略免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
截至2023年,大众高尔夫GTI的最新款车型为2024款。关于2025款高尔夫GTI的价格和配置信息,目前尚未有官方发布...浏览全文>>
-
在当今社会,汽车已经成为人们日常生活中不可或缺的一部分。对于许多家庭来说,选择一辆适合自己的车不仅关乎...浏览全文>>
-
随着汽车市场的不断变化与发展,2025款大众CC以其优雅的设计和卓越的性能吸引了众多消费者的关注。作为一款备...浏览全文>>
-
安徽阜阳探影新车报价2023款大公开:买车不花冤枉钱随着汽车市场的不断发展,消费者对于购车的性价比和实用性...浏览全文>>
-
在安徽滁州地区,上汽大众途观L是一款备受关注的中型SUV。途观L凭借其宽敞的空间、强劲的动力以及丰富的配置,...浏览全文>>
-
关于2025款大众ID 系列车型在安徽淮南的售价及落地价问题,我们可以从以下几个方面进行详细分析。大众ID 系...浏览全文>>
-
安徽阜阳帕萨特多少钱?选车秘籍与落地价全攻略在安徽阜阳,选择一款适合自己的帕萨特车型需要综合考虑预算、...浏览全文>>
-
在当今的汽车市场中,新能源汽车因其环保性和经济性逐渐成为消费者关注的焦点。对于生活在安徽阜阳地区的朋友...浏览全文>>
-
随着新能源汽车市场的快速发展,消费者对于新能源车型的关注度持续攀升。作为一款备受瞩目的高端新能源车型,...浏览全文>>
-
在2024款的汽车市场中,一汽-大众ID 6 CROZZ以其豪华配置和出色的性能吸引了众多消费者的关注。作为一款纯电...浏览全文>>
- 安徽阜阳探影新车报价2023款大公开,买车不花冤枉钱
- 安徽阜阳帕萨特多少钱?选车秘籍与落地价全攻略
- 安徽阜阳途锐新能源多少钱?选车秘籍与性价比大公开
- 奇骏试驾需要注意什么
- 长安欧尚520试驾操作指南
- 试驾哈弗H6操作指南
- 安徽阜阳探影落地价实惠,配置丰富,不容错过
- 丰田雷凌预约试驾操作指南
- 滁州ID.4 X多少钱 2025款落地价,换代前的购车良机,不容错过
- QQ多米最新价格2025款,各配置车型售价全揭晓,性价比之王
- 阜阳ID.4 CROZZ新款价格2025款多少钱?选车指南与落地价全解析
- 阜阳ID.7 VIZZION多少钱?选车秘籍全攻略
- 滁州大众Polo最新价格2024款,各配置车型售价一目了然
- 天津滨海大众Polo落地价,各配置车型售价一目了然
- 亳州途观X多少钱?选车秘籍全攻略
- 奥迪e-tron GT试驾,如何享受4S店的专业服务?
- 安庆探影落地价全解,买车必看的省钱秘籍
- 岚图梦想家 2025新款价格大揭秘,各配置车型售价一览表
- 山东济南长安启源E07多少钱 2024款落地价,最低售价19.99万起,入手正当时
- 天津滨海T-ROC探歌新车报价2025款,购车前必看的费用明细