AWS正式推出资料湖管理工具Lake Formation

每日动态2021-02-20 20:05:30
最佳答案

AWS在去年re:Invent 2018大会上介绍的资料湖管理工具AWS Lake Formation,现在推出正式版,用户可以使用AWS Lake Formation对资料进行撷取、清理、分类、转换以及保护的工作,方便后续分析或是机器学习使用。

AWS提到,只要企业开始使用数位格式的资料,那就可能需要建立一个资料仓储,从CRM或是ERP等营运系统收集资料,并给其他决策支援系统使用,这些资料包括未组织的原始资料、日誌、图片、影片或是扫描的文件等,而这也是资料湖的概念,将所有资料以各种规模与形式,储存在中央储存库中。

而AWS新推出的资料湖服务Lake Formation,能简化资料湖的管理工作,用户可以使用中央控制台,处理建置和配置资料湖繁杂的工作,包括载入不同来源的资料、监控资料流、设定资料分区、加密和管理金钥,以及格式转换与监控营运等工作。

只要在Lake Formation中指定资料来源,系统就会自动从资料库和物件储存撷取资料,并将这些资料储存到Amazon S3资料湖中,以适当的大小与方式整理,增加存取效能,并以机器学习演算法清理和分类资料,为敏感资料提供存取保护。

用户还可以使用Glue ML Transforms删除资料湖中重複的资料,提高后续分析资料的效率,避免因为重複的资料,造成分析工作的混淆。AWS提到,这项工作并非单纯透过键值比对,就能找出重複的资料,很多情况需要进行模糊比对,像是当用户需要在不同表格查询类似的项目时,就需要使用模糊连接(Fuzzy Join),在不共用唯一键值的两个资料库表格查询相似资料。

在保护资料存取方面,用户可以在Lake Formation中,定义精细的存取政策,保护Glue Data Catalog中的元资料,以及储存在Amazon S3的资料,AWS提到,在资料湖中管理存取权限是一件複杂的任务,因为资料的各种特性,包括结构化与否、敏感性或是可存取的资料範围不一,而Lake Formation赋予用户以IAM使用者、角色、群组和AD来管理资料存取,也能够拒绝表格特定的栏位被存取。

免责声明:本文由用户上传,如有侵权请联系删除!