开源资料湖专案Delta Lake将交由Linux基金会管理

人工智能2021-02-19 14:02:50
最佳答案

由Apache Spark技术团队所创立的资料科学公司Databricks宣布,旗下的Delta Lake将由Linux基金会託管,致力成为资料湖泊的开放标準,而原本採用的的Apache 2.0授权许可将不会改变。

Delta Lake是一个资料湖的储存层,简化企业资料工程架构的複杂性,其提供ACID交易、可扩展的元资料处理等功能,以及统一了串流和批次资料处理等功能,该专案的目的,便是要解决资料湖常出现的问题。

Databricks提到,资料湖的使用,常会因为不完整的资料撷取,而造成资料损坏,而Delta Lake的ACID交易功能,则可以在多重资料串流中并行读取和写入资料湖,防止资料损坏问题发生,另外,资料湖的资料来源,可能无法提供完整的栏位资料或是正确的资料类型,而Delta Lake的强制结构(Schema Enforcement)功能,可以防止坏资料毁损其他资料。

由于开放性和可扩展性是Data Lake重要的设计原则,透过开放协定设计,并使用既存JSON和Apache Parquet等开放格式,将所有资料和元资料储存在云端物件储存上,而这种开放性让使用者的资料得以不被特定供应商锁住,且对于建构资料科学、机器学习和SQL等生态系统,也极为重要。

Databricks在4月的时候开源了Delta Lake,现在已经受到了广泛的使用,而为了进一步扩大社群,Databricks因此决定与Linux基金会合作,透过Linux基金会的影响力来发展开源专案。Databricks也与阿里巴巴、Booz Allen Hamilton、英特尔和Starburst合作,让Delta Lake不仅能支援Apache Spark,还能同时支援Apache Hive、Apache Nifi和Presto。

接下来Delta Lake会採取开放治理的模型,鼓励社群参与和贡献技术,藉由长期管理框架,建立Delta Lake社群生态系,并开发资料湖中资料储存的开放标準,以确保储存在Delta Lake的资料,保持开放性与可存取性。

免责声明:本文由用户上传,如有侵权请联系删除!