Databricks推出SQL Analytics解决方案要让用户把资料湖用作资料仓储

每日动态2021-02-10 16:01:37
最佳答案

Databricks发布新的资料查询解决方案SQL Analytics,用户可以直接在资料湖上,执行商业智慧和SQL工作负载。SQL Analytics提供专用SQL原生工作空间,以及商业智慧工具连接器,让用户可以使用SQL或是既有商业智慧工具,对资料湖超大量资料进行查询。Databricks提到,SQL Analytics应用湖边小屋(Lakehouse)架构,集结了资料仓储的效能以及资料湖的效益,提供比传统资料仓储高9倍的性价比。

过去企业为了解决资料孤岛的问题,便开始将关联式资料库的资料,移动到资料仓储中,以进行商业智慧等分析,由于资料仓储没办法处理像是原始档案、影像、音讯、图像、自然语言资料以及超大规模结构化资料,因此又在约莫10年前,出现资料湖的概念。Databricks提到,由于云端服务的发展,现在云端储存便宜且耐久性又高,不少企业把资料科学和机器学习应用,建构在云端上,但是传统资料分析的需求还在,所以只好同时维护两份资料副本。

同时维护两份资料,会遭遇资料同步的挑战,资料分析师和业务团队仅能存取,经整理过后放进资料仓储中的资料,无法使用资料湖中最新的资料。因此Databricks引进了湖边小屋的概念,以结合资料湖和资料仓储。湖边小屋是一种平台架构,透过实作类似资料仓储的资料结构以及资料管理,并将其用于低成本的资料湖上。

SQL Analytics建构在湖边小屋架构之上,让用户可以在多云湖边小屋基础架构,执行商业智慧和SQL工作负载。SQL Analytics两个重要的部分为SQL原生工作区,以及商业智慧工具连接器,SQL原生工作区可让用户利用SQL,来查询资料湖泊中的Delta Lake表格,因此资料分析人员和资料科学家,都可以操作相同的资料源。Delta Lake是在资料湖中,可提供ACID交易的储存层。

SQL原生工作区可让分析人员浏览资料架构(Schema),并且将常用的程式码,储存成为程式码片段,以便之后快速重新使用,同时工作区也能快取查询结果,以便缩短后续执行时间,分析人员还可以视觉化呈现资料,并将视觉化图表放到仪表板中,并与其他团队成员分享。

对于许多已经在使用商业智慧工具的用户,SQL Analytics也提供连接器,可与商业智慧工具相连接,Databricks已与500多家供应商合作,包括TableauPower BI和Looker等,都能够整合SQL Analytics一起使用。

Databricks提到,SQL Analytics的查询效能快速,是因为他们解决了查询吞吐量,与多用户支援两个问题,SQL Analytics使用多态查询执行引擎Delta Engine,能够有效提高资料查询效能,其查询执行时间,甚至可比Apache Spark 3.0快10倍。另外,资料湖在多用户数量同时存取时,会面临效能低落的情况,因此SQL Analytics加入了最佳化运算丛集,可以根据查询的用户,扩展需要的资源。

免责声明:本文由用户上传,如有侵权请联系删除!