首页 >人工智能 > 内容

Dataproc支援完整Presto可选元件能查询BigQuery内资料

人工智能 2021-02-12 16:02:29

Google在Dataproc加入了完整的开源分散式SQL查询引擎Presto元件支援,不只整合无伺服器资料仓储服务BigQuery,也可以让Dataproc方便地进行整合测试。Dataproc是Google的云端原生Apache Spark和Hadoop丛集服务,使用者可在Dataproc中快速启动和停止丛集运算工作。

Presto可对多种类型资料来源执行互动式分析查询,因此可跨本地端系统以及其他云端平台等多个资料来源,执行资料分析,而使用者也可跨大规模Dataproc执行个体以及多个来源,包括HDFS、Cloud Storage、MySQL、Cassandra以及Kafka,执行联合查询。

Google依照Presto社群建议调校了JVM,使Presto元件具有更好的垃圾回收以及记忆体分配属性;并且和BigQuery整合,在预设情况下,现在BigQuery连接器可让Presto查询储存在BigQuery中的资料,并从不同系统诸如BigQuery和Hive关联资料,该功能是透过BigQuery Storage API,从表格读取资料达成。

使用者还可以将像是Hive等外部元储存,添加到丛集配置中,以追蹤Presto目录,Google新上线的Dataproc全託管元储存服务Metastore,可让使用者从多个Dataproc丛集收集Presto元资料。另外,Presto现在也整合进Cloud Monitoring和Cloud Logging,可以方便使用者追蹤Presto任务的状态,Google提到,虽然预设Presto工作资讯不会显示在丛集监控页面中,但是使用者可以使用Cloud Monitoring创建仪表板以及指标管理员。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢。