首页 >互联网 > 内容

微软开源自家Spark资料串流工作管线建置工具Data Accelerator

互联网 2021-02-23 14:07:56

微软开源了一个原为内部使用的大资料专案Data Accelerator,能进行大规模资料处理,简化在Apache Spark上串流传输的工作,支援SQL以及即时查询,不需要撰写程式码就能设定处理规则与设定警报。从2017年开发以来,已经大规模应用在各种微软产品工作管线上,现在于GitHub上开源。

微软在2017年开始发展Data Accelerator专案,为的是要处理多来源串流资料,将这些资料重新组合后,路由到不同的输出资料池(Output Sink),以方便进行后续的分析。微软提到,在这过程中,正规化是一个负担沈重的工作,要在异构事件环境,捕捉和调整事件解析器,需要花费不少时间与资源。

而Data Accelerator可以帮助使用者简化这项工作,从事件资料样本中推断资料的结构,并将串流中的事件写出到各种资料储存。微软提到,Data Accelerator不只可以被当作事件撷取服务Event Hubs以及资料库间的管线,还能在进行串流传输的时候,重塑传入的事件,将同一事件的不同部分路由到不同的资料库。

Data Accelerator能大幅加速在Spark上的串流工作管线建置,其随插即用的简单设计,使用者只要设定输入来源以及输出资料池,在数分钟内就能完成管线建置。Data Accelerator支援从Eventhub和IoThub读取资料,并将资料写入到Azure blob、CosmosDB、Eventhub等服务。

综合应用事件与结构,Data Accelerator可以在事件流经工作管线的时候,辨识并进行修改,分割、合併甚至是丢弃事件不需要的部分。Data Accelerator提供了配置使用者介面,以及好用的查询和规则设计工具,让使用者无需撰写任何程式码,就能设置警示或是处理资料的规则。另外,Data Accelerator还支援串流资料的複杂处理任务,不论是依变动的时间视窗处理资料,还是随时间累加资料,用户都能以简单的方法操作这些进阶功能。

微软提到,Data Accelerator支援dev-test循环的快速验证周期,让事件查询的实作,在部署之前就能迭代修正到可用,这可以节省大量测试工作管线处理的时间,Data Accelerator还支援SQL查询,使用者不需要使用Scala,光用SQL就能进行複杂的查询工作。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢。