Google智慧资料服务Cloud Dataprep增强AI功能简化资料清理

每日动态2021-02-13 22:02:55
最佳答案

Google更新其智慧资料服务Cloud Dataprep by Trifacta,最新版本加入新的人工智慧功能,强化资料叠加功能(Wrangling),并改善Dataprep核心转换功能,让清理资料和操作变得更加简单。

Cloud Dataprep是个让用户可以利用图形介面,进行浏览、清理和準备相关资料的服务,可处理结构化与非结构化资料,方便这些资料进行后续的分析、产生报表,或是执行机器学习工作负载。Cloud Dataprep採用无伺服器架构,用户不需要预先安装软体,可处理来自BigQuery、Cloud Storage或是用户自行上传档案的资料。

Google提到,他们一直在为Dataprep加入人工智慧功能,因为这是可以自动找出转换资料的最佳方法,即便在複杂的分析使用案例上,也能让用户简单地处理资料,降低用户应用资料驱动的障碍。

这次的Dataprep版本更新,快速指定目标(Rapid Target)加入了模糊配对功能;当用户在使用Dataprep準备资料的时候,可以使用探索模式来找出有用的资料,以及使用资料的方式,也能使用探索模式,强化现存资料仓储,或是资料湖泊中用于生产的资料区域。

针对后者,用户可以使用快速指定目标功能,将资料叠加方案(Wrangling Recipe),快速映射到BigQuery中既存的资料架构或是Cloud Storage中的档案,用户不需要自行将资料转换规则,与现存的资料结构配对,Dataprep会使用人工智慧代劳。

而在新版本中,Google为其加入了模糊配对(Fuzzy-Matching)演算法,Dataprep不仅会使用栏位名称进行严格配对,还能自动在目标资料结构,配对相似的栏位名称与内容;Dataprep提供最佳的配对建议,用户可以选择接受、更改或是退回配对,Google表示,这个功能可以提高用户载入资料仓储中资料的速度,使用户能专注分析资料工作上。

为了解决Dataprep解析资料可能发生的歧异,Dataprep现在让用户能够设定本地配置,让资料整理工作能够更準确。当用户在处理新资料集时,Dataprep会利用人工智慧理解资料类型以及资料结构,藉以辨识资料中的错误,但像是日期以及货币这类型的资料,难以使用用户所在地区进行预测,因此Google增加了本地配置选项,让用户给定明确设定,帮助Dataprep精确推论资料类型,像是当用户将本地设置为法国(下图),则Dataprep便能清理日期格式,使其符合法语格式。

另外,Dataprep现在也让用户可以导入或是导出巨集。Dataprep中的巨集,指的是一系列可用来操作资料的步骤,在用户进行资料準备工作时,有不少重複的资料模式问题,能够使用同一系列的操作步骤解决,当用户不想一直重複这些动作时,就能设定巨集来简化操作。

而现在Dataprep提供的巨集导入与导出功能,用户可将巨集在其他资料叠加方案中重複使用,也能供团队其他成员重複利用,跨专案、部门,甚至在各开发阶段,维持资料处理的一致性。

免责声明:本文由用户上传,如有侵权请联系删除!