Databricks如何使用Apache Spark分析大型数据集

互联网2020-04-05 10:54:28
最佳答案 医疗保健领域的大数据集并不短缺,包括从胸部X光到药物研究的所有内容。 初创企业和老牌公司都在使用人工智能(A I)和机器学习来分析这些数据集,并利用这些结果来指导商业战略和治

医疗保健领域的大数据集并不短缺,包括从胸部X光到药物研究的所有内容。 初创企业和老牌公司都在使用人工智能(A I)和机器学习来分析这些数据集,并利用这些结果来指导商业战略和治疗计划。

特别特点:在企业中管理人工智能和ML

这本电子书基于最新的ZDNet/Tech Republic特性,就如何接近AI和ML倡议向CXO提供建议,找出数据科学团队适合的地方,以及购买与构建的算法。

 

 

在AI100:人工智能创业公司重新定义行业中,CBInsights报告说,医疗保健是人工智能新兴角色中的顶级行业。 在接受调查的100家公司中,有13家专注于医疗保健,其中包括使用人工智能增强放射学图像的SubtleMedical;使用深度学习识别阻塞动脉和静脉的Viz.ai;以及蝴蝶网络,该网络正在构建一种使用人工智能辅助诊断工具的便携式超声设备.. 蝴蝶也将其平台应用于COVID-19患者,通过寻找肺部感染模式,表明疾病。

这些公司专注于特定的条件,但一家医疗IT公司正在建立一个开源框架,以开放各种数据集分析。

数据制造是由Apache Spark的原始创建者创建的,Apache Spark是一个开源的分布式集群计算框架,构建在Scala之上。 数据制造是从加州大学伯克利分校的AMPLab项目中产生的。

Databricks的医疗和生命科学技术总监Frank Nothaft说,Apache Spark的分布式数据处理引擎非常适合大规模运行复杂的查询,这是分析与药物开发相关的数据集所需的计算能力..

西:COVID-19是如何扰乱企业的,你能做些什么(技术共和国溢价)

他说:“五年前,最大的桌子有三百万排,今天最大的桌子有600亿排。”

nothaft将公司描述为“云计算之上的大数据分析和机器学习”。 该公司成立于2013年,2015年发布了第一款产品,2017年成立了医疗集团。

他说:“我们已经推出了基因组学产品,我们正在从事医学影像方面的工作,我们正在临床和索赔处理领域做越来越多的工作。”

nothaft表示,该公司在产品开发过程中的第一步是建立一个云管理层,以方便用户快速集群。 他补充说:“这也有助于管理数据方面的成本、访问和合规。”

该公司的制药客户使用该平台进行早期研究和药物发现、临床试验和制造。 Nothaft说,数据制造最适合于数据准备和提取、转换和加载(ETL)过程。

医药公司诺华利用平台搭建了研究数据湖.. Nothaft说:“我们将所有的基因组数据和分子数据结合起来,以便科学家能够在基因组数据的基础上进行查询,以确定关联。”

Nothaft补充说,在制药行业,数据科学家和专门从事生物学和化学的领域科学家之间往往存在着一种技能差距。 有一个客户,ETL过程花了三个星期从100万名患者那里摄取遗传测序数据。 一旦ETL流程到位,内部团队就可以管理它。

他说:“我们的目标是把数据准备工作交给科学家。”

Nothaft说,大多数公司都建立了一个机器学习层,将所有内部数据汇总起来供内部使用。 例如,AstraZeneca建立了一个知识图,它结合了内部数据集以及从公共来源提取的数据。 然后,该公司创建了一个知识图,并在这些数据之上构建了算法。

他说:“这有助于研究人员找出哪些实验要进行,哪些实验不要进行,这样他们就可以花更多的时间进行高电位实验。”

nothaft还说,创建一个知识图表可以使制药公司内部的部门更容易合作。 他说:“如果每个人的数据都在一个地方,我就可以在不与任何人交谈的情况下运行查询,并在30分钟内得到它。”

然而,一个挑战是,每个数据集都包含个人健康信息,其中包含许多合规规则。 nothaft表示,Databricks平台有一个内置的治理层。

SEE:人工智能道德政策(科技共和国优质产品)

Databricks医疗和生命科学通信主管迈克尔?奥尔特加(MichaelOrtega)表示,他看到更多大型医疗机构在内部引入了这种大数据分析。

数据库与Sanford Heal th合作,这是一个保健系统,包括26个州和9个国家的44家医院、1400名医生和200多个高级护理地点。 桑福德还有一个健康保险计划。

桑福德的许多诊所位于达科塔和上平原。 有些病人是具有不同遗传特征的美洲土著人或具有特定环境危险因素的人,包括在石油和天然气行业工作的人。 如果医生想对病人进行基因分析,这通常需要使用外部实验室并放弃对数据的所有权。

奥尔特加说:“我们能做的最好的事情就是帮助他们在内部进行这种分析,这是一种高价值的服务,但也能帮助他们降低成本。”

奥尔特加还表示,Databricks已经与客户合作改善个性化医学,例如预测阿尔茨海默病的进展,并帮助人们进行生活方式调整.. 奥尔特加说,客户已经将基因组谱和脑图像结合起来,以确定一种新的生物标志物,可以更准确地预测一个人患这种疾病的风险。

他说:“当人们看基因报告时,他们真的不明白如何将这些危险因素转化为行为改变。 “我们正在做些什么,以确保人们仍然能够接触到风险因素,但有更多可采取行动的信息。

免责声明:本文由用户上传,如有侵权请联系删除!