微软开源多个基因组研究专案方便用户以Azure进行生物资讯运算

人工智能2021-02-11 14:01:38
最佳答案

作为支持基因组学(Genomics)发展的实际作为,微软在GitHub上发布了多个相关开源专案,包括在Azure上支援科学用开源工作流程管理系统Cromwell,以及生物资讯工具储存库Bioconductor,并且发布基因组学用笔记本Genomics Notebook,另外,微软也持续在Azure开放资料集平台,添加更多的基因组学公共资料集,供相关人员免费取用。

DNA定序技术推动了基因组学的研究进展,微软提到,在未来10年,基因组会成为临床决策,以及医疗保健服务的核心,而基因组学资料运算需求,将呈现爆炸性成长,相关的应用需要仰赖云端的敏捷性、可扩展储存与运算能力,还有资料安全性的支援。

微软持续在基因组学领域耕耘,对社群做出贡献,现在于GitHub开源Cromwell on Azure专案,Cromwell是一个用于科学的开源工作流程管理系统,而透过Cromwell on Azure专案,科学家可以方便地运用Azure运算能力,以超大规模运算资源,加速基因研究,Cromwell能够调度Azure Batch,协调动态运算资源,并且整合用户的Azure Blob资料储存,以方便存取资料进行高效能科学运算。

而微软也在Azure上,提供方便的生物资讯工具Bioconductor,Bioconductor是用R语言开发的可扩展统计和图形套件储存库,可用于分析高通量基因组与生物医学资料,微软与Bioconductor核心团队合作,在Azure提供Bioconductor套件储存库支援。

现在,透过Docker Hub上的微软容器注册表,部署预先配置的Bioconductor Docker映像档,生物资讯科学家和资料科学家,就能够快速使用Bioconductor套件,此外,用户还能取用Azure虚拟机器模板,部署预先配置的基因组资料科学虚拟机器,进行探索、分析和机器学习模型开发。

另外,微软也将Azure上的Jupyter Notebook开发为Genomics Notebook,专门提供基因组研究使用。Jupyter Notebook能够让资料科学家,使用R或是Python进行资料分析,而生物资讯研究人员,也越来越仰赖笔记本执行基因组资料分析,并利用临床、基因组以及EMR等资料,建置机器学习模型。

微软的Genomics Notebook,提供方便的预配置,用户可以在Azure工作区启动Genomics Notebook,使用预配置的功能,进行基因组变异检测、过滤、注释和转换基因组,并且建置机器学习模型。

Azure开放资料集平台上的基因组资料湖,提供更多公开可用的基因组资料集,现在包括医疗保健、製药和生命科学领域的用户,可以在Azure上免费存取这些资料集,并且把这些资料,整合到分析工作流程中使用。

免责声明:本文由用户上传,如有侵权请联系删除!