当前位置: 恒峰-恒峰g22-恒峰手机娱乐 > AG真人游戏 > AG真人游戏 紧急!新冠病毒药物研发争分夺秒,阿里高性能计算的技术实践
随机内容

AG真人游戏 紧急!新冠病毒药物研发争分夺秒,阿里高性能计算的技术实践

时间:2020-03-12 04:53 来源:恒峰-恒峰g22-恒峰手机娱乐 点击:102

GHDDI 开放共享平台

同时,为了将 E-HPC 云超算集群上的计算结果共享发布,将阿里云对象存储产品 OSS 直接挂载到 E-HPC 超算集群上,把需要发布的结果放到 OSS 上。此外,在云上新建一个 ECS 计算服务器,用于搭建 Web 服务器[4],将 OSS 访问链接放在 web 服务器上,供大家浏览、下载。

如果使用串行的处理方式,代码如下图所示。其中,dock.in 为 DOCK6 命令的输入文件,并且需要根据小分子文件名修改相应的参数取值。这段代码遍历 mol2 文件夹下每个分子文件,对每个文件生成对应的 dock.in 输入文件,然后运行 dock6 命令进行处理。

例如,使用 DOCK6 处理配体(小分子)库的对接案例,在一个文件夹中,如 mol2,存放大量的小分子文件,每个小分子处理流程是一样的,均需要跟相同的受体(如病毒蛋白酶)进行计算。

病毒和药物研发

新冠状病毒疫情发生后,为了帮助抗攻击疫情,阿里云免费向全球公共科研机构提供高性能计算、SCC 超级计算集群和 CPU/GPU 机器、云超算及 AI 等技术。

$ ehpcarr submit -w 96./task.sh molin

molin_name= `basename $molin`

原标题:紧急!新冠病毒药物研发争分夺秒,阿里高性能计算的技术实践

病毒进入宿主细胞后,病毒基因组完成复制、转录(除了正译 RNA 病毒外)以及病毒蛋白质合成,然后组装行成更多数目的病毒,其生命流程如下图所示(无包膜病毒简易示图)。

cp dock. in$molin_name.dock. in

3 月 18 - 19 日,CSDN 创始人&董事长、极客帮创投创始合伙人蒋涛,阿里云研究员蒋林泉,阿里云首席智联网科学家丁险峰,阿里云智能事业群研究员、网络产品线负责人祝顺民,阿里达摩院资深算法专家谢宣松等 12 位大咖齐聚 CSDN 直播间,从虚拟化、存储、网络、安全、云计算、大数据、物联网等多个维度着手,释放 阿里云的核心技术与竞争力 。

展开全文 拥有强大计算能力的计算平台; 大容量存储AG真人游戏,用于存放处理数据和计算结果。 集群软件运行环境AG真人游戏,保证在多机环境下软件运行AG真人游戏,以及数据访问; 能够支持多任务在多机环境下并发处理的并行方案。 将 mol2 文件下的分子文件名保存到一个文件文件,如 molin。 编写处理单个小分子文件的脚本 task.sh,小分子文件名用 $molin 代替,对比串行逻辑,可以看出是直接复制 for 循环内的处理代码。 通过 E-HPC 高通量任务处理命令 ehpcarr 提交 task.sh 运行,并返回作业号 2[].manager。此时,任务已经使用 96 个 CPU core 进行并发处理了,如果节点包含 CPU core 数目少于 96 时,会自动分配到多个节点。例如,使用 12 CPU core 的实例,所有分子处理任务会在 8 个节点上运行。 E-HPC 作业调度器启动了 8 个节点进行药物筛选处理; 不同任务分配到不同的计算节点(0 号任务分配到 compute001,10520 任务分配到 compute008); 相同节点有不同的并发任务(0,111 都在 compute001 并发处理)。 限定任务的并发数量,避免 1 个任务 1 个作业引发集群大量排队作业,影响其它集群使用者作业的运行; 能够实现任务的动态调度,充分利用计算资源。

E-HPC 高通量任务状态查询

那么,具体病毒、药物研发和高性能计算之间具体联系几何?我们将从从病毒如何在宿主复制扩散开始讲起,到药物抑制方法举例,最后给出高性能计算在药物研发的作用。

[2] Zumla, A., Chan, J., Azhar, E. et al. Coronaviruses — drug discovery and therapeutic options. Nat Rev Drug Discov 15, 327–347 (2016). https://doi.org/10.1038/nrd.2015.37

dock6 -i $molin_name.dock. in-o $molin_name.dock.out

2[].manager

全方位解析阿里云核心技术竞争力

除功能以外,性能上阿里云提供多种计算实例类型,提供各种计算能力(1vCPU、2vCPU、4vCPU … 104vCPU)、不同内存配比(1vCPU:2GB, 1vCPU:4GB, 1vCPU: 8GB)的算例、或配有 GPU 或 FPGA 加速卡,CPU 类型多为 Intel 最新架构。其中,弹性裸金属服务器(ECS Bare Metal Instance)是基于阿里云完全自主研发的下一代虚拟化技术而打造的新型计算类服务器产品,兼具虚拟机的弹性和物理机的性能及功能特性,释放整机的计算性能;裸金属服务器配有支持 RMDA 的 RoCE 高速网络,变成超级计算集群 SCC (Super Computing Cluster) 产品,满足大规模高并发的应用场景。

E-HPC 高通量任务解决方案

E-HPC 云超算

done

某病毒蛋白分子结构[4]

科学家可以利用阿里云 E-HPC 云超算产品,在云上快速构建高性能集群,获取高性能的计算实例,满足算力的需求。

formolin inmol2/*; do

本文为阿里投稿

E-HPC 提供了高通量任务解决方案。对于本案例,通过 3 个步骤就能够实现大量小分子文件的并发处理。

化合物发现阶段,以往的方法是通过大量实验做筛选,发现可能适合的化合物。如今,科学家尝试通过机器模拟分子化合物与靶点的相互作用,从而筛选出可能有效的化合物做实验。

E-HPC 高通量任务定义和启动

$ ehpcarr status 2[].manager

cp dock. in$molin_name.dock. in

在疫情这般分秒必争的背景关系下,时间尤为珍贵。因此在本次过程中,许多科学家会尝试从已有的药物里面,找到能治疗新冠的药,免去了后续大量审批上市等步骤。

本文主要介绍药物筛选阶段,E-HPC 云超算如何帮助研发人员实现大量小分子库的快速并发处理。同时,介绍全球健康药物研发中心 GHDDI 算力和成果共享开放平台的阿里云解决方案。

此外,云上算力规模庞大且灵活,科学家可以按需购买,而不用担心被算力规模限制了研发速度。

[4] https://ghddi-ailab.github.io/Targeting2019-nCoV/

药物研发需要强大计算能力的高性能集群,如何获取这些计算资源和服务呢?

sed -ie "/^ligand_atom_file/cligand_atom_file $molin"$molin_name.dock. in

dock6 -i $molin_name.dock. in-o $molin_name.dock.out

药物研发与高性能计算

sed -ie "/^ligand_outfile_prefix/cligand_outfile_prefix $molin_name"$molin_name.dock. in

GHDDI 在阿里云之上搭建了开放共享平台,使用 E-HPC 搭建高性能计算集群,用于药物研发的模拟计算,同时为合作伙伴创建不同的云超算子账户,实现计算资源共享。

高性能计算环境提供基础的计算平台,要实现高效的药物筛选,还需要一种高通量任务解决方案。

[3] https://zh.wikipedia.org/wiki/靶点_(生物学)

同时,E-HPC 提供了高通量任务处理的解决方案,使得药物筛选在多计算节点、多核上并发处理,降低任务整体执行时间。此外,由于 E-HPC 是云原生的超算产品,因此能够跟其它云产品打通,如对象存储 OSS,能够容易、快速搭建计算、信息发布平台。

molin_name= `basename $molin`

从查询结果可以看出:

病毒、药物研发和高性能计算

近期,不少研究机构和高校在阿里云上 E-HPC 云超算上进行药物研发相关的数值计算,阿里云超算团队提供了技术支持与跟进。

此外,为了保证筛选计算能够高效、顺利完成,还需要计算服务,包括:

总结

串行执行,时间长,无法利用高性能集群的计算能力,如何在集群上多节点、多核并发的处理,实现快速处理呢?实现方法也有多种,如手工的将 mol2 文件夹分成若干个子文件夹,每个文件夹分得少量的小分子文件,然后在每个子文件串行执行。这种方式需要过多的人工参与,尤其是在有任务出错,需要调整重新提交的场景,很容出现重算、漏算。

sed -ie "/^ligand_outfile_prefix/cligand_outfile_prefix $molin_name"$molin_name.dock. in

全球健康药物研发中心(Global Health Drug Discovery Institute,简称“GHDDI”)是由比尔及梅琳达·盖茨基金会、清华大学和北京市政府共同创立和建设的一个独立运营、非营利性质的新型药物研发机构。

云计算的兴起更是改变了科学家获取算力、享受超算服务的方式。比如阿里云 E-HPC 云超算产品,能够让科学家自助在云上搭建高性能集群系统,满足药物研发人员对计算平台的需求。

COVID-19 病毒

药物研发需要强大计算能力的高性能计算集群,如药物筛选需要进行大量小分子的 Docking 处理。

责编 | 唐小引

在此过程中,高性能计算(High Performance Computing,简称 HPC),常被称为“超算”,是现代药物研发必不可少的支持。

sed -ie "/^ligand_atom_file/cligand_atom_file $molin"$molin_name.dock. in

伴随着云计算的兴起,从云上获取计算服务器服务成为一个新的途径,同时阿里云提供不同产品服务,如云超算产品 E-HPC(Elastic High Performance Computing),集群共享文件系统 NAS/CPFS,数据库等。其中 E-HPC 云超算产品,能够让用户自助在云上搭建自己的高性能集群系统,配置高性能服务器和大容量存储,提供软件多节点运行和高通量任务处理解决方案,直接满足药物研发人员对计算平台的需求。

使用 ehpcarr 命令,根据作业号进行查询任务的并发执行情况。从查询结果可以得倒每个任务当前的处理状态,包括完成(DONE)、运行(RUNNING)、失败(FAILED)、排队(INIT),每个任务处理的启示截止时间,通过对任务执行时间可以预估下次使用的计算资源。

作者 | 孙相征,阿里云高性能计算技术专家

药物研发是一个非常复杂和非常耗时的过程,药物筛选只是流程前期一个环节。例如,之前提的寻找跟蛋白病毒酶结合的小分子,由于存在不同种类或研究机构的配体(小分子)库,配体(小分子)库数量巨大,每个配体库的配体数量成千上万,甚至更大,通过实验方式一一测试验证是不切合实际的。通过计算机数值模拟进行筛选,对不同配体的结合效果进行打分,筛选出打分高且结合模式合理的一些配体作为候选药物进行实验验证,能够有效加速药物的研究进程。

一款药物的诞生周期极其漫长,从最早的新药研发到上市,至少要经历 10 年。

病毒是由核酸分子(DNA 或 RNA)与蛋白质构成的非细胞形态,如下图烟草花叶病毒所示。因为是非细胞的,无法通过细胞分裂的方式来完成数量增长,它们通过进入宿主细胞并利用宿主细胞内的代谢工具来合成自身的拷贝,并完成病毒的组装[1]。冠状病毒(CoV)是一种是一组高度同源的,单链正译 RNA 病毒,其具有以上的病毒特征,可引起多种严重程度不同的呼吸道,肠道,肝脏和神经系统疾病,在过去的 12 年中出现的两种新型的,即严重的急性呼吸系统综合症(SARS-CoV)和中东呼吸系统综合症(MERS-CoV)[2],以及目前肆掠的 COVID-19 都属于这种病毒。

[1] https://zh.wikipedia.org/wiki/病毒#cite_note-2

在新冠状病毒疫情下,资源和研究成果共享,能极大地加速研究者的进展,避免重复的工作。

除计算平台外,药物筛选还需要高性能应用软件。药物筛选模拟计算包括 Docking 和分子动力学计算:Docking 耗时相对较小,常用于大量配体的初步筛选,主要软件有 dock6、Autodock Vina、Glide 等;分子动力学模拟计算比较耗时,测试作用的时间变化,用于对 Docking 初选结果进一步分析,主要软件有 Gromacs,Namd,Amber 等,GPGPU 加速效果一般比较明显。

由于配体库巨大,如果在有限时间完成筛选,也是一个巨大的挑战。例如,配体库有 10,000 个候选配体,每个配体平均处理时间为 1.5 个小时,总共需要 15,000 个小时(625 天)。因此,为在规定时间内算完,需要具备以下条件:

E-HPC 高通量药物筛选方案

CSDN 独家在线峰会来了!

阿里云 E-HPC 云超算产品是云原生的高性能计算集群解决方案,将阿里云的计算产品(ECS/EGS/裸金属服务器/超级计算集群)、网络(VPC/RoCE)和存储(NAS/OSS/CPFS)等产品进行整合,配置高性能计算作业管理和账户管理,并集成常用的 HPC 应用软件,实现让用户在页面操作,获取自己的高性能计算集群,拥有 root 权限,对集群进行管理配置。

E-HPC 解决方案,是基于高性能集群作业调度器的数组作业,并进行了增强:

原标题:7天后财运旺盛年,3大生肖出门遇贵人,日子有钱不愁

原标题:2020年成为LCD屏下指纹元年!Redmi卢伟冰演示最新方案

------分隔线----------------------------

由上内容,由恒峰-恒峰g22-恒峰手机娱乐收集并整理。