编辑: KX
蛋白质结构预测:一个飞速发展的领域
蛋白质结构预测领域正蓬勃发展。生物技术研究高度依赖于发现正确的蛋白质结构来执行特定任务,这影响着几乎所有生物技术领域,从食品到药品,从时尚到生物燃料,从洗衣粉到农业i H 9 i W A O M。
AlphaFold 的革命性影响
AlphaFold 彻底改变了蛋白质结构预测,实现了单链和复杂蛋白质组装的建模。然而,它需要大量计算且耗时。
MassiveFold:AlpR a H A f XhaFold 的优化版本
法国里尔大学和瑞典林雪平大学的科学家开发了 MassiveFold,这是 AlphaFold 的优化和可定制版本,可将蛋白质结构预测0 _ $的计算时间从数月大幅缩短至: d 1 ~数小时。
出色的性能
与 AlphaFold3 相比,比较分析表明 MassiveFold 可为多个 CASP15 靶标生成高质量的模型,甚至在某些情况下表现更l * 7 P \ 1 h O (佳。
增强蛋白质结构建模
MassiveFold 有效地增强了蛋白质和蛋白质组装的结构建模,降低了计算成本m 7 @ h U Z },提高了预测质量,并可在B O W H 5 0 d #各种硬件设置中扩展。它可以在从单台计算机到大型 GPU 基础设施的任何设备上运行,充分利用所有计算节点。
发表
相关研究题为《MassiveFold:通过优化和并行化大规模采样揭示 AlphaFold 的隐藏潜力》,已于 11 月 11 日发表在《Nature ComD R Xputat\ b – A q uional Science》上。
AlphaFold 的计算成本和时间消耗
- AlphaFold 中的大规模采样提升了结构多样性,结合L a Y 0 j L ` Z其高效的置信度排名,增强了单体结构和蛋白质组装的建模能力。
- 然而,这种方法对\ j 0 K g F j 2 GPU 成本和数据存储提出了挑战。
MassiveFold:AlphaFold 的并行化版本
- 为应对上述挑战,法国里尔大学的研究人员开发了 MassiveFold,它是 AlphaFold 的并行化、可定制版本,将计算任务分配到X – T D a ) P B CPU 和 GPU 之[ J N * ) R b间,加快蛋白质结构预测。
- MassiveFold 结合了 AlphaFold 的框架、AFsample 的增强采样和 ColabFold 的附加功能。
- MassiveFold 是一p ! C 1 u个并行化引擎,可调用结构预测工具(如 AFmassive 或 ColabFold),并对结果进行后处理。
- MassiveFold 包含 AlphaFold 已发布的所有y d # 2 O _神经网络模型,这些模型l & Z L { : v g \包含增加结构多样性的参数,并可指定仅保留最有前景的预测结果。
- MassiveFold 可并行运行多个实例| 4 y $ G T s Z Q,每个 GPU 最多执行一次预测,充分利用可用计算y ] – | n T基础设施,大幅缩短预测结果的获取时间。
- MassiveFold 的安装和使用都很简单,只需使用 JSON 参数文件运行简单的命令行。
- MassiveFold 采用了优化并行化N K m,包括:在` % w 1 6 i n D 0 CPU 上进行比对计算、在 GPU 上进行分批结构推断,以及在 CPU 上进行最终后处理步骤(收集结果、对预测排序、生成图表)。
Massivq F 0 n FeFold 的后处理汇总了所有预测结果并生成了多个图。
图 2: MassiveFold 使用 AFmassive 生成的用于 CASP15b 1 W 多聚体靶标 H1140 结构预测的图表。
MassiveFold 通过优化采样参数、回收和 dropout,增强了蛋白质结构预测的多样性和置信度,从而为复杂靶标创建了高置信度的结构。n Y s T 6 M (例如,在 CASP15 H1140 靶标中,MassiveFold 通过扩展采样和应用无模板 dropout,生成了多个具有高置信度分数的不同结构。
1. 在 CASP15 靶标上对 Massivem / } O 3 gFold 和 AlphaFold3 进行比较的测试表) + C B b明,MassiveFold 的大规模采样方法为八个靶标中的七个生成了良好的模型,而 AlphaFold3 仅在八个靶标中的三个上略胜于 MassiveFold` p w 9 ` [。
2. 未来,将 AlphaFold3 与T # 7 $ A i W MassiveFold 整合
未来,可以将 AlphaFold3 集成到 MassiveFold 中,结合两种工具的独特优势,从而进一步增强抗体-抗原预测模型。
3. MassiveFold 显n o {著缩短了蛋白质结构预测的计算时间,从数月缩短到数小时。这种效率的提升,可以使研究人员能够更快地获得结果,从而加速蛋白质建模和相关科学领域的进步。
4. 此前,AlphaFold 中的大规模采样已用H X q 4于生成大量蛋白质结构预测,来探索各种可能的构象,从而提高对复杂蛋t b D I N +白质组装建模的准确度。
5. MassiveFold 解决了传统] A a ` L ~ c AlphaFold 应用程序面临的高 GPU 资源需求和数据存储挑战。它能够并行运行预测,即使在计算资源有限的情况下也非常实用。t 8 x * 5 \ L f 5
6. MassiveFold 还具有可扩! y [ P展性和可定制性,能够在从单台计算机到` ; 8 j & 1 L ^大型 GPU 基础设施的任何设备上运行。这种灵活性使其能够充分利用所有可用的计算节点,使其可用于各种研究环境。
7. 根! / 9 x e n j 9 o据这项研究,该程序易于使用和安装,只需要一个带有 JSON 参数文件的简单命令行。
8. MassiveFold 的代码在 GitHub 和~ n 6 Y e * $ Zenodo 上公开可F D +用。
Gi1 Q B & \ i ttHub 地址:* 1 #https://github.com/GBLillG j Y % – S } ?e/MassiveFold
参考| \ D k Y s O e内容:
- https://phys.org/G P } [news/2024-11-massivefold-customizable-version-alphafold-protein.html
- https://wo % ) Fww.news-meT 0 l vdical.net/news/20241112/MassiveFold-adve Q N \ } k /ances-protein-structu7 ` j (re-prediction-with-efficient-parallei Z D 7 a Zl-processing.aspx
以上就是蛋白预测从数月缩短至数小时,MassiveFold出于AlphaFold而胜于AlphaFold3的详细内容!