作者 | 邵斌团队
编辑|ScienceAI
2024 年 10 月 30 日,北京理工大学邵斌教授团队在《Nature Communications》杂志上发表了题为:《A long-context lan3 % 7 0 I L ~guage model for deciphering and generating bacteriophage genomes》的最新研究成果,实现了首个生成式 DNA 大语言模型,megaDNA。
该模型利用无标注的噬菌体(感染细菌的病毒)基因组数据进行预训练,不仅能准V + A r l a T确预测噬菌体的必需基因,更能够生成长达 10 万碱基对的崭新基因组片段,即像写作自然语言一样生成 DNA 序列。
另外,模型在学习过程中获得的嵌入层信息(embedding),还能应用于蛋白质功能预测、基因调控研究,以及无标注 DNA 片段分类等多个下游任务。
文章链接:httM n _ 8 w g 4 kps://www.S ) Y 9 0 ~ \ dnq – n x ; Vature.com/articles/s41467-024-53759-4
背景介绍
什么是「生成式」语言模型?简单来说,就是以 GPT 为代表的语言模型。自 transformer 架构提出以来,发展出了语言模型的两个流派,一个是 BERT 模型,采用类似完形填空的方式来训练;一个是 GPT 模型,采用词语接龙的方式来进行训\ T ) y g p ! |练。
可以想见,后者更接近普通人说话或者写作的过程,即逐字地构建句子和段落( q m z J,因而它具备更强大的生成能力,也是目前大语言模型的主流架构。生成式任务一方面与人类语言和沟通的形式天然一致,因为遣词造句是交流的基础。另一方面,词语接龙本身是一类比较难的任务,能够完成这类任务的语言模型实际上已经很好地掌握了序列数据中所蕴含的信息和概念。
为什么要开发针对 DNA 序列的大语言模型?d . . 8 n V ; a [
我们知道人类的语言是一种序列信息,而生命的语言 DNA 也是一种序列信息。生成式大语言模型在a C r Q人类语言处理和生成上取得了巨大的成功,成为我们阅读,学习和写作的有力助# ? T A z X手。
我们就想能否把这套方法应用j ! O , _ B ~在生命的序列上,即在生命的语言 DNA 上训练大语言模型,从而帮助我们解读 DNA 编码的信息,设计出M N 1 r 7 i具有特定功能的 DNA 片段,甚至构建具有医疗或者工业应用价值的新型微生物。
倘若我们能像写作有意义的文字一样编写具有功能的 DNA 序列,像J 4 [ Y阅读论文一样从 DNA 编码中获取有价值的信息,那么这样的模型将具有巨大的学术和应用价值。
模型架构
训练基于 DNA 序列的语言模型既有优势,也有挑战。优势在于训练数据的规模。历史的经验表明,语言模型的训练效果高度依赖于训练数据的规模大小,数据越多,模型可以做的更大,训练的效果也会越好。
随着 DNA 测序技术的飞速发展,DNA 序列\ , I积累的速度非常快,比如一个完整人类基因组的测序成本已经从本世纪初的约一亿美元下降到现在的几百美元r e t L A _ u |。而这些大规模数据还没有得到有效的应用,对机器学习来讲无疑是很大的一个「富矿」。
然而,训练这类 DNA 语言模型也存在困难,主要挑战是生成式语言模型难以应用于长序列,输入序列越长而显存消耗越大。而对于 DNA 序列,即使是简单的噬菌体(针对细菌的病毒)也往往长达几万个碱基对,传统的 transformer 模型难以对其进行处理。
从2 o G $ L N i去年开始,语/ 6 ~ J x v言模型的输入长度问题[ D # W e `得到了极大关注,研究者提出了很多解决这一问题的技术。; ^ P + 5 c O n i
我们借鉴了最新的长读长语言模型的研究结果+ ( n V , w,即目前在 Meta 工作的大语言模型专家 Yu Lilin : N K 7 博士提出的多| [ + B 9 ; .层 Transformer 结构。
我们模型设计了三层的 Transformer 结构,用来处理f # _ o不同精度的 DNA 信息,最终实现了大约 10 万个碱基对的输入长度,这个长度虽然小于人类基因组或者细菌基因组的长度,但已经足够覆盖噬菌体的基因组了。因此,我们使用完整的噬菌体基n & F X ) [ A r @因组序列v O / c X O 6 o作为模型的输入来进行训练。并且,我们采集了大约 10 万个高质量噬菌体基因组序列,训练后得到 megaDNA 模型。
图示:模型概述。(来源:论文)
从头生成基因组DN? / ) +A序列
以 GPT 为代表的生成式语言模型最重要的能力之* y 4 b % = s .一是产生全新的具有丰富内涵的文字序@ z E m . P 7 W _列。我们利用 megaDNA 模型生成了一千条崭新的基因组 DNA 序列,并利用软件 gz 8 j { m f j ) veNomad 对序列进行系统评估。~ i I ! E
这些人工生成的基因组序列平均长度为 4.3 万碱基对,% } % S x Q i R y包含 67 个预测基因,这些特征与训练数据中的真实噬菌体基因组高度相似。其中 22% 的序列被识别为有尾噬菌体目(Caudoviricetes)。
在表达调控方面,这些序列具有完整的可能发挥功能的I ` ! V v基因表达系统,包括典型的细菌启动子序列(-35 和-10 区),其 5W S ` 端非翻译序列的转录活性显著高于随机 DNA。同时在起始密码子j ^ # U s . p E 7 ATGR h n 6 _ s | $ k 前具有富含 A 和 G 碱基的核糖体结合位点(RBS)。通过 EMSFold 进行结构预测,结果显示这些预测的基因能够形成有效的蛋白质折叠结构。
在功能方面,预测基因编码了= 0 H b 6 d )噬菌体所需的关键功能蛋白,涵盖尾部结构、DNA 代谢、头部组装以及细胞裂解等功能。值得一提的是,这些) h } L M r = 6生成的基因组序列以及预测基因跟已有的训练数据具有极低的序列相似性。
必需基因的无监督预测
megaD# + @ w c SNA 模# ( b型的另外一个应用是之前模型或者生物信息学软件很难实现的,就是必需基因的预k U P L A E \ ;测。必需基因的含义在于如果这些基因丧失了功能,噬菌体就不~ @ c } q能完成完整的复制的过程。
实验上确定必3 ] e需基% 2 I 4 K I j因十分繁琐而耗时,通常需要对每个基因进行敲除实验来观察y * . 5 f k噬菌体能否正常复制。而我们的模型能够在不经过任何调整和额外训练的情况下,对必需基因进行计算` k C E x w w :预测。
我们在 lambda 噬菌体这种大家广泛研究的模式生物上做了验证,针对基因组序列进行了基因敲除的模拟实验,对基因组a K ^不同位置片段进行c 6 \ g 2突变,利用语言模型计算序列损失,C * V {并与实际的 CRISPR 基因敲除实验结果1 y 3 ?进行直接比对。
计算发现模型预测的高突变损失区域与实验验证的必需基因高度重合,相应的预测准确度(AUROC)达到0.86。
进一步c ) j 8 K思考,我们的模型可以在几万个噬菌体基因组上得到应用,极] I R c大提升找寻对应必需基因的效率。
结论
综上,该研究展示了生成式语言模型在基因组序列分析和生成上的巨大潜力,为噬菌体基因组注释和功能序列– & f @ – G M p :设计开辟了全新的路径。
虽然目前生成的基因组片段还未能实现噬菌体的完整4 i U P ?生命功能(如有效自我复制)。但该研究及后续工作为从头^ k 5 c D z c \ N设计以噬菌体为代表的完整生物体基因组奠定了新的计算基础,有望在医疗、农业、食品安全等多个领域取得广泛应用。
北京理工大学准聘教授邵斌(前 Broad In` 6 c tstitute 计算科学家)为文章的第一作者兼通讯作者。上海独立研究者闫嘉伟博士为该工作提供了重要支持。
代码:https://github.com/lingxusb/megaDNA
以上就是生成超10万bp的DNA序列,北理工邵斌团队生成式DNA大语言模型,登Nature子刊的详细内容!