近日,一个由科学家们在EvolutionaryScale和Arc Institute领导的项目取得了突破性的进展。他们将5亿年的进化数据输入到一个人工智能系统中,并要求它创造基因代码。结果令人惊讶,因为这个人工智能系统生成了一些研究人员从未见过的蛋白质序列。
这个项目的核心是新的人工智能模型ESM3,它能够模拟全新的蛋白质序列。这些序列可以被研究人员用来更深入地理解蛋白质的工作原理,并最终应用于健康等科学领域。
与所有人工智能工具一样,ESM3需要大量的数据才能有效运行。为了创建ESM3,研究团队对人工智能进行了训练,处理了7710亿个令牌,从而生成了31.5亿个蛋白质序列、2360万个蛋白质指令以及5.39亿个蛋白质注释。
据研究团队称,将如此多的数据输入到人工智能系统中,相当于将5亿年的进化数据和知识注入到一个系统中。最终的结果是一个能够模拟进化过程的人工智能系统,特别是创造了一个具有前所未见的基因序列的虚拟蛋白质,研究人员将其命名为esmGFP。
通过先进的AI系统生成前所未见的基因代码,研究人员希望进一步了解人类生物学的进化。