OpenAI重大发现:GPT-4bmicro改造诺奖研究,山中因子重编程效率提高50倍

新浪财经 2025-08-23 19:43:31

AI加速科学和药物研发,已经不是什么新鲜事,但它的潜力远未被完全释放。

就在刚刚过去的一天,OpenAI宣布他们与生物科技初创公司RetroBio合作,研发的新模型GPT-4bmicro,设计出了新型且显著增强的山中因子变体。

山中因子是一组蛋白质,由诺奖得主、日本科学家山中伸弥在2006年提出,其包括Oct4、Sox2、Klf4和c-Myc4种因子,又称OSKM。当它们被添加到人类皮肤细胞中时,会使其转变为看似年轻的干细胞,这种干细胞可以分化成体内任何其他组织。Retro认为,这一现象可能是实现构建人体器官或提供替代细胞的起点。

然而,山中因子也存在一个重大局限:重编程效率极低,它需要数周时间,而且在实验室培养皿中,只有不到1%的细胞能够完成再生之旅。这意味着在实际应用中,只有极少数细胞能够成功被重编程,这大大限制了其在临床和科研上的推广与应用价值。

OpenAI与RetroBio团队借助GPT-4bmicro,一起设计出山中因子新变体,与标准OSKM蛋白相比,这些因子在体外的重编程效率提高了50倍,这是一项突破性的改进。

其实,OpenAI与RetroBio的合作始于一年前,此前,SamAltman个人向Retro注资1.8亿美元。

不过遗憾的是,这个模型并没公开:

OpenAI表示,GPT-4bmicro与GPT-4o具有相同的架构,但使用了一种新的训练方法和自定义生物学数据集,目的是使科学家能够根据自己的需求重新设计蛋白质。

山中因子KLF4(左)和SOX2(右)的3D结构可视化。

模型在推理过程中能够处理上下文长度达64000个token,尽管这种规模在文本大语言模型中已较为常见,但在蛋白质序列模型中尚属首次。

另外,值得一提的是,在开发过程中,研究者观察到GPT-4bmicro出现了与语言模型类似的scalinglaws,在更大的数据集上训练的模型在困惑度和下游蛋白质基准方面取得了可预测的提升。然而,蛋白质AI模型的计算机模拟评估通常价值有限,因为尚不清楚此类改进是否能转化为现实世界中效用的提升。

用AI辅助对SOX2和KLF4重新设计

显著提升干细胞重编程效率

OpenAI展示了是如何借助GPT-4bmicro来提升SOX2和KLF4重编程效率的。

众所周知,直接对蛋白质序列进行优化非常困难,因为SOX2含有317个氨基酸、KLF4含有513个氨基酸,可能产生的变体数量几乎达到10^1000,所以传统的「定向进化」筛选技术每次仅能对少量残基进行突变,所能探索的设计空间可谓是微不足道。

几年前的一项权威学术研究成果《通过细胞选择和测序实现重编程因子的定向进化》测试了数千种SOX2突变体,只发现少数具有适度增益的三重突变体,而15年来对嵌合SOX⁠蛋白的不懈研究所获得的变体,与天然SOX仅有5个残基的差异。

为此,Retro团队使用人类成纤维细胞(皮肤和结缔组织)搭建了一个湿实验室筛选平台,在初步筛选阶段,使用Retro科学家手动设计的OSKM和SOX2变体作为基线对其进行验证,如图3所示。

然后,研究者要求GPT-4bmicro提出一组多样化的「RetroSOX」序列。结果发现,尽管模型提出的序列平均与野生型SOX2(wild‑typeSOX2)之间相差超过100个氨基酸,但在表达关键多能性标记物方面,该模型提出的序列中超过30%的序列都要优于野生型SOX2。而相比之下,传统筛选方法的命中率通常低于10%。

随后,研究团队对山中因子中最大的KLF4进行重新改造。已知KLF4可以被其他KLF家族因子替代,但不会提高重编程效率。此前,在通过专家指导的单氨基酸替换方案对KLF4进行改进尝试时,19次尝试中仅成功一次。

与对RetroSOX的改进方法类似,研究者要求模型生成一组增强型RetroKLF变体。结果就是,在模型生成的变体中,有14种变体要优于RetroSOX筛选中的最佳组合——命中率接近50%,如图4所示。

该研究发现,将表现最优的RetroSOX和RetroKLF变体组合在一起可获得最显著的成效。而在三次独立实验中,成纤维细胞早期(SSEA-4)和晚期(TRA-1-60、NANOG)标志物均显著增加,且晚期标志物的出现时间比野生型OSKM组合方案提前了几天,如图5所示。

此外,在第10天通过碱性磷酸酶(AP)染色验证时发现,RetroSOX和RetroKLF变体不仅表达晚期多能性标记,还表现出强劲得到AP活性,而这是多能性的重要指标,如图6所示。

为了进一步证实重编程效率的提升并探索其临床潜力,研究者采用不同的递送方式验证——用mRNA替代病毒载体,以及另一种细胞类型——间充质基质细胞(MSC),进行验证。(注:这些细胞来自三位年龄超过50岁的中年人类捐赠者)

结果发现,仅仅7天内,超过30%的细胞开始表达关键多能性标志物(SSEA4和TRA-1-60),等到第12天时,出现了大量形态与典型诱导性多能干细胞(iPSC)相似的细胞集落,如图7的左侧和中间所示。这些细胞中有超过85%激活了关键干细胞标志物的内源性表达,包括OCT4、NANOG、SOX2和TRA-1-60。

随后,研究者验证了这些RetroFactor衍生的iPSC能够成功分化为所有三个原始胚层——内胚层、外胚层和中胚层。此外,他们扩增了多个单克隆iPSC细胞系,并进行了多次传代,证实了其具有健康的核型(如图7的右侧所示),且基因组稳定性适合细胞治疗。

这些结果进一步佐证了工程化变体的稳健性,还为跨不同递送方式和细胞类型增强iPSC生成能力提供了实证依据。

根据研究结果综合来看,高命中率、深度序列编辑、加速标记出现和AP+菌落形成等证据初步表明:AI指导的蛋白质设计可以显著加速干细胞重编程研究的研究发展进展。

重组变体增强DNA损伤修复

在DNA损伤修复试验中,用RetroSOX/KLF混合物处理的细胞表现出明显低于用标准OSKM或荧光对照重编程的细胞的γ-H2AX强度(双链断裂的标志)(图8)。

这些结果表明,RetroSOX/KLF混合物比原始的山中因子更有效地减少DNA损伤。

未来展望

对OpenAI来说,这项工作证明了,在特定领域,专业化模型能够更快地在科学问题上取得突破性进展。

「当研究人员将深厚的领域知识与语言模型工具结合时,以前需要数年才能解决的问题,可能在数天之内就会取得进展。」OpenAI研究合作负责人BorisPower说道。

参考链接:https://openai.com/index/accelerating-life-sciences-research-with-retro-biosciences/

0 阅读:1009

评论列表

阿龙a01

阿龙a01

2025-08-24 08:19

不过遗憾的是,这个模型并没公开……