引言
在生命科学的漫长探索中,我们曾长期扮演着“观察者”的角色。我们通过显微镜描绘细胞的形态,通过测序仪记录基因的表达。然而,理解生命的本质不仅仅在于“看见”,更在于“改变”。
当我们对细胞施加一个微小的推力:敲除一个基因、滴加一种药物、或是改变环境中的氧气浓度,细胞内部复杂的分子网络会如何响应?这种响应又如何决定了细胞的生死、分化或癌变?这便是“扰动生物学”的核心命题。随着单细胞测序技术(Single-cell sequencing)的飞跃,我们如今已能以单细胞分辨率捕捉这些“蝴蝶效应”。海量的数据并未直接转化为深刻的洞见,研究人员陷入了数据碎片化的困境。
12月31日,《Nature Methods》的研究报道“Pertpy: an end-to-end framework for perturbation analysis”,介绍了一个名为 Pertpy 的全新分析框架。它不仅仅是一个软件工具,更是一种全新的思维方式,试图将无论是遗传学、药理学还是环境因素引起的细胞状态变化,统一在一个数学空间中进行量化和解析。
告别“巴别塔”:构建扰动分析的通用语言在 Pertpy 诞生之前,单细胞扰动数据的分析就像是在建造一座没有通用图纸的“巴别塔”。如果你想分析 CRISPR 筛选数据,你可能需要使用一套基于 R 语言的工具,如 MUSIC 或 ScMAGeCK;如果你想研究药物反应,可能又得切换到另一套完全不同的流程。更棘手的是,这些工具往往只关注统计学上的显著性,却忽略了至关重要的生物学语境——比如,这个细胞系究竟源自哪种组织?这个药物的靶点机制是什么?
研究人员敏锐地捕捉到了这一痛点。他们开发的 Pertpy 是一个基于 Python 的模块化框架,作为 scverse 生态系统的一部分,它集成了超过 100 个可组合的分析函数。这不仅仅是功能的堆砌,而是实现了从数据加载、元数据注释、质量控制,到下游复杂分析的“端到端”(End-to-end)贯通。
想象一下,当你面对一个包含数百个细胞系、数十种药物处理的庞大据集时,Pertpy 首先做的不是冰冷的计算,而是“寻根问底”。它利用其强大的元数据模块,自动从 DepMap、GDSC 和 PubChem 等公共数据库中抓取信息。它能告诉你,细胞 A 属于肺癌细胞系,携带特定的基因突变;药物 B 是一种 BRAF 抑制剂,其化学结构具有特定的特征。这种将实验数据与公共知识库实时链接的能力,为后续的深度分析奠定了坚实的语境基础。
但工具的强大最终需要通过解决实际生物学问题来证明。研究人员通过三个极具代表性的案例,展示了如何利用这一框架挖掘出隐藏在数据深处的新机制。
从“细胞空间”到“扰动空间”:重绘基因互作的地图单细胞分析的传统视角通常是“以细胞为中心”。我们在 UMAP 图上看到的是一个个代表细胞的点,聚集成了不同的簇。然而,在扰动实验中,我们更关心的是“扰动”本身——敲除基因 X 和敲除基因 Y,对细胞产生的后果是否相似?
为了回答这个问题,研究人员引入了一个革命性的概念:“扰动空间”(Perturbation Space)。在这个空间里,每一个数据点不再代表一个细胞,而是代表一种“扰动”。这种视角的转换,让我们能够以前所未有的清晰度去审视基因之间的功能联系。
研究人员利用 Pertpy 重新分析了一项经典的 CRISPRa(CRISPR 激活)筛选数据集。该数据集由 Norman 等人最初发布,包含了 111,255 个 K562 细胞,涵盖了 287 种 单基因或基因对的扰动。
首先,面对如此大规模的数据,如何排除技术噪音是一个巨大的挑战。在 CRISPR 筛选中,并非所有接受了向导 RNA(gRNA)的细胞都会产生预期的基因表达变化。如果将那些“逃逸”了扰动的细胞混入分析,就会稀释真实的生物学信号。研究人员利用 Pertpy 中集成的 Mixscape 算法,对数据进行了精细的预处理。他们比较了三种不同的处理策略,并通过计算轮廓系数(Silhouette score)发现,对于这个特定的 CRISPRa 数据集,无论是否进行基于特征的细胞过滤,最终生成的扰动空间结构都惊人地相似。这提示我们,该数据集的质量极高,且 CRISPRa 技术在诱导突变方面的“逃逸率”可能低于传统的 CRISPR-Cas9 敲除。
当研究人员利用多层感知机(MLP)分类器的倒数第二层特征构建出“扰动空间”后,神奇的现象出现了。原本在细胞空间中杂乱无章的信号,在扰动空间中自动聚类成了清晰的功能模块。
最引人注意的是对基因 TP73的重新定义。在最初的研究中,TP73被归类为一个“先锋因子”(Pioneer factor)基因程序。然而,在 Pertpy 构建的扰动空间中,TP73的扰动点并没有与先锋因子聚在一起,而是与控制 G1 细胞周期 的扰动点紧密相邻。数据显示,它们之间的均方误差(MSE)距离仅为 0.46,这一数值极低,意味着TP73的激活在细胞状态上引起的后果与 G1 期阻滞高度一致。这与我们已知的TP73作为p53家族成员、能够深刻影响细胞周期的生物学功能不谋而合。通过算法的视角,我们纠正了过往的人工注释偏差。
此外,研究人员还展示了如何利用这一空间深入解析那些“未被定义”的区域。在 UMAP 图上,有一个未被原始作者注释的基因程序簇。通过 Pertpy 的基因集富集分析(GSEA)模块,研究人员发现该簇中的扰动显著下调了中性粒细胞脱颗粒(Neutrophil degranulation)通路。这一发现直接赋予了该未知簇明确的生物学意义。
更进一步,通过计算“综合梯度”(Integrated Gradients),研究人员量化了每个输入基因对分类器预测的重要性。结果显示,分类器在判断细胞属于哪个扰动组时,赋予了该扰动对应的靶基因最高的权重。例如,在预测“促生长”(Pro-growth)程序时,转录因子 KLF1的特征重要性被分类器准确地捕捉并以此为依据。这不仅验证了算法的可靠性,也为我们寻找基因调控网络中的关键节点提供了新的计算工具。
拨开迷雾:剥离药物反应中的“生存偏差”如果说遗传扰动是精准的手术刀,那么化学药物处理往往更像是地毯式轰炸。在药物筛选实验中,一个最令人头疼的混杂因素就是细胞的“死活”。当一种药物杀伤癌细胞时,细胞内会发生剧烈的转录组变化。这些变化中,一部分是药物靶点特异性引起的(比如阻断了某个激酶),而另一部分则仅仅是因为细胞“快死了”或者“生长受抑”而产生的通用应激反应。如果不能区分这两者,我们就很难真正理解药物的作用机理(Mechanism of Action, MoA)。
研究人员利用 Pertpy 处理了一个包含 154,710 个细胞、跨越 172 个细胞系、涉及 13 种药物的大型单细胞药物筛选数据集(MIX-Seq)。这里,Pertpy 的元数据整合能力发挥了关键作用。研究人员能够迅速将测序数据与 GDSC 和 PRISM 数据库中的药物敏感性数据(如 AUC 值)进行关联。
研究人员以 BRAF 抑制剂达拉非尼(Dabrafenib)为例,展示了如何用数学模型“提纯”生物学信号。他们构建了一个巧妙的线性回归模型:对于每一个基因,将其表达变化分解为两部分——与细胞系药物敏感性(1 - AUC)相关的部分(斜率),和与敏感性无关的基础部分(截距)。
在这个模型中,斜率代表了“生存依赖性”(Viability-dependent)反应,即细胞因为“活得不好”而产生的变化;而截距则代表了“生存非依赖性”(Viability-independent)反应,即无论细胞是否敏感,药物都会引起的特异性分子事件。
分析结果令人深思。在“生存依赖性”反应中,基因 ETV4、CDKN2D和MYEOV表现出了显著的差异。更重要的是,通路富集分析显示,干扰素信号通路相关基因在这一类反应中被显著富集。这与达拉非尼能够引发免疫介导的细胞死亡的机制高度吻合——也就是说,细胞之所以死亡,部分原因在于免疫信号的强激活。
而在“生存非依赖性”反应中,研究人员观察到了蛋白质翻译通路基因的显著上调。这是一个非常有趣的发现。它意味着,无论癌细胞是否对达拉非尼敏感,达拉非尼的处理本身似乎都会触发蛋白质合成机器的亢进。这种机制与达拉非尼公认的 BRAF 抑制作用(主要阻断细胞生存通路)截然不同,提示了该药物可能存在未被充分探索的“脱靶”效应或次级效应。这一发现此前曾在文献中被零星提及,但从未像现在这样,通过统计学模型如此清晰地与细胞毒性效应区分开来。
细胞的“社交网络”:破解肿瘤微环境中的协同代码单细胞研究的终极战场,是复杂的实体组织。在这里,细胞不是孤岛,它们时刻进行着紧密的通讯与协作。在三阴性乳腺癌(TNBC)这种恶性程度极高的肿瘤中,免疫细胞与癌细胞的博弈决定了患者的生死。
研究人员利用 Pertpy 深入分析了一组包含 15 名 TNBC 患者的临床数据集。这些患者接受了紫杉醇(Paclitaxel)单药或紫杉醇联合抗 PD-L1 免疫疗法。研究人员想要回答一个关键问题:不同治疗方案是如何重塑肿瘤微环境中的细胞组成和互作网络的?
首先,利用 Pertpy 中优化的 scCODA 算法(一种贝叶斯统计模型),研究人员精确捕捉了细胞组成的微妙变化。与传统的比例比较不同,scCODA 考虑了数据的成分性质(Compositional nature),从而避免了虚假相关的陷阱。分析显示,化疗组患者的免疫微环境发生了剧烈重塑,特别是 CD4+ 中央记忆 T 细胞、CD8+ 效应记忆 T 细胞以及组织驻留记忆 T 细胞的比例在治疗前后出现了显著波动。
但更有趣的发现来自于对“多细胞程序”(Multicellular Programs, MCPs)的探索。细胞之间的通讯往往不是单对单的,而是多对多的协同模式。为了捕捉这种高阶的互作,研究人员使用了 Pertpy 集成的 DIALOGUE 算法。该算法通过矩阵分解,能够识别出在不同细胞类型中协同变化的基因表达模式。
在对患者样本进行分析后,研究人员鉴定了 10 个潜在的多细胞程序。其中,MCP2 引起了研究人员的极大兴趣。统计分析表明,MCP2 的评分与患者的治疗响应密切相关,其关联的调整后 P 值达到了 1.1 × 10-1(在小样本临床数据中,这是一个值得关注的信号)。
MCP2 究竟代表了什么?研究人员进一步剖析了参与该程序的基因。他们发现,在所有测试的细胞类型中,热休克蛋白基因 HSPA1B都显示出了极高的显著性(例如在初始 T 细胞中,调整后 P 值低至 2.9 × 10-272)。这提示 MCP2 可能反映了一种普适的细胞应激状态。
更深入的互作分析揭示了一个具体的分子机制:在 MCP2 程序中,T 细胞表面的白细胞介素-7 受体(IL-7R)与其配体 IL-7 的相互作用特征显著。IL-7 是维持 T 细胞存活和稳态的关键因子。这一发现表明,在那些对治疗响应不佳的患者肿瘤中,IL-7 信号通路可能处于异常活跃或失调的状态。
与此同时,研究人员还注意到,MCP2 程序中包含了关键的转录因子基因 JUN、FOS和FOSB。这些基因是 AP-1 转录复合物的核心组分。AP-1 复合物是一个著名的“双刃剑”,在不同的微环境下,它既可以抑制肿瘤生长,也可能促进肿瘤的进展。在 Extended Data 的分析中,这些基因在 MCP2 高评分的样本中表现出特定的表达模式,暗示了它们在调节治疗耐药性中的潜在角色。
通过这一案例,Pertpy 展示了其从单细胞数据中推断组织水平逻辑的能力。它不再局限于寻找差异表达基因,而是直接定位到了细胞间的通讯故障和协同模块,为理解免疫治疗耐药机制提供了全新的视角。
速度与规模:为百万级细胞图谱铺路随着单细胞测序技术的成本下降,百万细胞级的数据集正变得越来越普遍。传统的分析工具在面对这种量级的数据时,往往会因为内存溢出或计算时间过长而崩溃。
Pertpy 在设计之初就将“可扩展性”(Scalability)作为核心指标。研究人员充分利用了 Python 生态中的现代计算库,特别是 JAX。JAX 支持即时编译(JIT)和自动微分,能够极其高效地利用 GPU 进行并行计算。
在基准测试中,Pertpy 的性能优势展现得淋漓尽致。以 Augur 算法(用于评估细胞类型对扰动的响应程度)为例,Pertpy 的实现版本通过并行化处理,在速度上实现了数量级的提升。对于 Mixscape 算法,研究人员引入了 PyNNDescent 进行最近邻搜索,这使得在大规模数据上计算扰动特征的速度大大加快。
即使是对于极其消耗计算资源的 CINEMA-OT 算法(用于因果推断),Pertpy 基于 JAX 的实现虽然在预编译阶段需要一点时间,但在实际运算中,其利用 GPU 加速的能力使其能够处理传统方法无法企及的数据规模。此外,针对内存受限的场景,Pertpy 还通过整合 Dask 等工具,支持核外(Out-of-memory)计算。这意味着,研究人员可以在普通的服务器甚至高性能工作站上,处理包含数百万个细胞的宏大图谱,而无需依赖超级计算机。
迈向“生成式”生物学当我们回顾 Pertpy 的功能版图,从数据的标准化加载,到扰动空间的构建,再到多细胞程序的解码,我们看到的不仅仅是一个工具集的胜利,更是生物学研究范式的转变。
Pertpy 的出现,标志着我们正在从描述性的“单细胞图谱”时代,迈向预测性的“扰动图谱”时代。通过将成千上万种遗传和化学扰动的数据在统一的数学空间中对齐,我们正在积累构建生命科学“基础模型”(Foundation Models)所需的关键燃料。
这就好比在物理学中,我们通过无数次撞击实验来理解粒子的基本属性。在生物学中,每一个 CRISPR 敲除、每一次药物处理,都是一次对细胞系统的“撞击”。Pertpy 为我们记录和解析这些撞击提供了一套标准化的示波器和分析仪。
未来,随着空间转录组技术的融入,Pertpy 有望进一步扩展其能力,去解析扰动在三维空间中的传播规律。也许在不久的将来,基于这样庞大而规范的扰动数据训练出的生成式 AI 模型,能够让我们在计算机上“虚拟”地进行药物筛选和基因编辑,从而大幅加速新药研发和疾病治疗的进程。
当然,工具只是手段,真正的洞见来自于使用工具的人。Pertpy 已经搭建好了舞台,至于能在这个舞台上上演怎样精彩的生命科学剧目,正等待着各位研究人员去探索和书写。
参考文献
Heumos L, Ji Y, May L, Green TD, Peidli S, Zhang X, Wu X, Ostner J, Schumacher A, Hrovatin K, Müller M, Chong F, Sturm G, Tejada A, Dann E, Dong M, Pinto G, Bahrami M, Gold I, Rybakov S, Namsaraeva A, Moinfar AA, Zheng Z, Roellin E, Mekki I, Sander C, Lotfollahi M, Schiller HB, Theis FJ. Pertpy: an end-to-end framework for perturbation analysis. Nat Methods. 2025 Dec 31. doi: 10.1038/s41592-025-02909-7. Epub ahead of print. PMID: 41476114.
声明:本文仅用于分享,不代表平台立场,如涉及版权等问题,请尽快联系我们,我们第一时间更正,谢谢!