技术分享:GigaTIME实现病理切片的AI虚拟肿瘤免疫微环境
肿瘤免疫微环境(TIME)在癌症进展中扮演着关键角色,其通过影响肿瘤免疫监视与逃逸机制,调控肿瘤生长、侵袭、转移及对治疗的反应[1, 2]。TIME是一个高度复杂的空间生态系统,包含癌细胞与多种非恶性细胞类型。免疫组化技术(IHC)能够直观可视化特定蛋白质的激活状态,是揭示TIME中关键细胞状态的常用方法。然而,IHC的最大局限性在于每次仅能评估单一蛋白质,因而针对不同蛋白质的检测只能在独立的组织样本上进行。这一缺陷在TIME建模时尤为突出,因为探究肿瘤与免疫细胞间复杂的相互作用需要同步对多种蛋白质进行评估。于是,多重免疫荧光技术(mIF)应运而生,成为一种强有力的替代方案。它能在同一组织样本上实现多通道的蛋白质共定位分析,同时保留空间组织结构的完整性[3, 4]。但mIF因试剂、专用设备及计算基础设施的高昂成本,以及染色、成像和数据处理等劳动密集型流程,使其在大规模研究中费用昂贵。这导致现有mIF数据集极为稀缺,严重限制其在临床发现与转化中的应用。相比之下,苏木精伊红(H&E)染色图像以低成本提供了组织结构和细胞形态信息,是临床病理的基础检测手段[5]。尽管H&E图像并不直接揭示细胞状态,但所展现的细胞空间分布格局能间接反映细胞个体特征。此类模式或许不易被人类专家直观识别,但借助先进的多模态人工智能技术(AI)可能有望被辨识出来[6]。
2026年1月,Cell 期刊报道了一项研究,提出一个多模态人工智能(AI)框架GigaTIME,通过连接细胞形态与功能状态,实现对大规模多样化的患者群体进行全面的肿瘤免疫微环境(TIME)建模。GigaTIME基于4000万个细胞的配对苏木精伊红(H&E)切片与多重免疫荧光(mIF)数据进行训练,构建跨模态翻译器,能够从常规H&E切片生成虚拟mIF图像。GigaTIME应用于普罗维登斯医疗系统中的14,256名患者的全切片H&E图像,成功生成了涵盖24种癌症类型及306种亚型的299,376张虚拟mIF切片。这一虚拟mIF群体揭示了1,234个具有统计学显著性的关联,涉及蛋白质表达、生物标志物、肿瘤分期及生存预后,为大规模临床发现开辟了新的机遇,而此前此类分析因mlF数据匮乏而受到限制。GigaTIME代表了一个极具前景的方向,利用AI学习临床病理学中最大量、最常规的形态学数据,预测出最深层的功能状态,从而在群体层面重新定义对TIME的理解和临床应用[7]。
研究者提出一种多模态人工智能框架GigaTIME,旨在从H&E图像中学习生成虚拟mIF图像。首先通过实验获取了441张mIF图像,这些图像来自21张H&E染色切片,覆盖21个蛋白质通道。这些配对的H&E和mIF切片经过图像配准和细胞分割的计算流程处理,最终构建了一个包含 4000 万个细胞的数据集,每个细胞均有配对的H&E和mIF切片数据(图一A)。将配对数据划分为训练集、开发集和预留测试集,使用训练配对数据进行训练。该模型以H&E图像块作为输入,输出21个对应的mIF图像块。这些通道特异性图像块随后被拼接重建为全切片mIF图像,从而实现空间分辨率的切片级蛋白质激活图谱分析。

图一 GigaTIME实现群体规模的肿瘤免疫微环境分析[7]
随后,研究者将GigaTIME应用于一个大规模、多样化的真实数据集。该数据集包含来自美国普罗维登斯医疗系统内7个州、51家医院和逾千家诊所的14,256张全切片H&E图像,涵盖24种癌症类型及306种癌症亚型。利用训练完成的模型,为这些患者生成了299,376张虚拟mIF全切片图像。由此,构建了一个具有H&E和虚拟mIF图像以及临床属性如生物标志物、分期和生存状态的大规模、多样化多模态虚拟群体。作为概念验证,研究者为每幅mIF图像量化了蛋白质激活密度评分,该评分定义为激活像素所占比例。这些评分采用平均池化方法进行处理,应用于同一亚型肿瘤的聚合,从而生成涵盖不同癌症亚型的基于mIF图像的TIME特征图谱(图一B)。为评估该方法的稳健性,将GigaTIME进一步应用于癌症基因组图谱(TCGA)的10,200个肿瘤样本,生成了涵盖21个通道的214,200张虚拟mIF全切片图像。对比普罗维登斯与TCGA两个虚拟群体所生成的聚合激活评分,观察到高度一致性(图一C)。此外,研究者还系统性地测试GigaTIME将标准H&E全切片图像转换为mIF图像的性能,将其与广泛用于虚拟染色任务的图像转换模型CycleGAN进行对比。结果证实GigaTIME具有卓越的泛化性能和可靠性。
研究者进一步探究虚拟mIF群体如何支持大规模临床发现。具体而言,虚拟群体在跨癌种、癌种类型及癌种亚型三个层面上,识别出21个GigaTIME转换的虚拟蛋白质与20个临床生物标志物之间的1,234个具有统计学显著性的关联(图二A)。跨癌种层面,识别出175个显著的蛋白质-生物标志物关联(图二B)。其中许多发现与现有文献相互印证。例如,高肿瘤突变负荷和高微卫星不稳定基因型均与CD138、CD20、CD68和CD4等TIME相关通道的激活增强存在强关联,这符合已知的抗原介导免疫激活效应[8]。临床免疫组化检测的PD-L1生物标志物与虚拟PD-L1通道激活呈正相关,表明基于虚拟群体的预测与临床观测的蛋白质表达具有高度一致性。此外,PD-L1免疫组化与CD3、CD8、CD20等多个TIME标志物呈负相关,这反映了PD-1/PD-L1检查点在建立免疫阻断中的作用[9]。在癌种类型层面,观察到脑癌(图二C)、肺癌(图二D)和结肠癌(图二E)中存在大量关联。在癌种亚型层面,虚拟群体揭示了组织学特异性关联,这些关联在较小规模队列中往往难以检测(图二F和G)。例如,在肺腺癌中,观察到PRKDC突变与免疫反应标志物的关联强于肺鳞状细胞癌,这强调了组织学背景在解读生物标志物-基因组关联中的重要性。为进一步展示GigaTIME的能力,研究者从普罗维登斯数据中选取了一例代表性肺腺癌患者(图二H),展示其H&E图像及对应的GigaTIME转换虚拟mIF图像。虚拟mIF图像块在多个免疫与肿瘤标志物上呈现多样化的空间激活模式,证明了GigaTIME捕捉不同细胞功能与状态的能力。该患者携带高肿瘤突变负荷,在虚拟mIF中显示高PD-L1与CD68激活,这与在跨癌种(图二B)、肺癌(图二D)及肺腺癌特异性(图二F)分析中识别的关联一致,进一步支持了虚拟群体的生物学保真度与临床实用性。

图二 GigaTIME从三个层面揭示新型TIME蛋白与生物标志物的关联[7]
除了临床生物标志物,通过GigaTIME转换的多重蛋白质激活数据,还实现了对病理分期和患者分层的系统性研究。在跨癌种层面,虚拟群体识别出蛋白质通道与病理分期之间的显著关联(图三A)。与先前研究一致,原发肿瘤大小与免疫检查点标志物如PD-L1和PD-1以及免疫浸润标志物包括CD68和CD138呈正相关[10]。相比之下,淋巴结转移状态与这些免疫标志物的关联有限。在癌种类型层面,这些蛋白质-分期关联在不同癌症类型间存在显著差异(图三B)。肺癌大体复现了跨癌种模式,但值得注意的是,淋巴结转移分期与免疫检查点及浸润标志物包括PD-L1、PD-1、CD3和CD138呈负相关。进一步的肺癌亚型层面分析揭示了肺腺癌与肺鳞状细胞癌之间的细微差异(图三C)。虽然两种亚型呈现大体一致的分期模式,但肺腺癌中淋巴结转移与免疫标志物表达尤其是CD34、PD-1和PD-L1的负相关性显著更强。这表明伴有淋巴结转移的肺腺癌可能在原发灶表现出更明显的免疫逃逸特征,凸显了在临床应用开发分期预测标志物时采用组织学分层策略的重要性。为深入评估虚拟群体的临床相关性,研究者检验了虚拟mIF数据能否帮助基于生存结局对患者进行分层。在跨癌种队列(图三D)以及特定癌种类型如肺癌和脑癌(图三E和F)内部,GigaTIME转换的虚拟蛋白质激活数据足以将患者划分为具有显著性的不同生存轨迹亚组。更重要的是,将全部21个虚拟蛋白质通道整合为复合型GigaTIME特征谱,能实现更优的患者分层(图三G),证实了多通道信号的互补性,验证了拥有mIF信息的虚拟群体的实用价值。

图三 GigaTIME能够在病理分期和生存组别方面实现有效的患者分层[7]
接下来,研究者使用TCGA生成独立的虚拟群体,并将其与普罗维登斯虚拟群体中的生物标志物关联进行验证。具体而言,对于每个拥有H&E切片的TCGA肿瘤样本,应用GigaTIME生成对应的虚拟mIF图像,最终构建了一个包含10,200名患者的虚拟群体,涵盖21个蛋白质通道的214,200张虚拟mIF图像。随后,识别出具有统计学显著性的TIME蛋白质-生物标志物关联,并与普罗维登斯虚拟群体的发现进行比较,两群体具有整体一致性,斯皮尔曼相关系数达0.88(图四A)。有80个蛋白质-生物标志物关联在两组数据中均具有统计学显著性,这种重叠具有高度显著富集性,印证了GigaTIME的泛化能力与稳健性。与此同时,普罗维登斯虚拟群体发现的跨癌种显著关联数量比TCGA多出33%,这凸显了大规模真实世界数据对临床发现的价值。此外,普罗维登斯虚拟群体在癌种类型如肺癌(图四B)和癌种亚型如肺腺癌(图四C)层面也发现了更多关联,而TCGA在此精细尺度上识别出的显著关联较少(图四B)。为进一步验证GigaTIME在TCGA中的泛化能力,检测了TCGA不同样本的转换mIF图像,重点关注与生物标志物相关的蛋白质表达差异(图四D)。发现携带与不携带SPTA1突变生成的虚拟mIF图像显示出截然不同的CD20激活模式,这与CD20和SPTA1突变之间的关联一致。在涉及KMT2D与PD-L1、TP53与CD138的案例研究中也观察到类似的视觉差异,进一步证实了虚拟群体捕捉生物标志物与空间蛋白质表达之间生物学意义关联的能力。

图四 基于TCGA虚拟队列的独立验证[7]
尽管激活密度是广泛用于全切片图像信号聚合的指标,但它无法反映如mIF等空间技术所揭示的更复杂全局模式。通过生成虚拟mIF全切片图像,GigaTIME使得探索能捕捉丰富空间模式的精细化度量指标成为可能。这类指标能够揭示蛋白质激活的分布、组织及高阶模式,从而为TIME提供更深入的见解。为此,研究者评估了三种标准的空间感知度量指标:熵、信噪比和锐度。熵量化像素分布的复杂性与非均匀性,反映图像空间模式的异质性。信噪比表征真实生物信号相对于背景噪声的强度,突显特征的可靠性。锐度评估边缘与精细结构的普遍性,这对识别蛋白质定位中细微但有意义的模式至关重要。
最后,研究者将这些空间感知指标应用于普罗维登斯虚拟群体,发现相较于密度指标,这三个指标分别更能揭示与特定临床生物标志物之间的更强关联(图五A-C)。总体而言,在TIME蛋白质-生物标志物配对中,熵、信噪比和锐度分别在89对、63对和79对中表现出比密度更高的相关性强度,其余配对中表现相当。除精细化空间模式外,还探究了组合虚拟蛋白质激活能否增强生物标志物关联的检测能力。作为初步探索,采用OR逻辑运算评估成对虚拟蛋白质组合与临床生物标志物的相关性(图五D和E)。该方法发现了大量关联强度远超单一虚拟蛋白质的组合模式。例如,将浆细胞标志物CD138与巨噬细胞标志物CD68这两种互补的免疫蛋白质的虚拟激活组合后,与多个生物标志物的关联强度显著高于单一蛋白质(图五D)。类似现象见于免疫检查点配体PD-L1与凋亡标志物caspase 3的组合(图五E)。从定性角度展示了CD138/CD68与PD-L1/caspase 3通道组合在输出mIF中揭示互补的蛋白质激活(图五F),支持了组合分析的实用性,整合具有生物学互补性的激活信号能够产生信息量更丰富且更具临床意义的发现。

图五 GigaTIME揭示空间分布及组合式虚拟mIF图谱模式[7]
综上所述,该研究提出了一种多模态人工智能框架GigaTIME,通过学习将易于获取的H&E图像转化为多重免疫荧光(mIF)图像,实现了肿瘤免疫微环境(TIME)建模的规模化扩展。GigaTIME通过学习了4000万个细胞的配对H&E切片与mIF数据,能够将低成本的常规病理切片,一键转成价格高昂的mIF图像数据,揭示的虚拟TIME信息能帮助医生识别出患者的肿瘤免疫组成、癌症分期、生存组别以及潜在用药方案等,进而制定出个性化的治疗方案,为推进精准免疫肿瘤学开辟了新路径。GigaTIME是首个大规模多模态AI用于生成TIME数据的模型,未来融合患者多维度数据,有望构建强大的“虚拟患者”,用于预测疾病进展和治疗反应,推动临床诊疗方式新变革。

GTP研发中心负责实施基因组标签计划(Genome tagging project, GTP),基于自主知识产权的类精子干细胞介导半克隆技术,为全基因组的功能基因一一贴上标签,致力于构建标签细胞和标签小鼠资源库。类精子干细胞是从精子来源单倍体囊胚中建系获得的一种孤雄单倍体胚胎干细胞,将其注入卵母细胞,能够像精子一样支持整个胚胎发育过程,产生健康的半克隆小鼠。GTP研发中心在类精子干细胞的蛋白质编码基因上原位敲入标签序列,建立了液氮保存的标签细胞资源库。研究需要时,利用半克隆技术将标签细胞注射到小鼠卵母细胞中,一步法获得标签小鼠。

已有标签产品可直接订购,详情查阅以下官网链接。如有需要欢迎联系,我们将竭诚为您服务。
标签细胞网址:
标签小鼠网址:
http://www.sibcb.ac.cn/gtp/msearch.jsp
地址:上海市岳阳路320号
责任编辑:多一百
新媒体运营:suway
参考文献
1. Binnewies M, Roberts EW, Kersten K, Chan V, Fearon DF, Merad M, Coussens LM, Gabrilovich DI, Ostrand-Rosenberg S, H&Edrick CCet al: Understanding tH&E tumor immune microenvironment (TIME) for effective tH&Erapy. Nature medicine 2018, 24(5):541-550.
2. Junttila MR, de Sauvage FJ: Influence of tumour micro-environment H&Eterogeneity on tH&Erapeutic response. Nature 2013, 501(7467):346-354.
3. Rivest F, Eroglu D, Pelz B, Kowal J, Kehren A, Navikas V, Procopio MG, Bordignon P, Pérès E, Ammann Met al: Fully automated sequential immunofluorescence (seqIF) for hyperplex spatial proteomics. Sci Rep 2023, 13(1):16994.
4. Lin JR, CH&En YA, Campton D, Cooper J, Coy S, Yapp C, Tefft JB, McCarty E, Ligon KL, Rodig SJet al: High-plex immunofluorescence imaging and traditional histology of tH&E same tissue section for discovering image-based biomarkers. Nature cancer 2023, 4(7):1036-1052.
5. Matos LL, Trufelli DC, de Matos MG, da Silva Pinhal MA: ImmunohistocH&Emistry as an important tool in biomarkers detection and clinical practice. Biomarker insights 2010, 5:9-20.
6. de Haan K, Zhang Y, Zuckerman JE, Liu T, Sisk AE, Diaz MFP, Jen KY, Nobori A, Liou S, Zhang Set al: Deep learning-based transformation of H&E stained tissues into special stains. Nature communications 2021, 12(1):4884.
7. Valanarasu JMJ, Xu H, Usuyama N, Kim C, Wong C, Argaw P, Ben Shimol R, Crabtree A, Matlock K, Bartlett AQet al: Multimodal AI generates virtual population for tumor microenvironment modeling. Cell 2026, 189(2):386-400.e319.
8. Llosa NJ, Cruise M, Tam A, Wicks EC, H&EcH&Enbleikner EM, Taube JM, Blosser RL, Fan H, Wang H, Luber BSet al: TH&E vigorous immune microenvironment of microsatellite instable colon cancer is balanced by multiple counter-inhibitory cH&Eckpoints. Cancer Discov 2015, 5(1):43-51.
9. Liu J, CH&En Z, Li Y, Zhao W, Wu J, Zhang Z: PD-1/PD-L1 CH&Eckpoint Inhibitors in Tumor ImmunotH&Erapy. Frontiers in pharmacology 2021, 12:731798.
10. Baguley BJ, Skinner TL, Leveritt MD, Wright OR: Nutrition tH&Erapy with high intensity interval training to improve prostate cancer-related fatigue in men on androgen deprivation tH&Erapy: a study protocol. BMC cancer 2017, 17(1):1.


