机器学习模型使用临床和基因组数据来预测免疫检查点阻断有效性

Credit: CC0公共域克利夫兰诊所肿瘤学家陈提莫博士开发的计算机模型

，及其同事准确预测了免疫检查点阻断(ICB)对诊断患有多种癌症的患者是否有效

使用机器学习开发的预测工具评估单个患者状况中的多个生物学和临床变量，以预测对免疫检查点抑制剂的反应程度和生存结果

它明显优于单个生物标记或迄今为止开发的其他变量组合

随着进一步验证，该工具最终将帮助肿瘤学家更好地识别可能受益于ICB的患者，这些患者需要生物标志物

在治疗之前，识别出ICB对其无效的患者可以减少不必要的费用和潜在的副作用

这也可能表明需要寻求替代策略，如联合治疗

“知道患者最适合哪种治疗方式很重要，”博士说

克利夫兰诊所免疫治疗和精确免疫肿瘤中心主任陈

“此外，了解谁回应谁不回应，可以让你知道下一步的目标是什么，因为这些都是阻碍回应的因素

我们的模型全面了解了患者对免疫检查点阻断反应的多样性

这是第一次集合如此大规模的临床和基因组变量，对多种癌症类型的免疫治疗具有预测价值

" 免疫治疗反应的复杂性免疫检查点途径是抑制性细胞表面信号蛋白，如程序性细胞死亡受体/配体1 (PD-1/PD-L1)和细胞毒性T淋巴细胞相关分子4及其配体(CTLA-4/B7-1/B7-2)，它们协同工作下调T细胞介导的免疫原性，从而维持自身耐受性并保护免受附带组织损伤

癌细胞已经进化出多种机制来避免免疫攻击，包括上调负调节通路，通过抑制肿瘤微环境中的T细胞功能来利用免疫检查点

最近ICB作为一种恢复抗肿瘤免疫监视的策略的出现是癌症治疗的一个重大进步

针对CTLA-4或PD-1/PD-L1的抗体——最常见的检查点目标——已经在一些晚期癌症患者中诱导了持久的反应

然而，ICB并不是对所有类型的癌症都有效，即使在有反应的癌症中，有效率也不超过50%，这意味着一半或更多的患者没有获得临床益处

这些患者在经历疾病进展的同时，也承受着巨大的费用；例如，抗PD-1单克隆抗体pembrolizumab的标价每疗程超过10，000美元

先前的研究已经确定了一些与ICB疗效相关的生物标志物和基因组特征

但是没有一个因素可以被认为是治疗结果的最佳预测因子

“有一个很大的推动，试图了解是什么驱动免疫疗法的反应，”博士说

陈在抵达克利夫兰诊所之前，他在纪念斯隆凯特林的实验室在这一领域有了基础性的发现，包括免疫检查点抑制剂最终针对肿瘤中产生的体细胞突变的发现

“这一发现引发了全世界研究这些新抗原的重大活动，”他说

“但事实证明，变异负荷只是故事的一部分

我们的最新研究是一个无偏见的全球分析，寻找所有可能影响免疫检查点封锁反应的不同因素

" 应用机器学习机器学习方法已经被证明能够从多个看似不相关的变量中产生可靠的结果预测

博士；医生

Chan和他的同事决定将它应用于预测免疫检查点阻断功效的问题

机器学习是一种通过统计和与已知事件的比较来编程计算机执行复杂任务的方法

编程算法指导计算机对大型、多样的数据集进行审查，目标是识别模式并使用它们来预测结果或得出结论

最初，计算机程序(称为分类器)使用训练数据集进行学习

它提取和分类信息

通过反复的试错经验，将其结果与正确结果的例子进行比较，分类器推断出如何一致地得出准确的答案，从而在没有程序员明确指示的情况下提高其预测能力

然后，它可以将学到的经验应用于新的非结构化数据集

博士；医生

Chan和他的同事首先收集了一个数据集，其中包含了1479名患者的临床、肿瘤和基因测序信息，这些患者有16种不同的癌症类型:非小细胞肺癌(36%)、黑色素瘤(13%)、肾(6%)、膀胱(6%)、头颈部(5%)、肉瘤(5%)、子宫内膜癌(4%)、胃癌(4%)、肝胆癌(4%)、小细胞肺癌(3%)、结直肠癌(3%)、食管(3%)、胰腺(2%)、间皮瘤(2%)、卵巢(2%)和乳腺(2%)

患者接受了PD-1/PD-L1抑制剂、CTLA-4阻断或两者结合的治疗

总共有409名患者(28%)对ICB有部分或完全反应；1，070人(72%)无反应，这意味着他们经历了稳定或进行性疾病

研究人员随后应用了一种被称为随机森林的算法，这种方法由多个独立的决策树组成，这些决策树一起工作来提高程序的预测精度

他们的随机森林分类器纳入了16个基因组、分子、临床和人口统计学变量，其中一些变量已被证明与ICB反应相关

变量为肿瘤突变负荷、拷贝数改变分数、人类白细胞抗原I类(HLA-I)进化差异、HLA-I杂合性状态丢失、微卫星不稳定状态、血液中性粒细胞与淋巴细胞比率、ICB治疗开始时的肿瘤分期、ICB药物类型、体重指数、性别、ICB治疗开始时的年龄、癌症类型、患者在ICB之前是否接受过化疗以及白蛋白、血小板和血红蛋白的血液水平

研究人员改进了他们的分类器，将其应用于原始数据集的随机训练子样本，然后在第二个子样本上测试其预测能力

基于16个选定的临床、分子、人口统计和基因组因素的综合预测能力，训练的分类器可以提供个体患者对ICB反应概率的癌症特异性预测

它还可以量化这些因素中的每一个在多大程度上导致了患者反应的差异

分类器显示，对ICB反应影响最大的变量是肿瘤突变负荷，紧随其后的是患者的化疗史

令人惊讶的是，包含在分类器中的三种选定的血液标记物——白蛋白、血小板和血红蛋白水平——也具有很强的预测价值，不仅可以预测患者的总生存期(正如一些先前的研究所确定的)，还可以预测ICB治疗本身的实际影像学反应

“我们没有预料到这些因素中的一些实际上对肿瘤缩小很重要，”Dr

陈说

“发现白蛋白水平在否

3令人惊讶

这些变量如何协同工作才是关键

这个模型表明，我们正朝着临床使用的多因素列线图发展，而不是单一的预测性生物标志物

" 判断模型的性能为了衡量他们的模型表现如何

Chan和他的同事将其预测与另外两种预测工具进行了比较: 肿瘤突变负荷，FDA于2020年批准作为预测实体瘤中抗PD-1 ICB疗效的生物标志物

研究人员创建的第二个随机森林分类器保留了原始模型中的11个ICB反应相关变量(肿瘤突变负担、拷贝数改变分数、HLA-I进化差异、HLA-I杂合性状态丢失、微卫星不稳定性状态、中性粒细胞与淋巴细胞比率、身体质量指数、性别、年龄、肿瘤分期和ICB药物类别)，但消除了5个临床变量(癌症类型、化疗史以及白蛋白、血红蛋白和血小板水平) 最初的完全整合模型被证明是高度准确的，在预测所有癌症类型的ICB应答者和无应答者方面，显著优于肿瘤突变负荷和减少变量模型

完全整合模型对无进展生存期和总生存期的预测明显比肿瘤突变负荷或变量减少模型更准确

单独测试时，原始模型中的单个变量都无法与完全集成模型的预测能力相匹配，这向研究人员表明，这些因素正在以非线性方式组合，以达到其准确性

“尽管正在评估哪种类型的癌症，该模型运行良好，这表明这些共性才是重要的，”Dr

陈说

“这些是影响ICB反应的主要因素

对于不同的癌症，这些因素的权重可能会有所不同，但这几乎就像是“预测反应的通用语言”

与单独的肿瘤突变负荷相比，完全整合的模型在敏感性、特异性、准确性以及阳性和阴性预测值方面表现更好

该模型对肿瘤突变负荷的预测优势在涉及低突变负荷肿瘤患者的治疗决策中可能特别重要

“有些疾病类型，如肉瘤、膀胱癌或更罕见的肿瘤，医生并没有真正的能力来检测哪些患者可能是特殊的免疫治疗反应者，”Dr

陈说

该模型扩展了突变负荷的预测值

因此，我们也许能够找到一些患者群体，他们今天不会接受免疫疗法治疗，但实际上可能能够利用他们自己并取得一些成功