Sorry, this entry is only available in CN. For the sake of viewer convenience, the content is shown below in the alternative language. You may click the link to switch the active language.

 

光明图片/视觉中国

 

光明图片/视觉中国

 

光明图片/视觉中国

 

分子时代,科学家发现蛋白质的种类、含量、性质、结构、时空定位以及动态变化与生命健康息息相关,是疾病发生最基础的元素。细胞内外有无数的蛋白质“机器”,它们总是处于动态运作之中,指示着当前生命体的健康状态和疾病进展情况。如果能够通过技术对蛋白质的即时状态进行测量,我们就有可能探索疾病发生、发展的规律,并开发更加有效的治疗方法。

1 “暗物质”蛋白质世界:生在基因,命在蛋白

提到生命科学,大家可能对基因更为熟悉,而对相对年轻的蛋白质科学则鲜有了解。事实上,虽然基因谱写了生命的蓝图,但其仅是一维的线性序列。基因通过转录翻译,表达为蛋白质,才组成了三维世界的动态生命体。如毛虫化蝶、蝌蚪变蛙,其个体基因不曾改变;一个人从出生到死亡,基因组也基本保持稳定。这些生命过程的改变,背后是无数蛋白质的动态驱动。中国科学院院士贺福初教授有句话总结得好,“生在基因,命在蛋白”。

在一维空间,永远无法理解三维空间的复杂性。相较而言,蛋白质的复杂性要比基因高出许多。首先,一种基因可以表达成多种蛋白质;其次,蛋白质会像变形金刚一样不断在时空中发生变化;此外,蛋白质处于不断的生成和降解的平衡中,有多种多样的翻译后修饰变体,且能组成复杂的复合物,等等。

人体到底有多少种蛋白质?据估计,已知的至少有两万种,预测至少有16万种以上。加之多个蛋白质构成的不同变体及修饰,蛋白质的种类可能超过千万。

而蛋白质组又是什么?蛋白质组的概念最早在1994年被提出,被定义为“由一个基因组所表达的所有蛋白质”。

蛋白质组学研究面临多大的挑战呢?若想在一个成年人体内找到某个蛋白质,就如在千万条江河中寻找一滴水。在某种意义上,每一个人体都可以视作由蛋白质机器为主构成的“蛋白质宇宙”。由于研究难度太高、需要复杂的技术手段等种种因素,我们对人体的蛋白质宇宙知之甚少,这个领域是生命科学中最前沿、最有挑战性的方向之一。

据估计,目前95%以上的人类蛋白质组功能研究都聚焦于约5000种研究较多的人类蛋白质,而人体内还存在着一个巨大的“暗物质”蛋白质世界——这些没有或者很少被研究的蛋白质越来越无人问津;而事实上,这些功能未知的蛋白质可能掌握着打开解决人类重大疾病的钥匙,如癌症、阿尔兹海默症以及多种罕见病。

如今,在世界主要发达国家,科技界和产业界已经逐渐认识到蛋白质组的重要性。2018年,我国科技部组织遴选了一批国际大科学计划培育项目,由贺福初教授领导的“人类蛋白质组计划2.0暨蛋白质组驱动的精准医学”项目是首批启动的三个项目之一。2022年2月2日,美国总统拜登重启了奥巴马时代的“癌症登月计划”,而蛋白质组正是这个项目的最重要的方向之一。就在不久前,包括我国科学家在内的六国科学家也在世界范围内联合发起了一项“未充分研究的蛋白质”调查,并在国际学术期刊《自然》的系列子刊上发表了关于该调查的文章,呼吁更多研究人员和科学家加入该项研究,解密那些未知的“暗物质”蛋白质世界,不断扩大人类对生命活动认知的边界。

2 蛋白质组+AI:新技术破解疾病治疗“密码”

来源于人类、动物、植物、微生物等的标本,不管是液态的血液、尿液、眼泪、脑脊液、唾液,还是固态的、手术切除的冰冻或石蜡组织,甚至是一些特殊样品,如头发、牙齿、指甲、骨骼、粪便,都含有丰富的蛋白质。但它们含有多少种蛋白质?每一种蛋白质表达有多少?绝大部分是未知的,而这些未知的蛋白质组信息和疾病的诊断及治疗息息相关。

如果我们能尽可能多地采集到样本中的蛋白质组信息,是否可以结合AI分析其中的规律,从而加深人类对疾病的理解、掌握治疗疾病的“密码”呢?这是生命科学一个未知的领域。

现阶段已积累的微观世界,尤其是蛋白质组的数据还非常少,因为解析蛋白质组数据依赖于非常复杂的技术,这些技术在过去5年内才开始比较迅猛地迭代发展。如今,我们有了一些新技术,可用于分析极微量样本的蛋白质组。例如,我们能实现0.1mg组织中数千蛋白质的提取分析,其组织大小仅相当于半颗小米粒。这样的话,即使样品十分有限,我们也可以通过多次全蛋白质组分析测到数千甚至上万种蛋白质,并可实现快速深入、高通量、高重现性检测;而且得到的蛋白质数据可以永久保存、在未来反复分析和挖掘。

同时,虽然我们看不到蛋白质的形态,但可通过AI计算预测其形态模型,使之在我们眼前呈现。这些可视化的模型直观地展现了蛋白质的多样性,正如宏观世界中形态各异的各种物体。

这样的方法,将来也有望用于疾病的诊断和治疗。现在,通过AI技术对常规的医学检查图像(包括B超、CT、病理图像等),以及实验室生化检测的数据文本(如血、尿、粪的生化检测数据),进行智能分析,已经可以用来辅助疾病诊断和治疗。

但是这些数据都是宏观层面,旨在分辨病理表型,对探究疾病发生的机理,始终如隔靴搔痒、雾里看花。而溯本求源,微观层面的分子的性质和功能,才是真正的决定因素。这样的分子数据的集合,我们称为多组学数据,包括基因组、转录组、蛋白质组、代谢组等等。其中最核心的是蛋白质组,几乎所有药物的靶点都是蛋白质。蛋白质组也能更直接地反映疾病的发生发展状态。通过现今的蛋白质组学技术大量临床样品,积累海量蛋白质组大数据后,结合其他组学的数据,经AI整合可以更精准地找到更多潜在的生物标记物。

3 蛋白质+AI:正在疾病诊断领域崭露头角

如今,蛋白质+AI的研究正在进行中,也取得了一些突破性进展。

例如,我们尝试发挥蛋白质+AI的优势,让甲状腺结节诊断变得更加精准。甲状腺形如蝴蝶,是人体最大的内分泌器官之一。有些人把它称为人体新陈代谢的CEO,影响各个器官。它接受来自大脑的信息,调控甲状腺素的分泌,这个激素会调控五脏六腑,也控制肌肉力量、情绪,对人体非常重要。数据显示,成年人中大概有一半的人患有甲状腺结节(其中多数是良性结节)。从性别上看,女性甲状腺结节的患病率高于男性,大约是男性的3~5倍。从年龄上看,20~55岁是甲状腺结节高发的年龄段。

在临床实践中,10%~30%的甲状腺结节是无法在术前精确诊断的。这一诊断准确度也取决于医生较为主观的临床经验,不同的医生可能会对同一个结节的良恶性有不同的判断。难以诊断的甲状腺结节的判断有多种辅助检测的方法,基于基因水平的诊断在西方国家被广泛接受。然而,基因检测准确率并不是很高,因为甲状腺结节的基因突变总体比较少,且存在个体差异,mRNA相对来说又不太稳定,检测的难度较高。美国的一些实验室与公司开发了基因测序试剂盒,通过较为成熟的基因测序辅助判断结节的良恶性。这一方法的灵敏度达83%~100%,但是特异性只有10%~52%。这意味着,如果是恶性,基本可以检测出来,几乎不会漏掉,然而,对于良性结节的诊断仍存在巨大挑战。

这种情况下,医生和患者有时会选择一切了之。这虽然堵住了发展为恶性肿瘤的可能,但也给生活带来了很多不便——切除甲状腺后的患者需要终身服用甲状腺素代替药物,因为人体其他器官无法自行合成甲状腺素,如果不服药,失衡的激素水平会引起其他继发性疾病。

而蛋白质+AI则有助于判断甲状腺结节的性质。我们科研团队与包括新加坡和中国在内的几十家医院进行合作,建立了多中心、回顾性和前瞻性的数据集,对1000多名患者的甲状腺结节样品进行蛋白质组分析,再通过AI神经网络算法进行分析,建立了由多个蛋白特征构成的AI模型,可以用于结节良恶性的评估。这些结果的准确度高达90%。而通过现实可行的产业转化,该成果预期有望应用于临床。这个例子只是精准诊断中的一个应用范式,该研究范例理论上可推广至其他病种,比如卵巢癌、大肠癌等都可以用类似的方法进行处理。

蛋白质组对疾病的诊断非常重要,最新的蛋白质组技术越来越多地应用于临床生物标志物的发现。未来,我们会继续和临床医生、计算机科学家一起开发基于蛋白质组的大数据,进行人工智能分析的诊断筛查新模式。当然,蛋白质组只是所有测量中的一部分,我们还可以结合多组学,结合临床图像和病人临床数据建立综合模型,为健康生活提供更多保障。

(作者:郭天南,系西湖大学特聘研究员;孙耀庭、梁潇,系该校博士生)

来源于 光明日报