AI如何赋能生命科学:用“万能函数”表征生命
【导(dǎo)语(yǔ)】在(zài)探(tàn)索(suǒ)生(shēng)命(mìng)的(de)奥(ào)秘(mì)与(yǔ)复(fù)杂(zá)性(xìng)的(de)征(zhēng)途(tú)中(zhōng),人(rén)工(gōng)智(zhì)能(néng)(AI)正(zhèng)逐(zhú)渐(jiàn)成(chéng)为(wèi)科(kē)学(xué)家(jiā)们(men)的(de)强(qiáng)大(dà)盟(méng)友(you)。尽(jǐn)管(guǎn)生(shēng)命(mìng)系(xì)统(tǒng)精(jīng)妙(miào)复(fù)杂,但AI技术有望揭示其背后的规律。7月28日,世界人工智能大会(WAIC)“AI赋能生命科学论坛”汇聚了众多顶尖学者,共同探讨如何利用AI将海量的生物数据转化为可理解、可预测的生命模型。面对数据鸿沟、可解释性瓶颈及虚拟与现实的鸿沟,科学家们正通过调整和创新数据、算法等方面的工作,力求让AI在生命科学领域发挥更大的作用,为疾病的预防与治疗开辟新的道路。
·要让AI在这个问题上有“用武之地”,还需(xū)要(yào)科(kē)学(xué)家(jiā)在(zài)数(shù)据(jù)、算(suàn)法(fǎ)等(děng)方(fāng)面(miàn)做(zuò)大(dà)量(liàng)的(de)调(diào)整(zhěng)和(hé)创(chuàng)新(xīn)工(gōng)作(zuò)。
生(shēng)命(mìng)是(shì)宇(yǔ)宙(zhòu)中(zhōng)最(zuì)精(jīng)妙(miào)复(fù)杂(zá)的(de)系(xì)统(tǒng)。从(cóng)一(yī)个(gè)细(xì)胞(bāo)分(fēn)裂(liè)增(zēng)殖到37万亿细胞协同构建成一个完整的人体,其背后蕴藏的信息与规律浩如烟海。面对指数级增长的生物大数据和高度动态与非线性的生命过程,人工智能(AI)技术有望帮助科学家探寻其中的规律。
7月28日,在上海举行的世界人工智能大会(WAIC)“AI赋能生命科学论坛”上,来自中国科学院等机构的多名顶尖学者齐聚一堂,共同探讨了如何利用人工智能(AI)这一强大引擎,将离散、高维的生物数据转化为可理解、可预测、甚至可调控的生命模型。
用AI“万能函数”绘制生命地图
对自然世界进行数理建模往往要求科学家首先理解系统背后的物理或化学原理,再用微分方程等工具进行描述。以神经网络算法为基础的AI模型则提供了另一种(zhǒng)表(biǎo)征(zhēng)自然的方式:它不预设具体的规律,而是通过学习海量数据,自动发现其中隐藏的高维、非线性关联。中国科学院分子细胞科学卓越创新中心研究员、上海交通大学讲席教授陈洛南将其形容为一个“万能函数”。
生命科学的一个首要问题是构建静态表征,即为复杂的生命系统在特定时刻拍摄一张超高分辨率的“快照”,揭示基因如何调控、蛋白质如何相互作用、细胞如何互动等等过程。要让AI在这个问题上有“用武之地”,还需要科学家在数据、算法等方面做大量的调整和创新工作。
“所有的AI for life science(AI赋能生命科学),基石就是大数据。” 中国科学院院士李劲松说。大数据并不仅仅意味着“多”,统一标准、高质量的数据才是AI模型能够“洞察真相”的前提。
生命科学的核心遵循着一个“中心法则”:DNA储存遗传蓝图,通过转录形成信使RNA,再由RNA指导蛋白质的合成。蛋白质作为生命活动最主要的功能执行者,其种类、数量、位置和相互作用,决定了细胞的命运乃至整个机体的健康与疾病。李劲松院士团队提出的“基因组标签计划”(GTP),通过“类精子干细胞”技术,为小鼠所有2万多个编码蛋白质的基因逐一打上“标签”,用一个统一的框架来追踪动物实验中蛋白质发生的变化。
“未来所有这些蛋白质的研究,就可以用一个抗体的标准化研究体系来搞定,”李劲松将其比喻为生命科学研究的“北斗导航系统”。在这个系统中,每一个蛋白质都被精准“定位”,为后续所有AI分析提供了前所未有的标准化高质量数据基础。
有了标准化的数据,AI便能大显身手,绘制出更精细的“地图”。中国科学院动物研究所的李鑫研究员展示了如何构建“AI虚拟细胞”。他们将海量单细(xì)胞(bāo)数(shù)据(jù)“喂(wèi)”给(gěi)AI,让(ràng)模(mó)型(xíng)学(xué)习(xí)细(xì)胞(bāo)的(de)“语(yǔ)言(yán)”。“我(wǒ)们(men)把(bǎ)每(měi)个(gè)细(xì)胞(bāo)的(de)基(jī)因(yīn)表(biǎo)达(dá)当(dāng)成(chéng)一(yī)篇(piān)文章(zhāng),通(tōng)过(guò)自(zì)回(huí)归(guī)的(de)遮(zhē)蔽(bì)训(xun)练(liàn)去(qù)完成建模,”李鑫解释道。这好比让AI阅读了数百万篇描述细胞状态的“文章”后,学会了精准表征每一个细胞的状态。
AI能从人类难以理解的信息中“看”出规律。西安交通大学教授叶凯提出一种AI数据分析策略,将一维的基因组序列信息“升维”成二维的图像,使得原本适用于图像识别的强大AI算法(如卷积神经网络)可以直接用于分析基因组,从而在复杂的基因组结构变异检测中,捕捉到传统方法难以发现的模式。
由静到动
生命并非静止的图景,而是一部时刻演进的电影。如何从一张张“快照”中,解读出生命过程的动态规律,是AI赋能生命科学的另一个突破点。然而,AI模型虽然“万能”,虽然能输出正确的结果,但其内部复杂的参数也使其成为难以解读的“黑箱”。
要通过AI模型理解生命,就需要将它从“黑箱子变成一个白箱子”。为此,陈洛南团队提出了“时空信息转换”(STI)理论。该理论从数学上证明,一个高维度的空间状态(静态快照)可以在特定条件下映射为一个低维度的时间序列(动态电影)。这意味着,AI无需看到整个过程,仅通过分析高质量的静态数据,就有可能推演出其背后的动态演化规律。
不同于DNA,目前RNA的结构跟功能的真实测量数据还比较缺乏。深势科技研发负责人、北京科学智能研究院研究员温翰介绍了在相关理论的基础上构建的通用RNA预训练模型,通过AI模型加入“先验”知识结构和算法创新,不仅提高了在少量训练数据基础上预测RNA结构的准确性,更能模拟其在细胞内的动态行为,如调控翻译效率和稳定性。
中国科学技术大学教授刘海燕也指出,蛋白质的功能源于其动态变化。AlphaFold解决了蛋白质的静态“折叠”问题,但要设计出真正有功能的“分子(zi)机(jī)器(qì)”,就(jiù)必(bì)须(xū)理(lǐ)解(jiě)其(qí)动(dòng)态(tài)过(guò)程(chéng)。他(tā)的(de)团(tuán)队(duì)正(zhèng)致(zhì)力(lì)于(yú)通(tōng)过(guò)AI模(mó)型(xíng),预(yù)测(cè)蛋(dàn)白(bái)质(zhì)的(de)动(dòng)态(tài)学(xué)特(tè)性(xìng),甚(shén)至(zhì)设(shè)计(jì)出(chū)能(néng)在(zài)不(bù)同(tóng)状(zhuàng)态(tài)间(jiān)切(qiè)换(huàn)的(de)复(fù)杂(zá)功(gōng)能(néng)蛋(dàn)白(bái)。
导航生命,干预疾病
如果AI能够理解并预测生命的“动态电影”,那么终极目标便是成为一名“导演”,对生命过程进行智能导航与干预。
陈洛南认为,疾病的发生并非一蹴而就,而是从正常状态,经过一个难以察觉的“临界态”,最终才滑向不可逆的疾病状态。他的团队开发了能够根据患者健康数据识别出这个“临界点”的AI模型,实现“治未病”的精准导航。
浙江省肿瘤医院的程向东分享了其团队利用AI进行胃癌早筛的成果。他们训练AI模型通过解读腹部CT平扫图像来发现早期胃癌。他们的模型能(néng)将(jiāng)需(xū)要(yào)做(zuò)胃(wèi)镜(jìng)检(jiǎn)查(chá)的(de)高(gāo)危(wēi)人(rén)群(qún)从(cóng)25%浓(nóng)缩(suō)到(dào)6.2%,极(jí)大(dà)地(de)提(tí)升(shēng)了早期诊断的效率。
AI的“导航”能力不仅体现在“避开悬崖”,更体现在“开辟新路”。中国科学院微生物研究所研究员王军介绍了利用AI语言模型在浩瀚的微生物基因组中挖掘具有特定功能的“功能多肽”的研究成果。他的团队甚至能“无中生有”,设计出自然界不存在、但能让工业菌株生长速度提升30%的全新多肽。这如同为生命系统编写了新的“程序代码”,主动引导其走向我们期望的方向。
多名学者提到,AI不仅正在加速知识的发现,更在创(chuàng)造(zào)全新(xīn)的(de)研究范式,但它在生命科学中的应用仍面对多重挑战。首先是数据鸿沟,李劲松指出,高质量、标准化的数据仍是稀缺资源。其次是可解释性瓶颈,AI的“黑箱”本质意味着学者仍需关注科学研究的可解释性。最后是从虚拟到现实的鸿沟。刘海燕指出,AI设计的分子或细胞能否在真实世界中稳定存在并发挥作用,仍需大量的实验验证。
微信公众号搜索“ 新能源 ”加关注,最新环卫前沿洞察、企业动态、产品公告全面了解。推荐关注!