◎“我自己觉得,泛泛地去谈医疗大健康或大模型,实际上是很大的问题。我更倾向于做垂直大模型,就解决一件事儿,这样才有价值。”
◎“我理解的‘科学家精神’就是钻研科学规律,探索科学真理,实事求是地去了解客观。”
每经记者 林姿辰 每经编辑 董兴生
“人生的抉择是非常重要的。(我的人生至此经历了三次抉择:)第一次是给沃森写信,相信人类一定要破译遗传密码,此后参加了中国的人类基因组研究;第二次是对人类基因组序列组装后发现,编码蛋白质的基因组序列只占人类基因组的一小部分(不超过5%),从而率先开展了非编码研究;第三次,就是我最近参与学习、研究和推动大模型。”
说出这段话的,是今年已经83岁的陈润生。在网络上搜索他的名字,“中国科学院院士”“国际欧亚科学院院士”“中国生物信息学研究第一人”等词条依次跳出,暗示着这是一位“老派”科学家。但在以Z世代为主要用户的B站上,一则由陈润生主讲的短视频——“人类能用基因技术编辑出‘完美生物’吗”,播放量破万次。
AI(人工智能)发展日新月异的今天,年轻人对生物信息学更感兴趣了,陈润生也在紧追“潮流”。近日,在北京翊博生物集团有限公司(简称“翊博生物”)参与主办的“北京CGT新势发布会”上,《每日经济新闻》记者与陈润生展开对话,走近了他心中的生物信息学和未来世界。
陈润生是中国最早从事理论生物学、生物信息学以及非编码RNA研究的科研人员之一,他主动给诺贝尔奖获得者詹姆斯•杜威•沃森和中国科学院院士吴旻写信、参与人类基因组计划工作的经历是科学界的一段佳话。
生物信息学是以生物学、数学和信息科学为基础的交叉科学,通过综合运用数学和信息科学等多领域的方法和工具对生物信息进行获取、加工、存储、分析和解释,来阐明大量生物数据所包含的生物学意义,研究重点主要是基因组学和蛋白质组学,直逼人类基因深处的秘密。
在医疗科技助力下,生物信息学正以惊人的速度发展。即便是对这位老教授而言,2023年也是令他眼花缭乱的:
2023年7月31日,谷歌发布首个全科医疗大模型,懂临床语言、懂影像,也懂基因组学;
2023年10月2日,诺贝尔生理学或医学奖获奖名单公布,获奖者卡塔琳•卡里科(Katalin Karikó)、德鲁•魏斯曼(Drew Weissman)在核苷酸碱基修饰方面的发现,使mRNA疫苗能够研制成功;
2023年11月,全球首个CRISPR/Cas9基因编辑疗法Casgevy在英国获有条件上市,用于治疗镰状细胞病(SCD)和输血依赖性β地中海贫血(TDT)
......
不过,在陈润生看来,生物信息学的重要问题并无变化,仍是多组学分析。尤其是进入大数据时代,来自分子水平的数据,包括单细胞的多组学数据,依然是目前生物信息学要分析的重要方向。当前,学界关注的重要趋势,是单细胞转录组和空间转录组等多组学分析,其中单细胞转录组能明确每个细胞与疾病间的关联;空间转录组则是确定多个基因在不同细胞类型、不同组织类型和不同发育阶段中的表达,明确运作机制。
“我自己觉得,整个生物信息学越来越重要,它会渗透在整个未来生物医学发展的方方面面。”陈润生告诉记者。但他也承认,这个过程可能要面临安全性和有效性的平衡,或者说政策和技术的平衡。以基因编辑为例,在未来生物技术中,基因编辑也绝对是有效的、独特的、前沿的技术,但最重要的问题是它的安全性,在使用中一定要建立标准、共识和法规。
“基因编辑一般在单个细胞进行,改了一个细胞之后复制的细胞就都变了,所以原则来讲应该100%有效才行;如果99%有效,那么它后续的效果是应当值得斟酌的。”陈润生说。
另外,还有一系列技术问题亟待解决。目前,基因编辑只能定点解决一个DNA或RNA的问题,应用范围相对较窄,比如Casgevy获批的两项适应症均为单基因罕见病,对于上亿个细胞发生变异的肿瘤疾病,基因编辑目前还无能为力。
“过去可能认为人工智能超过人是科幻,但现在看也变成科学了。”
陈润生的感慨与2023年发生的另一大事件——ChatGPT横空出世有关。随着学科的发展,越来越多的数据需要分析,人工智能成为一个重要手段,其中以ChatGPT为代表的大语言模型的出现,为数据分析带来革命性的影响。
陈润生认为,这是因为大模型带来了两个变化:一是解决了自然语言的识别问题,“计算机可以读书了”;二是实现多模态的融合,从原来只会“下棋”的专家变成“杂家”。
“大模型是在原来AI基础上的提高,这个提高最核心的问题就是它能像人一样学习自然语言。一个计算机读书是没有限制的,所以它跟任何一个个体比,绝对是超过你的。”
陈润生 图片来源:受访者供图
比如,过去陈润生参与的人类基因组计划的DNA序列拼接、组装和功能元件识别的方法研究,需要大量人工计算、资料整理。但大模型的出现使得转录组、表观组和蛋白组的信息整合成为可能。而在创新药物研发领域,无论是英国上市AI制药公司Benevolent AI的AI增强大模型,还是2021年国内发布的华为云盘古药物分子大模型,都是人工智能辅助药物设计的工具。
目前,陈润生团队也开发了一个医学多模态数据智能整合计算平台——灵枢,能够将当前生物医药的大数据整合在一个大模型中。陈润生表示,团队正在探索性地将中医药相关数据整合到该模型中,希望实现“中西医结合”,为疾病治疗带来更大的益处。
“用专业的数据把大模型训练成一个特化的‘脑子’,仍然是当前大模型给各个领域提供的一个很好的工具,灵枢就是希望用中医的知识建立这样一个特化的模型。”陈润生说。
不过,新事物也带来新挑战。当前的大模型提出了一系列具有挑战性且十分尖锐的问题,即人工智能能否超过人脑(自然智能),什么时候超过,超过之后的社会结构、组织形式该如何运转?陈润生认为,这才是本次大模型的核心争论,这个争论不仅涉及科学、产业,更重要的是对整个社会造成的冲击。
另外,精准医学发展是国家间科技竞争的一大关键,大模型的出现可能会导致进一步的知识垄断。从长远看,发展隶属于国家、为未来发展服务的国家级大模型是必要的,而如何保证学术交流与本国资源保护也需要谨慎平衡,需根据某些共识和规则做决定。“但需要注意,这种抉择是一种科学的抉择,不可以一拍脑袋就画死了线。”陈润生说。
2023年5月25日,中国互联网医疗公司医联发布了在研的医疗大语言模型“MedGPT”,整合了超过1000多种医疗模块,预计在2023年底可覆盖80%病种的就诊需求;同年12月,蚂蚁集团正式开源国内首个医疗专科推理数据集,意在提升大模型在医疗领域的专业性。
由此,业内对医疗大模型“泛化”和“垂直”的讨论持续不断,陈润生更支持后者。
“我自己觉得,泛泛地去谈医疗大健康或大模型,实际上是很大的问题。我更倾向于做垂直大模型,就解决一件事儿,这样才有价值。”
陈润生的考虑依据是,在技术条件不变的前提下,医疗大模型的好坏是由积累数据数量决定的,而服务于临床的大模型之所以难做,主要是数据比较难收集。一方面,像金融等行业一样,医学领域数据面临隐私保护问题;另一方面,医疗过程涉及临床检验、诊断等多个环节,做一个全覆盖的泛医疗大模型,效果很难理想,倒不如聚焦某一环节做扎实。
但话说回来,数据收集还不是最难的环节。“最难的并不是说谁有什么数据,谁有什么模型,难的是要有一组人能够确切地、客观地了解信息学和生物学两个方面”,这组人也就是业内所称的“复合型人才”。
陈润生告诉《每日经济新闻》记者,大模型为多组学分析提供平台,实际上是搭建了一个复杂的神经网络,就像人类储存知识取决于每个神经元的阈值,以及神经元与神经元间连接的权,每有一次知识输入,这两个参数都会发生变化。当知识反复输入,而两个参数不再发生变化时,就意味着达到“学会了”的状态。而大模型学习、存储知识的过程也与此类似,技术人员可以按照这一规律先后拿基因组数据、转录组数据、蛋白组数据训练大模型,最终让复杂网络实现多组学数据的相互作用,也就是多模态融合。
图片来源:视觉中国-VCG11385119793
不过,在实践过程中,如何填平结构网络技术人员与生物信息学研究人员之间的认知Gap(差距),还是国内外企业共同面临的难题,而这也促成了具有资源整合优势的头部科技企业的成功,比如OpenAI和Google。
与此形成鲜明对比的,是国内的“百模大战”。去年11月15日,百度董事长兼首席执行官李彦宏在深圳西丽湖论坛上表示,国内已经发布了238个大模型。这意味着,在进入2023年的两百多天里,平均每天都有一个大模型问世,但基于大模型开发出来的AI原生应用却非常少。
陈润生也关注到了这一现象,并且表现出明确反对态度。他认为,那么多大模型更像是一种噱头,一味宣传数量带来的只是进一步内卷,最终导致人力和资源浪费。相应的部门应当考虑这些大模型之间的协同与整合问题,“‘各自为战’效率肯定是低的”。
无论在大模型等工具层面,还是在基因编辑、细胞治疗等创新技术、具体疗法的创新适应症上,中国企业的身影并不多,但中国是生物信息学基础研究大国。
根据第三方平台“科研猫”统计数据,2021年,全球生物信息学类发表期刊文章超过6700篇,来自中国科学家的论文数量超过4600篇,其中来自内地的共4518篇,占比超66%,数量和占比远超欧美发达国家。
过去,许多论文发表后被束之高阁,成果转化的路并不顺畅,陈润生对此深有体会。“以前脑子里没这个概念,科学家发了Paper(论文),发现某个靶点与肿瘤有关,但不会想到要把它变成一个药,走不过这一步,所以我们没法在成果端看到。”
如何补齐这一差距?陈润生认为,最重要的是要建立一套更有效的转化机制,最好是在大学内部有专利团队、法律团队等“接口”,更便利地实现国内现有基础研究成果的转化。以美国为例,在拥有雄厚科研力量的基础上,基础研究成果的产权问题由多项法案厘清,技术转让从最初的评估到最后的收入管理,则有高水平、专业化和系统化的“一条龙”服务。
值得一提的是,虽然美国的产业化转化效率较高,但科学家创业热情似乎不大、失败率也较高。美国巴士底有限公司CEO布拉德利•拉尚接受媒体采访时曾表示,美国高校教授尝试创办的公司,往往以惊人的速度倒闭,失败率高达96%—97%,主要原因是科学家对自己领域的研究和专业知识充满热情,但缺乏管理经验;而随着公司经营受挫,技术也常常丢失。
陈润生对此已有深刻的认知。为了加快科学成果在产业上的转化速度,陈润生作为“参谋”加入了翊博生物的DC细胞(树突状细胞,目前已知的体内调节功能最强的抗原提呈细胞)前端的科研工作。陈润生表示,DC细胞是免疫系统和疾病相关免疫研究的重要领域,是公司的主要研究方向。如何让DC细胞发挥更大的作用,其对遗传密码的认知能派上用场。
“在推进科学转化时,我们更多了解到公司的运营规律,深深体到我们不适合干那个(管理),我们的角色永远是技术提供者。各取所长、分工协同,对于公司持续发展非常重要。”陈润生坦言。
而这也符合陈润生给自己的定位——一个纯粹的科学家。他认为,不管时代怎么变,科学家精神是不变的,但也要有变的东西,比如顺应发展的“四个面向”精神,要坚持面向世界科技前沿、面向经济主战场、面向国家重大需求、面向人民生命健康,不断向科学技术广度和深度进军。
另外,复合型人才的培养也是新时代提出的新命题。目前,BT(生物技术)和IT(信息技术)相结合是适应国际科学发展的明确信号和趋势,但“要产生复合型人才,必须得有复合型人才去教”,可目前国内符合条件的导师个体却比较少。陈润生认为,如果能建立一个具有融合特征的复合型导师团队,会是一条不错的探索路径。
记者手记 | 一位83岁的科学家,很“年轻”
“科学家们就是要有科学精神,要真正地、老老实实地去学知识,达到一定深度了才能从事这个领域的工作。而不是说有万能科学家,听什么都懂,实际上是做不下去的。”
“您认为的科学家精神是什么?”
“我理解的‘科学家精神’就是钻研科学规律,探索科学真理,实事求是地去了解客观。”
初见陈润生,会不自觉地被他中气十足的声音吸引,然后忘记他是一位83岁的老人。在陈润生的身上,年龄似乎真的只是一个数字。
他告诉记者,自己依然每天看书,人工智能和大模型相关知识都是一点点自学的。“不能放弃学习,这是我们做科研的基本素质。哪天不学习了,你肯定就跟不上了,这是一个自觉。”他笑着告诉记者,老了跟不上潮流很正常,但只要想跟上潮流,就必须强迫自己学习。
当然,这也是为了和年轻人交流。36年来,陈润生一直坚持在中国科学院讲授生物信息学,能容纳千人的礼堂经常座无虚席,不论专业是“数理化”还是“天地生”,研究生院的学生几乎都去听过陈润生的课。这是一种令人羡慕的能力和魅力。
陈润生慷慨地把其中的“秘诀”分享给记者:自己不是在讲课,而是在与听众朋友交流,以学术为基础来把方法论和感悟传承下去,“共同去了解客观”。
“你传递给人的是有用的东西,有用大家才听,大家感兴趣才听。这里面除了知识之外,就是一种态度和交流,这很重要。”陈润生说。
1本文为《每日经济新闻》原创作品。
2 未经《每日经济新闻》授权,不得以任何方式加以使用,包括但不限于转载、摘编、复制或建立镜像等,违者必究。