11月25日,由创业黑马主办的“第15届创业家年会”在北京举办,年会主题为“AI给世界一个确定性”。会上,百图生科CEO刘维,以《AI+生物医药:能与不能》为主题发表了演讲。
刘维在演讲中表示,泛生命科学领域具有高价值、大市场、强本质、快节奏几大特点,有非常广阔的空间值得探索。经过百图生科的三年发展,他坚信生命科学大模型可以走通,也非常鼓励大家进入这个领域。
以下为创业家&i黑马编辑过的演讲节选:
大家好!2017年我有幸被评为“十大投资家”。历经五年,我回来了。我对这几年的总结是,一入创业深似海。三年前,我离开了从事20年的投资行业,跟百度创始人李彦宏一起成立了百图生科,全职创业。
三年前,我们做了世界上第一个生命科学的基础大模型。当时行业不认可,很多人问我们,抄的是美国哪个公司?我们说,这是用氨基酸语言去做建模,当时美国还没有这样的。大家说,美国都没有,咱们做不了,别做了。但我和李彦宏想做一件敢为人先的事情。
我们构建了世界上第一个千亿参数的生命科学的基础大模型,基于此取得了40多个不同领域的世界第一,打破了AlphaGo在蛋白质结构预测领域的记录。更重要是,在多个缺乏生命科学数据的领域,我们证明了大模型的力量。基于这个平台,我们也找到了很多靶点药物、新型基因疗法,再到合成生物学的碳捕获蛋白、降解塑料的新型生物酶等,也就是生物界不存在的蛋白质和生命体,我们开始迈向“设计生命”。
今年我们终于在商业化迈出了一步,跟30多家国际大型To B公司达成合作,代表性案例是跟赛诺菲全球签订了全球第一个超过10亿美金的生命科学大模型服务。国际大药厂为创业公司做的资产买单,而且达到了高达10亿美元的金额。我们有很多客户是分成模式,可以分到他们设计产品高达30%乃至50%的收益。这些都算是初步证明了生命科学大模型可以做,可以得到伙伴的认可。但这只是第一个小小的闭环,我们离真正帮客户做出能通过临床审批的药物、能走进千家万户的合成生物学产品,还有很远的距离。
在此之前,得到各位的支持,让我获得创业家的奖项,对我来说都有很重要的意义,因为我们要走的路还很长。这三年下来,我们坚信生命科学大模型可以走通,也非常鼓励大家进入这个领域。
为什么是生物医药?我们说的不是狭义的医药,像碳捕获蛋白、塑料降解酶,实际上是蛋白质。氨基酸是构成生命体的基本元素,我们在进化树中找到了很多,但进化树中失去的更多。我们做基因疗法系统,跳出如今常见的几种病毒,在一个类似病毒的新形态里做基因疗法。现存人类进化树上看到的氨基酸,只占地球上出现过的生物的亿万分之一,在自然界已知的是很少的部分。从这个角度讲,泛生命科学领域还有很广阔的空间值得探索。
为什么我们选择了这个领域?因为在过去十多年的投资生涯中,我发现这个领域的前沿研发有几个非常好的特点。
第一,高价值。
目前通过早期的生命科学模型,能够从大药企拿到几千万,未来的远期交易可以达到几亿、几十亿美金。原因是,一个成功的药物和生命科学的设计价值非常高,能够依靠专利保护和全世界人民的需求获得高价值。
第二,大市场。
不仅是总体量大,而且有千奇百怪、五花八门的需求。过去十年,生命科学进入到了一个新的方法学、新的设计大爆发的阶段。几年前mRNA还是一个概念,现在已经爆发了。小分子药物主导了40年,传统抗体药物主导了20年,过去短短十年内各种新型的概念、平台层出不穷。据不完全统计,科学界有50到100个具有高价值的发现。
第三,强本质。
我们用AI改造各行各业,但很多技术改变带来的增量不是这个行业唯一的本质,甚至不是强本质。例如,用AI打造智能城市时,不可能因为有这个能力而自己建立一座城市,而且整体效率要经过漫长的价值链条传导。但生命科学不一样,生命科学在早期发现阶段,就是建立在一个专利上、一个序列里。人体有20种氨基酸,一个蛋白质短则几百个、长则几千个氨基酸,就算是20的4000次方,这是一个巨大的数字。只要找到一个,就具备了高价值。一旦找到,后面的临床试验、研发、商业销售,都有人去接力。但前提是,前沿研发能做出别人做不出来的东西,我们叫强本质。AI最好的地方是数据入、数据出,在这种强本质中,AI模型的价值可以发挥得更高。
第四,快节奏。
药物的实验周期、临床周期很长,但我们做生命科学的研发和AI,不一定要背负端到端都做出来的重担。如果你的研发足够创新,行业就愿意拥抱你,愿意在早期阶段给你交接棒。我们的观察是,如果设计出一个科学界有兴趣但工业界找不到方法的新东西,比如新型的基因疗法、难成药的靶点、新型蛋白质、新型酶等,跟下游伙伴交接棒的周期,一般就是几个月到一两年时间。也就是说,只要早期阶段完成设计和初步验证,后面就有充足的人接走,并且投入资源。
此外,生物实验的节奏在过去十年也不断加快,这也是驱动我创立这家公司的重要原因。我们之前做了生命体的”读“和”写“的技术,”读“基于蛋白组学的快速发展,让我们有了海量的技术。”写“的技术发展,使我们以很高的准确率打印出来。我们内部叫蛋白打印机,就是预测出一个序列,用无细胞合成技术,几个小时就能打印出来。打印以后,再进行高通量的物质世界的测试,完成数据循环返回。当然是部分场景,有些场景还不行,但我相信这样的技术趋势已经很明显了。传统药物研发不需要这么快的节奏,但在如今AI驱动的闭环下变快了。这个循环正在形成,迭代节奏会越来越快。
过去十到二十年,基于生物信息学的统计分析已经是主流了,因为生物行业现在非常多地依赖测序和数字化技术。如果没有生物信息,以及引入一些AI方法,是无以为继的。但它也有局限性,它的基本逻辑是做对比分析、做降维。比如常见的队列研究,找出患病和没有患病的,通过降维和比较分析去看这类基因组有什么差异。比较出来的结果,一是适合强标签差异,比如某个基因突变,但如果是复杂的网络型变化,它就找不到了;第二,在降维过程中要丢掉大量信息。
在过去几年内,以深度学习的任务模型为主的AI公司在快速发展,它们使用了更多更好的深度学习网络,从而能够对更复杂的数据进行处理。我作投资人时,投了很多这类公司,发展普遍不错。
为什么我们有决心再做一家公司?因为看到了前述这些公司的局限。他们利用任务模型AI的方式,更适合在任务数据充沛的领域,去训练任务模型,从而加速和改造。导致的结果是,他们所做的更多是加速药物的研发,或者在能做药的领域做局部提升。
但是生命科学,尤其是前沿领域,它的高价值在于大家找不到的东西。很多难成药靶点之所以是难成药,就是在各种筛选平台一个分子也没有。这种情况下,传统AI怎么建模呢?2020年GPT的出现,让我们看到了大模型对于弱关联数据的价值。在高维空间,我们可以在语言上找到很多规律。这里说的语言,是氨基酸语言。
生命科学在过去十年积累了庞大的水位差,也就是它的泛关联数据在海量爆发。我们内部冲刺1万次级别的数据点,这些数据有一部分是上万平米的高通量实验室自产,更多则来自行业数据的聚合。在过去十年有上亿篇的论文和专利,利用各种前沿生物信息学技术把动物、植物、微生物、古生物、人类的各种变化、各种疾病以各种不同的方式去测量,这些测量都有误差和噪音,并且对不齐。但对于大语言模型来说,这是非常好的语料。大语言模型利用数据水位差、利用弱关联数据赋能缺乏数据的特定靶点,让难成药在高维空间里不再难成。
LV5是我们正在从事的,也就是大模型驱动的前沿闭环系统。比如要设计一个正20面体的蛋白时,传统的筛选方法筛不出来,传统CAD也没办法做模拟。怎么利用大模型的逻辑去生成、去验证?通过高通量的实验室,所见所得的打印闭环,通过几个轮次的迭代,就有机会找到这样的设计产物,这是我们目前正在做的事。
生物信息的采集、新型组学、新型高通量的数据,能不能直接进入到大模型中呢?预测结果是,通过高通量的打印系统,不是针对某个特定问题迭代,而是针对全体人类去动态迭代,实现大规模的涌现和迭代。这样的系统在未来五到十年会渐渐成为可能,而显著代替今天以单项目迭代、串行参数优化、人脑迭代为主的系统,实现对状态和空间的探索。20的4000次方,虽然非常庞大,如果用所有力量去探索,在可预见的时间内,可以把大部分探索出来。
回到今天的主题“能与不能”,我们已经证明了LV4阶段可行,即利用数据对传统AI无法预测或预测不准的领域做建模。我们怎么在不长的时间内,对40多个生命科学的任务模型做建模呢?就是利用大模型对蛋白质底层进行编码。我们希望创造巨大的商业价值,相信未来有LV5批量涌现的一天。确定性在不在我们公司,我不知道。但我对行业的确定性,抱有很大的信心。
我们做AIGC,现在是近海,我们希望走到远海的未知海域,去找进化树上不存在但能帮人类显著改变生产、生活、生命的东西。希望大家继续支持我们,在创业家大会20年的时候再回来。
扫描下方二维码
报名参加黑马AIGC产业大课
↓↓↓