百度悶聲干大事
進(jìn)入到 2022 年,生物科技領(lǐng)域,動態(tài)不斷。
僅過半個月,有 4 家生物科技相關(guān)公司被同一家企業(yè)投資;不僅如此,它所投的項目在《麻省理工科技評論》(MIT Tech Review )的十大突破性發(fā)明“AI 新藥發(fā)現(xiàn)”板塊占比過半……
這些動態(tài)的背后,都離不開一家互聯(lián)網(wǎng)巨頭:百度。
對于鮮少關(guān)注醫(yī)學(xué)領(lǐng)域的人來說,很難將百度和生命科學(xué)進(jìn)行聯(lián)系,但從其近年來的種種舉措來看,在生命科學(xué)領(lǐng)域,百度正“悶聲干大事”。
百度 AI 落地的另一站
對外界而言,百度 AI 落地最廣為人知的場景在于自動駕駛領(lǐng)域,即百度 Apollo,但對于百度而言,其 AI 的野心并不止于此——對于生命科學(xué)領(lǐng)域,百度同樣想吃下;不僅因為這是一個極具前沿性的方向,而且關(guān)系到李彥宏“最初的夢想”。
大約在 20-25 年前,李彥宏就對生物信息學(xué)挖掘人體秘密充滿興趣。
早在 90 年代,李彥宏在華爾街時便申請過生物信息研究相關(guān)的工作,據(jù)說當(dāng)時已經(jīng)拿到世界頂尖生命科學(xué)研究機(jī)構(gòu)的 Merck(默克集團(tuán))的 offer。
不過,在他看來,當(dāng)時的基因測序技術(shù)還非常初級,生物數(shù)據(jù)量和數(shù)據(jù)質(zhì)量也不足以發(fā)揮計算的優(yōu)勢。
“如果那么多從事生命科學(xué)的人都不相信計算機(jī)能夠?qū)ι茖W(xué)產(chǎn)生重要影響,那么靠我一個人力量恐怕也很難推動”,李彥宏事后回憶。
后來的事情也不難得知,李彥宏回國創(chuàng)立了百度,而后百度又在 AI 上迅猛發(fā)力,并在包括智能駕駛等領(lǐng)域進(jìn)行落地實踐。
但對李彥宏來說,他始終沒有放下對生命科學(xué)的向往。李彥宏曾多次在公開場合提到計算機(jī)技術(shù)與生命科學(xué)相結(jié)合的可能性。
在他看來,基因測序是 IT 領(lǐng)域之外另一個高度契合摩爾定律的領(lǐng)域?!懊扛?18 個月,計算機(jī)的計算能力提升一倍、成本下降了一半,經(jīng)過幾十年這樣的速度發(fā)展,很多原來覺得不可能的事情變可能了”,李彥宏表示。
從基因測序的發(fā)展來看,的確如此。十幾年前,基因測序需要花費(fèi) 10 億、20 億才做出來。如今,每個人的基因測序只需花費(fèi) 1000 美元左右。
即使當(dāng)初想投身聲明科學(xué)的“夢”被暫時擱置,但在很長一段時間里,李彥宏一直在嘗試推動互聯(lián)網(wǎng)技術(shù)和生命科學(xué)的結(jié)合,曾個人捐資 3000 萬元與協(xié)和合作抗癌項目;跨界參與完成醫(yī)學(xué)研究論文等。
2020 年 5 月,李彥宏與其它學(xué)者共同研究的關(guān)于食管鱗狀細(xì)胞癌的論文在權(quán)威醫(yī)學(xué)期刊 Cell Research 雜志發(fā)表,題為《Whole-genome sequencing of 508 patients identifies key molecular features associated with poor prognosis in esophageal squamous cell carcinoma》。
除了李彥宏親自上陣的種種舉措,百度還在內(nèi)部設(shè)立了一家 VC 基金——百度風(fēng)投(Baidu Ventures),其中一大重要投資版塊便是生物智能。
據(jù)不完全統(tǒng)計,百度風(fēng)投過往投資的生物計算相關(guān)企業(yè)超過 50 家,涵蓋 AI 藥物發(fā)現(xiàn)、多組學(xué)數(shù)據(jù)、分子影像等諸多領(lǐng)域。
在多年的積累沉淀下,百度在 2020 年 1 月疫情爆發(fā)時就能夠在第一時間開放線性時間算法 LinearFold——借助這一算法,疾控部門用 10 小時便完成了四個樣本的全基因組測序。
隨后,百度研究院又推出全球首個專門優(yōu)化新冠病毒 mRNA 疫苗基因序列的高效算法 LinearDesign,可在 11 分鐘內(nèi)完成序列設(shè)計。
或許是新冠疫情的爆發(fā)讓百度更加認(rèn)識到互聯(lián)網(wǎng)技術(shù)和生命科學(xué)結(jié)合的重要性,在 2020 年 8 月,百度研究院宣布成立生物計算實驗室。
百度期望通過 AI 和計算技術(shù),深化學(xué)術(shù)界和生物制藥企業(yè)的合作,探索基因、DNA、RNA、蛋白質(zhì)分子結(jié)構(gòu)等人類生命密碼,縮短新藥研發(fā)周期,降低新藥研發(fā)成本,提升藥物和疾病匹配的精準(zhǔn)度,發(fā)現(xiàn)基因和疾病的關(guān)聯(lián)關(guān)系,從而實現(xiàn)精準(zhǔn)醫(yī)療。
僅僅過了 1 個月,百度就成立了一家名為 "百圖生科"(英文簡稱為 BioMap)的生命科學(xué)平臺公司——李彥宏作為牽頭發(fā)起人,擔(dān)任該公司的董事長,原百度風(fēng)投 CEO 劉維擔(dān)任 CEO。
雷峰網(wǎng)注:圖為劉維
值得注意的是,百圖生科成立初期,李彥宏并未以個人股東的身份出現(xiàn)。直到 2021 年 3 月,李彥宏才通過直接和間接方式持有百圖生科 40% 股份,成為名副其實的幕后掌舵人。
這意味著,在扎根互聯(lián)網(wǎng) 20 年后,百度正式向生物科學(xué)進(jìn)軍,尋求 AI 落地的另一站,而李彥宏也重新踏上了逐夢之旅。
步入無人區(qū)
“這些年,我對挖掘人體數(shù)據(jù)、探尋疾病規(guī)律、找到新藥設(shè)計的熱情一如既往”,在 2021 年的生物計算大會上,李彥宏坦言一直在密切關(guān)注生物計算行業(yè)的變化。
盡管 20 多年前未能圓夢,但隨著生物計算發(fā)展十分迅速,產(chǎn)生的大量數(shù)據(jù)(包括基因組學(xué)研究帶來的人體數(shù)據(jù)、新藥研發(fā)過程當(dāng)中所累積的知識、以及新生的各類機(jī)器學(xué)習(xí)算法等)為認(rèn)知復(fù)雜的生命系統(tǒng)打開了新的大門,也給計算技術(shù)帶來了新的用武之地。
知名咨詢公司埃森哲(Accenture)曾在預(yù)測報告中指出——到 2026 年,大數(shù)據(jù)與醫(yī)學(xué)和制藥領(lǐng)域的機(jī)器學(xué)習(xí)相結(jié)合將產(chǎn)生每年 1500 億美元的驚人價值。
可見,生物計算是一個前景遼闊的領(lǐng)地。李彥宏也堅定認(rèn)為,生物和計算的融合會帶來巨大的突破和進(jìn)步。因此,百圖生科的業(yè)務(wù)發(fā)展規(guī)劃也始終圍繞這個核心展開。
雷峰網(wǎng)了解到,百圖生科的業(yè)務(wù)發(fā)展分為兩個階段——
第一個階段:利用前沿 AI 技術(shù)構(gòu)建完整的生物計算平臺,并與提供新的數(shù)據(jù)軸和新的數(shù)據(jù)分析、藥物設(shè)計工具的初創(chuàng)企業(yè)與研究機(jī)構(gòu)攜手,構(gòu)建生物計算生態(tài),為生命科學(xué)企業(yè)和科研用戶提供豐富的工具能力和完整的解決方案,做好服務(wù)。
第二個階段:深度參與或主導(dǎo)發(fā)起新型精準(zhǔn)藥物和精準(zhǔn)診斷產(chǎn)品的研發(fā),攜手合作伙伴,為社會貢獻(xiàn)極具創(chuàng)新性的精準(zhǔn)生命科學(xué)產(chǎn)品。
不僅如此,百圖生科還計劃大力投入關(guān)鍵底層數(shù)據(jù)設(shè)備和計算技術(shù)的研發(fā),加速高通量類器官芯片、高分辨物質(zhì)觀測設(shè)備、新的組學(xué)采集分析設(shè)備、蛋白質(zhì)模擬和生物計算專用芯片的研發(fā)。
這并非易事。
僅是 AI 制藥,就需要突破三大技術(shù)門檻,包括高性能的生物計算引擎、干濕一體的生物數(shù)據(jù)生產(chǎn)能力、靶點挖掘 — 藥物設(shè)計全流程的閉環(huán)能力。
“這是一個新興的行業(yè),沒有一個成熟的解決方案可以直接套用”,百圖生科首席 AI 科學(xué)家宋樂說道。
宋樂進(jìn)一步向雷峰網(wǎng)解釋道,要用 AI 發(fā)掘新藥有三個問題需要提前考慮:
一是了解復(fù)雜疾病的困難。
二是對多維度、多尺度的數(shù)據(jù)進(jìn)行復(fù)雜且多樣化的融合處理,包括基因?qū)用娴幕驕y序、表觀組,蛋白質(zhì)表達(dá)、蛋白質(zhì)代謝,組織層面、機(jī)理層面等。
三是行業(yè)配合問題。數(shù)據(jù)分析與實驗往往是兩波人,他們之間的溝通缺乏一個非常高效的系統(tǒng),將預(yù)測、模型輸出和試驗系統(tǒng)進(jìn)行整合。
不難想見,即使背靠百度這座大山,百圖生科依然步履維艱;畢竟,其要駛?cè)氲?,是一片無人區(qū)。
而百圖生科,僅剛剛開始。
沒有盡頭的投注
公開資料顯示,百圖生科將與百度底層深度學(xué)習(xí)算法平臺飛槳建立深度戰(zhàn)略合作,飛槳將為百圖生科提供 AI 底層技術(shù)和開發(fā)工具。同時,百度作為善于處理海量數(shù)據(jù)、知識圖譜,具有巨型數(shù)據(jù)中心布局的 AI 平臺公司,預(yù)計也將在底層架構(gòu)上與百圖生科產(chǎn)生協(xié)同。
從全球市場來看,企業(yè)耗費(fèi)巨資建立研發(fā)中心的大研發(fā)模式已成過去。近年流行的趨勢是 VIC 模式,即 “VC (風(fēng)險投資) +IP (知識產(chǎn)權(quán)) +CRO (研發(fā)外包服務(wù))” 相結(jié)合的新藥研發(fā)模式。
在此模式之上,百圖生科提出了“VIP”模式,即利用資本(Venture)+自行參與打造 IP + 生物計算及智能實驗平臺(Platform)加速藥物和診斷管線的 IP 生成和轉(zhuǎn)化——這或?qū)⒊蔀榘賵D生科生物計算平臺的核心價值和盈利來源。
雷峰網(wǎng)了解到,百圖生科有獨(dú)立的投資部門 BioMap Ventures,其前身是百度風(fēng)投的生物投資團(tuán)隊,目前在全球已投資了超過 50 家早期企業(yè)。
除了聯(lián)合生態(tài)合作伙伴,百圖生科還在不斷招兵買馬。成立初期,百圖生科就宣布兩項領(lǐng)軍人才招募計劃,將分別用 100 萬美元年薪及 100 萬人民幣年薪招兵買馬。
值得一提的是,去年加入百圖生科擔(dān)任首席 AI 科學(xué)家宋樂就是世界知名的機(jī)器學(xué)習(xí)專家,他曾在 CMU 從事生物計算相關(guān)的研究,利用機(jī)器學(xué)習(xí)技術(shù)對靶點挖掘、藥物設(shè)計取得了一系列突破性成果,獲得 NeurIPS、ICML、AISTATS 等主要機(jī)器學(xué)習(xí)會議的最佳論文獎。
2021 年 5 月,百圖生科還推出了“免疫圖譜卓越計劃”。百圖生科提供自身研發(fā)的核心生物計算引擎、海量自有數(shù)據(jù)、10 億元的資金補(bǔ)貼,與生態(tài)聯(lián)盟合作伙伴共同推動免疫圖譜的繪制,系統(tǒng)探尋癌癥、自免等疾病的復(fù)雜免疫規(guī)律,進(jìn)一步提高對應(yīng)的靶點挖掘和藥物設(shè)計效率。
截至 2020 年 7 月底,首批“卓越計劃”就已收到來自中科院、協(xié)和、北大、清華、復(fù)旦等系統(tǒng)的近百個臨床和研究團(tuán)隊的申報。
不僅如此,百圖生科目前也在自建實驗室,從而全流程系統(tǒng)化地解決和提高行業(yè)的運(yùn)行效率。
據(jù)悉,通過利用自己構(gòu)建的生物計算平臺和大規(guī)模預(yù)訓(xùn)練模型,百圖生科成功將典型蛋白質(zhì)結(jié)構(gòu)預(yù)測時間,從 30 分鐘縮短到 5 分鐘以內(nèi)。
在不斷地發(fā)展布局下,百圖生科在去年 7 月拿到了上億美元 A 輪融資,GGV 紀(jì)源資本領(lǐng)投,百度、君聯(lián)資本、藍(lán)馳創(chuàng)投、真知資本、襄禾資本跟投。據(jù)了解,這輪融資還將用于技術(shù)研發(fā)和人才引進(jìn)。
如果僅從百圖生科的成立到發(fā)展的周期來看,其時間長度僅一年有余,但實際上,百圖生科其實是李彥宏和百度在生命科學(xué)領(lǐng)域多年積累的匯聚,是百度 AI 落地的另一站,也是百度開啟生物計算的新通道。
這是一條道阻且長的道路,李彥宏同樣深知,他表示——
“生命科學(xué)沒有盡頭,只有盡力”。