AI十級「找茬」選手,非這個(gè)書生莫屬,節(jié)后開源!
新智元報(bào)道
編輯:好困桃子
為了測試,研發(fā)團(tuán)隊(duì)的大哥都爬樹上了!什么模型竟然只需 10% 的訓(xùn)練數(shù)據(jù),性能就能超越同行,還會(huì)免費(fèi)開源?
考驗(yàn)?zāi)阊哿Φ臅r(shí)候到了!
只看一眼,看出什么了嘛?
一塊木地板?
只答對了一半,其實(shí)圖中還有一只喵。
下一個(gè)問題,這是什么品種的貓?啊...這...
承認(rèn)吧,你是辨別不出來的,但是這個(gè) AI「一眼」就搞定了。
而這么厲害的 AI 還有個(gè)詩意的名字,叫「書生」。
更厲害的是,基于「書生」的通用視覺開源平臺 OpenGVLab 將會(huì)在春節(jié)后全部公開!
通用?視覺?
近幾年,語言模型的發(fā)展可謂是相當(dāng)迅猛,百花齊放。
小到 3.54 億參數(shù)的 BERT,大到 5300 億參數(shù)的威震天-圖靈,以及 1.6 萬億參數(shù)的混合模型 Switch Transformer,順便還有首次常識問答超越人類的 KEAR。
那么,視覺模型這邊又如何呢?
目前的 CV 領(lǐng)域主要是圖像匹配文本 CLIP 和文本生成圖像 DALL·E這種單一模型。
但是 NLP 方向的各種成績都表明,發(fā)展預(yù)訓(xùn)練大模型不僅僅能夠處理多種復(fù)雜任務(wù)、適用多種場景和模態(tài),而且能夠增加模型的復(fù)用率,減少了模型定制化開發(fā)的開銷進(jìn)而也降低了成本。
而且,通用模型也是通往通用人工智能的必經(jīng)之路。
和通用語言模型類似,通用視覺模型的出發(fā)點(diǎn)和訓(xùn)練思路也需要事先通過收集海量的無監(jiān)督數(shù)據(jù)。然后通過自監(jiān)督等方式來訓(xùn)練,得到通用的預(yù)訓(xùn)練模型。最后根據(jù)具體的下游任務(wù)再將通用預(yù)訓(xùn)練模型遷移到具體任務(wù)上去解決具體問題。
不過,從任務(wù)角度看,通用視覺模型主要還是解決純視覺任務(wù),也涉及一些視覺語言相關(guān)的多模態(tài)任務(wù),而通用語言模型主要在解決語言相關(guān)的任務(wù)。而從模型訓(xùn)練角度看,兩者的模型結(jié)構(gòu)存在一些差異,具體訓(xùn)練的監(jiān)督形式也不一樣。
但是想要實(shí)現(xiàn)模型的通用性,很難。
首當(dāng)其沖的就是,訓(xùn)練數(shù)據(jù)不夠用。
訓(xùn)練一個(gè)性能合格的深度學(xué)習(xí)模型,所需的數(shù)據(jù)采集量,少則十幾萬,多則千百萬張圖片,比如自動(dòng)駕駛和人臉識別,對于數(shù)據(jù)的需求,達(dá)到十億級別,但性能仍未飽和。
在現(xiàn)實(shí)應(yīng)用中,AI 需要大量業(yè)務(wù)數(shù)據(jù)和用戶互聯(lián)網(wǎng)行為數(shù)據(jù)的融合,而企業(yè)可以應(yīng)用的數(shù)據(jù)則非常有限。
數(shù)據(jù)都采集不到,就更不用提什么「高質(zhì)量」了。
此外,模型對于數(shù)據(jù)的學(xué)習(xí)效率又低,無疑又是雪上加霜。
于是,N個(gè)任務(wù)就需要開發(fā)N個(gè)高度定制的模型同時(shí),每個(gè)模型在訓(xùn)練的時(shí)候又需構(gòu)建標(biāo)注數(shù)據(jù)集進(jìn)行專項(xiàng)訓(xùn)練,并持續(xù)進(jìn)行權(quán)重和參數(shù)優(yōu)化。
時(shí)間、人力以及資源的成本直接拉滿。
即便如此,依然有人想要挑戰(zhàn)一番。
2021 年 11 月,上海人工智能實(shí)驗(yàn)室聯(lián)合商湯科技 SenseTime、香港中文大學(xué)、上海交通大學(xué)共同發(fā)布了新一代通用視覺技術(shù)體系——「書生」(INTERN)。
論文地址:https://arxiv.org/abs/2111.08687
通才是如何練成?
作為通用視覺技術(shù)體系的「書生」有三個(gè)基礎(chǔ)設(shè)施模塊,分別為:
通用視覺數(shù)據(jù)系統(tǒng)(GV-Dataset)
通用視覺網(wǎng)絡(luò)結(jié)構(gòu)(GV-Architecture)
通用視覺評測基準(zhǔn)(GV-Benchmark)
這三個(gè)基礎(chǔ)模塊有什么作用?
它們就像「百科全書」、「高樓基底」一樣。「書生」通才的道路上學(xué)到的海量知識和建模、評測等基礎(chǔ)能力就靠這三個(gè)基礎(chǔ)模塊了。
具體點(diǎn)講,其中,在通用視覺數(shù)據(jù)系統(tǒng)中包含了大量的高質(zhì)量數(shù)據(jù)集:
1. 超大量級精標(biāo)注數(shù)據(jù):除了整合現(xiàn)有開源數(shù)據(jù)集,還進(jìn)行了大規(guī)模數(shù)據(jù)圖像標(biāo)注任務(wù),涵蓋了圖像分類,目標(biāo)檢測以及圖像分割等任務(wù),數(shù)據(jù)總量級達(dá)到 40M。
分類任務(wù)數(shù)據(jù)量級為 71M,其中包含 9 個(gè)公開數(shù)據(jù)集 28M,以及自標(biāo)注數(shù)據(jù) 43M。目標(biāo)檢測任務(wù)數(shù)據(jù)量級為 4M,其中包含 3 個(gè)公開數(shù)據(jù)集 3M,以及自標(biāo)注數(shù)據(jù) 1M。
2. 超大標(biāo)簽體系:總標(biāo)簽量級達(dá)到 119K,幾乎覆蓋了所有現(xiàn)有開源數(shù)據(jù)集,在此基礎(chǔ)上擴(kuò)充了大量細(xì)粒度標(biāo)簽。
極大地豐富了圖像任務(wù)的標(biāo)簽,提供了更為合理的組織方式,以及可擴(kuò)展的標(biāo)簽延伸策略。
3. 首次提出視界(realm)概念:結(jié)合「書生」標(biāo)簽體系,可以極大提升預(yù)訓(xùn)練模型的性能。
在通用視覺網(wǎng)絡(luò)結(jié)構(gòu)中,MetaNet 是一種自研的模型搜索網(wǎng)絡(luò),它最大的變種包含百億的參數(shù)量,是當(dāng)今最大的視覺網(wǎng)絡(luò)之一。
這個(gè)網(wǎng)絡(luò)結(jié)構(gòu)結(jié)合了視覺卷積和前沿的視覺自關(guān)注機(jī)制,通過大規(guī)模強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)搜索算法,取得最佳算子組合,達(dá)到模型效率和效用的最大化。
在相同的資源限制的情況下,「書生」的視覺網(wǎng)絡(luò)獲得在不同視覺任務(wù)下更優(yōu)異的精度。
在獲得超大規(guī)模的視覺神經(jīng)網(wǎng)絡(luò)以賦能計(jì)算機(jī)視覺社區(qū)的研究的同時(shí),「書生」的網(wǎng)絡(luò)支持靈活地進(jìn)行不同規(guī)模的調(diào)整,以適應(yīng)不同程度的工業(yè)化落地時(shí)的運(yùn)算能力需求,賦能視覺算法的工業(yè)落地。
有了這樣的網(wǎng)絡(luò)結(jié)構(gòu)之后,就可以對其進(jìn)行了從「基礎(chǔ)模型-專家-通才」模型的訓(xùn)練策略,極大地增強(qiáng)這種網(wǎng)絡(luò)結(jié)構(gòu)的泛化能力。
第三個(gè)便是視覺評測基準(zhǔn),它就像是一個(gè)「擂臺」,收集了 4 種類型共 26 個(gè)下游任務(wù)。
不僅包括常規(guī)分類任務(wù)還包括細(xì)粒度分類任務(wù),還包括醫(yī)療圖像等特殊領(lǐng)域的分類任務(wù)、行人檢測等熱門檢測任務(wù),擴(kuò)展到分割與深度任務(wù),可以很好地衡量模型的泛化能力。
這一視覺評測基準(zhǔn)還引入了百分比樣本(percentage-shot)的設(shè)置。
亮點(diǎn)在于,下游任務(wù)訓(xùn)練數(shù)據(jù)被壓縮的同時(shí),還可以很好地保留原始數(shù)據(jù)集的長尾分布等屬性。
「書生」除了這三個(gè)基礎(chǔ)設(shè)施模塊之外,還有四個(gè)訓(xùn)練階段模塊。
在「書生」(INTERN)的四個(gè)訓(xùn)練階段中,前三個(gè)階段位于該技術(shù)鏈條的上游,在模型的表征通用性上發(fā)力。
第一階段,「基礎(chǔ)能力」的培養(yǎng)需要經(jīng)過一個(gè)跨模態(tài)的預(yù)訓(xùn)練過程,通過大量的圖像-文本對進(jìn)行通用模型的預(yù)訓(xùn)練,讓其學(xué)到廣泛的基礎(chǔ)常識,為后續(xù)學(xué)習(xí)階段打好基礎(chǔ);
第二階段,培養(yǎng)「專家能力」,即多個(gè)專家模型各自學(xué)習(xí)某一領(lǐng)域的專業(yè)知識,讓每一個(gè)專家模型高度掌握該領(lǐng)域技能,成為專家;
第三階段,培養(yǎng)「通用能力」,此時(shí)的通才模型繼承了大規(guī)模多模態(tài)的預(yù)訓(xùn)練信息,也融合了多樣的感知任務(wù)的信息,「書生」在各個(gè)技能領(lǐng)域都展現(xiàn)優(yōu)異水平,并具備快速學(xué)會(huì)新技能的能力。
通過前三個(gè)模塊階梯式的學(xué)習(xí),「書生」具備了高度的通用性和良好的泛化能力。
當(dāng)進(jìn)化到位于下游的第四階段時(shí),系統(tǒng)將具備「遷移能力」,此時(shí)「書生」學(xué)到的通用知識可以應(yīng)用在某一個(gè)特定領(lǐng)域的不同任務(wù)中。
從實(shí)驗(yàn)結(jié)果來看,相較于當(dāng)前最強(qiáng) CV 模型 CLIP,「書生」在準(zhǔn)確率和數(shù)據(jù)使用效率上均取得了大幅提升。
具體來講,在分類識別、目標(biāo)檢測、語義分割及深度估計(jì)四大任務(wù) 26 個(gè)數(shù)據(jù)集上,「書生」的平均錯(cuò)誤率分別降低了 40.2%、47.3%、34.8% 和 9.4%。
同時(shí),「書生」只需要1/10 的下游數(shù)據(jù),就干翻了 CLIP 基于完整下游數(shù)據(jù)的準(zhǔn)確度。
書生不是「書呆子」
光學(xué)不去練,不會(huì)用,還是沒啥本事。
要明確的是,商湯的「書生」可不是一個(gè)書呆子。
怎么講?
首先,它能夠舉一反三。
舉個(gè)形象點(diǎn)的栗子,比如讓「書生」識別花的種類,每一類只需要提供 2 個(gè)訓(xùn)練樣本,識別準(zhǔn)確率高達(dá) 99.7%。
這個(gè)花卉數(shù)據(jù)集由 102 種英國常見的花組成,每個(gè)類別有 40 至 258 張圖片。其中包含有很大的比例、姿勢和光線變化。
它不僅有觸類旁通的能力,而且在自動(dòng)駕駛、智慧城市、智慧醫(yī)療等場景均已經(jīng)實(shí)現(xiàn)了落地應(yīng)用。
就拿自動(dòng)駕駛來說吧,要想不成為馬路殺手,一套 CV 模型需要能夠識別各種物體,包括交通標(biāo)志,車道線識別等,還得預(yù)測出與障礙物的距離,行人檢測等等。
對于這些任務(wù),單一視覺模型是無法勝任的。
而「書生」技術(shù)體系從數(shù)據(jù)、模型等各個(gè)方面出發(fā),對自動(dòng)駕駛感知模型,尤其是長尾類別和場景非常友好,在小樣本甚至是零樣本的應(yīng)用場景下表現(xiàn)明顯優(yōu)于既往模型。
其實(shí),在實(shí)際場景應(yīng)用中,數(shù)據(jù)都存在長尾分布的現(xiàn)象,少量類別占據(jù)大多數(shù)樣本,而大量類別僅有少量樣本。
在智慧城市中也是同樣的道理,面對很多長尾、碎片化場景就不得不祭出通才「書生」了。
生活中,我們經(jīng)常會(huì)見到城市街道上的井蓋頻頻丟失的問題。
如果 CV 模型沒有關(guān)注城市治理的長尾問題,偷井蓋問題很難得到解決。況且,井蓋也有很多種樣子。
但是,這對于通才「書生」來講都是小 case。只要每一類提供 2 個(gè)訓(xùn)練樣本,問題不就搞定了嗎。
因?yàn)樗呀?jīng)在訓(xùn)練階段被「喂下」大量數(shù)據(jù)成為通才,只需要看到少量樣本,就具備了舉一反三的能力。
有了「書生」的加持,不僅可以預(yù)防井蓋丟失,還能實(shí)現(xiàn)事后追責(zé)的精細(xì)化管理。
此外,智慧制造、智慧醫(yī)療等應(yīng)用中還會(huì)存在很多類似的長尾場景,而通用視覺「書生」的推出能夠讓業(yè)界以更低的成本獲得擁有處理多種下游任務(wù)能力的 AI 模型。
并以其強(qiáng)大的泛化能力支撐實(shí)際場景中大量小數(shù)據(jù)、零數(shù)據(jù)等樣本缺失的細(xì)分和長尾場景需求。
書生(INTERN)技術(shù)體系可以讓 AI 模型處理多樣化的視覺任務(wù)
這些暴力計(jì)算下的 AI 場景需要強(qiáng)大的算力作為支撐,這時(shí)候 SenseCore 商湯 AI 大裝置正好就派上用場了。
AI 大裝置正是通過超強(qiáng)的算力基礎(chǔ),為人工智能的研發(fā)、創(chuàng)新和應(yīng)用提供源動(dòng)力。
正如商湯科技研究院院長王曉剛所提到的那樣:
「書生」通用視覺技術(shù)體系是商湯在通用智能技術(shù)發(fā)展趨勢下前瞻性布局的一次嘗試,也是 SenseCore 商湯 AI 大裝置背景下的一次新技術(shù)路徑探索。 「書生」承載了讓人工智能參與處理多種復(fù)雜任務(wù)、適用多種場景和模態(tài)、有效進(jìn)行小數(shù)據(jù)和非監(jiān)督學(xué)習(xí)并最終具備接近人的通用視覺智能的期盼。 希望這套技術(shù)體系能夠幫助業(yè)界更好地探索和應(yīng)用通用視覺 AI 技術(shù),促進(jìn) AI 規(guī)?;涞亍?/blockquote>不過,想要成為一個(gè)優(yōu)秀的通用視覺模型,「書生」還有三個(gè)挑戰(zhàn)需要解決:
1. 模型優(yōu)化速度的提升
對于一個(gè)好的預(yù)訓(xùn)練模型,往往需要更大更好的網(wǎng)絡(luò)結(jié)構(gòu),以及大規(guī)模的數(shù)據(jù),這就會(huì)導(dǎo)致幾天甚至幾周的模型訓(xùn)練時(shí)間,如何在保持表征能力的同時(shí),大幅度加速模型的訓(xùn)練過程,具有非常重大的現(xiàn)實(shí)意義。
2. 更大范圍內(nèi)的通用能力仍待探索
書生模型,可以很好地在常見的視覺任務(wù)里達(dá)到通用的效果。在跨度較大的領(lǐng)域,比如超分等底層視覺任務(wù),書生模型還有很大的進(jìn)步空間。
3. 大模型到小模型的轉(zhuǎn)變
將大模型的表征能力無損失的遷移到可部署到終端設(shè)備上的小模型,對于預(yù)訓(xùn)練模型的推廣有非常大的價(jià)值。
One More Thing
要問這個(gè)模型好不好做?
研發(fā)急得都直「爬樹」!
為了測試模型在 zero-shot 下的精度如何,書生研發(fā)團(tuán)隊(duì)的模型科學(xué)家都親自上演了「爬樹」特別節(jié)目。通過創(chuàng)造特殊場景,以隨機(jī)生成圖片,去考驗(yàn)?zāi)P湍芰Α?/p>
(研究需要,大家請勿模仿^_^)
「書生」看到后,歪嘴一笑。
這不就是「爬樹」嘛,置信度 0.96 給你。
而且有趣的是,「書生」模型還注意到了樹上人眼都很容易忽略的繩子。
可能,這就是「明察秋毫」吧!
未來,「書生」要做的一件事情:
基于「書生」的通用視覺開源平臺 OpenGVLab 也將在今年年初正式開源,產(chǎn)學(xué)研一道共創(chuàng)通用 AI 生態(tài)!而即將開源的 OpenGVLab,正是基于「書生」的通用視覺開源平臺。
其中的網(wǎng)絡(luò)結(jié)構(gòu)除了商湯自研的 MetaNet,還包含大家普遍使用的 ResNet, MobileNet, ViT, EfficientNet 等,以滿足不同場景的應(yīng)用,賦能計(jì)算機(jī)視覺。
然而,「書生」的布局不止于此。
OpenGVLab 將與上海人工智能實(shí)驗(yàn)室此前發(fā)布的 OpenMMLab、OpenDILab 一道,共同構(gòu)筑開源體系 OpenXLab,持續(xù)推進(jìn)通用人工智能的技術(shù)突破和生態(tài)構(gòu)建。
「書生」研發(fā)團(tuán)隊(duì)的一位成員調(diào)侃道,「隨著書生模型精度越來越高,我們的辦公樓層越來越高?!?/p>
開源的「書生」,前景廣闊。