99er久久国产精品先锋_亚洲丰满少妇撒尿BBo_老外和中国女人毛片免费视频_思思热在线视频网站_av无码不卡高清_国产 激情 自拍_激情综合色婷婷激情丁香_少妇与子乱A级全毛片_男人捅女人的软件_日本欧美日韩

...

跟你聊得這么投緣,你卻說自己不是人?!

2021-10-23

量子位報道 |公眾號 QbitAI

最近認識了一個“網(wǎng)友”,不是東北人,東北話理解力卻滿分。

或許你會說,這些對話看起來很日常啊。

其實,他不是人,而是來自百度的AI 對話機器人。

之所以能跟人類聊天如此絲滑,靠的是全球首個百億參數(shù)中英文預(yù)訓(xùn)練對話生成模型——PLATO-XL。

效果之驚艷,連外媒都趕著來報道:

加大難度,能 hold 住嗎?

有第三方關(guān)注報道當然不夠,為檢驗這個 AI 是不是假把式,我決定增加對話難度,考考他。

就問問他一些名人吧,例如劉天王。

萬萬沒想到,它不僅認識劉天王,還能自行列舉更多港星:

可以可以,是個品位不錯的 AI 了。

繼續(xù)加大難度——

粵語走起。

竟然粵語也能輕松駕馭?

而且和普通話切換也如此自如,有夠驚艷的了,確實還沒見過這么「會聊天」的 AI。

絲滑對話,是怎么做到的?

看完上面我與 AI 的對話,一個大大的疑惑或許已經(jīng)在你的腦中產(chǎn)生:

到底是怎么做到的?

背后的殺手锏,正是PLATO-XL。

正如剛才提到的,它是全球首個百億參數(shù)預(yù)訓(xùn)練對話生成模型。

百億參數(shù)規(guī)模,可以說是讓這個 AI 能夠流暢對話的關(guān)鍵之一。

簡單來說,就好比增加了大腦中的神經(jīng)元數(shù)量,會讓腦子更聰明,更能理解你說的話。

結(jié)構(gòu)方面,PLATO-XL 一個非常鮮明的特點,就是將 Transformer 結(jié)構(gòu)做了一個統(tǒng)一。

如此一來,就可以同時對“對話理解”和“回復(fù)生成”進行建模,參數(shù)效率會更高。

除此之外,在多輪對話中,往往還會存在不一致性問題。

這是因為訓(xùn)練數(shù)據(jù)是從社交媒體中收集,會摻雜不同人的想法。

而學(xué)習(xí)到的模型往往會混合來自上下文中多個參與者的信息,從而難以產(chǎn)生一致的回復(fù)。

為了解決這一問題,PLATO-XL 引入了多角色感知的預(yù)訓(xùn)練,這有助于模型區(qū)分上下文中的信息,并在對話生成中保持一致性。

以上便是與百度 PLATO 對話能夠如此絲滑的原因了。

在與其它模型橫向比較過程中,不僅是中文,英文對話的表現(xiàn)也是較為突出。

而且在剛剛落下帷幕的對話系統(tǒng)技術(shù)挑戰(zhàn)賽 DSTC10(全球人工智能頂級學(xué)術(shù)競賽之一)中,百度 PLATO 的表現(xiàn)也是格外亮眼。

要知道,為了更接近真實場景,這次競賽題目專門加入ASR 識別錯誤干擾數(shù)據(jù)。

簡單來說,就是拿一些錯誤,甚至不精準地表達,難為 AI。我們以小度智能音箱的交互為例。比如對話中要求 AI:「小度,播放周杰倫那個氣球歌」,其實背后的需求是要聽《告白氣球》。

更拉高實現(xiàn)門檻的是,競賽中主辦方還不提供任何相關(guān)的訓(xùn)練數(shù)據(jù)。

為應(yīng)對上面真實且復(fù)雜的要求,百度團隊提出了一種叫做多層級數(shù)據(jù)和知識增強框架

同時依托 PLATO 對話預(yù)訓(xùn)練模型的能力,進行對話狀態(tài)追蹤任務(wù)的端到端建模,根據(jù)多輪對話上文生成意圖和槽位。

還通過對已有對話進行實體替換、基于對話動作隨機游走、口語模擬增強,構(gòu)造得到了數(shù)十萬的多輪口語對話,解決了訓(xùn)練數(shù)據(jù)匱乏的難題。

此外,百度還創(chuàng)新地提出了知識增強的對話策略。先通過精確識別對話意圖與相關(guān)的知識需求,然后利用知識召回模型從大規(guī)模知識庫中召回知識,最后模型結(jié)合上下文整合知識生成答復(fù)。

如同人在回答一些不了解的專業(yè)問題也需要查閱資料,知識增強的方法使對話系統(tǒng)具備了“臨時查閱”的能力,能夠更加專業(yè)、更加精準地回答問題。

還是以小度智能音箱的具體使用場景為例:

-“小度小度,我想聽大夢一場空?!?/p>

-“好的,一首徐海俏的《空》送給你?!?/p>

當其他人還在搜索“大夢一場空是什么歌”的時候,小度已經(jīng)為你播放了出來;

正是精準高效地完成主辦方提出的技術(shù)挑戰(zhàn),百度團隊在對話狀態(tài)追蹤任務(wù)中的聯(lián)合目標準確率(Joint Goal Accuracy)達到0. 4616,超越第二名十個百分點。

但其實,百度團隊在 PLATO-XL 之前,便已經(jīng)在人機對話方面取得了較好的表現(xiàn)。

例如更早的 PLATO-2,相關(guān)論文被 ACL 2021 收錄,這時候的人機對話就已經(jīng)沒有那么得“尬”了。

而此次在參數(shù)規(guī)模更大、架構(gòu)方法更優(yōu)的情況下,就會讓人和 AI 得聊天更加絲滑、無障礙。

開放領(lǐng)域?qū)υ?,為什么這么重要?

其實除了百度,全球各家科技巨頭,都在不遺余力的在開放領(lǐng)域?qū)υ捴邪l(fā)力。

像微軟、谷歌、Facebook 等,均在這兩年推出了自家的大模型,例如 DialoGPT、Meena、Blender 等。

這是因為讓機器具備與人交流的能力,是人工智能領(lǐng)域長久以來的一項重要工作,同時也是一項極具挑戰(zhàn)的任務(wù)。

早在 1951 年,圖靈在《計算機與智能》一文中便提出了大名鼎鼎的圖靈測試,提出用人機對話來測試機器智能水平。

此后,學(xué)者們也是嘗試著各種方法研究建立對話系統(tǒng)。

不同于特定領(lǐng)域?qū)υ挘_放領(lǐng)域?qū)υ?,沒有像客服、車載助手那些場景的限制,其定位在于:讓機器擁有更擬人的有知識、有邏輯、有情感的對話能力。

隨著技術(shù)趨勢的變化,開放領(lǐng)域?qū)υ挼陌l(fā)展也呈現(xiàn)出了不一樣的方向。

例如深度學(xué)習(xí)興起后,業(yè)界前后陸續(xù)提出了基于卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、注意力機制等各種對話方法。

而這兩年,大規(guī)模預(yù)訓(xùn)練模型又成為了技術(shù)的一種風向標,全球范圍內(nèi)都發(fā)力于此。隨著參數(shù)的不斷龐大,AI 也越發(fā)的智能化,直接會在人機對話中有所體現(xiàn),也就是我們經(jīng)常說的不“尬聊”,此次百度公布的 PLATO-XL,正是該趨勢的一個注腳。

盡管隨著大模型預(yù)訓(xùn)練技術(shù)在智能對話上的應(yīng)用,對話效果取得顯著進步,但仍然有繼續(xù)改進可能,涵蓋:偏見、信息誤差、不能進行連續(xù)學(xué)習(xí)等方向。

更應(yīng)看到的是,百度 PLATO-XL 以超百億參數(shù)的規(guī)模,無論參數(shù)量還是效果比較,在全球范圍仍處較優(yōu)地位——

不難預(yù)見,此類語言模型絕不僅僅能大幅優(yōu)化智能客服、語音識別等既有功能,更在養(yǎng)老助老、幼兒早教、心理輔導(dǎo)等種種摻雜「模糊表述」、「潛臺詞」、「高語境」表達的場景下,釋放 AI 技術(shù)的更多潛能。

最后,百度 PLATO 對話 AI 已經(jīng)上線,感興趣的友友們可以親測試玩了!


來源:凹非寺