欧美日韩国产一区二区三区不卡,欧洲一区二区三区精品,日韩一区不卡,成人国产二区

whale(世界模型WHALE來了!)

時(shí)間:2024-11-29 13:09:05 閱讀:5

天下模子WHALE來了!

人類可以在腦海中假想一個(gè)想象中的天下,以猜測不同的舉措約莫招致不同的后果。受人類智能這方面的啟示,天下模子被計(jì)劃用于籠統(tǒng)化實(shí)際天下的動(dòng)態(tài),并提供這種“假如……會(huì)怎樣”的猜測。

因此,具身智能體可以與天下模子舉行交互,而不是直接與實(shí)際天下情況交互,以天生模仿數(shù)據(jù),這些數(shù)據(jù)可以用于種種卑劣職責(zé),包含反內(nèi)幕猜測、離線戰(zhàn)略評(píng)價(jià)、離線強(qiáng)化學(xué)習(xí)。

天下模子在具身情況的決定中起著至關(guān)緊張的作用,使得在實(shí)際天下中本錢熱血的探究成為約莫。為了促進(jìn)好效的決定,天下模子必需具有強(qiáng)壯的泛化才能,以支持分布外(OOD)地區(qū)的想象,并提供可靠的不確定性估測來評(píng)價(jià)模仿體驗(yàn)的可信度,這兩者都對之前的可擴(kuò)展辦法提出了嚴(yán)重挑唆。

克日,來自南京大學(xué)、南棲仙策等機(jī)構(gòu)的研討者在論文中引入了WHALE(World models with beHavior-conditioning and retrAcing-rollout LEarning),這是一個(gè)用于學(xué)習(xí)可泛化天下模子的框架,由兩種可以與任何神經(jīng)網(wǎng)絡(luò)架構(gòu)廣泛團(tuán)結(jié)的緊張武藝構(gòu)成。

在確定戰(zhàn)略分布差別是泛化偏差的主要泉源的基本上,研討者引入了一種舉動(dòng)—條件(behavior-conditioning)武藝來加強(qiáng)天下模子的泛化才能,該武藝創(chuàng)建在戰(zhàn)略條件模子學(xué)習(xí)的看法之上,旨在使模子可以主動(dòng)順應(yīng)不同的舉動(dòng),以減小分布偏移惹起的外推偏差。別的,研討者還提出了一種簡便而好效的武藝,稱為retracing-rollout,以便對模子想象舉行好效的不確定性估測,作為一種即插即用的處理方案,可以好效地使用于種種實(shí)行職責(zé)中的末了實(shí)行器姿勢控制,而無需對練習(xí)歷程舉行任何變動(dòng)。

經(jīng)過整合WHALE的這兩種武藝,研討者提出了WHALE-ST,這是一種可擴(kuò)展的基于時(shí)空transformer的天下模子,旨在完成更好效的決定。研討者進(jìn)一步提出了WHALE-X,這是一個(gè)在970K機(jī)器人演示上預(yù)練習(xí)的414M參數(shù)天下模子。最初,研討者舉行了多量的實(shí)行,以證實(shí)WHALE-ST和WHALE-X在模仿和實(shí)際天下職責(zé)中的出色可擴(kuò)展性與泛化性,突出了它們在加強(qiáng)決定方面的后果。

為了評(píng)價(jià)WHALE-X在實(shí)踐物理情況中的泛化才能,研討團(tuán)隊(duì)在ARX5機(jī)器人上舉行了全盤實(shí)行。與預(yù)練習(xí)數(shù)據(jù)不同,評(píng)價(jià)職責(zé)調(diào)停了攝像機(jī)角度和背景等,增長了對天下模子的挑唆。他們搜集了每個(gè)職責(zé)60條軌跡的數(shù)據(jù)集用于微調(diào),職責(zé)包含開箱、推盤、投球和挪動(dòng)瓶子,還計(jì)劃了多個(gè)模子從將交往過的職責(zé)來測試模子的視覺、活動(dòng)和職責(zé)泛化才能。

后果體現(xiàn),WHALE-X在真實(shí)天下中展現(xiàn)出分明的上風(fēng):與沒有舉動(dòng)—條件的模子比擬,WHALEX的一律性提高了63%,標(biāo)明該機(jī)制明顯提升了OOD泛化才能;在97萬個(gè)樣本上舉行預(yù)練習(xí)的WHALE-X,比從零開頭練習(xí)的模子具有更高的一律性,凸顯了大范圍互聯(lián)網(wǎng)數(shù)據(jù)預(yù)練習(xí)的上風(fēng);增長模子參數(shù)可以提升天下模子的泛化才能,WHALE-X-base(203M)動(dòng)態(tài)模子在三個(gè)未見職責(zé)中的一律性比率是77M版本的3倍。別的,視頻天生質(zhì)量與一律性的后果一律。經(jīng)過舉動(dòng)—條件戰(zhàn)略、大范圍預(yù)練習(xí)數(shù)據(jù)集和擴(kuò)展模子參數(shù),三種戰(zhàn)略團(tuán)結(jié),明顯提高了模子的OOD泛化才能,尤其是在天生高質(zhì)量視頻方面。 (人民郵電報(bào) 陳陳 佳琪)

泉源: 人民郵電報(bào)

版權(quán)聲明:本文來自互聯(lián)網(wǎng)整理發(fā)布,如有侵權(quán),聯(lián)系刪除

原文鏈接:http://www.freetextsend.comhttp://www.freetextsend.com/qingganjiaoliu/56029.html


Copyright ? 2021-2022 All Rights Reserved 備案編號(hào):閩ICP備2023009674號(hào) 網(wǎng)站地圖 聯(lián)系:dhh0407@outlook.com

主站蜘蛛池模板: 龙州县| 泰来县| 大冶市| 泸西县| 靖宇县| 承德市| 襄城县| 上虞市| 汶川县| 古蔺县| 禄劝| 柞水县| 启东市| 柳江县| 玉屏| 来宾市| 子洲县| 贞丰县| 金沙县| 郯城县| 曲阳县| 达尔| 乌恰县| 梓潼县| 崇明县| 通榆县| 环江| 平度市| 万州区| 易门县| 马鞍山市| 岗巴县| 保定市| 文安县| 明溪县| 甘孜| 蓬安县| 平阳县| 凯里市| 琼中| 高碑店市|