国产无码免费,人妻口爆,国产V在线,99中文精品7,国产成人无码AA精品一,制度丝袜诱惑av,久久99免费麻辣视频,蜜臀久久99精品久久久久久酒店
        訂閱
        糾錯
        加入自媒體

        谷歌具身智能VLA大模型 —— Gemini Robotics : 將人工智能帶入到物理世界

        引言

        真正實用的機器人需要能夠理解周圍的物理世界,并以可靠且安全的方式與之交互。也就是說,基于物理實體的AI智能體必須具備魯棒的人類級具身推理能力,即包含在物理具身世界中操作和運行所需的基礎(chǔ)概念的世界知識體系。

        作為人類,我們往往將具身推理能力視為理所當(dāng)然—— 例如感知環(huán)境的 3D 結(jié)構(gòu)、解析復(fù)雜的物體間關(guān)系理以及直覺物理規(guī)律理解 —— 但這些能力卻是構(gòu)成具身AI智能體的能力基石。

        此外,具身AI智能體更需突破被動理解現(xiàn)實世界空間與物理概念的局限,通過行動直接影響外部環(huán)境,從而彌合被動感知與主動物理交互之間的鴻溝。

        隨著機器人硬件的革新,構(gòu)建能執(zhí)行高靈巧任務(wù)的具身AI智能體迎來歷史性機遇。2025年3月12日,谷歌Deep Mind發(fā)布了基于多模態(tài)通用大模型Gemini2.0構(gòu)建的兩類大模型:Gemini Robotics(VLA)和Gemini Robotics-ER(VLM)。

        Gemini Robotics和Gemini Robotics-ER

        1. Gemini Robotics-ER

        Gemini Robotics - ER(VLM模型),其中ER 代表 “embodied reasoning”(具身推理),將Gemini的多模態(tài)推理能力擴展至物理世界,具備增強的空間和時間理解能力,包括物體檢測、指向、軌跡預(yù)測和抓取預(yù)測等2D空間概念理解能力,以及多視角3D場景理解和3D邊界框檢測等3D空間推理能力。

        多視角3D場景理解: 通過關(guān)聯(lián)不同視角的2D點來理解3D場景

        1)支持零樣本和少樣本機器人控制

        論文中,研究人員使用Gemini 2.0 Flash和Gemini Robotics-ER兩類模型,分別采用兩種不同的機器人控制方法進行實驗。

        零樣本(zero-shot)機器人控制——通過代碼生成控制機器人。

        少樣本(few-shot)控制——通過上下文學(xué)習(xí)(in-context learning, ICL),基于少量示例適應(yīng)新行為。

        兩類模型在模擬環(huán)境中執(zhí)行一組操作任務(wù)的結(jié)果對比

        備注:這些任務(wù)涵蓋了不同難度和物體類型,從簡單的抓取任務(wù)(如抬起香蕉)到長時序、多步驟、多任務(wù)的操作(如將玩具放入盒子并關(guān)閉盒子)。

        試驗結(jié)果表明,Gemini Robotics-ER 在兩種控制方式下的任務(wù)完成率均表現(xiàn)良好。Gemini Robotics-ER能夠利用上下文學(xué)習(xí)(in-context learning),僅憑少量示例就能提高更復(fù)雜的靈巧雙臂任務(wù)(如折疊衣物)的執(zhí)行能力,并能夠直接輸出末端執(zhí)行器的軌跡以完成任務(wù)。

        在零樣本機器人控制方面,Gemini Robotics-ER任務(wù)完成率相比Gemini 2.0 提高了近2倍。

        在少樣本機器人控制方面,Gemini 2.0 Flash 在模擬環(huán)境中平均成功率達到51%。然而,Gemini Robotics-ER 在模擬環(huán)境中的平均成功率達到 65%。

        另外,實驗還表明,模型的具身推理能力與下游機器人控制的性能之間存在強相關(guān)性。Gemini Robotics-ER 可以直接用于機器人控制,包括:作為感知模塊(如物體檢測),規(guī)劃模塊(如軌跡生成)以及通過生成和執(zhí)行代碼來協(xié)調(diào)機器人運動。

        不過,Gemini Robotics-ER作為VLM模型,也存在局限性,尤其是在更復(fù)雜的靈巧操作任務(wù)上。這主要是因為需要額外的中間步驟來將模型的具身推理能力與機器人執(zhí)行動作關(guān)聯(lián)起來。

        2. Gemini Robotics

        Gemini Robotics是一種端到端的VLA(視覺-語言-行動)模型,將強大的具身推理先驗與現(xiàn)實世界機器人的靈巧低級控制相結(jié)合,能夠在不同環(huán)境下解決靈巧任務(wù),并支持不同的機器人形態(tài)。

        Gemini Robotics是Gemini Robotics-ER的一個衍生版本,采用了雙組件架構(gòu):

        Gemini Robotics 主干網(wǎng)絡(luò):托管在云端,負(fù)責(zé)視覺-語言推理。

        Gemini Robotics 解碼器:運行在機器人控制器上,負(fù)責(zé)動作執(zhí)行。

        Gemini Robotics 主干網(wǎng)絡(luò)由Gemini Robotics-ER的一個蒸餾版本(distilled version)組成,其查詢-響應(yīng)延遲已優(yōu)化至小于160ms(相比原始模型減少了數(shù)秒)。為了補償主干網(wǎng)絡(luò)的延遲,Gemini Robotics解碼器在本地執(zhí)行低級控制。

        Gemini Robotics模型架構(gòu)概覽

        Gemini Robotics 模型實驗驗證結(jié)果

        1. 基于原始Gemini Robotics 基礎(chǔ)模型進行測試

        谷歌研究人員將Gemini Robotics 與π0 re-implement和多任務(wù)擴散策略模型(Multi-task Diffusion Policy)這兩種最先進的基線模型進行對比試驗。所有模型均在開箱即用(out of the box)的條件下進行評測,即不進行任何任務(wù)特定的微調(diào)或額外提示。

        實驗結(jié)果顯示:

        Gemini Robotics 在靈巧操作、語言指令理解以及泛化能力方面表現(xiàn)出色。

        1)靈巧操作

        在該組實驗中,研究人員從數(shù)據(jù)集中隨機抽取20個任務(wù)進行測試,覆蓋洗衣房、廚房、辦公桌以及其它日常活動場景。

        實驗結(jié)果表明,Gemini Robotics在一半的任務(wù)中表現(xiàn)出色,成功率超過80%。尤其是在可變形物體操控方面表現(xiàn)尤為優(yōu)異(如“折疊粉色布料”、“纏繞耳機線”),而基線模型在這些任務(wù)上表現(xiàn)不佳。

        三個模型在20個不同任務(wù)執(zhí)行過程中的成功率對比

        問題點在于:某些復(fù)雜的高難度靈巧任務(wù)(比如“插入鞋帶”) ,未經(jīng)過微調(diào)的Gemini Robotics模型執(zhí)行任務(wù)的成功率依然然很低。

        2)語言指令理解

        在該組實驗中,研究人員選取了25條語言指令,并在5個不同的評估場景中進行測試,包括訓(xùn)練場景以及包含未見過物體和容器的全新場景。

        實驗結(jié)果表明,在具有挑戰(zhàn)性的場景(包含新物體和細(xì)粒度指令的任務(wù),如“將牙膏放入盥洗架底部隔間” ),Gemini Robotics 的表現(xiàn)優(yōu)于所有基線模型。

        針對新物體的帶詳細(xì)指令的 “拾取” 和 “拾取并放置” 任務(wù)的成功率

        3)泛化能力

        研究人員評估了Gemini Robotics模型在指令泛化、視覺泛化以及動作泛化三個維度上的泛化能力。

        三個模型泛化能力試驗結(jié)果對比

        Gemini Robotics在所有三種泛化類型上均明顯優(yōu)于基線模型,并能更有效地適應(yīng)各種變化。即使在基線模型發(fā)生災(zāi)難性失敗(如遇到新語言的指令)的情況下,Gemini Robotics 仍能取得非零成功率。

        研究人員推測,Gemini Robotics較強的泛化能力依賴于以下三種原因:

        更強大、更高容量的VLM(視覺-語言模型)主干網(wǎng)絡(luò);Gemini 2.0 中最先進的視覺編碼器;多樣化的訓(xùn)練數(shù)據(jù)共同提升了模型的泛化能力。

        2. 基于微調(diào)后的Gemini Robotics專用模型進行測試

        研究人員通過對Gemini Robotics模型在小規(guī)模高質(zhì)量數(shù)據(jù)集上進行微調(diào),進一步測試模型的極限能力,并探索未來可能的優(yōu)化方向,具體研究方向如下:

        能否執(zhí)行復(fù)雜長時序靈巧任務(wù);推理能力、語義泛化以及空間理解是否有所增強;能否快速適應(yīng)新任務(wù);能否適配到不同實體形態(tài)的的機器人。

        1)長時序靈巧操作任務(wù)

        研究人員選擇了6個高難度的長時序任務(wù)來測試經(jīng)過小規(guī)模高質(zhì)量數(shù)據(jù)集訓(xùn)練微調(diào)后的Gemini Robotics模型。這六項任務(wù)分別為:折紙狐貍”、“打包午餐盒”、“拼寫游戲”、“玩紙牌游戲”、“夾取豌豆”、“舀堅果”。

        Gemini Robotics 在 ALOHA 機器人平臺上成功完成多種長時序靈巧任務(wù)

        4類模型執(zhí)行6項任務(wù)的成功率對比

        實驗結(jié)果表明:

        經(jīng)過相同數(shù)據(jù)微調(diào)后,從執(zhí)行6項任務(wù)執(zhí)行的成功率來看,經(jīng)過微調(diào)后的Gemini Robotics專用化模型明顯要優(yōu)于經(jīng)過微調(diào)的兩個基線模型【Multi-task diffusion(specialist) 和 π0 re-implement (specialist))】。

        尤其在“舀堅果”、“打包午餐盒”、“玩紙牌游戲”以及“拼寫游戲”這四項任務(wù)中,經(jīng)過微調(diào)后的Gemini Robotics專用化模型執(zhí)行任務(wù)的成功率達到了80%以上。

        2)單步推理、語義泛化以及空間理解能力增強

        研究人員將增強推理版本的Gemini Robotics 與未經(jīng)微調(diào)的原始基礎(chǔ) Gemini Robotics 模型進行了比較,測試場景均為訓(xùn)練分布外的真實機器人任務(wù)。

        基礎(chǔ)Gemini Robotics 模型與增強推理版本在真實世界評估任務(wù)中的成功率對比

        實驗結(jié)果顯示:

        在真實世界的分布外任務(wù)中,推理增強版Gemini Robotics在單步推理、語義知識及空間理解的任務(wù)中的成功率獲得顯著提升。

        另外,實驗還表明,推理增強版Gemini Robotics模型還可輸出類似人類思維的可解釋中間步驟(與Gemini Robotics-ER的具身推理軌跡高度吻合),大幅提升模型可解釋性。如下圖所示的關(guān)鍵點軌跡可視化,即為模型內(nèi)部思維鏈的具象化映射。

        推理增強版Gemini Robotics模型思維鏈預(yù)測軌跡可視化

        備注:紅色與藍色軌跡分別表示模型利用具身推理知識,對左臂(紅)和右臂(藍)未來1秒運動路徑的預(yù)測結(jié)果。

        3)快速適應(yīng)新任務(wù)

        機器人基礎(chǔ)模型通過利用預(yù)先獲取的機器人動作和物理交互常識,有望實現(xiàn)快速任務(wù)學(xué)習(xí)。

        為了驗證此結(jié)論,研究人員從之前的長時序任務(wù)中選取了8個子任務(wù),并對基礎(chǔ)模型微調(diào),來觀察每個任務(wù)的平均成功率隨演示次數(shù)的變化情況。

        各任務(wù)平均成功率隨演示次數(shù)的變化曲線

        實驗結(jié)果顯示:

        8項任務(wù)中有7項僅需至多100次演示(相當(dāng)于15分鐘至1小時,具體取決于任務(wù)復(fù)雜度),微調(diào)后Gemini Robotics專用模型成功率便已超過70%。

        在其中的2項任務(wù)中(“放容器到午餐盒”和“放入生菜”),微調(diào)后的Gemini Robotics專用模型的任務(wù)成功率達到100%。

        在“折紙狐貍:第一折"、“放容器到午餐盒”和“午餐盒拉鏈閉合”這3項復(fù)雜任務(wù)中,微調(diào)后的Gemini Robotics專用模型執(zhí)行任務(wù)的成功率明顯優(yōu)于基線模型。

        在“放入生菜”、“澆沙拉醬”和“抽紙牌”這3項相對簡單任務(wù)中,微調(diào)后的π0 re-implement專用模型表現(xiàn)優(yōu)異,在100次演示后,任務(wù)成功率達到100%。π0-reimplement 的表現(xiàn)略微優(yōu)于 Gemini Robotics。

        結(jié)論:強大的視覺語言模型(VLM)主干網(wǎng)絡(luò)能將豐富多元的機器人動作數(shù)據(jù)轉(zhuǎn)化為對物理交互的深度理解,這是實現(xiàn)新任務(wù)快速學(xué)習(xí)的關(guān)鍵所在。

        4)適配新的機器人形態(tài)

        在此次實驗中,研究人員探索基于ALOHA 2平臺動作數(shù)據(jù)訓(xùn)練的Gemini Robotics模型,如何通過少量目標(biāo)平臺數(shù)據(jù)高效適配新實體形態(tài)。

        新的實體形態(tài)機器人實驗對象包括:配備平行夾爪的雙臂Franka機器人和Apptronik公司研發(fā)的配置五指靈巧手的全尺寸人形機器人Apollo。

        Gemini Robotics模型可經(jīng)微調(diào)操控不同機器人

        備注:上圖為Apollo人形機器人封裝午餐袋。下圖為雙臂工業(yè)機器人裝配工業(yè)橡膠帶至滑輪系統(tǒng)。

        當(dāng)Gemini Robotics適配到雙臂Franka機器人新實體形態(tài)后的泛化指標(biāo)細(xì)分

        實驗結(jié)果顯示:

        當(dāng)Gemini Robotics模型適配到新形態(tài)實體機器人(雙臂 Franka 機器人)后,在視覺泛化和動作泛化測試上:

        在分布內(nèi)任務(wù)上,執(zhí)行任務(wù)成功率持平或略優(yōu)于先進的單任務(wù)擴散策略;

        在分布外任務(wù)上,執(zhí)行任務(wù)成功率明顯優(yōu)于先進的單任務(wù)擴散策略;

        這在一定程度上表明,經(jīng)過針對新形態(tài)實體機器人的微調(diào),Gemini Robotics模型能夠成功的將其泛化能力遷移到不同形態(tài)的機器人。

        結(jié)語

        Gemini Robotics模型在精細(xì)的柔性布料操作、鉸接物體精準(zhǔn)操控等多樣化任務(wù)中展現(xiàn)突出能力。研究人員把該模型能力突出的原因歸結(jié)于:

        強大的視覺語言模型,具備增強的具身推理能力;

        針對機器人任務(wù),采用大規(guī)模機器人動作數(shù)據(jù)與多樣化的非機器人數(shù)據(jù)的特定訓(xùn)練方案;

        專為低延遲機器人控制設(shè)計的獨特架構(gòu)。

        Gemini Robotics模型的關(guān)鍵優(yōu)勢在于:成功繼承Gemini Robotics-ER的具身推理特性,能高效遵循開放詞匯指令,并展現(xiàn)強大的零樣本泛化能力。通過微調(diào)實現(xiàn)專項適應(yīng),該模型在新任務(wù)/新實體形態(tài)中達成較高操作精度,并在挑戰(zhàn)性場景中保持泛化能力。

        此外,盡管Gemini Robotics 的初步實驗結(jié)果顯示出了令人期待的泛化能力,但但谷歌研究人員表示,未來工作將會繼續(xù)聚焦于以下幾個關(guān)鍵領(lǐng)域:

        1)提升Gemini Robotics模型處理更復(fù)雜場景下的能力。這類場景需要模型同時具備多步推理和精確靈巧操作的復(fù)合能力,尤其是在應(yīng)對從未接觸過的全新場景時。

        2)構(gòu)建仿真驅(qū)動數(shù)據(jù)引擎提升 VLA 模型的能力。利用仿真生成視覺多樣化且接觸密集型數(shù)據(jù),發(fā)展面向現(xiàn)實遷移的視覺-語言-動作模型訓(xùn)練范式。

        3)擴展多具身實驗,減少模型適配新形態(tài)機器人所需的數(shù)據(jù)量,最終實現(xiàn)零樣本跨機器人實體形態(tài)的能力遷移。

               原文標(biāo)題 : 谷歌具身智能VLA大模型 —— Gemini Robotics : 將人工智能帶入到物理世界

        聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

        發(fā)表評論

        0條評論,0人參與

        請輸入評論內(nèi)容...

        請輸入評論/評論長度6~500個字

        您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

        暫無評論

        暫無評論

          人工智能 獵頭職位 更多
          掃碼關(guān)注公眾號
          OFweek人工智能網(wǎng)
          獲取更多精彩內(nèi)容
          文章糾錯
          x
          *文字標(biāo)題:
          *糾錯內(nèi)容:
          聯(lián)系郵箱:
          *驗 證 碼:

          粵公網(wǎng)安備 44030502002758號

          主站蜘蛛池模板: 铁牛TV尤物| 久久久久厕拍| 日韩欧美亚洲| 国产精品V在线播放| 91视频专区| 万盛区| 国精产品一区一区二区三区mba| 托克托县| 高跟熟女中文字幕在线亚洲| 粉嫩导航| v中文在线| 大宁县| 国产三级网| 亚洲中文字幕2022| 亚洲成人电影院| 国产19p| 亚洲精品午夜精品| 国产精品久久午夜夜伦鲁鲁| 亚洲高清中文字幕| 亚洲成成品网站| 精品熟女999| 麻豆熟妇乱妇熟色A片在线看| 成人肏屄视频| 浪荡干片网在线观看| 翁牛特旗| 怡红院亚洲| 熟女中文字幕| 色偷偷免费视频| 肃北| 久久免费在线视频| 久久精品99久久久久久久久| 蜜桃AV无码| 色综合久| 麻豆熟妇乱妇熟色A片在线看| 久久毛| 成人亚洲视频| 麻豆国产| 紫阳县| 伊人高清在线视频| 丰满午夜人妻无码AAAA| 濮阳市|