国产无码免费,人妻口爆,国产V在线,99中文精品7,国产成人无码AA精品一,制度丝袜诱惑av,久久99免费麻辣视频,蜜臀久久99精品久久久久久酒店
        訂閱
        糾錯
        加入自媒體

        一文看懂視覺語言動作模型(VLA)及其應用

        2025-06-12 10:46
        vehicle公眾號
        關注

        VLA 應該是自動駕駛以及機器人產業前沿最熱的 AI人工智能詞語。我們之前文章《2025年,自動駕駛即將開“卷”的端到端大模型 2.0 - VLA (Vision Language Action)》也分享和預言過它是自動駕駛大模型2.0。那其實到今天,理想 VLA應該要上車了,小鵬也發布下一代圖靈芯片的車型要上 VLA,基本上所有用英偉達 Thor 超過500Tops的大算力芯片都會切換到 VLA這個算法概念上。為什么 VLA呢?VLA 怎么樣的結構?VLA 怎么起源的?VLA 還在哪里廣泛研究和應用?VLA 在當前國內外自動駕駛的應用情況?本文通過自己的行業認知,結合各個 VLA Paper 來做一個科普,希望給大家帶來一些信息和啟發。1.為什么 VLA呢?VLA 除了大算力需求這個缺點,其他都是優點。

        通過預訓練提高數據效率:VLA 模型可以使用視覺-語言對(例如,圖像和字幕或教學視頻)在大規模互聯網或模擬數據集上進行預訓練,從而減少對特定任務數據的依賴。例如自動駕駛可能不要再講你有1000萬clips數據,這些數據可能都是重復和無效的。VLA 這種預訓練有助于引導其功能,使其能夠以極少的微調很好地推廣到下游任務中。更好的人類指令交互:可以聽懂人類的語言,看懂人類的環境,VLA 模型可以解釋和執行人類的指令,例如“前面紅綠燈路口左轉”或“開進前面的停車場”,這是從手動編碼的動作策略或符號規劃管道進行的范式轉變。端到端大模型統一訓練:VLA 模型本質上也是一種端到端算法,它將感知、任務理解和控制合成一個整體模塊,對場景、目標和行動方式進行聯合推理。這種整體方法提高了魯棒性并簡化了系統設計。

        跨領域和跨平臺泛化:視覺和語言的共享嵌入空間使單個模型能夠跨任務、對象和機器人實例遷移知識。這也就是當前不少新勢力車企既能造車也能造機器人,采用VLA算法架構和設施都可以泛化。簡而言之,VLA 模型為構建能夠在多樣化和動態的現實環境中理解和執行任務的通用機器人包括自動駕駛奠定了良好的基礎,使其成為下一代具身人工智能。2.VLA 怎么樣的結構?當前自動駕駛也好,機器人也罷,他們執行的任務都需要融合視覺和語言信號,以理解空間關系、預測駕駛/行動意圖并生成情境感知的駕駛或者行為。一般 VLA需要包含以下三個結構:視覺編碼器(例如 CNN、ViT、CLIP),對場景中的物體(例如道路、車輛、行人)進行分割和分類,將像素轉換為概念Token化。語言模型(例如Deepseek、LLaMA-2、阿里巴巴的 Qwen類別LLM、Transformer),將指令編碼為高維嵌入,推理給出高階的意圖策略模塊或規劃器(Policy modules or Planners),使車輛能夠推理高級目標并將其轉化為低階精細化的運動。這些模型通常采用多模態融合技術(例如交叉注意、級聯嵌入或標記統一),以將視覺類信息與文本指令對齊。與傳統的視覺運動流程不同,VLA 支持語義基礎,從而實現情境感知推理、可供性檢測和時間規劃。

        典型的 VLA 模型通過攝像頭或激光雷達等傳感器數據觀察環境,可以解讀用語言表達的目標(例如“前方右轉”),并輸出高階(例如左轉)或者低階的精細化運動序列(例如方向2度,前進2m等)。3. VLA 怎么起源的?VLA 模型的概念形成于 2021-2022 年左右,由 Google DeepMind 的 Robotic Transformer 2 (RT-2) 等項目開創。提出了一種變革性架構,將感知、推理和控制統一在一個框架內。VLA 集成了視覺輸入、語言理解和運動控制功能,使具身智能體能夠感知周圍環境、理解復雜指令并動態執行適當的動作。VLA 一詞最早出現在 Google RT-2論文中,該論文使用 PaLI-X 和 PaLM-E 作為將“像素轉化為動作”的主干。

        隨著Google RT-2論文的爆火和引用,VLA也被廣泛傳播。4. VLA 還在哪里廣泛研究和應用?VLA應該是在機器人行業發展更迅速,畢竟當前機器人產業創業和實驗成本都低于汽車。所以,我們從機器人產業的相關研究來看看 VLA應用的發展。截至 2025 年本文發布時間,業內認為,比較先進的視覺語言動作模型 (VLA)采用的是雙層專家系統,結合 VLM 和Diffusion擴散解碼器。

        這兩個專家系統共同模仿了丹尼爾·卡尼曼的雙重過程理論,將高級規劃與低級快速執行相結合。

        專家系統 2(“慢思考”):視覺語言模型( VLM ) 將視覺和文本作為上下文,對其所見的復雜場景和中間任務做出方法論決策。由于其對機器人世界的出色理解,這可以指導機器人的整體行為。它充當高級規劃器,通過對多模態輸入進行推理,深入到多個中間子任務并生成軌跡,從而實現其主要目標。專家系統 1(“快速思考”):Transformer 解碼器或Diffusion擴散模型充當低級控制和靈巧運動的動作專家。擴散模型具有豐富的圖像先驗知識,該系統利用其卓越的語義場景關系,翻譯并執行系統 1 的引導路徑或指令,從而執行敏捷且精細的運動動作。例如Nvidia Groot N1和FigureAI 的 Helix,采用此類策略Nvidia 發布的 GR00T N1 是通用人形推理和控制的開放基礎模型。

        N1 是一個 2B 參數模型(eagle2_hg_model主干),基于 Omniverse 和 Cosmos 的海量合成數據以及人形機器人數據集的真實捕獲數據進行訓練,該預訓練策略可以無縫適配跨實體系統。在 GR00T N1中環境感知、語言指令和機器人狀態被編碼為標記,并傳遞給系統 2 和系統 1,以預測可以直接控制機器人的動作標記。規劃器將長期目標(例如“清理桌子”)解析為原子子任務,而低級控制器則確保實時執行。系統 2: VLM 通過推理來規劃正確的行動,用視覺和語言指令解釋物理世界。系統 1:Diffusion Transformer 擴散變壓器,遵循系統 2 的指令,通過去噪以 120Hz 產生有意義的平滑和精確的運動動作,延遲為 10 毫秒。

        Figure AI 的 Helix 類似,該系統由兩個主要部分組成即,S2 是 VLM 主干,是一種較慢的思維模型,可以處理場景的視覺線索和語義目標,S2 基于一個擁有 7B 參數的開源、開放權重 VLM 構建。S1 是一種以 200Hz 運行的快速模型,能夠快速適應伙伴機器人的實時動作,S1 是一個 80M 參數的交叉注意力編碼器-解碼器 Transformer,負責處理低級控制。它依賴于一個全卷積、多尺度視覺主干網絡進行視覺處理,該主干網絡由完全在模擬環境中完成的預訓練初始化。雖然 S1 接收與 S2 相同的圖像和狀態輸入,但 S1以更高的頻率處理它們,以實現響應更快的閉環控制。來自 S2 的潛在向量被投影到 S1 的標記空間中,并沿著序列維度與 S1 視覺主干網絡中的視覺特征連接起來,從而提供任務調節。Helix 的訓練方式是,它映射視覺場景和文本命令的原始像素,以產生具有標準回歸損失的連續動作。

        此外,比較早期和學術的 VLA模型有:OpenVLA

        它由四個主要部分組成:視覺編碼器:采用雙視覺編碼器方法,結合 DINOv2(約 3 億參數)和 SigLIP(約 4 億參數),接收圖像并創建嵌入的扁平化塊。DINOv2 擅長處理空間關系,而 SigLIP 則提供強大的語言對齊特性。投影:使用 MLP 投影將視覺嵌入映射到 LLM 的共享嵌入空間中。LLM:Llama2 7B 模型接收語言指令并進行標記化。

        視覺嵌入和文本標記一起作為序列傳遞給 LLM,以生成諸如位置、旋轉和夾持器狀態變化等動作,這些動作可直接用作連續信號來控制機器人的末端執行器。動作解碼:動作解碼給執行器執行。谷歌的 Robotic Transformer (RT-2)它由預訓練的 PaLI-X (55B) 作為視覺模型,以及 PaLM-E (12B) 作為主干模型,并與視覺數據和加權后的機器人動作數據共同訓練。它接收機器人的攝像頭輸入(圖像)和 NLP 查詢,并輸出離散的動作 token。這些 token 隨后被去 token 化,生成基于代碼的指令,這些指令可以控制機器人

        Physical Intelligence的 π π 推出的用于通用機器人控制的基礎視覺-語言-動作流 VLA模型,此 VLA 模型在圖像和文本標記的末尾附加了額外的動作和狀態標記,類似于把Detoken也組合進來了,它包含:一個約 30 億預訓練的 Paligemma VLM 模型作為基礎骨干,一個 3 億的擴散模型作為基于 π 跨實體機器人數據集訓練的動作專家。

        伯克利的SuSIESuSIE(SUbgoal Synthesis via Image Editing (SuSIE))更是一絕了,他采用的方法是通過將圖片“編輯”成一個有意義的子目標,然后使用低級目標達成策略來實現該子目標來執行該命令。首先利用一個簡單的圖像生成模型,根據給定目標來生成未來狀態圖片。然后執行機構依靠低級策略來確定精確的運動驅動,完成機器動作。

        顯然在機器人的產業和學術界 VLA做了很多的探索,那么當前汽車界使用的呢?5.VLA 在當前自動駕駛的應用情況?最早在汽車智能駕駛上應用 VLA的應該是英國自動駕駛創業公司Wayve,他在 2023 年 9 月推出的 LINGO-1算法就在自動駕駛上應用了 VLM,他可以生成連續的評論,解釋駕駛行為背后的原因。這可以幫助用戶用自然語言理解自動駕駛模型正在關注什么以及它正在做什么。到了2024年3月份,Wayve就發布了其 VLA模型 LINGO-2。

        目前 Wayve已經和 Uber合作在美國和英國部署L4 robotaxi。日產將在2027年基于Wayve的技術推出下一代ProPilot智能輔助駕駛。另外一家推出過類似 VLA概念的就是Google自動駕駛公司Waymo。Waymo的EMMA,是Waymo在2024年10月發布的一個探索項目論文,應該沒有批量應用。

        在中國這邊跟特別緊的就是理想汽車了,走了類似于Wayve的路。理想汽車在2024年2月份左右推出VLM論文,緊接著大概7月份宣發上車。到了年底開始推出VLA相關論文,然后將會在2025年7月基于英偉達Thor以及雙Orin平臺上市 VLA新的智能輔助駕駛。具體了解理想的VLA可以查看之前文章《理想智駕的VLA模型及其結構》.

        小鵬在最近發布的G7已經明確表示采用 VLA,但具體實現形式不清楚,不過通過其發布的720億(72B)云端算法架構圖,顯然這是一個 云端VLA的架構,未來估計可以蒸餾成一個車端 VLA模型放到車端芯片上。根據小鵬6月12 G7發布會上宣布的信息,小鵬智能駕駛采用三塊圖靈芯片共計2200Tops的算力,支持車端 VLA+VLM 的架構。其實可以瞄一眼上圖理想的VLA架構,兩家應該趨同了,不同點是理想的 VLM是放在云端,小鵬憑借大算力芯片將 VLM放在了車端。

        華為在年初發布的ADS 4.0采用的WEWA,總體上是宣布華為到了端到端,WE 世界引擎也就是世界模型的一個應用,用于生成虛擬驗證的場景。WA應該是一個端到端的范式,華為目前應該缺少跑VLA的芯片。

        6.寫在最后VLA采用視覺信息,語言信息結合,基本上就是類人的仿生,人類也就是采用這類方式與物理世界交互。所以 VLA就是解決 Physical AI而生,自動駕駛以及機器人都是Physical AI最大的落地應用,自動駕駛以及機器人產業,他們的人工智能算法邏輯,儲能以及運動電機等核心零部件類似,所以,做智能汽車的基本上也會做人形機器人了。那么是不是 VLA需要自研呢?其實至少里面的 LLM大語言模型肯定不需要自研的,畢竟一個LLM是一個人工智能的基礎范疇,不需要也沒必要重新發明輪子。目前已知國外自動駕駛或者機器人基本用Open AI、Meta、Google的LLM; 國內汽車界理想和小鵬應該通用采用Deepseek或者阿里的Qwen。最終大家都是利用人工智能模型組合好自己的 VLA,進行落地應用。不過最后,提醒,先進的技術≠ 好的產品體驗。

        參考文章以及圖片

        SimLingo: Vision-Only Closed-Loop Autonomous Driving with Language-Action Alignment - wayve

        ZERO-SHOT ROBOTIC MANIPULATION WITH PRETRAINED IMAGE-EDITING DIFFUSION MODELS - University of California, Berkeley 2Stanford University 3Google DeepMind

        π0:用于通用機器人控制的視覺-語言-動作流模型 - Physical Intelligence

        ORION:基于視覺語言指導動作生成的整體端到端自動駕駛框架 - Huazhong University of Science and Technology, 2 Xiaomi EV

        HybridVLA: 統一視覺-語言-動作模型中的協同擴散和自回歸.pdf - 1State Key Laboratory of Multimedia Information Processing, School of Computer Science, Peking University; 2Beijing Academy of Artificial Intelligence (BAAI); 3CUHK

        視覺-語言-行動模型:概念、進展、應用與挑戰.pdf - aCornell University, Biological & Environmental Engineering, Ithaca, New York, USA bThe Hong Kong University of Science and Technology, Department of Computer Science and Engineering, Hong Kong cUniversity of the Peloponnese, Department of Informatics and Telecommunications, Greece

        全球自動駕駛模型綜述 - Tuo Feng, Wenguan Wang, Senior Member, IEEE, Yang Yi, Senior Member, IEEE

        *未經準許嚴禁轉載和摘錄-獲取本文參考資料方式:

               原文標題 : 一文看懂視覺語言動作模型(VLA)及其應用

        聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

        發表評論

        0條評論,0人參與

        請輸入評論內容...

        請輸入評論/評論長度6~500個字

        您提交的評論過于頻繁,請輸入驗證碼繼續

        暫無評論

        暫無評論

          人工智能 獵頭職位 更多
          掃碼關注公眾號
          OFweek人工智能網
          獲取更多精彩內容
          文章糾錯
          x
          *文字標題:
          *糾錯內容:
          聯系郵箱:
          *驗 證 碼:

          粵公網安備 44030502002758號

          主站蜘蛛池模板: 日韩第四页| 普宁市| 超碰人人在线| 婷婷五月激情综合| 国产综合AV| 国产精品夜夜爽7777777| 午夜社区| 1024你懂的日韩人妻学生| 岛国无码在线观看| av女人的天堂| 国产精品XXX| 久草资源在线| 国产制服丝袜在线| 制度丝袜诱惑av| 亚洲AV熟女| 欧美丰满少妇猛烈进入A片蜜桃| 国产18禁网站| 91婷婷| 91成人在线播放| 大田县| 泰和县| A片入口| 欧韩一区| 亚洲五月婷婷| 日本三级久久| 熟女丝袜国产| 晋城| 龙南县| 天堂在线中文字幕| 久久毛| 久久草网站| 色婷婷粉嫩Av| 元江| 中文字幕一级A片免费看| 久久福利导航| 蜜桃av秘?无码一区二区| 成人午夜福利| 吉安市| 亚洲无aV在线中文字幕 | 澄城县| 久草福利资源站|