国产无码免费,人妻口爆,国产V在线,99中文精品7,国产成人无码AA精品一,制度丝袜诱惑av,久久99免费麻辣视频,蜜臀久久99精品久久久久久酒店
        侵權投訴
        訂閱
        糾錯
        加入自媒體

        自駕技術突破的第一刀,砍向自駕人

        2024-06-24 16:41
        vehicle公眾號
        關注

        在 2024 年 6 月 8 日的中國汽車重慶論壇上,理想汽車 CEO 李想發表演講時表示:“最近團隊致力于自動駕駛技術的突破,他們曾思考這樣一個問題:人類開車為什么不涉及學習 corner case?如果我們不能解決這個問題,所有自動駕駛團隊每天干的活都是靠人工去調試各種各樣的 corner case,而且放的人越多,corner case 越多,和真正的自動駕駛就越遙遠。”他接著說:“當人工智能技術在不斷的發展的時候,我們會發現,其實人類開車的方式,不是過去那么多年里我們用的自動駕駛研發的一個方式。這是一個根本的不同。因為人開車沒那么辛苦,沒那么累,不需要養幾千人的團隊去搞 corner case。”

        聯想到最近理想汽車大規模裁員的動作,此番表態似乎是李想在為裁員做出回應。過去,我和業內朋友們討論自動駕駛技術對社會發展的價值時,往往會有朋友提出:“屆時大量出租車、網約車司機失業,帶來的社會影響怎么辦?”誰也沒想到,最先被自動駕駛技術優化掉的,并不是司機們,反而是為自動駕駛技術的發展掉光一茬又一茬頭發的算法工程師們,堪稱 2024 年最佳地獄笑話了。李想所說的“自動駕駛技術的突破”,就是最近非;馃岬亩说蕉俗詣玉{駛技術。那么,什么是“端到端自動駕駛”?為什么端到端的到來,讓李想有這個底氣去大規模裁掉自動駕駛團隊人員呢?本文將從以下幾個方面展開論述,看完這篇,你就理解為什么端到端讓李想認為做自駕,不再需要那么多人了。

        傳統的模塊化自動駕駛方案,以及其局限性

        端到端是什么,是怎么實現的

        端到端對自駕行業的影響端到端自動駕駛之前,我們是怎么做的要想理解什么是端到端自動駕駛,我們首先要思考,什么是“非端到端的自動駕駛”?非端到端的自動駕駛,我們這里稱為傳統的自動駕駛技術,一般稱作模塊化自動駕駛技術。也就是大家所熟知的,分為感知、定位、規劃、控制幾大模塊。感知模塊負責接收傳感器的信號,分析出傳感器探測到的物體是什么。感知模塊把這個信息傳遞給規劃模塊,規劃模塊做出判斷和決策后,將指令傳遞給控制模塊,再由控制模塊去執行。自駕圈過去幾年的技術演進,是無圖,還是重圖,是純視覺,還是雷達全家桶,其實都沒有脫離這個模塊化自動駕駛技術。

        比如說,純視覺好還是上激光雷達更好?技術上的分歧點在于,純視覺夠不夠感知到所有物體?需不需要使用激光雷達去輔助感知?過去幾年,我們自動駕駛相關技術的發展,無論是激光雷達,還是所謂的 4D 毫米波雷達,還是雙目攝像頭,其實都是在加強這個感知模塊。硬件的感知能力加強了,但機器本身,他只知道那里有東西,并不能識別那個東西,需要人為去給機器定義。通俗地解釋,就是我們給機器去設定好一個規則,去告訴機器,有這些特征參數的,是 A 物體,有那些特征參數的,是 B 物體。

        這就是感知算法工程師的工作。在端到端到來之前,我們加強機器感知能力的方法,都是通過打補丁的方式,不斷地去增加規則。比如特斯拉,放棄了激光雷達,僅靠純視覺去識別物體。帶來的問題是,只有標注過的、見過的物體,機器能夠識別。一棵樹,長在路邊,橫在路中間,豎在路中間,我們人類都可以一眼認出來那是一棵樹。但如果只標注過長在路邊的樹,對于橫在路中間的樹,機器可能就識別不出來了。比如,2020 年臺灣的一名特斯拉車主黃先生啟用 Autopilot 時,就撞上了一輛側翻的白色卡車。對機器來說,行駛的卡車、停著的卡車,都能識別出來,但是側翻的卡車,以前沒人給標注過啊。

        算法工程師當然可以很快打上補丁,告訴機器這是側翻的卡車,下次遇到了要提前避讓。但是,下次再遇到四腳朝天的卡車呢?或者側翻的轎車、泥頭車、靈車?算法工程師們,不可能把所有的 corner case 都窮舉完,總有更加奇葩的案例會發生,總不可能每展現一次 corner case,就要消耗一名特斯拉車主吧?所以,特斯拉在 2022 年的 AI DAY 上,分享了一個重要的技術,occupancy network,被稱作是下一代的感知范式。

        這里通俗地解釋一下 occupancy:把汽車周圍的空間劃分成許多小格子,每個格子都有自己的位置和標記。標記分為兩種狀態,被占用和空閑。如果一個格子是被占用的狀態,那就意味著這個格子的空間是有物體的。隨著汽車的移動,不斷地通過傳感器去更新這些格子的狀態。這么一來,機器就可以建模任意形狀的物體和任意形式的物體運動,不再依賴通過人工標注的方式去讓機器學習。看起來,特斯拉的 occupancy network 已經完美解決了如何感知了,對不對?但是 occupancy 依然有局限性。

        比如車前面飄過去一個塑料袋,或者一片落葉,人類駕駛員可以輕松判斷做出無視的決策,但機器會把它識別成障礙物。那怎么辦?還是打補丁,告訴機器,有這些特征的是塑料袋,是落葉,可以無視。這就又回到了上面的問題,自然界的規則是無窮無盡的,永遠都會有還沒考慮到的 corner case。上面說了這么多,還只是感知模塊的問題。規劃和決策模塊,這里面的規則就更復雜了。傳統自動駕駛技術下的規控算法,一般被稱為 rule-based 算法。

        我們通俗地去理解,就是 if A then B,else C。當然,規控算法本身是非常非常復雜的,不是簡單的 if else 語句,這里只是方便非工程專業的讀者理解。規控這里面的算法所遇到的 Corner Case,就更多更復雜了。我們的算法工程師去定義規控規則的時候,還是要基于我們設想的場景,去告訴機器,這個場景下要怎么做。比如通過識別車道線、識別交通標識,以及車道與車道之間的連接關系,告訴車輛此時應該直行、左轉還是右轉。那么問題來了,現實世界中,周邊除了那些靜止的環境要素,還有大量的動態環境要素。比如直行的時候,突然旁邊有輛車切入;蛘呔G燈過路口的時候,突然有個外賣小哥闖紅燈橫穿過來。

        簡單通俗地去理解,就是每一個場景,都需要一個 if else 去告訴機器該怎么做。現在假設這么一個場景,路口有交警指揮交通,要求直行車輛全部右轉。這對于人類駕駛員來說,是一個再普通不過的場景,哪怕一個新手司機也能立刻判斷要怎么做。但自動駕駛汽車可能就不行了,因為規則告訴它,這是直行車道,且周圍沒有其他障礙物或者車輛干涉,此時應該直行。如果算法要解決這個問題,怎么辦呢?首先要讓機器能夠識別交警。OK,我們給機器設定規則,穿天藍色衣服站在路口比劃手勢的,是交警,識別交警的手勢并做出對應的路徑規劃。首先光是實現這一步識別,就非常非常麻煩……然后,某一年,交警換制服了,改成綠色了。又或者,某個特殊場景下,交警沒有穿制服,比如重大車禍現場,某個休假中的交警路過,臨時指揮交通。

        又或者,不是交警,而是穿黃色衣服的路政工人指揮車輛離開前方路段。那繼續打補丁,告訴機器穿黃色衣服的人是路政,然后下次又遇到了美團外賣小哥,又得告訴機器如何區分路政人員和美團外賣?偠灾,規則是無窮無盡的,這里能拿出來舉例的,可能都已經打上算法補丁了,還有更多更多的場景,可以非常非常奇葩,發生的概率非常低,沒有實際發生之前,人已經沒有辦法提前設想出來了,自然也就沒辦法給機器設定規則。傳統的自動駕駛技術,越是常見的場景,算法就訓練的越成熟

        所以早些年,大家看到做自動駕駛的公司如雨后春筍一般,一茬接一茬的冒出來。每家初創公司都可以很快在一些簡單場景下實現自動駕駛。融到錢以后,再去一點點研究 corner case,不斷地打補丁。然而,通過這種打補丁的方式,收益率是越來越低的。越往后,就需要投入越多的人力,去發現并解決一個 corner case。這也是為什么最近幾年,大家感覺大部分自駕公司似乎沒什么技術上的明顯突破,一直都在 L2+,L2+++,L2.9999。理論上來說,只要設定的規則足夠多,能夠把自然界 99.99999.....% 的場景都覆蓋到,那么通過這種模塊化的技術路線,自動駕駛也是可以實現的。

        這種方式下,自然就需要非常龐大的研發團隊。比如比亞迪就曾經公布過,4000 人的智駕團隊,每個月的工資要發 10 億。如此高昂且需要持續投入的成本,也就限制了自駕技術的發展。另外,模塊化的自動駕駛,由于感知、規劃、決策各個模塊是單獨開發和優化的,系統的集成就變得非常復雜。不同模塊之間的信息傳遞存在誤差累計,進而也會影響整體性能。最后,當出現問題時,快速定位問題原因并給出解決方案也是一個難題。做感知的認為是規控錯了,做規控的認為是感知錯誤導致規控錯了。

        這幾個問題比較技術,本篇就不展開來介紹了。端到端的自動駕駛是什么上面說了這么多,都是在解釋傳統自動駕駛發展中遇到的技術瓶頸。那么,端到端自動駕駛又是什么呢?與傳統的分模塊的思路不同,端到端自動駕駛以感知的傳感器數據為輸入,直接輸出車輛的控制指令,中間過程是個黑盒,由神經網絡來完成,人類不參與其中的規則定義。端到端的概念本身其實提出較早,但由于決策過程無法追溯,一直沒有被用于工程實踐。

        大模型的出現以及快速發展,給端到端自動駕駛帶來巨大轉機。特斯拉發布的 FSD 12,則是率先將端到端自動駕駛率先工程落地。端到端和chat gpt這類語言大模型并不是一回事,但是,他們在技術層面上的應用原理是非常類似的。端到端自動駕駛和chat gpt都使用了深度學習技術,尤其是神經網絡模型,來處理和生成數據。兩者都使用了大模型,都依賴大量的數據來訓練模型。端到端自動駕駛從大量的駕駛案例中學習駕車的操作規律,chat gpt則是從文本中學習人類的語言規律。

        為了方便理解,這里,首先解釋一下語言大模型的工作原理。在上世紀 50-60 年代,人工智能專家通過給機器定義語法規則,來實現讓機器按照語法輸出人類語言。這種方式跟傳統模塊化自動駕駛類似,本質上都是人類給機器定義規則,機器去執行規則。但是問題來了,人類輸出語言,其實并不是完全按照語法規則,語法規則只是對人類輸出的語言信息的規律總結。而機器本身并不能理解語言本身的含義。所以機器按照設定好的語法規則輸出的語言,可以是語法完全正確但是沒有任何意義,不承載任何信息的廢話。比如著名的語言學家 Charmsky 舉了一個例子:colorless green ideas sleep furiously,無色的綠色點子狂暴地睡覺。

        這句話完全符合語法規則,但沒有任何意義,正常人類的對話不可能輸出這樣的句子。另外,人類本身也不會完全按照語法規則去輸出語言。比如每年網絡上層出不窮的熱梗:YYDS,絕絕子,尊嘟假嘟,姬霓太美……這些詞原本沒有任何意義,但是人們給它賦予了含義,懂這個梗的一看就能明白什么意思。語言的目的是傳遞信息,雖然有些梗很爛很惡俗,但確實傳遞了信息。上面兩個案例就說明,語法規則并不能完全定義人類語言。如果用定義語法規則的方式去告訴機器怎么輸出語言,那機器可能會輸出完全符合語法但毫無意義的語言,而且每次出現新的語法規則,就要給機器更新一個新的語法規則,這就太麻煩了。這和傳統自動駕駛算法去不斷加規則所遇到的瓶頸,是不是很像?那么 GPT 又是怎么做的呢?

        GPT,全稱為“Generative Pre-trained Transformer”,是一種基于 Transformer 架構的預訓練語言模型。它本質上是一種預測語言模型。我們把 GPT 想象成是一個超級過目不忘的學霸,GPT 本身并不能理解語言,它通過閱讀互聯網上無數的文本資料,包括小說、新聞、論壇帖子等,總結出了語言的規律,哪些詞經常一起出現,句子怎么組織才自然。然后,GPT 預測文本中接下來可能出現的單詞。比如你給它一個句子的前半部分,它就能猜測后面可能跟著哪個詞。GPT 還能根據上下文理解詞義。比如“蘋果”這個詞,在不同的上下文中可能指的是水果,也可能是指科技公司。更通俗一點去理解,可以類比我們的聯想輸入法。輸入一個詞,后面會聯想出你可能想要輸入的下一個詞。這種聯想輸入法,其實就是一個最簡單的語義模型了。

        聯想輸入法只能根據前面的一個或兩個詞語去預測下一個詞,而大模型預測下一個詞的信息,不僅僅是局限于前面一兩個詞,而是之前所有的內容。大模型通過學習前面的詞,預測下一個詞,涉及詞匯向量和運算。這,叫做統計語言模型。大模型通過閱讀大量人類的語言文本,就能從中找出語言的規律。

        比如:他非常喜歡你,只因你太____。大模型通過大量閱讀總結的規律,首先學習到了,“太”這個副詞往往會接形容詞,所以大模型接話不會接“只因你太打籃球”,或者“你太唱跳 rap”,大模型通過語言規律的總結,知道這里應該接一個表達情緒的形容詞。又通過總結規律發現,“喜歡”這個詞是正面情緒,往往會接褒義的詞,所以大模型也不會接“只因你太蠢”或“只因你太沮喪”。

        最后,語言大模型大概率就會給出“只因你太美”。所以,通過大量的數據輸入訓練后的大模型,就可以根據前面的內容不斷往后面接詞。上面盡可能通俗簡化地講了語言大模型的工作原理。實際的語言模型當然遠遠比上面描述的要復雜得多。那么,這跟端到端自動駕駛又有什么關系呢?跟訓練語言大模型類似,從傳感器輸入開始,信號給到神經網絡。人類不在神經網絡中定義規則,不去告訴它應該識別什么,應該怎么做。我們只是把這個場景下,人類的操作給它看。就像語言大模型總結出語言規律一樣,AI 也能通過大量的素材,總結出,當某一些特定的傳感器信號,或是像素群出現的時候,人類就會進行一定的操作。

        語言大模型用的訓練數據是人類的文本,而端到端自動駕駛需要的訓練數據,則是大量人類開車的視頻片段。這種訓練方式,使得 AI 能夠像人類一樣思考。之前,特斯拉的FSD也是基于傳統的模塊自動駕駛方案,但是,特斯拉最新發布的FSD Beta v12 已經率先采用并落地了端到端自動駕駛。特斯拉在此前的FSD多個版本中,通過純視覺感知方案,利用影子模式實時收集數據,已經積累了大量數據用于訓練模型。據媒體報道,特斯拉訓練用到上千萬個視頻片段。

        馬斯克在此前的試駕直播中表示,FSD Beta V12是有史以來第一個端到端AI自動駕駛系統(Full AI End-to-End),從頭到尾都是通過AI實現。我們沒有編程,沒有程序員寫一行代碼來識別道路、行人等概念,全部交給了神經網絡自己思考。V12的C++代碼只有2000行,而V11有30萬行也就是說,從傳統模塊化自動駕駛轉向端到端后,特斯拉的FSD所需要的代碼,僅僅不到原來的1%既然不需要那么多代碼了,自然也就不需要那么多寫代碼的人了。這大概就是李想裁人的底氣。端到端自動駕駛的未來展望說了這么多,現在回到標題。端到端,給自動駕駛行業帶來了什么?首先,是對從業者的影響。因為不再需要給 AI 制定規則了,自然也就不再需要那么多算法工程師。

        就像chat gpt的出現,讓大量翻譯人員失業一樣,端到端的到來,也會取代大量基層算法工程師的職能。所以不僅僅是李想才有底氣大規模裁研發人員,后續其他做自駕的 OEM 或者自駕 tier 1可能都會跟進。當然,這并不是所有的算法工程師就都要下崗了。因為訓練的數據量還不足以支撐端到端自動駕駛的直接落地,短期內會有一個過渡期,即端到端實現自駕功能,但依然人為設定一套規則進行兜底。其次,是對產業鏈的影響。我認為,純視覺與雷達之爭可以休矣。純視覺方案一定大于雷達方案。攝像頭捕捉到的信息密度,是遠遠大于雷達的。雷達捕捉的信息強在精度。

        設想這么一個場景,你開車在路上的時候,你的眼角余光看到路邊停著的車輛后邊冒出來一個腦袋在移動,有經驗的司機可能就猜到這是有人準備過馬路,只是身子被停在路邊的車輛擋住了,然后司機就會選擇減速觀察。神經網絡學習到了這個規律,它會發現每次路邊靜止的車輛附近出現移動的像素點時,人類司機就會做出一些減速操作。這類場景,只有純視覺可以捕捉到全量的場景信息,并且讓 AI 總結出,視頻的最角落的幾個像素信息也會影響人類操作,進而學習這個機制。而雷達就只能等這個人出現在車子面前,探測到實體后,做出剎車的動作。這就是自駕經典難題“鬼探頭”。

        但這并不是說以后自動駕駛就不需要雷達了。在性價比足夠高的情況下,可以加幾顆雷達去增加安全冗余,但端到端本身,并不需要雷達。所以,幾十塊錢的毫米波雷達,OEM 是不介意用幾顆的。但至今仍要 2-3000 一顆的激光雷達,唯一出路就是繼續卷價格,卷到價格低到 OEM 愿意接受它當個備胎為止。目前,端到端本身還有一些局限性,比如訓練數據不足,在某些場景下,其表現還不如原來模塊化自動駕駛。另外,可測試性,可解釋性等問題也是業內人士爭論的焦點。本文不再展開。

        結語大模型的興起改變了許多行業,也為沉寂多年的自動駕駛行業帶來了新的可能。特斯拉的 FSD V12 的率先落地,也讓大家更加堅信自動駕駛必將實現。那么,完全的自動駕駛是先有端到端實現?還是由模塊化技術方案實現?還是由兩者的結合呢?歡迎留言討論。

        *未經準許嚴禁轉載和摘錄-參考資料:

               原文標題 : 自駕技術突破的第一刀,砍向自駕人

        聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

        發表評論

        0條評論,0人參與

        請輸入評論內容...

        請輸入評論/評論長度6~500個字

        您提交的評論過于頻繁,請輸入驗證碼繼續

        暫無評論

        暫無評論

          文章糾錯
          x
          *文字標題:
          *糾錯內容:
          聯系郵箱:
          *驗 證 碼:

          粵公網安備 44030502002758號

          主站蜘蛛池模板: 中西区| 性爱综合网| 中文字幕第56页| 91日本视频| 平舆县| 中文字幕亚洲在线观看| 亚洲中文字幕2025| 69精品人人人人人| 波多野结衣av88综合| 砀山县| 精品制服丝袜亚洲专区| 南澳县| 欧美视频精品| 多p在线观看| 阿瓦提县| 91露脸熟女对白不带套| 91视频免费入口| 98人妻| 欧美午夜福利| 日本va欧美ⅴa欧美Va精品 | 99中文在线精品| 亚洲一区二区av| 黄色综合网| 国产成人小说| 洛宁县| 兰坪| 国产男人天堂| 超碰日韩| 国产制服丝袜在线视频观看| 久久免费在线视频| 国产网友自拍| 亚洲激情av| www.99re6| 海角社区91熟女丝袜脚国产| 人妻少妇精品久久久久久0000 | 阳高县| 乌什县| 超碰666| 阿拉善盟| 狠狠干奇米| 一本一道人人妻人人妻αV|