像奇異博士一樣預測未來已成為現實?MIT、百度AI或為你圓夢!
作者:Ripple
編輯:生煎

您正在閱讀算力智庫第 388 篇原創作品

算力說
無論是在電影還是小說中,預測未來的能力總是讓人驚嘆。運用AI算法,透過聲音或像素流向對未來進行預測,或將為你打開這扇新世界的大門。
1
MIT、UC Berkeley強強聯手, 用AI聽出你的姿勢
在今年的CPVR2019論文中,有一篇跨模轉換的文章吸引了算力智庫的注意。這究竟有什么特別之處呢? 原來,只需要音頻語音輸入,AI可以預測并生成出相對應的手勢,而所謂的跨模轉換即為聲音到手勢及手臂動作的轉換,讓我們先來看段視頻了解一下。
視頻的左上是標定好的真實數據,而右邊的視頻則是基于左下的預測部分進行合成的。通過觀察,我們可以發現預測數據對比真實數據的準確度是高度一致的,這種神奇的操作又是基于何種原理呢?

語音預測動作的技術原理大致分為以下四個要素:
1. 首先,需要訓練與音頻相對應的姿勢檢測序列(能將指定序列從數碼流中識別出的方法)。研究人員使用L1回歸到2D關鍵點的序列堆來學習從語音到手勢的映射。
2. 其次,使用對抗性鑒別器(防止數據訓練時源標簽信息丟失以及結果多樣性不足的鑒別器)來避免回歸到所有可能姿勢的平均值,以確保預測動作的可信度。
3. 進而,運用卷積音頻編碼器(用以音頻糾錯的編碼器)對2D圖像進行采樣并轉換為1D信號。
4. 最后使用Unet轉換架構(用已轉換的1D信號重建2D圖像的轉換架構)。而bottleneck作為構建Unet轉換架構的三大組成之一,為完全卷積網絡(由卷積音頻編碼器及Unet轉換架構組成)提供了過去和未來時間的上下文。而這一步即為預測速度的關鍵。

語音預測手勢的模型(圖片來源:CPVR2019)
在了解了相關技術之后,讓我們來感受一下這個神奇的視頻。
動畫角色創建或成為最先應用
說話者的手勢是獨特的,對一個人進行訓練并預測另一個人的手勢并不起效。這些個人特定手勢往往帶有自己的風格,無論是睜大眼睛又或是手舞足蹈。比如下面這兩位。
而無論你的動作細微還是夸張,都逃不過AI的“法耳”。
研究團隊表示,他們的下一步是不僅根據聲音,還根據文字稿來預測手勢。該研究潛在的應用包括創建動畫角色、動作自如的機器人,或者識別假視頻中人的動作。
2
東京工大建立FuturePose系統, 提前看穿你的下一步
東京工業大學的研究團隊于今年在IEEE上發布了一套名為FuturePose格斗訓練系統。這套系統可以幫助實驗者預測對手未來0.5秒后的動作。讓我們先看兩個有趣的動圖來了解一下。


研究人員通過RGB像素流向,運用機器學習來定位關節,進而根據關節擺動方向來預測對手未來的動作。

實驗時,系統預測的3D影像和現實影像同時顯示在實驗者所佩戴的VR設備中。結果顯示,使用FuturePose的成員做出回避動作的平均反應時間在0.42秒,而未使用的成員需0.62秒的反應時間。

FuturePose 的技術原理大致分為以下三個要素:
1. 首先,基于殘差網絡(增加深度且能提高性能的網絡)來分析RGB相機中所捕獲的圖像,以推測對象2D關節的位置。
2. 其次,將該位置輸入至長短期記憶網絡(處理和預測時序數據的模型)用以學習時序特征,從而預測未來的2D位置。
3. 為了得到更精準的結果以及降低計算成本,研究團隊采用了晶格光流法(將向量網格化用以描述物體移動的方法)。最后將2D位置可視化,構建成3D骨架模型。

FuturePose的技術原理(圖片來源:IEEE)
競技體育或成為最先應用
雖然只有短短的0.5秒,但是對于專業的拳擊選手來說,已經算的上取勝的關鍵了。出拳,閃躲,回擊,一切都能在0.5秒內完成。東京工業大學制作 FuturePose 的初衷是為了格斗訓練,但他們也希望通過不斷完善這項技術,讓 FuturePose 可以應用于其他競技體育或娛樂項目中。
如守門員撲球時的提前預判。

如對舞蹈動作的預判。

百度AI在預測未來中的實際應用
縱觀國內行業在“預測未來”上的發展主要集中在自動駕駛方面。例如,通過行人道路預測在自動駕駛中規避潛在風險。運用跟蹤數據學習行人動力學則成了國內一些如百度、奇點汽車自動駕駛領域公司的主要手段。除此之外,對駕駛車道錯誤、闖紅燈、車相撞和撞靜態物體等方面的預測也同樣能夠幫助車輛提前感知風險、判斷決策、進而規避危險事件。
百度AI的兩大殺手級武器
Road Hackers自動駕駛平臺
Road Hackers是世界上首個在真實道路上可以實現端到端模式的高級自動駕駛模型,并已具備提供海量中國路情駕駛數據開放,基于深度學習的自動駕駛算法演示,可有效提高對路況、行人、危險環境預測的準確度。
BCU-百度自動駕駛專用計算平臺
BCU (Baidu Computing Unit) 是國內目前第一個可量產的自動駕駛計算平臺,目前具有信息安全和云端更新兩大基礎能力,以及高精定位、環境感知、規劃決策的AI核心模塊。其中MLOP(高精定位+環境感知)、MLOP2(高精定位+環境感知+規劃決策)
日前,北京市自動駕駛測試管理聯席小組發布首批T4級別自動駕駛測試牌照,百度成為中國第一家、也是唯一獲得此級別牌照的企業。


文章所載觀點僅代表作者本人

且不構成投資建議

敬請注意投資風險

往期精彩報道

80后掌門人珠寶轉行做軍工,科創板助力國防信息化大浪淘沙
ARM斷供華為,被捏住軟肋的“中國芯”能否靠科創板逆襲?
剛獲1.2億新融資的亮風臺創始人廖春元:正在關注科創板
萬眾矚目!科創板首發股馬上誕生,為什么它們能首批上市?

Libra要涼?國會叫停!退燒后理性的樣子才能觸達價值核心
成立七年,仍虧損!AI教育第一股流利說,流年順乎?
拼多多在左,蘋果在右,傍上綠地的涂鴉智能該何去何從?
市北高新馬慧民:5G+大數據,催生“數據智能”新機遇
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
-
11月7日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯網行業年度評選
-
11月20日立即報名>> 【免費下載】RISC-V芯片發展現狀與測試挑戰-白皮書
-
即日-11.25立即下載>>> 費斯托白皮書《柔性:汽車生產未來的關鍵》
-
11月27日立即報名>> 【工程師系列】汽車電子技術在線大會
-
11月28日立即下載>> 【白皮書】精準洞察 無線掌控——283FC智能自檢萬用表
-
12月18日立即報名>> 【線下會議】OFweek 2025(第十屆)物聯網產業大會


分享













