左手AI數字人,右手人形機器人:多模態技術正模糊虛實邊界
文/VR陀螺
不久前,阿里巴巴通過3D高斯濺射技術在蘋果Vision Pro上部署了實時高質量渲染的3D AI數字人TaoAvatar,可根據多視圖序列生成逼真、拓撲一致的3D全身虛擬形象,姿勢、手勢和表情均可完全控制。

該技術使數字人在3D空間中能聆聽、能說話、有表情、有動作,同一數字人可瞬間切換職業/服飾,未來可應用于AR電商直播場景等。未來可應用于虛擬導購等領域。
4月7日,阿里通義宣布開源發布LHM可驅動超寫實3D數字人生成模型,可單圖秒級生成超寫實3D數字人。只需輸入一張圖片、即可與這張圖片所生成的數字人化身進行低延遲的實時對話。未來,LHM有動作重現、游戲角色生成和虛擬現實探索三大應用方向。
數字人的發展遠比想象中更快,AI化只是其變革的一個縮影。
虛擬主播、數字員工……當數字人都開始接入AI
自2022年起便處于休整狀態的虛擬VTuber絆愛(Kizuna AI)于不久前以全新形象正式“復活”,在YouTube上恢復更新,并宣稱未來將更專注于音樂活動。更新后不久,其YouTube訂閱數重新突破300萬。

左圖為絆愛新形象
網友戲稱:“2016年懷疑絆愛是不是AI,2025年還在懷疑絆愛是不是AI,一切都回來了!”
以人工智能為人設的絆愛或許未曾料到,同樣是在2022年,在自己宣布無限期休整后,真正意義上的AI聊天機器人ChatGPT會掀起一場襲卷全球的浪潮,將AI的發展推向新的高峰。
技術的持續升級不斷擴展數字人的“工作能力”,相較于由人類(中之人)驅動的數字人(虛擬主播、虛擬偶像等),如今由AI驅動的數字人(AI助手、AI數字員工)在接入多模態大模型后受到了更多的青睞。
在虛擬主播領域,AI VTuber如雨后春筍般涌現,例如Neuro-sama是完全依靠AI運行的英語系VTuber,不僅能回復聊天,還能通過AI玩《osu!》和《Minecraft》等游戲。Neuro-sama的成功不僅展示了AI VTuber在娛樂領域的潛力,更揭示了AI數字人在多場景應用中的技術通用性。
它們與傳統虛擬主播的區別在于,后者不需要人類過多介入,能基于大型語言模型(LLM)自主與觀眾互動,而且能夠實時響應用戶聊天、玩電子游戲和分享個人趣事。隨著開發者向他們提供更新的數據或語言模型,它們能夠不斷進化。

AI驅動的VTuber
隨著多模態大模型的不斷成熟,不同職位的數字人的功能屬性正在發生變化:AI數字人正在重塑人機交互的邊界:
春節期間,杭州電視臺新聞聯播的AI主持人“小雨”進行新聞播報,實現了0失誤率,不少地方電視臺和地方融媒體中心都聘用了AI數字人擔任主播。
2025年兩會期間,長江日報正式上線接入DeepSeek的最新人工智能產品,數字人“小武”能根據政府工作報告內容進行知識問答。

浙江義烏老板通過AI數字人短視頻制作工具,錄制好帶口型的視頻,配合對應的產品文案就能一鍵生成對應的外語視頻。
騰訊云智能數智人接入DeepSeek大模型,用戶通過數智人平臺內置的V3、R1等模型,無需開發就可以讓DeepSeek擁有真人外觀,數智人可應用于交互場景和播報場景。
百度慧播星發布了“真人一鍵克隆”數字人直播功能,可以實現無需專業設備、無需真人值守、無需運營團隊、上傳視頻即可同步復刻聲音、形象、裝修,一鍵打造數字人電商直播間。
不知不覺間,DeepSeek等AI大模型都在為數字人注入新的血液,數字人正完成從“皮囊”到“靈魂”的進化,AI將逐步覆蓋數字人生產到應用的全流程。
能力進化,這是AI數字人該有的樣子
數字人的發展可按技術成熟度分為五個階段:萌芽階段、初級階段、成長階段和成熟階段,不同時期均有其顯著特點。
萌芽階段的數字人起源于20世紀80年代的日本宅文化,以角色概念設定出現。直至21世紀初期的初級階段,隨著雅馬哈的語音合成軟件VOCALOID的推出,數字人正式走上文娛舞臺,代表角色為初音未來。2016年至2020年期間,動捕技術和錄制設備的發展到達新階段,出現了以絆愛等需要中之人驅動的虛擬主播。

進入成長階段的數字人主要以二次元風格形象為主,2021年后元宇宙興起,AI開始融入數字人的制作環節,建模、驅動和渲染技術的升級,使得3D化偏寫實風格的數字人憑借高仿真的外形和交互能力獲得超高關注,代表角色有AYAYI、柳夜熙等,然而這類數字人自帶IP屬性,由于生產成本過高,其模式難以大批量復制投入市場。
在正式進入成熟階段之前,數字人產業因ChatGPT等AI的出現走向了新的分支,這期間各產業與數字人的融合更加緊密,且AI不再局限于融入數字人的制作流程,而是能直接賦予數字人情感表達、內容輸出和規模化應用的能力。
純AI驅動的數字人已經走向新高地,其技術構成主要涵蓋外在形象、決策交互和多端部署等方面。
外在形象:AI數字人外在形象塑造技術取得顯著進展,源于計算機圖形學、計算機視覺、神經網絡、深度學習等方面均取得重要突破。傳統建模方式流程繁瑣且效果有限,如今數字人建模算法僅需少量視角的圖片/視頻/音頻就可生成新樣本,再對數據進行渲染從而生成更具真實感的三維數字人形象。
EchoMimicV2數字人——輸入1張圖+1段手勢視頻+1段音頻,即可生成有自然動作的數字人
決策交互:實現AI數字人與用戶流暢智能交互,依賴語音識別(ASR)、語音合成(TTS)、自然語言理解(NLP)、AIGC、大型語言模型(LLM)等能力,以及知識圖譜的構建和深度學習能力來完成分析決策,實現與數字人的實時交互,在智能客服、智慧屏等ToB應用場景,AI數字人表現出色。
Tavus:實時音視頻對話數字人——能聽、看到、理解用戶的話,并做出有感情的回復
多端部署:多端部署對AI數字人的價值發揮至關重要。具有實用性的AI數字人需要支持多平臺運行,這意味著它需要強大的傳輸能力、云計算、邊緣計算等能力來保證高質量、和低延遲的人機交互服務。
硅基智能開源實時數字人duix.ai——可在各種終端設備上部署
上述數字人從外形和面部表情來看足夠以假亂真,用戶所希望的是一種更有“活人感”的數字人。2月6日,字節跳動推出OmniHuman-1數字人模型:可從單張照片及一段音頻生成逼真全身動態視頻,據悉OmniHuman是經過超18700小時的人類視頻數據訓練而成的。

字節跳動OmniHuman-1數字人模型
在AI數字人這條賽道上能看到阿里、百度、京東、騰訊等企業的加入,現在AI數字人的產品和落地場景都得到了驗證,然而最關鍵的成本問題則會隨著國內訓練的模型的增多而進一步緩解。

硅基數字人HeyGem.ai模型
3月6日,硅基智能在GitHub開源了硅基數字人HeyGem.ai模型,用戶只需要上傳1秒視頻或者一張真人照片,就能在30秒內輸出還原本人音色和外貌的60秒數字人視頻,且支持離線克隆數字人的形象和聲音,以及4K畫質導出。此開源模型一發布,開發者、企業甚至是個人用戶都能以更低成本創建AI數字人。
當AI數字人在虛擬世界構建起完整的交互生態時,技術的邊界正悄然向物理世界延伸。
AI的另一個進化方向:具身智能-人形機器人
作為AI大模型中最先進行商業化嘗試的應用之一,AI數字人在多數人眼中像是人機交互的門戶,如今已經能與人類進行無障礙交流。隨著技術發展,人們不禁思考,數字人會不會從平面的虛擬形象概念發展到具有高度智能和仿真交互能力的實體數字人,甚至能在某些場景中輔助人類完成任務?
具身智能是指將人工智能融入機器人等物理實體,賦予它們感知、學習和與環境動態交互的能力。如今,具身智能已經走到臺前,并首次被寫入政府工作報告。
人形機器人是具身智能的一類代表性終端,其核心特性則是強調機器人的身體要與物理世界的環境有動態交互,包括執行抓取、移動、操作物體等物理動作,而純軟件系統,如AI聊天機器人/AI數字人則無法實現這類交互。

2025年,人形機器人熱度頗高。在CES大會上,英偉達宣布合作的14家人形機器人廠商中,有近半數來自中國,包括小鵬汽車XPENG(Iron)、宇樹科技Unitree(H1)、銀河通用機器人Gallbot(G1)、傅利葉智能Fourier(GR-2)、星動紀元ROBOTERA(Star1)、智元機器人Agibot(A2)。
具身智能的發展速度超乎想象,如今人形機器人的上新時間間隔已經縮短到以天為單位,進入量產前的熱身階段。比起外形,人形機器人的現階段的首要任務就是優化“大腦”能力并提升運動能力。
3月11日,稚暉君時隔兩年發布新視頻,展示全新的智元機器人靈犀X2,能走、能跳舞、能騎自行車,在此之前稚暉君還發布了首個通用具身基座模型——智元啟元大模型(Genie Operator-1),該大模型能夠通過學習人類視頻并訓練,完成小樣本快速泛化,最終部署到智元機器人的本體上。
3月19日,英偉達CEO黃仁勛在GTC 2025大會上發表了主題演講,并宣布推出Isaac GR00T N1通用機器人模型,使通用人形機器人能夠理解人類世界、遵循語言指令并執行各種任務,其目的就是加速人形機器人的開發和能力提升。

兩個Isaac GR00T N1人形機器人用雙臂搬運物體
黃仁勛將機器人描述為下一個10萬億美元的產業,并表示到2030年年底,全球將面臨至少5000萬勞動力短缺的問題,未來將雇傭更多機器人來工作。
宇樹G1機器人的“側空翻”和波士頓動力機器人Atlas“跳街舞”挑戰高難度動作,讓人形機器人再次火出圈,這些動作對機器人精確控制身體各部分的運動軌跡和姿態的能力要求頗高。

宇樹G1機器人

波士頓動力機器人Atlas
當下計算機視覺、多種傳感器與深度學習等技術的融合正在推進人形機器人走向應用階段。推薦閱讀:《中國正在用一個萬億機器人市場,消解二十億人的養老焦慮》
站在2025年的技術節點回望,虛擬世界的數字人最初作為虛擬主播的娛樂載體,如今具身智能以鋼鐵之軀在現實世界展現新貌,二者雖在形態上截然不同,卻在部分技術上有共通之處。

有開發者使用蘋果Vision Pro訓練機器人
在長期的發展進程中,數字人發展到現今具備復雜技術構成和多樣化應用的成熟形態的過程中,積累了海量且高精度的動作捕捉數據,并通過持續訓練不斷優化。這些寶貴的數據資源,能為人形機器人的訓練提供堅實的數據支撐,助力其更精準地模擬人類動作。與此同時,AI大模型憑借強大的算法與智能運算能力,賦予人形機器人核心的交互能力,讓它們得以與環境、人類實現更為自然、流暢的互動。
我們正站在虛實交融的邊界,或將見證人類文明史上最深刻的生產關系變革——不是機器人取代人類,而是人機協同開創更具溫度的未來。
原文標題 : 左手AI數字人,右手人形機器人:多模態技術正模糊虛實邊界
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
-
11月7日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯網行業年度評選
-
11月20日立即報名>> 【免費下載】RISC-V芯片發展現狀與測試挑戰-白皮書
-
即日-11.25立即下載>>> 費斯托白皮書《柔性:汽車生產未來的關鍵》
-
11月27日立即報名>> 【工程師系列】汽車電子技術在線大會
-
11月28日立即下載>> 【白皮書】精準洞察 無線掌控——283FC智能自檢萬用表
-
12月18日立即報名>> 【線下會議】OFweek 2025(第十屆)物聯網產業大會


分享













