国产无码免费,人妻口爆,国产V在线,99中文精品7,国产成人无码AA精品一,制度丝袜诱惑av,久久99免费麻辣视频,蜜臀久久99精品久久久久久酒店
        訂閱
        糾錯
        加入自媒體

        多模態2025:技術路線“神仙打架”,視頻生成沖上云霄

        2025-06-11 09:25
        光錐智能
        關注

        圖片

        文|魏琳華

        編|王一粟

        一場大會,聚集了中國多模態大模型的“半壁江山”。

        智源大會2025為期兩天的論壇中,匯集了學界、創業公司和大廠等三方的熱門選手,關于多模態的集中討論達到了前所未有的熱度。其中,創業公司就有愛詩科技、生數科技、Sand.ai、智象未來、Luma AI、智譜等六家公司創始人、CEO分享心得;隸屬大廠隊的字節、騰訊、百度的多模態技術負責人,以及學術界的人大和MIT(麻省理工)的相關專家學者。

        自回歸、擴散、原生多模態......圍繞種種技術路線的論證和實踐分享都證明了一件事:相比碩果僅存的大語言模型戰場,多模態大模型的技術路線還遠遠沒有收斂。

        “多模態大模型已在特定場景啟動落地,但尚未實現高度普適化。”智源研究院院長王仲遠給出了這樣的判斷。他指出,根本性突破仍依賴更強大的基礎模型——若多模態模型達到足夠可用的水平,將推動產業進一步發展。

        在種種空白中,多模態想要打開下半場的入口,顯然還有一段路要走。

        多模態,尚未迎來“ChatGPT時刻”

        “對于多模態模型而言,現在定義下半場還為時尚早,我們連上半場都還沒有看到邊界在哪里。”

        面對“如何看待大模型下半場”的問題時,Sand.ai聯合創始人張拯給出了這樣的回答。

        “慢一拍”的多模態大模型,限制了應用端的能力表現。以視頻生成為例,智象未來CEO梅濤指出,目前視頻生成還處于GPT-2到GPT-3之間的階段。他將視頻創作的三個要素總結為敘事性、穩定性和可控性。

        敘事性,即保證視頻“做5分鐘和1小時是完整的故事”,保持IP的一致性;而在穩定性上,需要保證畫面質量、運動連貫性、時序一致性等方面的穩定,目前表現較好;可控性,則是衡量視頻內容生成的精準程度,第幾秒出現什么鏡頭,人物做什么表情等要求非常高。但今天的大模型,還無法達到這樣的水準。

        現階段,想要提升模型生成效果,數據質量就成了關鍵。

        “我們為什么會看到Google的Veo 3,很多模型做得很好、做得很逼真,如果在模型架構上大家都趨同的話,其實真正的競爭就取決于高質量的數據。”智象未來CEO梅濤說,“其實我們并沒有產生所謂新的智能,只是在復制我們看到的這個世界。”

        圖片

        Google Veo 3模型展示

        圍繞如何提升多模態大模型的能力,多家企業所踐行的技術路線并不相同。

        相對于普遍采用Diffusion Transformer(Dit,即擴散Transformer)模型的文生圖、文生視頻領域,多模態大模型到底是采用自回歸模型、擴散模型還是其他方式,業內對此沒有達成共識。

        在大會現場,Sand.ai CEO曹越給出了他對擴散模型帶來的問題思考:

        “技術層面,主流的Diffusion和Transformer的訓練方案還是存在很大問題,核心問題在于可擴展性不足。”曹越說,“在Diffusion Transformer路線上,現在證明生成5秒視頻可以有不錯的效果,但隨著模型規模提升,會快速達到瓶頸。”

        即使在生成機制一致的情況下,模型架構和訓練方式的不同也對模型生成效果帶來影響。

        在Luma AI創始人宋佳銘看來,多模態大模型進入下半場的前提,是上半場要先把不同模態像語言一樣統一處理,既要用同一個模型建模,還要保證推理足夠快。

        是將多個模態拼接訓練,還是在一開始就采用統一架構,把各種模態的信息丟到一起統一訓練,這就是多模態和“原生多模態”兩條路線的區分。

        “當前多模態大模型的學習路徑,尤其是多模態理解模型,通常是先將語言模型訓練到很強的程度,隨后再學習其他模態信息。”王仲遠說,“這就如同先達到博士學位水平,再去接觸其他知識。”

        然而,在上述過程中,模型的能力可能會出現下降。用王仲遠的話說,模型的能力可能從 “博士” 水平降至 “大學” 甚至 “高中” 水平。

        為了解決這個問題,智源研究院早在去年10月上線了全球首個原生多模態世界大模型Emu3,試圖將多種模態的數據統一在一個架構內。

        作為原生多模態模型,Emu3采用自回歸的生成方式,基于下一個token預測范式統一多模態學習,通過研發新型視覺tokenizer將圖像/視頻編碼為與文本同構的離散符號序列,構建模態無關的統一表征空間,實現文本、圖像、視頻的任意組合理解與生成。

        也就是說,你可以隨意將文字、語音和視頻丟給Emu3處理,而它也同樣能夠用這三種形式生成內容,實現跨模態交互。

        想要通往多模態大模型的下半場,多模態數據形態的擴充也是關鍵之一。MIT CSAIL何凱明組博士后研究員黎天鴻認為,真正的“下半場”多模態,應該是模型能處理超越人類感官的數據。

        在會議現場中,智源研究院也分享了在圖像、文字、聲音和視頻之外,多模態數據形態的擴充——腦信號。

        “悟界”大模型系列中的見微Brainμ就脫胎于Emu3的“骨架”中。基于Emu3的底層架構,智源研究院成功將fMRI、EEG、雙光子等神經科學與腦醫學相關的腦信號統一token化,并完成了100萬單位的神經信號預訓練。

        圖片

        “腦信號數據是第一個嘗試,”王仲遠說,“具身領域的數據有更多模態,比如,3D信號、時空信號等,都可以作為一種模態進行融合。”

        可以說,做原生多模態大模型的成本高、技術實現困難,對于拼落地速度的企業來說,是一個冒險的嘗試。作為科研機構,智源研究院在做的事情,就是先替行業蹚出一條路。

        多模態生成落地拐點,視頻模型加速商業廝殺

        在學界和業界探索技術道路的同時,企業端正在加速多模態大模型在行業中的落地進程,這也是中國AI發展的鮮明特色——商業化和模型發展并駕齊驅。

        字節跳動Seed圖像&視頻生成負責人黃偉林給出兩組數據印證:2025年,就是圖像生成商業化元年。

        “以效率數據為例,用戶生成100張圖的下載率在過去一年提升了3倍,如今高達60%以上,說明它已經越過了商業化的關鍵門檻。”黃偉林說,“從用戶留存來看,比如30天留存,從原來的十幾個百分點提升到了40%左右。”

        圖片

        谷歌對多模態市場規模的預估

        當技術門檻逐漸降低、成本效率達到要求,AI視頻生成也迎來了市場增長的黃金期。

        黃偉林表示,目前頭部視頻生成產品的年化收入(ARR)預計今年達到1億美元,明年可能增長到5到10億美元。

        生數科技CEO駱怡航也認為,今年多模態生成正處于規模化生產落地的拐點:在技術迭代迅速,效果、速度和成本提升的同時,行業需求增長旺盛,視頻相關產業的落地節奏也在提速。

        雖然當前大模型技術路線并不收斂,但在目前應用落地的階段,AI視頻生產已經能夠協助人類完成那些本身耗時耗力、成本高的拍攝需求,并且把生成時間壓縮到極低。

        張拯認為,在不同發展階段,AI視頻生成會有完全不同的PMF。

        比如,在早期階段,很多交給人都非常難拍的視頻,即使質量很差或者需要非常多的抽卡才能抽到視頻,但是也遠比搭一個景再拍內容的成本低4~5個數量級。

        張拯舉了個例子,比如拍攝在太空中的航空母艦,需要通過特效團隊逐幀去做。但是現在交給模型,哪怕需要100次抽卡,最后要500元才能抽出一個片段,這個成本也比之前低很多。

        在大量的應用場景下,中國的多模態大模型公司們,圍繞著B端還是C端、哪條路先走的商業化路線,給出了不同的答案。

        現階段,AI視頻在C端應用的突出案例,就是依靠視頻生成的AI視頻特效。

        曾在TikTok團隊提供AI視頻技術支持,愛詩科技創始人王長虎分享了旗下產品PixVerse的突破里程碑,就來自于特效模版的上線。

        據王長虎分享,通過特效視頻模版在抖音以及國內外各大社交媒體上的傳播,PixVerse打響了知名度。當月,在中國產品出海增速榜,PixVerse排在第二名,訪問量提升80%。他還分享了一個印象深刻的數據——今年4月,超過PixVerse MAU增長的AI產品只有DeepSeek。

        圖片

        在技術快速迭代的同時,愛詩科技在商業化做出了自己的選擇——先做To C,再做To B。靠著C端帶起的聲量,愛詩科技今年將版圖放到了B端,于今年1月支持各行業的API和定制化視頻生成,涵蓋互聯網、營銷、電商等。

        相比之下,生數科技更早聚焦視頻生成大模型如何落地產業端的問題。成立兩年的時間里,生數科技有1年半都在琢磨落地問題,更在行業劃分上,駱怡航給出了“八大行業、三十大場景”的版圖,其中,互聯網、廣告、電影、動漫的應用占到了8成。

        在切入B端的思考中,生數科技強調的是對成本以及生產效率的降低。

        “要想滿足技術需求,很重要的一點是,(AI視頻生成)生產效率要提升100倍,生產成本要降低100倍,必須要和行業深入適配,滿足行業的專業需求。”駱怡航說。

        駱怡航分享,一家海外動畫工作室和VIDU合作,打造了一個“AI動漫”工作流,能夠批量生成創意,他們用兩個月時間,生產了50集AI動漫短片。

        當效率和生成達到滿足商用的節點,當AI企業們陸續把商業化提上日程。可以預見的是,下半年,多模態領域的AI生成將在商業化上迎來更激烈的比拼。

               原文標題 : 多模態2025:技術路線“神仙打架”,視頻生成沖上云霄

        聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

        發表評論

        0條評論,0人參與

        請輸入評論內容...

        請輸入評論/評論長度6~500個字

        您提交的評論過于頻繁,請輸入驗證碼繼續

        暫無評論

        暫無評論

          掃碼關注公眾號
          OFweek人工智能網
          獲取更多精彩內容
          文章糾錯
          x
          *文字標題:
          *糾錯內容:
          聯系郵箱:
          *驗 證 碼:

          粵公網安備 44030502002758號

          主站蜘蛛池模板: 91sese| 亚洲avav| av熟女在线更新| 亚欧在线视频| 亚洲丝袜熟女在线樱桃 | 玉树县| 绍兴县| 午夜高清无码| 日本99视频| 龙南县| 亚洲最大的成人网| 亚洲成人一区| 露脸丨91丨九色露脸| 超碰人人人| 精品一区二区三区三区| 1024在线免费观看| 国产高清在线| 石楼县| 波多野结衣无码视频一区二区三区| 亚洲AV成人无码电影网| 亚洲国摸精品视频| 日本无码中文| 日日夜干| 洋洋AV| 青草伊人网| 制服丝袜无码| 和龙市| 欧美精品网| 无码黑人| 蜜桃久久久| 无码少妇人妻| 国产制服丝袜在线视频观看| 亚洲熟女av中文字幕| 熟女丝袜无码| 色999亚洲人成色| 午夜日逼| 男人天堂2019| 中文字幕在线观看亚洲| 尉犁县| 久久久久久亚洲AV成人无码激情| 91日本视频|