国产无码免费,人妻口爆,国产V在线,99中文精品7,国产成人无码AA精品一,制度丝袜诱惑av,久久99免费麻辣视频,蜜臀久久99精品久久久久久酒店
        訂閱
        糾錯
        加入自媒體

        AIGC時代,需要什么樣的云存儲?

        2024-04-11 09:10
        光錐智能
        關注

        文|白    鴿

        編|王一粟

        AIGC狂飆一年,算法進步和應用落地的爆發,讓中國云計算廠商感受著切實的變化。

        “今年一季度,大模型企業在云存儲的消耗同比在增加。”

        4月8日,在騰訊云AIGC云存儲解決方案升級發布會上,騰訊云存儲總經理馬文霜同時預計,今年AIGC對于云端的調用量一定是爆發式的增長。

        馬文霜還開半玩笑地說,“可能這些企業拿到的投資更多了”。

        隨著多模態技術的進化和落地應用的逐漸爆發,讓大模型的訓練和推理迎來了一些新的挑戰。

        事實上,從語言和圖像為主的GPT,到視頻生成模型Sora,大模型參數正在指數級增長。比如ChatGPT在GPT-2時是10億參數量,到現在GPT-4已經有1.8萬億參數。Sora為主的多模態技術,更會讓需要處理的數據量急劇增加,而這才剛剛是視頻生成模型的GPT-1.0時代。

        參數越大,對云存儲的需求就會越高,包括云存儲的數據量以及吞吐量等,如果云存儲能力不能夠滿足大模型的需求,則會直接影響到大模型的訓練速度和推理效率。

        在大模型加速發展的階段,大模型企業也越來越重視云存儲這一重要的底層基礎設施能力。但AIGC時代,究竟需要什么樣的云存儲技術?

        AIGC數據訓練的新需求

        云存儲的新挑戰

        “內卷”之下,大模型企業開始拼算力、拼參數,更拼大模型的更新速度。

        如百川智能,前期平均一個月發布升級一款大模型,百度文心一言在發布之初,甚至一個月內就完成了4次技術版本的升級。

        想要保持大模型的更新頻率和速度,就要保證整個大模型數據訓練過程的高效,其中某一個環節出現問題,就可能會拉長整個訓練時長,增加訓練成本。

        因此,作為整個大模型數據訓練的底座,云存儲的重要性日益凸顯。那么,AIGC時代到底需要什么樣的云存儲技術?

        存儲作為數據的載體,現如今已經不僅僅只承擔“存”的作用,更需要打通數據從“存”到“用”的最后一公里。

        始于19年前QQ空間的騰訊云存儲,如今在國內云廠商中存儲能力一直處于領導者象限(沙利文報告),他們的做法對行業頗有借鑒意義。

        馬文霜向光錐智能提到,在AIGC數據訓練的4個環節中,存儲需要提供的具體能力,包括:

        數據采集階段,需要一個大容量、低成本、高可靠的數據存儲底座;

        數據清洗階段,需要提供更多協議的支持,以及至少GB甚至TB級的數據訪問性能;

        數據訓練階段,作為大模型訓練的關鍵環節,則需要一個TB級的帶寬存儲保證訓練過程中Checkpoint能夠快速保存,以便于保障訓練的連續性和提升CPU的有效使用時長,也需要存儲提供百萬級IOPS能力,來保證訓練時海量小樣本讀取不會成為訓練瓶頸;

        數據應用階段,則需要存儲提供比較豐富的數據審核能力,來滿足鑒黃、鑒暴等安全合規的訴求,保證大模型生成的內容以合法、合規的方式使用;

        在這4個環節中,騰訊云AIGC云存儲解決方案,分別由4款產品提供專屬服務,包括對象存儲COS、高性能并行文件存儲CFS Turbo、數據加速器GooseFS和數據萬象CI。

        而這次騰訊云存儲面向AIGC場景的升級,就是基于上述4款產品將大模型的數據清洗和訓練效率提升1倍,整體訓練時長縮短一半。

        首先,在數據采集環節,基于自研的對象存儲引擎YottaStore,騰訊云對象存儲COS可支持單集群管理百EB級別存儲規模,多種協議和不同數據公網接入能力,可以讓采集的原始數據便捷入湖。

        數據清洗環節,COS訪問鏈路比較長,數據讀取效率并不高,所以騰訊云在這中間添加了一層自研的數據加速器GooseFS。

        COS通過自研數據加速器GooseFS提升數據訪問性能,可實現高達數TBps的讀取帶寬,提供亞毫秒級的數據訪問延遲、百萬級的IOPS和TBps級別的吞吐能力。

        “這讓單次數據清洗任務耗時減少一半。”馬文霜說道。

        相比采集和清潔,大模型的訓練則更加耗時,短則數周、長則數月,這期間如果任何一個CPU/GPU的節點掉線,都會導致整個訓練前功盡棄。

        業內通常會采用2~4個小時保存一次訓練成果,即Checkpoint(檢查點),以便能在GPU故障時能回滾。

        此時則需要將保存的Checkpoint時間縮短到越短越好,但數千上萬個節點都需要保存Checkpoint,這就對文件存儲的讀寫吞吐提出了非常高的要求。

        馬文霜表示:“兩年前我們發布高性能并行文件存儲CFS Turbo第一個版本,是100GB的讀寫吞吐,當時覺得這個讀寫吞吐已經足夠大,很多業務用不到。但去年大模型出來以后,用CFS Turbo再去寫Checkpoint,我們發現100G還遠遠不夠。”

        CFS Turbo底層技術來自于騰訊云自研的引擎Histor。此次升級,騰訊云將CFS Turbo的讀寫吞吐能力從100GB直接升級至TiB/s級別,讓3TB checkpoint 寫入時間從10分鐘,縮短至10秒內,時間降低90%,大幅提升大模型訓練效率。

        針對數據訪問延遲問題,騰訊云引擎Histor可支持單個節點GPU與所有存儲節點進行通信,進行并行數據訪問。“另外,我們通過RDMA(遠程直接地址訪問)等技術不斷優化數據訪問延遲,縮短IO路徑,最終可做到亞毫秒級訪問延遲。”馬文霜說道。

        同時,騰訊云Histor還可以將元數據目錄打散至所有存儲節點上,提供線性擴張能力,從而實現文件打開、讀取、刪除的百萬級IOPS能力。

        應用階段,大模型推理場景則對數據安全與可追溯性提出更高要求。騰訊云數據萬象CI是一站式內容治理服務平臺,它可以對AI生成的內容進行一站式管理,可以提供圖片隱式水印、AIGC內容審核、智能數據檢索MetaInsight等能力。

        此次升級,騰訊云重點講述了智能數據檢索MetaInsight,其能夠基于大模型和向量數據庫進行跨模態搜索服務,也就是可以文搜圖、文搜視頻、圖搜圖、視頻搜視頻,并憑借95%以上的召回率,可以幫助用戶快速鎖定目標內容,提升審核效率。

        基于這套AIGC云存儲技術底座,騰訊云存儲總經理陳崢表示,騰訊自研項目(比如混元大模型)的整體效率至少提升了2倍以上。

        目前,除騰訊自己的混元大模型,數據顯示,已有80%的頭部大模型企業使用了這套AIGC云存儲解決方案,包括百川智能、智譜、元象等明星大模型企業。

        而針對解決方案升級后的產品價格,馬文霜則表示,“不會有變化”。在阿里云和京東云都宣布降價時,騰訊云并沒有選擇降價,而是“加量不加價”。

        “穩定性、高性能,以及性價比,是大模型時代云存儲的核心。”騰訊云智能存儲總監葉嘉梁說道。

        當然,在AIGC時代,云廠商都想抓住這一次用云需求爆發的機會。除了騰訊云外,阿里云、華為云等其他云廠商在AIGC云存儲領域也都有相應的布局。

        比如2023年,華為云針對大模型時代的云存儲發布了OceanStor A310 深度學習數據湖存儲和FusionCube A3000 訓/推超融合一體機兩款產品。

        阿里云面向AI時代的云存儲解決方案,也覆蓋了底層對象存儲 OSS數據湖、高性能文件存儲、并行文件存儲 CPFS、PAI-靈駿智算服務以及智能媒體管理IMM平臺等產品。

        可以看到,圍繞AIGC的需求,云廠商在云存儲領域迅速更新換代。阿里云的思路與騰訊云非常接近,而華為云則加入了自己在硬件方面的優勢。

        云存儲技術僅是云計算眾多底層核心技術之一,隨著大模型深度發展,云廠商們已經開始在整個PaaS層、IaaS層、MaaS層,都在圍繞AIGC進行迭代升級,為行業提供全鏈路大模型云服務。

        云廠商狂飆

        爭做“最適合大模型”的云

        云已經成為大模型的最佳載體,大模型也正在重塑云服務的形態。

        馬文霜認為,云上豐富的資源、計算、存儲、網絡、容器技術和PaaS,都能夠解決AIGC在各個環節上對資源的訴求。云還能夠給AIGC提供成熟的方案和豐富的生態支持,讓客戶可以聚焦在自己產品競爭力的方向進行開發,加速整體研發效率以及應用落地的速度。

        面對AIGC帶來的大模型發展浪潮,騰訊集團副總裁、騰訊云與智慧產業事業群COO兼騰訊云總裁邱躍鵬曾表示,大模型將開創下一代云服務,騰訊云要打造“最適合大模型的云”。

        自從大模型熱潮爆發以來,騰訊云在大模型業務推出上不是最快的一個,但卻是最扎實的一個。

        在2023年9月的騰訊全球數字生態大會上,騰訊云面向AIGC場景推出了基于星脈網絡的大模型訓練集群HCC、向量數據庫以及行業大模型的MaaS服務。

        也就是說,騰訊云從底層智算能力,到中間件,再到上層MaaS,已經實現了全鏈路大模型云化能力升級迭代,每個業務都很務實。

        比如,針對大模型對算力的迫切需求,騰訊云高性能計算集群HCC為大模型訓練提供高性能、高帶寬、低延遲的智能算力支撐。通過自研星脈網絡,能提升40%GPU利用率,節省30%~60%模型訓練成本,提升AI大模型10倍通信性能。利用星星海自研服務器的6U超高密度設計和并行計算理念,確保高性能計算。

        針對在中間層對數據調度應用的需求,騰訊云向量數據庫,可為多維向量數據提供高效存儲、檢索和分析能力。客戶可將私有數據經過文本處理和向量化后,存儲至騰訊云向量數據庫,從而創建一個定制化外部知識庫。在后續查詢任務中,這個知識庫也能為大模型提供必要的提示,輔助AIGC應用產生更精確的輸出。

        而針對行業大模型開發與落地應用服務,騰訊云則在整個云底座之上推出了MaaS服務解決方案,為企業客戶提供涵蓋模型預訓練、模型精調、智能應用開發等一站式行業大模型解決方案。

        其中,值得一提的是騰訊云是業界最早提出走“向量數據庫”路線的云廠商,在大家對大模型部署還尚有技術路線爭議之初,騰訊就做了這個選擇。目前,向量數據庫+RAG(檢索增強)也已經成為業內使用頻率最多的大模型部署路線。

        可以看到,在回歸“產品優先”戰略后,騰訊云在大模型時代的打法也逐漸清晰——不盲目追隨行業,而是基于對AIGC的理解,做自己的產品迭代。

        不過,面對十年一遇的大模型機會,華為云、阿里云、百度云等云廠商也都在2023年爭先恐后地布局,騰訊云的壓力并不小。

        過去一年,華為云構建了包括以華為云昇騰AI云服務為算力底座、行業首個大模型混合云Stack 8.3,在MaaS層用盤古大模型在千行百業中落地。華為云還上線了昇騰AI云服務百模千態專區,收錄了業界主流開源大模型。可以看到,華為云集成了算力、政企、行業、生態等多方面的優勢,可謂火力全開。

        阿里云則是國內大廠中唯一做開源大模型的公司,說明心態最為開放、做平臺的決心最強。阿里云在智能算力底座之上,打造了以機器學習平臺PAI為核心的PaaS服務,以及上層MaaS服務。其中,在開發者生態層,截至2023年11月1日,阿里云發起的AI模型社區魔搭已經有超過2300個模型,開發者超過280萬,模型下載次數也超過了1億多次。

        云廠商們掀起了新一輪廝殺,是因為大模型的紅利。

        AI的發展正在帶動用云需求的增長,并已成為云計算產業發展的第二增長曲線。畢竟,大模型的算力使用幾乎可以說是“無底洞”,此前業界曾預測OpenAI訓練GPT-4可能使用了大約10000-25000張GPU,以及微軟的云上算力支撐。

        因此,在AIGC時代,各大云廠商都在探索如何基于AI重塑云計算技術和服務體系,開辟全新的服務場景和服務內容,從而能夠抓住這輪AI大模型升級發展所帶來的機會。

        大趨勢下,Cloud for AI不僅是云廠商的新機會,也是必答題。陳崢也表示,云廠商現階段所能夠做的就是提前進行技術產品布局,并將整個數據價值開放給客戶,從而讓客戶更好的利用數據。

               原文標題 : AIGC時代,需要什么樣的云存儲?

        聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

        發表評論

        0條評論,0人參與

        請輸入評論內容...

        請輸入評論/評論長度6~500個字

        您提交的評論過于頻繁,請輸入驗證碼繼續

        暫無評論

        暫無評論

          人工智能 獵頭職位 更多
          掃碼關注公眾號
          OFweek人工智能網
          獲取更多精彩內容
          文章糾錯
          x
          *文字標題:
          *糾錯內容:
          聯系郵箱:
          *驗 證 碼:

          粵公網安備 44030502002758號

          主站蜘蛛池模板: 波多野结衣三区| 日韩精品久久| 变态另类一区| 中文字幕四区| 久久国产劲爆∧v内射| 亚洲都市激情| 伊人偷拍| 丁香五月激情综合| 沙雅县| 熟女视频在线看| 高邑县| yellow网站在线观看| 九九在线精品| 亚洲AV无码久久精品色欲| 亚洲自拍中文| 武城县| 亚洲AV无码一区东京热久久| 久久露脸国语精品国产91| 欧美日韩导航| 3Pav图| 男人天堂中文字幕| 仁怀市| 亚洲自拍另类| 91熟女视频| 国产偷伦| 亚洲老熟女@TubeumTV| 上思县| 亚洲v在线| 华人91视频| 肇源县| 泰顺县| 久治县| jizz在线视频| 国产精品999999| 福利姬Jk丝袜-91Porn| 久久av高潮av无码av喷吹| 玉门市| 99ri精品| 丝袜精品字幕| 亚洲无码中出| 海口市|