人妻无码一卡,国产无码免费,jizzjizzyou

<cite id="r6wkv"></cite>

国产无码免费,人妻口爆,国产V在线,99中文精品7,国产成人无码AA精品一,制度丝袜诱惑av,久久99免费麻辣视频,蜜臀久久99精品久久久久久酒店

<pre id="kcrmy"></pre>

<thead id="kcrmy"><delect id="kcrmy"></delect></thead>

當前位置： OFweek 人工智能網 > 正文

被OpenAI“封號”，字節跳動在打什么算盤？

2023-12-21 08:52

阿爾法工場

高質量的語料數據，是大模型的“香餑餑”。

眼看著2023就要過去了，沒想到年底又曝出一個大瓜。

近期據《The Verge》報道：

字節跳動因使用ChatGPT的API，來開發自家大模型，被OpenAI“封號”了。

盡管在事后，字節澄清，表示自己此舉“僅為測試”，且早已勒令停止。

然而，這終歸是一件讓人浮想聯翩的事……

字節被封號的背后，打的究竟是什么算盤？

01 字節想要什么？

雖然在《The Verge》報道中，沒有明確指出字節究竟是怎么用OpenAI的API來開發自身大模型的，但可能的訓練路徑來說，用一個大模型（例如OpenAI的GPT）來訓練另一個大模型的過程，往往有以下幾種。

其中一種，就是“師傅帶徒弟”的模式。

想象一下，師傅（已有的大模型）在處理各種任務時，會生成一些輸出（例如文本、圖像等）。徒弟（新的大模型）會觀察師傅的行為，嘗試模仿這些輸出。

這樣，徒弟就能學會如何處理類似的任務。在實際應用中，這可以通過讓新模型學習舊模型生成的數據來實現。

還有一種方式，就是通過聯合訓練，讓“師傅”和“徒弟”一起處理任務。

在實際應用中，這可以通過讓兩個模型共享一些層次或參數來實現，新舊模型就可以互相學習、互相幫助，共同完成任務。

從技術可行性來判斷，在這次事件中，字節使用的更有可能是第一種方法。

即利用了OpenAI API生成的數據作為訓練數據。

因此，在這次風波中，字節真正想要的，是ChatGPT生成的高質量語料數據。

而這樣的數據，也是任何一個訓練中的大模型，最渴望的“香餑餑”。

但由于之前OpenAI的協議中，已明確表示禁止用其大模型去開發競品，因此，字節被OpenAI“封號”也是一種必然。

問題是：作為一家實力雄厚的大廠，字節理應不缺相應的人手和資金，去做這些數據爬取、語料標注方面的工作，為何要走這一步“險棋”呢？

02 為何犯險？

其實，在現階段的大模型賽道上，字節缺的不是人才和資金，而是時間。

與百度、訊飛等國內大廠相比，字節真正入局大模型的時間，可以說是相當晚了。

從時間上看，字節真正推出第一款大模型豆包的時間，是今年的8月中旬，而那時，大模型之火已經燃燒了近半年之久。

任何真正想入局大模型的玩家都知道，模型層的競爭，是有時間窗口的。

在大模型領域，先進入市場的企業往往能夠積累更多的用戶、數據和經驗，從而形成競爭優勢。后來者要想迎頭趕上，需要付出更多的努力和成本。

盡管8月上線的豆包，讓字節勉強趕上了模型層的晚班車，但從性能和定位上看，那更像是一個“嘗鮮”的應景之作，無法真正與字節現有的業務相契合。

作為一個在移動互聯網時代制造了抖音這類爆款的大廠，字節真正想要的，是像文心一言那樣更通用、更全能，且能整合或嵌入進自身的各類APP中的大模型。

這才有了后來字節的“種子計劃”——計劃在今年年底前，打造與 GPT-3.5 性能相匹敵的Seed 大模型。

問題是，大模型的訓練，終歸不是件一蹴而就的事。

標注數據、提取優質語料等等一系列繁瑣的前期工作，都需要時間。

那如何在有限的、緊迫的時間內，搜集到足夠多的高質量語料數據？

一個最靠譜的辦法，就是直接使用那些已經驗證過的，成熟度較高的模型的數據，例如ChatGPT。

03 模型層的窗口期

其實，不只是字節，即使是身處一線的AI玩家谷歌，也為了“急于求成”，做出了類似小動作。

本月月初，谷歌曾失望地宣布，被其寄予厚望的大模型Gemini，由于無法較好地處理非英語領域的查詢任務，而被推遲了上線。

可鬼使神差的是，之后沒過幾天，谷歌就來了個回馬槍，在12月6日鄭重推出了Gemini，似乎之前提到的“缺陷”已經不是問題。

后來，網友經過測試才發現，原來谷歌早就從百度的文心一言那里找到了“解決之策”。

經過微博大V@闌夕夜等眾多網友的測試，在與Gemini-Pro用中文交流時，如果問“你是誰”，Gemini-Pro上來就回答：我是百度文心大模型。

如此狀況，讓人紛紛猜測，是谷歌直接用了百度文心一言的中文語料進行訓練。

為了反超GPT-4，谷歌真是趕鴨子上架了。

不過，從長遠來看，這種大廠互相薅羊毛的行為，終歸是一種暫時的現象。

畢竟，經過這么幾回“露餡”后，各個大廠一定會對自家的數據看得更嚴，更死。

但即便如此，這種互相套用數據的行為，也讓眾多用戶、投資人不禁暗自嘀咕：如果各個模型之間的數據，在技術上能輕易地互相套用，那將來除了ChatGPT等少數頂流外，還有哪些模型是有“真材實料”的？

這樣的擔憂背后，其實有一個更重要的前置性問題，那就是：

我們為什么需要那么多雷同的大模型？

畢竟，人類的語料數據，終歸是有限的，頂流團隊的模型（如ChatGPT）已經挖走了絕大部分，剩下的那一小撮專有數據，也早已被各個垂直行業瓜分完畢。

在模型層創業已近尾聲的今天，比起數據，更能拉開差距的，是側重點不同的訓練方式，以及由此打造的各種功能。

而這樣成為了用戶能否容忍這種“套用”行為的關鍵。

在這點上，谷歌的Gemini給出的答卷，是更強的原生多模態功能（有夸大之嫌）。

而字節的Seed大模型，將來能否逆風翻盤，贏得用戶的信任，也得看有沒有“一美遮百丑”的亮點。

原文標題 : 被OpenAI“封號”，字節跳動在打什么算盤？

人工智能 AI OpenAI 字節跳動

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權或其他問題，請聯系舉報。

發表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務

忘記密碼

其他方式

請輸入評論內容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新活動更多

一周熱點月點擊榜

企業服務廣告服務獵頭服務薪酬報告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發工程師福建省/福州市
銷售總監（光器件）北京市/海淀區
激光器高級銷售經理上海市/虹口區
光器件物理工程師北京市/海淀區
激光研發工程師北京市/昌平區
技術專家廣東省/江門市
封裝工程師北京市/海淀區
結構工程師廣東省/深圳市

掃碼關注公眾號
OFweek人工智能網
獲取更多精彩內容

文章糾錯

x

_*文字標題：

_*糾錯內容：

聯系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網安備 44030502002758號

主站蜘蛛池模板：武安市| 丰满人妻被猛烈进入中文字幕| 欧美日视频| 1024无码| 亚洲成人中文字幕| 婷婷色综合| 超碰99在线| 亚洲欧美?va天堂人熟伦| 99精品视频在线观看| 俺去啦中文网| 顶级高跟鞋熟妇HD| 极品国模无码国产在线观看| 泸西县| 国产av一区二区三区| 青青草Av| 中文字幕在线亚洲| 亚洲AV第二区国产精品| 托克托县| 青青AV| 洛川县| 丰满熟女人妻一区二区三| 无码天堂| 簧片无码| 日韩AV免费在线观看| 昌平区| 亚洲国产制服丝袜| 91乱子伦国产乱子伦www.sz-sd.cn | 九九成人精品| 岛国AV网站| 中文字幕在线高清| 欧美人妖另类| 69精品人人人| 色诱久久| 邮箱| 无玛视频| 精品综合视频精品| 南华县| 上犹县| 欧美又粗又大AAA片| 77777AV| 5月丁香,6月综合|

<tr id="utpui"><span id="utpui"></span></tr>

<blockquote id="utpui"><source id="utpui"><wbr id="utpui"></wbr></source></blockquote>