當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動(dòng)態(tài) > AIGC行業(yè)公開的秘密：都在抄作業(yè)，初創(chuàng)公司用GPT-4訓(xùn)練自家大模型

AIGC行業(yè)公開的秘密：都在抄作業(yè)，初創(chuàng)公司用GPT-4訓(xùn)練自家大模型
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-04-16 08:03:44 瀏覽：7426次

導(dǎo)讀：劃重點(diǎn) 1 許多初創(chuàng)公司都在使用OpenAI等公司的相似數(shù)據(jù)和技術(shù)來(lái)開發(fā)自家大模型。 2 使用相同或類似數(shù)據(jù)訓(xùn)練大模型，導(dǎo)致這些模型無(wú)法在競(jìng)爭(zhēng)中脫穎而出。 3 投資者不愿支持那些試圖走捷徑或開發(fā)與競(jìng)爭(zhēng)對(duì)手毫無(wú)差別模型的公司。騰訊科技訊據(jù)國(guó)外媒體報(bào)道，據(jù)...

劃重點(diǎn)

許多初創(chuàng)公司都在使用OpenAI等公司的相似數(shù)據(jù)和技術(shù)來(lái)開發(fā)自家大模型。

使用相同或類似數(shù)據(jù)訓(xùn)練大模型，導(dǎo)致這些模型無(wú)法在競(jìng)爭(zhēng)中脫穎而出。

投資者不愿支持那些試圖走捷徑或開發(fā)與競(jìng)爭(zhēng)對(duì)手毫無(wú)差別模型的公司。

AIGC行業(yè)公開的秘密：都在抄作業(yè)，初創(chuàng)公司用GPT-4訓(xùn)練自家大模型

科技新聞?dòng)?據(jù)國(guó)外媒體報(bào)道，據(jù)多位開發(fā)者和創(chuàng)始人透露，許多初創(chuàng)公司所開發(fā)的人工智能聊天機(jī)器人極可能依賴OpenAI及其他公司的數(shù)據(jù)資源，盡管這些初創(chuàng)企業(yè)正努力削弱OpenAI的市場(chǎng)地位。這一現(xiàn)象催生了一種新的競(jìng)爭(zhēng)態(tài)勢(shì)：這些初創(chuàng)公司向客戶收取的費(fèi)用僅為GPT-4成本的極小部分，但它們的低成本服務(wù)卻能在特定任務(wù)上模仿GPT-4的表現(xiàn)。

然而，值得注意的是，這些初創(chuàng)公司在開發(fā)過(guò)程中并未公開披露它們使用了OpenAI的技術(shù)。這種做法使得這些初創(chuàng)公司面臨一定的風(fēng)險(xiǎn)，因?yàn)槿缤珹nthropic和谷歌等領(lǐng)先的人工智能公司一樣，OpenAI在技術(shù)上明確禁止此類行為。不過(guò)，據(jù)知情人士透露，去年夏天，OpenAI的首席執(zhí)行官山姆奧特曼（SamAltman）曾向眾多初創(chuàng)公司創(chuàng)始人表示，規(guī)模較小的企業(yè)可以適度利用該公司的技術(shù)。

盡管奧特曼的這一表態(tài)為部分創(chuàng)始人帶來(lái)了一絲寬慰，但一旦這種行為對(duì)OpenAI的增長(zhǎng)構(gòu)成威脅，該公司隨時(shí)有可能改變立常市場(chǎng)上充斥著對(duì)大多數(shù)客戶而言足夠好的人工智能產(chǎn)品，可能會(huì)削弱OpenAI和其他供應(yīng)商的收入來(lái)源。同時(shí)，在類似技術(shù)基礎(chǔ)上訓(xùn)練的人工智能產(chǎn)品的激增，也可能使得單個(gè)提供商在激烈的市場(chǎng)競(jìng)爭(zhēng)中更難脫穎而出。

這種策略的實(shí)施方式如下：開發(fā)者首先向OpenAI支付費(fèi)用，以獲得對(duì)最先進(jìn)模型GPT-4的訪問(wèn)權(quán)限。隨后，他們向該模型提出一系列問(wèn)題，如“這行代碼存在哪些問(wèn)題？”通過(guò)收集這些答案和問(wèn)題，他們進(jìn)一步訓(xùn)練自己的競(jìng)爭(zhēng)模型，比如那些能夠調(diào)試計(jì)算機(jī)代碼的模型。

這一策略在近幾個(gè)月備受青睞，被眾多開發(fā)者所采納。UnslothAI的聯(lián)合創(chuàng)始人丹尼爾韓（DanielHan）估計(jì)，他的客戶群體中，大約有一半的開發(fā)者會(huì)從GPT-4或Anthropic的Claude模型中生成數(shù)據(jù)，用以優(yōu)化和增強(qiáng)自己的模型。UnslothAI致力于協(xié)助開發(fā)者打造對(duì)話式人工智能產(chǎn)品。此外，許多公司也通過(guò)ShareGPT網(wǎng)站獲取這類數(shù)據(jù)，該網(wǎng)站為開發(fā)者提供了一個(gè)平臺(tái)，用以分享他們使用OpenAI模型生成的答案。

較小的開發(fā)者通�；诹餍械拈_源模型進(jìn)行模型開發(fā)，這些模型可以免費(fèi)從Meta或MistralAI等公司獲齲然而，通過(guò)結(jié)合OpenAI模型的答案，他們的模型能夠取得實(shí)質(zhì)性的改進(jìn)。一些開發(fā)者甚至利用名為OpenPipe的服務(wù)來(lái)自動(dòng)化這一過(guò)程，從而更加高效地整合和優(yōu)化數(shù)據(jù)。

MenloVentures的董事總經(jīng)理馬特墨菲（MattMurphy）對(duì)此表示：“這是一個(gè)尚未建立明確規(guī)則的新生態(tài)系統(tǒng)中的現(xiàn)象。如果大家都在使用同樣的數(shù)據(jù)，那么如何才能在競(jìng)爭(zhēng)中脫穎而出，取得更好的成果呢？”MenloVentures是OpenAI的競(jìng)爭(zhēng)對(duì)手Anthropic的投資方。

風(fēng)險(xiǎn)回報(bào)更高

對(duì)一些公司而言，盡管冒著違反OpenAI等公司政策或隱性規(guī)則的風(fēng)險(xiǎn)，但這樣的冒險(xiǎn)可能值得一試。在如今競(jìng)爭(zhēng)激烈的生成式人工智能市場(chǎng)中，獲得高質(zhì)量數(shù)據(jù)用于模型訓(xùn)練或改進(jìn)變得至關(guān)重要。

然而，目前尚不明朗的是，OpenAI、谷歌、Anthropic和其他大型開發(fā)公司是否會(huì)允許規(guī)模較小的競(jìng)爭(zhēng)對(duì)手有效復(fù)制他們的人工智能技術(shù)，以迅速追趕上來(lái)。一些投資者可能會(huì)對(duì)那些他們認(rèn)為采取捷徑或開發(fā)與競(jìng)爭(zhēng)對(duì)手毫無(wú)差別的技術(shù)的公司持謹(jǐn)慎態(tài)度，尤其是當(dāng)這些公司使用了相似的訓(xùn)練數(shù)據(jù)時(shí)。

RadicalVentures的合伙人羅布托伊斯（RobToews）指出：“人工智能模型訓(xùn)練數(shù)據(jù)的質(zhì)量和來(lái)源正逐漸成為業(yè)界關(guān)注的焦點(diǎn)之一。盡管目前尚無(wú)人能準(zhǔn)確預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì)，但任何在數(shù)據(jù)來(lái)源方面缺乏深思熟慮和戰(zhàn)略眼光的人工智能初創(chuàng)公司都可能會(huì)落后。”

盡管如此，初創(chuàng)公司使用OpenAI數(shù)據(jù)的做法，與OpenAI和其他領(lǐng)先的人工智能開發(fā)商在訓(xùn)練自家模型時(shí)所采取的策略存在某種相似性。例如，OpenAI的首席技術(shù)官米拉穆拉蒂（MiraMurati）在最近的一次采訪中，關(guān)于她的團(tuán)隊(duì)是否使用谷歌旗下YouTube和Meta旗下Facebook與Instagram數(shù)據(jù)進(jìn)行模型訓(xùn)練的問(wèn)題時(shí)，她的回答出現(xiàn)了失誤。

如果OpenAI確實(shí)利用了這些數(shù)據(jù)，那也算不上意外之舉。外媒近期爆出OpenAI如何借助YouTube視頻創(chuàng)建語(yǔ)音識(shí)別工具Whisper，進(jìn)而改進(jìn)GPT-4模型的內(nèi)幕。先前也有報(bào)道指出，OpenAI曾秘密使用YouTube數(shù)據(jù)來(lái)訓(xùn)練其早期的人工智能模型。本月早些時(shí)候，YouTube首席執(zhí)行官尼爾莫漢（NealMohan）明確表態(tài)，他不接受OpenAI使用YouTube視頻來(lái)開發(fā)類似Sora這樣的模型。

這一事件引發(fā)了美國(guó)新聞出版商和一些創(chuàng)作者的強(qiáng)烈不滿，他們指責(zé)人工智能開發(fā)商利用受版權(quán)保護(hù)的材料進(jìn)行模型訓(xùn)練。去年12月，《紐約時(shí)報(bào)》甚至對(duì)OpenAI及其主要支持者微軟提起訴訟，指控他們?cè)谀Ｐ陀?xùn)練過(guò)程中非法復(fù)制了《紐約時(shí)報(bào)》的新聞文章。該訴訟稱，OpenAI的聊天機(jī)器人甚至“能夠逐字背誦《紐約時(shí)報(bào)》的內(nèi)容”。

然而，OpenAI對(duì)此做出了回應(yīng)，表示他們?cè)鴩L試與新聞出版商建立合作伙伴關(guān)系，并堅(jiān)稱其訓(xùn)練實(shí)踐符合美國(guó)“合理使用”的版權(quán)原則。盡管如此，OpenAI和谷歌還是與AxelSpringer等出版商達(dá)成了價(jià)值數(shù)百萬(wàn)美元的授權(quán)協(xié)議，并與Reddit等主要網(wǎng)站達(dá)成了更廣泛的合作協(xié)議。

當(dāng)然，并非所有的人工智能開發(fā)者都采取這種策略。例如，Databricks是一家銷售用于管理數(shù)據(jù)和利用人工智能的軟件工具的公司，其首席科學(xué)家喬納森弗蘭克爾（JonathanFrankle）表示，該公司在開發(fā)強(qiáng)大的開源大語(yǔ)言模型時(shí)，并未依賴競(jìng)爭(zhēng)對(duì)手的數(shù)據(jù)或技術(shù)。Anthropic的一位發(fā)言人也指出，他們同樣不會(huì)利用其他模型的輸出來(lái)訓(xùn)練自己的大模型。

誰(shuí)能扛住模仿的誘惑？

對(duì)于那些秘密依賴其他人工智能服務(wù)來(lái)開發(fā)模型的開發(fā)者來(lái)說(shuō)，一旦這種依賴關(guān)系被揭露，他們可能會(huì)陷入尷尬和困境。例如，Mistral和零一萬(wàn)物，這兩家公司都使用了Meta的開源人工智能模型Llama2來(lái)構(gòu)建自己的人工智能產(chǎn)品，然而他們并未及時(shí)披露這一事實(shí)，直到信息意外泄露。盡管Meta的授權(quán)條款允許這種使用，但這些初創(chuàng)公司延遲披露的做法引起了一些應(yīng)用程序開發(fā)者的不滿，他們認(rèn)為這些公司在誠(chéng)實(shí)和透明度方面做得不夠。但這并不妨礙兩家公司成功融資數(shù)億美元。

即使是大型科技公司，也難以抵擋使用他人成果的誘惑。例如，谷歌利用YouTube視頻進(jìn)行轉(zhuǎn)錄，而Meta則雇傭非洲承包商來(lái)總結(jié)受版權(quán)保護(hù)的書籍，以訓(xùn)練其人工智能模型。另外，Adobe也在初創(chuàng)公司Midjourney的人工智能生成照片上訓(xùn)練了自己的圖像生成軟件Firefly。去年，谷歌的一名高級(jí)人工智能工程師因?yàn)閷?duì)公司使用OpenAI的ChatGPT數(shù)據(jù)來(lái)訓(xùn)練自家模型的做法表示擔(dān)憂而辭職抗議。

Lamini是一家?guī)椭_發(fā)者訓(xùn)練自己模型的初創(chuàng)公司，其首席執(zhí)行官SharonZhou表示，在人工智能領(lǐng)域快速發(fā)展的背景下，日益增長(zhǎng)的競(jìng)爭(zhēng)壓力使得許多開發(fā)者不得不轉(zhuǎn)向有爭(zhēng)議的訓(xùn)練數(shù)據(jù)來(lái)源，如受版權(quán)保護(hù)的內(nèi)容或大語(yǔ)言模型生成的內(nèi)容。如果他們選擇不使用這些數(shù)據(jù)，就可能會(huì)失去競(jìng)爭(zhēng)優(yōu)勢(shì)。

隨著越來(lái)越多的公司投身于開發(fā)部分源自其他模型的人工智能產(chǎn)品，對(duì)這些模型進(jìn)行區(qū)分可能變得日益棘手。這一趨勢(shì)可能會(huì)削弱OpenAI等領(lǐng)軍企業(yè)的競(jìng)爭(zhēng)優(yōu)勢(shì)，迫使他們?cè)趦r(jià)格上展開更激烈的競(jìng)爭(zhēng)。特別是在企業(yè)用戶越來(lái)越多地傾向于選擇價(jià)格更親民、性能“足夠好”的大語(yǔ)言模型，而非最先進(jìn)、最昂貴的選項(xiàng)時(shí)，這一競(jìng)爭(zhēng)態(tài)勢(shì)將愈發(fā)明顯。

為了應(yīng)對(duì)這一挑戰(zhàn)，一種可能的替代方案是轉(zhuǎn)向合成數(shù)據(jù)。這意味著企業(yè)不再依賴從互聯(lián)網(wǎng)或其他來(lái)源抓取的人工生成內(nèi)容，而是利用自己的人工智能模型來(lái)生成數(shù)據(jù)。例如，谷歌和Meta已經(jīng)表示，他們正在使用合成數(shù)據(jù)來(lái)構(gòu)建能夠解決幾何問(wèn)題或生成計(jì)算機(jī)代碼的模型。由于這些數(shù)據(jù)完全由人工智能產(chǎn)生，因此可以避免使用人工生成內(nèi)容所帶來(lái)的眾多法律糾紛。

與此同時(shí)，數(shù)十家人工智能初創(chuàng)公司正積極獲取醫(yī)療保艦律師事務(wù)所等行業(yè)的私人數(shù)據(jù)，以開發(fā)針對(duì)特定用途的模型。搜索分析公司Elastic的首席執(zhí)行官阿什庫(kù)卡尼（AshKulkarni）指出，這些模型具有高度的專業(yè)性和定制化特點(diǎn)，使得OpenAI等公司的通用模型難以輕易復(fù)制。（編譯/金鹿）

相關(guān)熱詞： AIGC 行業(yè) 公開秘密都在作業(yè) 初創(chuàng) 公司 GPT-

上一篇：我國(guó)超導(dǎo)量子計(jì)算機(jī)全球訪問(wèn)量突破500萬(wàn)，量子產(chǎn)業(yè)或成全球科技競(jìng)賽下一站

下一篇：對(duì)人工智能的最新押注微軟將目光轉(zhuǎn)向中東

AIGC行業(yè)公開的秘密：都在抄作業(yè)，初創(chuàng)公司用GPT-4訓(xùn)練自家大模型
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-04-16 08:03:44 瀏覽：7426次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

AIGC行業(yè)公開的秘密：都在抄作業(yè)，初創(chuàng)公司用GPT-4訓(xùn)練自家大模型 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-04-16 08:03:44 瀏覽：7426次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

AIGC行業(yè)公開的秘密：都在抄作業(yè)，初創(chuàng)公司用GPT-4訓(xùn)練自家大模型
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-04-16 08:03:44 瀏覽：7426次