展會(huì)信息港展會(huì)大全

AIGC行業(yè)公開的秘密:都在抄作業(yè),初創(chuàng)公司用GPT-4訓(xùn)練自家大模型
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-04-16 08:03:44   瀏覽:7426次  

導(dǎo)讀:劃重點(diǎn) 1 許多初創(chuàng)公司都在使用OpenAI等公司的相似數(shù)據(jù)和技術(shù)來(lái)開發(fā)自家大模型。 2 使用相同或類似數(shù)據(jù)訓(xùn)練大模型,導(dǎo)致這些模型無(wú)法在競(jìng)爭(zhēng)中脫穎而出。 3 投資者不愿支持那些試圖走捷徑或開發(fā)與競(jìng)爭(zhēng)對(duì)手毫無(wú)差別模型的公司。 騰訊科技訊 據(jù)國(guó)外媒體報(bào)道,據(jù)...

劃重點(diǎn)

1

許多初創(chuàng)公司都在使用OpenAI等公司的相似數(shù)據(jù)和技術(shù)來(lái)開發(fā)自家大模型。

2

使用相同或類似數(shù)據(jù)訓(xùn)練大模型,導(dǎo)致這些模型無(wú)法在競(jìng)爭(zhēng)中脫穎而出。

3

投資者不愿支持那些試圖走捷徑或開發(fā)與競(jìng)爭(zhēng)對(duì)手毫無(wú)差別模型的公司。

AIGC行業(yè)公開的秘密:都在抄作業(yè),初創(chuàng)公司用GPT-4訓(xùn)練自家大模型

科技新聞?dòng)?據(jù)國(guó)外媒體報(bào)道,據(jù)多位開發(fā)者和創(chuàng)始人透露,許多初創(chuàng)公司所開發(fā)的人工智能聊天機(jī)器人極可能依賴OpenAI及其他公司的數(shù)據(jù)資源,盡管這些初創(chuàng)企業(yè)正努力削弱OpenAI的市場(chǎng)地位。這一現(xiàn)象催生了一種新的競(jìng)爭(zhēng)態(tài)勢(shì):這些初創(chuàng)公司向客戶收取的費(fèi)用僅為GPT-4成本的極小部分,但它們的低成本服務(wù)卻能在特定任務(wù)上模仿GPT-4的表現(xiàn)。

然而,值得注意的是,這些初創(chuàng)公司在開發(fā)過(guò)程中并未公開披露它們使用了OpenAI的技術(shù)。這種做法使得這些初創(chuàng)公司面臨一定的風(fēng)險(xiǎn),因?yàn)槿缤珹nthropic和谷歌等領(lǐng)先的人工智能公司一樣,OpenAI在技術(shù)上明確禁止此類行為。不過(guò),據(jù)知情人士透露,去年夏天,OpenAI的首席執(zhí)行官山姆奧特曼(SamAltman)曾向眾多初創(chuàng)公司創(chuàng)始人表示,規(guī)模較小的企業(yè)可以適度利用該公司的技術(shù)。

盡管奧特曼的這一表態(tài)為部分創(chuàng)始人帶來(lái)了一絲寬慰,但一旦這種行為對(duì)OpenAI的增長(zhǎng)構(gòu)成威脅,該公司隨時(shí)有可能改變立常市場(chǎng)上充斥著對(duì)大多數(shù)客戶而言足夠好的人工智能產(chǎn)品,可能會(huì)削弱OpenAI和其他供應(yīng)商的收入來(lái)源。同時(shí),在類似技術(shù)基礎(chǔ)上訓(xùn)練的人工智能產(chǎn)品的激增,也可能使得單個(gè)提供商在激烈的市場(chǎng)競(jìng)爭(zhēng)中更難脫穎而出。

這種策略的實(shí)施方式如下:開發(fā)者首先向OpenAI支付費(fèi)用,以獲得對(duì)最先進(jìn)模型GPT-4的訪問(wèn)權(quán)限。隨后,他們向該模型提出一系列問(wèn)題,如“這行代碼存在哪些問(wèn)題?”通過(guò)收集這些答案和問(wèn)題,他們進(jìn)一步訓(xùn)練自己的競(jìng)爭(zhēng)模型,比如那些能夠調(diào)試計(jì)算機(jī)代碼的模型。

這一策略在近幾個(gè)月備受青睞,被眾多開發(fā)者所采納。UnslothAI的聯(lián)合創(chuàng)始人丹尼爾韓(DanielHan)估計(jì),他的客戶群體中,大約有一半的開發(fā)者會(huì)從GPT-4或Anthropic的Claude模型中生成數(shù)據(jù),用以優(yōu)化和增強(qiáng)自己的模型。UnslothAI致力于協(xié)助開發(fā)者打造對(duì)話式人工智能產(chǎn)品。此外,許多公司也通過(guò)ShareGPT網(wǎng)站獲取這類數(shù)據(jù),該網(wǎng)站為開發(fā)者提供了一個(gè)平臺(tái),用以分享他們使用OpenAI模型生成的答案。

較小的開發(fā)者通;诹餍械拈_源模型進(jìn)行模型開發(fā),這些模型可以免費(fèi)從Meta或MistralAI等公司獲齲然而,通過(guò)結(jié)合OpenAI模型的答案,他們的模型能夠取得實(shí)質(zhì)性的改進(jìn)。一些開發(fā)者甚至利用名為OpenPipe的服務(wù)來(lái)自動(dòng)化這一過(guò)程,從而更加高效地整合和優(yōu)化數(shù)據(jù)。

MenloVentures的董事總經(jīng)理馬特墨菲(MattMurphy)對(duì)此表示:“這是一個(gè)尚未建立明確規(guī)則的新生態(tài)系統(tǒng)中的現(xiàn)象。如果大家都在使用同樣的數(shù)據(jù),那么如何才能在競(jìng)爭(zhēng)中脫穎而出,取得更好的成果呢?”MenloVentures是OpenAI的競(jìng)爭(zhēng)對(duì)手Anthropic的投資方。

風(fēng)險(xiǎn)回報(bào)更高

對(duì)一些公司而言,盡管冒著違反OpenAI等公司政策或隱性規(guī)則的風(fēng)險(xiǎn),但這樣的冒險(xiǎn)可能值得一試。在如今競(jìng)爭(zhēng)激烈的生成式人工智能市場(chǎng)中,獲得高質(zhì)量數(shù)據(jù)用于模型訓(xùn)練或改進(jìn)變得至關(guān)重要。

然而,目前尚不明朗的是,OpenAI、谷歌、Anthropic和其他大型開發(fā)公司是否會(huì)允許規(guī)模較小的競(jìng)爭(zhēng)對(duì)手有效復(fù)制他們的人工智能技術(shù),以迅速追趕上來(lái)。一些投資者可能會(huì)對(duì)那些他們認(rèn)為采取捷徑或開發(fā)與競(jìng)爭(zhēng)對(duì)手毫無(wú)差別的技術(shù)的公司持謹(jǐn)慎態(tài)度,尤其是當(dāng)這些公司使用了相似的訓(xùn)練數(shù)據(jù)時(shí)。

RadicalVentures的合伙人羅布托伊斯(RobToews)指出:“人工智能模型訓(xùn)練數(shù)據(jù)的質(zhì)量和來(lái)源正逐漸成為業(yè)界關(guān)注的焦點(diǎn)之一。盡管目前尚無(wú)人能準(zhǔn)確預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì),但任何在數(shù)據(jù)來(lái)源方面缺乏深思熟慮和戰(zhàn)略眼光的人工智能初創(chuàng)公司都可能會(huì)落后。”

盡管如此,初創(chuàng)公司使用OpenAI數(shù)據(jù)的做法,與OpenAI和其他領(lǐng)先的人工智能開發(fā)商在訓(xùn)練自家模型時(shí)所采取的策略存在某種相似性。例如,OpenAI的首席技術(shù)官米拉穆拉蒂(MiraMurati)在最近的一次采訪中,關(guān)于她的團(tuán)隊(duì)是否使用谷歌旗下YouTube和Meta旗下Facebook與Instagram數(shù)據(jù)進(jìn)行模型訓(xùn)練的問(wèn)題時(shí),她的回答出現(xiàn)了失誤。

如果OpenAI確實(shí)利用了這些數(shù)據(jù),那也算不上意外之舉。外媒近期爆出OpenAI如何借助YouTube視頻創(chuàng)建語(yǔ)音識(shí)別工具Whisper,進(jìn)而改進(jìn)GPT-4模型的內(nèi)幕。先前也有報(bào)道指出,OpenAI曾秘密使用YouTube數(shù)據(jù)來(lái)訓(xùn)練其早期的人工智能模型。本月早些時(shí)候,YouTube首席執(zhí)行官尼爾莫漢(NealMohan)明確表態(tài),他不接受OpenAI使用YouTube視頻來(lái)開發(fā)類似Sora這樣的模型。

這一事件引發(fā)了美國(guó)新聞出版商和一些創(chuàng)作者的強(qiáng)烈不滿,他們指責(zé)人工智能開發(fā)商利用受版權(quán)保護(hù)的材料進(jìn)行模型訓(xùn)練。去年12月,《紐約時(shí)報(bào)》甚至對(duì)OpenAI及其主要支持者微軟提起訴訟,指控他們?cè)谀P陀?xùn)練過(guò)程中非法復(fù)制了《紐約時(shí)報(bào)》的新聞文章。該訴訟稱,OpenAI的聊天機(jī)器人甚至“能夠逐字背誦《紐約時(shí)報(bào)》的內(nèi)容”。

然而,OpenAI對(duì)此做出了回應(yīng),表示他們?cè)鴩L試與新聞出版商建立合作伙伴關(guān)系,并堅(jiān)稱其訓(xùn)練實(shí)踐符合美國(guó)“合理使用”的版權(quán)原則。盡管如此,OpenAI和谷歌還是與AxelSpringer等出版商達(dá)成了價(jià)值數(shù)百萬(wàn)美元的授權(quán)協(xié)議,并與Reddit等主要網(wǎng)站達(dá)成了更廣泛的合作協(xié)議。

當(dāng)然,并非所有的人工智能開發(fā)者都采取這種策略。例如,Databricks是一家銷售用于管理數(shù)據(jù)和利用人工智能的軟件工具的公司,其首席科學(xué)家喬納森弗蘭克爾(JonathanFrankle)表示,該公司在開發(fā)強(qiáng)大的開源大語(yǔ)言模型時(shí),并未依賴競(jìng)爭(zhēng)對(duì)手的數(shù)據(jù)或技術(shù)。Anthropic的一位發(fā)言人也指出,他們同樣不會(huì)利用其他模型的輸出來(lái)訓(xùn)練自己的大模型。

誰(shuí)能扛住模仿的誘惑?

對(duì)于那些秘密依賴其他人工智能服務(wù)來(lái)開發(fā)模型的開發(fā)者來(lái)說(shuō),一旦這種依賴關(guān)系被揭露,他們可能會(huì)陷入尷尬和困境。例如,Mistral和零一萬(wàn)物,這兩家公司都使用了Meta的開源人工智能模型Llama2來(lái)構(gòu)建自己的人工智能產(chǎn)品,然而他們并未及時(shí)披露這一事實(shí),直到信息意外泄露。盡管Meta的授權(quán)條款允許這種使用,但這些初創(chuàng)公司延遲披露的做法引起了一些應(yīng)用程序開發(fā)者的不滿,他們認(rèn)為這些公司在誠(chéng)實(shí)和透明度方面做得不夠。但這并不妨礙兩家公司成功融資數(shù)億美元。

即使是大型科技公司,也難以抵擋使用他人成果的誘惑。例如,谷歌利用YouTube視頻進(jìn)行轉(zhuǎn)錄,而Meta則雇傭非洲承包商來(lái)總結(jié)受版權(quán)保護(hù)的書籍,以訓(xùn)練其人工智能模型。另外,Adobe也在初創(chuàng)公司Midjourney的人工智能生成照片上訓(xùn)練了自己的圖像生成軟件Firefly。去年,谷歌的一名高級(jí)人工智能工程師因?yàn)閷?duì)公司使用OpenAI的ChatGPT數(shù)據(jù)來(lái)訓(xùn)練自家模型的做法表示擔(dān)憂而辭職抗議。

Lamini是一家?guī)椭_發(fā)者訓(xùn)練自己模型的初創(chuàng)公司,其首席執(zhí)行官SharonZhou表示,在人工智能領(lǐng)域快速發(fā)展的背景下,日益增長(zhǎng)的競(jìng)爭(zhēng)壓力使得許多開發(fā)者不得不轉(zhuǎn)向有爭(zhēng)議的訓(xùn)練數(shù)據(jù)來(lái)源,如受版權(quán)保護(hù)的內(nèi)容或大語(yǔ)言模型生成的內(nèi)容。如果他們選擇不使用這些數(shù)據(jù),就可能會(huì)失去競(jìng)爭(zhēng)優(yōu)勢(shì)。

隨著越來(lái)越多的公司投身于開發(fā)部分源自其他模型的人工智能產(chǎn)品,對(duì)這些模型進(jìn)行區(qū)分可能變得日益棘手。這一趨勢(shì)可能會(huì)削弱OpenAI等領(lǐng)軍企業(yè)的競(jìng)爭(zhēng)優(yōu)勢(shì),迫使他們?cè)趦r(jià)格上展開更激烈的競(jìng)爭(zhēng)。特別是在企業(yè)用戶越來(lái)越多地傾向于選擇價(jià)格更親民、性能“足夠好”的大語(yǔ)言模型,而非最先進(jìn)、最昂貴的選項(xiàng)時(shí),這一競(jìng)爭(zhēng)態(tài)勢(shì)將愈發(fā)明顯。

為了應(yīng)對(duì)這一挑戰(zhàn),一種可能的替代方案是轉(zhuǎn)向合成數(shù)據(jù)。這意味著企業(yè)不再依賴從互聯(lián)網(wǎng)或其他來(lái)源抓取的人工生成內(nèi)容,而是利用自己的人工智能模型來(lái)生成數(shù)據(jù)。例如,谷歌和Meta已經(jīng)表示,他們正在使用合成數(shù)據(jù)來(lái)構(gòu)建能夠解決幾何問(wèn)題或生成計(jì)算機(jī)代碼的模型。由于這些數(shù)據(jù)完全由人工智能產(chǎn)生,因此可以避免使用人工生成內(nèi)容所帶來(lái)的眾多法律糾紛。

與此同時(shí),數(shù)十家人工智能初創(chuàng)公司正積極獲取醫(yī)療保艦律師事務(wù)所等行業(yè)的私人數(shù)據(jù),以開發(fā)針對(duì)特定用途的模型。搜索分析公司Elastic的首席執(zhí)行官阿什庫(kù)卡尼(AshKulkarni)指出,這些模型具有高度的專業(yè)性和定制化特點(diǎn),使得OpenAI等公司的通用模型難以輕易復(fù)制。(編譯/金鹿)

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港