展會信息港展會大全

AI數(shù)據(jù)荒下的創(chuàng)業(yè)眾生相:盜用GPT-4生成數(shù)據(jù)訓練模型,引發(fā)投資人擔憂
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-04-17 09:12:24   瀏覽:6071次  

導讀:智東西(公眾號:zhidxcom) 編譯 | 長頸鹿 編輯 | 李水青 智東西4月16日消息,據(jù)外媒The Information 4月15日報道,在AI領域,許多初創(chuàng)公司開發(fā)的聊天機器人實際上是建立在OpenAI等大型企業(yè)所提供的數(shù)據(jù)和技術基礎之上的。這些低成本的服務能夠在某些程度上...

智東西(公眾號:zhidxcom)

編譯 | 長頸鹿

編輯 | 李水青

智東西4月16日消息,據(jù)外媒The Information 4月15日報道,在AI領域,許多初創(chuàng)公司開發(fā)的聊天機器人實際上是建立在OpenAI等大型企業(yè)所提供的數(shù)據(jù)和技術基礎之上的。這些低成本的服務能夠在某些程度上模仿GPT-4、Llama的性能,但這種做法可能違反了這些科技強企的使用要求。不僅如此,這種低成本的模仿還有可能對AI強企的市場份額和收入產(chǎn)生威脅。

AI巨頭們自身也難逃版權(quán)糾紛,一些未經(jīng)許可的數(shù)據(jù)使用引發(fā)了較多爭議和訴訟。但好在行業(yè)整體版權(quán)意識有所轉(zhuǎn)勢,OpenAI和谷歌帶頭與出版商和網(wǎng)站達成了數(shù)據(jù)的授權(quán)協(xié)議。

此外,在當下如此復雜的市場競爭中,投資者們也有著自己的考量。他們即希望看到AI行業(yè)的快速進步,又不愿支持初創(chuàng)公司在技術研發(fā)中出現(xiàn)“偷工減料”的行為。因為他們擔心這些違反規(guī)則的行為可能會對初創(chuàng)公司的長期可持續(xù)性和聲譽造成負面影響。

一、AI公司創(chuàng)業(yè)新路子:用GPT-4生成內(nèi)容訓練模型

開發(fā)者利用OpenAI最先進的模型GPT-4作為資源,來幫助加速他們的研究和開發(fā)過程。他們會向模型提問,來獲得有關特定問題的洞見和建議。比如 :這行代碼有什么問題?然后利用答案來改進他們自己的模型。

一位幫助開發(fā)者構(gòu)建對話式AI的創(chuàng)始人估計,他的客戶中約有一半從OpenAI的GPT-4或Anthropic的Claude模型中生成了一些數(shù)據(jù),并用這些數(shù)據(jù)改進了自己的模型。

許多開發(fā)者無需從頭開始訓練模型。小規(guī)模模型的開發(fā)過程通常是基于免費提供的流行開源模型,如Meta或Mistral AI的開源模型。然后,他們再通過加入OpenAI模型的答案,使這些小規(guī)模模型得到顯著的改進。

對于某些公司來說,違反明文規(guī)定或潛規(guī)則的風險可能是值得的。在競爭激烈的生成式AI領域,獲取高質(zhì)量數(shù)據(jù)用于訓練或完善模型至關重要。任何一家AI初創(chuàng)企業(yè)都了解如果缺乏數(shù)據(jù)來源用于訓練,就會落后于人。

即使是大型科技公司,也無法抵擋這樣“便利的”誘惑。據(jù)《泰晤士報》報道,這方面的例子包括谷歌轉(zhuǎn)錄YouTube視頻用于訓練其AI模型以及Meta雇用非洲承包商總結(jié)受版權(quán)保護的書籍來訓練AI模型。此外,彭博社報道了一則Adobe公司的消息,他們利用初創(chuàng)公司Midjourney提供的AI生成的照片訓練自己的圖像生成軟件Firefly。

據(jù)The Information報道,去年,谷歌的一位高級AI工程師在對該公司使用OpenAI的ChatGPT數(shù)據(jù)來訓練谷歌自己的模型表示擔憂后,辭職以示抗議。

但有些開發(fā)者不愿主動承認自己對于開源模型的使用情況。一旦這種行為被公之于眾時,他們的公司就會陷入尷尬的局面。例如巴黎的Mistral AI和北京的零一萬物,在信息泄露事件之后,才不得不承認他們確實使用了Meta的開源模型Llama 2作為自己產(chǎn)品開發(fā)的基矗

隨著越來越多的公司開發(fā)出源于其他模型的模型,它們可能會變得難以區(qū)分。這可能會蠶食OpenAI等領先企業(yè)的競爭優(yōu)勢,當顧客選擇更便宜、更方便的模型,而不是最先進、最昂貴的模型時,它們在價格上將展開競爭。

二、阿爾特曼放寬ChatGPT使用限制,OpenAI此前深陷版權(quán)糾紛

OpenAI和Anthropic、谷歌等其他領先的AI公司一樣,在技術上禁止這種行為。盡管如此,OpenAI首席執(zhí)行官山姆阿爾特曼(Sam Altman)在一次會議上與初創(chuàng)企業(yè)創(chuàng)始人的對話中提到,小型企業(yè)創(chuàng)始人可以在一定程度上使用OpenAI的技術。

雖然阿爾特曼的回答讓在場的一些創(chuàng)始人松了一口氣,但如果這種做法損害了OpenAI的發(fā)展,他們隨時可能改變主意。目前還不清楚,OpenAI、谷歌、Anthropic和其他大型開發(fā)商會在多長時間內(nèi)允許較小的競爭對手有效復制他們的AI。

不過,初創(chuàng)公司利用OpenAI數(shù)據(jù)所做的事情與OpenAI和其他領先的AI開發(fā)商在訓練自己的模型時所做的事情有相似之處。OpenAI的首席技術官米拉穆拉提(Mira Murati)上個月的一次采訪中,在回答有關其同事是否使用了谷歌旗下的YouTube以及Meta Platforms旗下的Facebook和Instagram的數(shù)據(jù)來訓練Sora時,表現(xiàn)得有些含糊其辭。

如果OpenAI確實使用了這些數(shù)據(jù),也不足為奇。紐約時報最近的一篇報道描述了OpenAI如何創(chuàng)建語音識別工具Whisper來轉(zhuǎn)錄YouTube視頻,以改進其GPT-4 模型。The Information此前曾報道,該公司秘密使用YouTube數(shù)據(jù)訓練其之前的AI模型。本月早些時候,YouTube首席執(zhí)行官尼爾莫漢(Neal Mohan)表示,他不會同意OpenAI使用YouTube視頻來開發(fā)像Sora這樣的模型。

這引發(fā)了新聞出版商和一些作家的指責。去年12月,《紐約時報》起訴OpenAI及其最大支持者微軟,指控它們在訓練模型時非法復制了紐約時報的文章。訴訟稱,OpenAI的聊天機器人可以產(chǎn)生完整紐約時報內(nèi)容的輸出。

OpenAI在回應中辯稱,它曾試圖與新聞出版商建立合作關系,其訓練行為是美國版權(quán)原則“合理使用”所允許的。

盡管如此,OpenAI和谷歌都與包括Axel Springer在內(nèi)的出版商達成了價值數(shù)百萬美元的授權(quán)協(xié)議,并與Reddit等大型網(wǎng)站達成了更大的協(xié)議。

但并非每個AI開發(fā)商都游走在“灰色地域”。Databricks公司的首席科學家喬納森弗蘭克爾(Jonathan Frankle)表示,該公司在開發(fā)強大的開源大型語言模型時,并沒有依賴競爭對手的作品。Anthropic的一位發(fā)言人也稱,該公司沒有利用其他模型的輸出結(jié)果來訓練自身大模型。

三、投資者不愿初創(chuàng)公司“走捷徑”,合成數(shù)據(jù)或成訓練新來源

一些投資者對“偷工減料”或開發(fā)出與競爭對手無異的技術的公司感到不舒服,因為這些公司實際上并沒有自己真正的技術。投資者們更希望看到AI領域的快速進步和比同行更好的科研成果。

一些籌集了數(shù)億美元資金的公司甚至不承認使用了其他AI公司的開源模型。這種情況更加劇李投資者的不滿,認為公司的誠信有問題。門羅風險投資公司(Menlo Ventures)的董事總經(jīng)理馬特墨菲(Matt Murphy)解釋道,在一個新的生態(tài)系統(tǒng)中,沒有一套明確的規(guī)則,就會出現(xiàn)這種情況。

合成數(shù)據(jù)是一種替代方案,公司可以用自己的AI模型生成數(shù)據(jù),而不是獲取線上的內(nèi)容。例如,谷歌和Meta就表示,它們使用合成數(shù)據(jù)來建立模型,以解決幾何問題和生成計算機代碼。由于AI能夠生成這類數(shù)據(jù),因此它避免了使用人工生成的內(nèi)容所帶來的許多法律問題。

與此同時,數(shù)十家AI初創(chuàng)公司正在獲取醫(yī)療保健和律師事務所等行業(yè)的私人數(shù)據(jù),以開發(fā)特定用途的模型。

結(jié)語:生成式AI模仿風波不斷,OpenAI持寬容態(tài)度

許多初創(chuàng)公司開發(fā)的AI大模型很可能使用了OpenAI和其他公司的數(shù)據(jù),盡管這些初創(chuàng)公司正試圖削弱OpenAI的實力。這種做法已成為了行業(yè)內(nèi)的公開秘密,導致了技術同源但價格減半的競爭態(tài)勢。

雖然OpenAI等初創(chuàng)公司對于小規(guī)模使用情況保持寬容的態(tài)度,但一些公司仍不主動披露他們在開發(fā)過程中使用了他者的技術。他們認為承認可能會給公司帶來風險。

不管怎樣,訓練大模型數(shù)據(jù)的緊缺和日益增長的競爭壓力仍在增加,目前合成數(shù)據(jù)仍在探索階段,我們期待AI公司更前沿的模型訓練和數(shù)據(jù)獲齲

來源:The Information

贊助本站

相關內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港