展會信息港展會大全

權威AI開源標準1.0版發(fā)布:Llama也不算開源
來源:互聯(lián)網   發(fā)布日期:2024-10-29 15:25:17   瀏覽:766次  

導讀:機器之心報道編輯:澤南、小舟大模型開源的口號,不是隨便說說的。該來的終于來了。本周,人工智能領域迎來了對于「開源」的官方定義。開放源代碼促進會(Open Source Initiative,OSI)發(fā)布了「開源 AI 定義」的 1.0 正式版。此舉旨在澄清 Open Source 這一術語在快速發(fā)展的科技領域中,經常出現(xiàn)的模糊用法。值得關注的是在此機制下,一直以來開源大模型的標桿 Llama 3 也不符 ......

機器之心報道

編輯:澤南、小舟

大模型開源的口號,不是隨便說說的。

該來的終于來了。

本周,人工智能領域迎來了對于「開源」的官方定義。開放源代碼促進會(Open Source Initiative,OSI)發(fā)布了「開源 AI 定義」的 1.0 正式版。此舉旨在澄清 Open Source 這一術語在快速發(fā)展的科技領域中,經常出現(xiàn)的模糊用法。

值得關注的是在此機制下,一直以來開源大模型的標桿 Llama 3 也不符合本規(guī)則。

權威AI開源標準1.0版發(fā)布:Llama也不算開源

長期以來,OSI 一直為開源軟件的構成設定行業(yè)標準,但人工智能系統(tǒng)包含傳統(tǒng)許可未涵蓋的元素,例如模型訓練數(shù)據。現(xiàn)在,要使 AI 系統(tǒng)被視為真正的開源系統(tǒng),它必須提供:

可訪問用于訓練 AI 的數(shù)據的詳細信息,以便其他人可以理解和重新創(chuàng)建;

用于構建和運行 AI 的完整代碼;

訓練中的設置和權重,幫助 AI 產生相應的結果。

這一定義直接直擊 Meta 推動的 Llama 大模型。雖然在生成式 AI 領域里,Llama 一直被廣泛宣傳為最大的開源 AI 模型,Llama 的使用條款中支持公眾下載和使用,但其商業(yè)用途受到一定限制(對于擁有超過 7 億用戶的應用程序),且不提供對訓練數(shù)據的訪問,這導致其不符合 OSI 的無限制使用、修改和共享自由標準。

對此,Meta 發(fā)言人 Faith Eischen 對此表示,雖然「在很多事情上都同意合作伙伴 OSI 的觀點」,但 Meta 不同意這一定義。不應該設置單一的開源 AI 定義,人們此前對于開源的定義沒有涵蓋當今快速發(fā)展的 AI 模型的復雜性。

不過,無論技術的定義如何,Meta 表示仍將繼續(xù)與 OSI 和其他行業(yè)組織合作,以負責任的方式推動 AI 朝著可訪問和免費的方向發(fā)展。

在「開源」這件事上,非營利組織 OSI 一直扮演著重要的角色。OSI 維護了一個被業(yè)內認可的許可證列表,其定義的開源包括十余個關鍵條款,如自由再分發(fā)、源代碼可獲得、允許修改和衍生作品等。自 1998 年定義「開源」標簽并成立以來,OSI 對開源軟件的定義已被開發(fā)人員廣泛接受。

如今,隨著人工智能重塑格局,科技巨頭們面臨著一個關鍵選擇:是接受這些既定原則,還是拒絕它們。Linux 基金會最近也試圖定義「開源人工智能」,這表明關于傳統(tǒng)開源價值觀如何適應人工智能時代的爭論已日益激烈。

權威AI開源標準1.0版發(fā)布:Llama也不算開源

獨立研究員和開放源代碼創(chuàng)建者 Simon Willison 說:「既然我們已經有了一個強有力的定義,也許我們可以更積極地抵制那些『開源洗白(open washing)』并宣稱自己的工作是開源的公司!

Hugging Face 首席執(zhí)行官 Clément Delangue 稱:「 OSI 的定義對于圍繞人工智能開放性展開討論有巨大幫助,特別是在涉及訓練數(shù)據的關鍵作用時!

OSI 執(zhí)行董事 Stefano Maffulli 表示,該公司花了兩年時間咨詢全球專家,通過與機器學習和自然語言處理的學界專家、哲學家、Creative Commons 的內容創(chuàng)作者等合作完善了這一定義。

OSI 對于開源 AI 的定義

OSI 表示,「開源」的人工智能系統(tǒng)需要滿足以下幾點:

可將系統(tǒng)用于任何目的,無需征得許可;

允許人們研究系統(tǒng)的工作原理并檢查其組件;

允許人們?yōu)槿魏文康男薷脑撓到y(tǒng),包括更改其輸出;

人們可以出于任何目的,將系統(tǒng)共享給他人,無論是否經過修改。

這些自由既適用于功能齊全的系統(tǒng),也適用于系統(tǒng)的離散元素。行使這些自由的先決條件是能夠對系統(tǒng)進行修改。

再進一步,對于機器學習系統(tǒng)可修改的形式,OSI 也進行了定義。必須包含以下所有元素:

數(shù)據信息:用于訓練系統(tǒng)的數(shù)據的足夠詳細的信息,以便技術人員可以構建基本等效的系統(tǒng)。數(shù)據信息應根據 OSI 批準的條款提供。特別是,必須包括:

用于訓練的所有數(shù)據的完整描述,包括(如果使用)不可共享的數(shù)據,披露數(shù)據的來源、其范圍和特征、數(shù)據的獲取和選擇方式,標簽程序、數(shù)據處理和過濾方法;

所有公開可用的訓練數(shù)據的清單以及獲取這些數(shù)據的方式;

可從第三方獲得的所有訓練數(shù)據的列表以及從何處獲。òǜ顿M)。

代碼:用于訓練和運行系統(tǒng)的完整源代碼。該代碼應展示出如何處理和過濾數(shù)據以及如何進行訓練的完整規(guī)范。代碼應在 OSI 批準許可下提供。

例如,如果使用,則必須包括用于處理和過濾數(shù)據的代碼、用于訓練的代碼(包括使用的參數(shù)和設置)、驗證和測試、支持庫(如分詞器和超參數(shù)搜索代碼)、推理代碼和模型架構。

參數(shù):模型參數(shù),例如權重或其他配置。參數(shù)應根據 OSI 批準條款提供。

例如,訓練中間階段的檢查點以及優(yōu)化器狀態(tài)。

對于機器學習系統(tǒng),模型權重也是一個重要因素。OSI 在開源定義中表述道:

AI 模型由模型架構、模型參數(shù)(包括權重)和運行模型的推理代碼組成。

AI 權重是一組學習參數(shù),以根據給定輸入生成輸出。

對機器學習系統(tǒng)進行修改的范圍也包括權重!搁_源模型」和「開源權重」必須包括用于導出這些參數(shù)的數(shù)據信息和代碼。

最后,OSI 表示,開源 AI 定義不需要特定的法律機制來確保模型參數(shù)可供所有人免費使用。它們可能本質上是免費的,或者可能需要許可證或其他法律文書來確保它們的可用。預計隨著時間的推移,法規(guī)對于 AI 開放的定義也將變得更加清晰。

參考內容:

https://opensource.org/ai/open-source-ai-definition

https://lfaidata.foundation/blog/2024/10/25/embracing-the-future-of-ai-with-open-source-and-open-science-models/

https://www.theverge.com/2024/10/28/24281820/open-source-initiative-definition-artificial-intelligence-meta-llama

贊助本站

相關熱詞: llama osi 開源軟件 開源 模型

相關內容
AiLab云推薦
推薦內容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港