原文作者:Brian Owens
私營企業(yè)在人工智能方面的投入遠超學術界,但健康發(fā)展需要多方的投入。
來源: Neil Webb
如果不是學術界的早期研究,可能就不會有人工智能(AI)眼下的繁榮。如今日常生活中使用的許多技術,如機器學習和自然語言處理,都是由數(shù)十年前的人工神經網絡學術研究支撐的。但可以肯定的是,人工智能領域許多最新的尖端和備受矚目的研究并非在大學實驗室進行,而是在私營公司的緊閉的幕布之后開展。
德國亞琛工業(yè)大學的人工智能研究員Holger Hoos表示:“我們越來越多地看到,頂尖的人工智能研究主要在少數(shù)美國公司的研究實驗室內完成。
這些研究大多并未發(fā)表在領先的同行評議科學期刊上。2023 年,企業(yè)研究僅占美國自然指數(shù)人工智能總產出的 3.84%。但其他來源的數(shù)據顯示,企業(yè)在研究中的影響力逐漸增加。去年發(fā)表在Science的一篇論文1中,在劍橋麻省理工學院研究創(chuàng)新和人工智能的 Nur Ahmed 和他的同事發(fā)現(xiàn),有一位或多位產業(yè)界合著者參與的研究文章占主要人工智能會議演講的比例,從 2000 年的 22% 增長到 2020 年的 38%。產業(yè)界在最大、因而也最強的人工智能模型中的份額,從 2010 年的 11% 增長到 2021 年的 96%。在用于評估人工智能模型性能的一組 20 個基準測試(例如圖像識別、情感分析和機器翻譯方面的能力)中,2017 年之前僅產業(yè)界、或產業(yè)界與大學合作的工作,在62%的情況下?lián)碛蓄I先模型,自 2020 年以來這一比例已增長到 91%。“產業(yè)界正日益主導這一領域。”Ahmed 說。
人工智能研究成果日益占據主導地位,很大程度上得益于行業(yè)在資金方面的巨大優(yōu)勢。2021 年,美國政府機構(不包括國防部)在人工智能研發(fā)上花費了 15 億美元,歐盟委員會花費了 10 億歐元(11 億美元)。全球行業(yè)花費超過 3400 億美元。
Ahmed說,這種支出使得行業(yè)控制了三大最重要的投入:計算力、大數(shù)據集和人才。
公司擁有比學術機構更強大的計算能力,包括購買所需的圖形處理單元(AI 中最常用的芯片),甚至可以設計和制造自己的芯片。這使得公司能夠創(chuàng)建比學術機構更大、更復雜的模型。2021 年,行業(yè) AI 模型平均比學術模型大 29 倍。
公司還可以訪問更大的數(shù)據集來訓練這些模型,因為它們的商業(yè)平臺會在用戶與它們交互時自然產生這些數(shù)據。德國亥姆霍茲慕尼黑的計算生物學家 Fabian Theis 說:“在訓練用于自然語言處理的最先進的大型語言模型方面,學術界很難趕上。”
豐厚的薪水以及能夠從事人工智能最前沿技術工作的承諾,使得公司能夠從大學搶走大量頂尖人才,而在學術界計算機科學院系,招聘基本保持平穩(wěn)。
“行業(yè)招聘遠高于計算機科學研究教師的總體增長,”Ahmed 說。2004 年,北美大學只有 21% 的人工智能博士進入產業(yè)界工作,但到 2020 年,這一數(shù)字接近 70%。這種日益加劇的不平衡讓學術界的一些人感到擔憂。最大的擔憂是,公司必然關注利潤,這不僅影響他們尋求開發(fā)的人工智能產品類型,還會影響他們提出的研究問題。“如果對社會有重大影響的發(fā)展主要由短期商業(yè)利益驅動,我們就有麻煩了。”Hoos 說。
英國愛丁堡大學研究人工智能倫理的 Shannon Vallor 表示,學術界的人工智能研究需要為知識體系的發(fā)展做出貢獻,而這種知識體系并非源自商業(yè)目的。“學術界是僅有的樂土,允許研究人員在沒有明顯盈利路線圖的情況下繼續(xù)工作。”她說。
Vallor 表示,學者可以對人工智能提出批判性和冷靜的看法,作為獨立信息來源判斷哪些技術可行、哪些不可行,識別新技術的潛在危害,以及如何減輕危害。學者還可以幫助將人工智能研究與公眾利益結合起來。Vallor 表示:“目前缺少人工智能應用,能專注于我們最需要解決的問題。”這些挑戰(zhàn)包括氣候變化、醫(yī)療保健需求以及因數(shù)字技術而加劇的社會和民主壓力。
盡管研究人工智能的倫理和社會后果非常重要,但許多學者仍擔心,由于行業(yè)內現(xiàn)有的激勵機制,企業(yè)對負責任地使用人工智能的研究投入不足,未能吸取此類研究的經驗教訓。Ahmed 和其他同事的分析2證實了這一懷疑。與傳統(tǒng)人工智能論文相比,領先的人工智能公司在負責任的人工智能研究方面的產出明顯較低。他們進行的負責任的人工智能研究范圍也較窄,涉及主題缺乏多樣性。
Ahmed 表示:“大型人工智能公司在負責任的人工智能研究中極少有公共參與,這表明在人工智能開發(fā)中,速度優(yōu)先于安全。”他們還發(fā)現(xiàn)負責任的人工智能研究與其實際實施之間存在脫節(jié)。Ahmed 說,“進入市場的人工智能產品受到負責任的人工智能研究結果的影響有限。”
Vallor 表示,過去企業(yè)在負責任的人工智能研究方面曾投入更多資金,但隨著生成式人工智能的蓬勃發(fā)展,這種興趣逐漸減弱,引發(fā)了一場利用市場的“向下競爭”。“關于負責任人工智能的知識已經存在,問題是大型人工智能公司沒有動力去應用它。”她說。“但我們可以改變激勵機制。”
企業(yè)投入
2023 年,美國企業(yè)的人工智能(AI)研究在《自然指數(shù)》期刊中的份額最高。但在企業(yè) AI 產出最高的五個國家中,日本企業(yè)的產出占該國數(shù)據庫中研究總量的比例最高。
她建議,負責任地開發(fā)和部署人工智能的公司可以擔負較輕稅收。“那些不想采用負責任的人工智能標準的公司應該支付費用,補償那些受到危害和生計受到損害的公眾。” Vallor說。
在等待新法規(guī)出臺的同時,學術界在關注行業(yè)同行方面發(fā)揮著重要作用。需要開展學術研究,找出并解決人工智能系統(tǒng)固有偏見等問題,以幫助該領域朝著更負責任的方向發(fā)展。“需要有制衡,這不能僅靠監(jiān)管來實現(xiàn),還需要獨立專家的審查。”Hoos 說。“至關重要的是,大學等公共資助機構里必須擁有與行業(yè)類似的專業(yè)知識。”
然而,要進行這種審查,學術界必須能夠開放獲取商業(yè) AI 模型所依賴的技術和代碼。“即使是最好的專家,也沒法看一眼復雜的神經網絡,就弄清楚它到底是如何工作的。”Hoos 說。“我們對這些系統(tǒng)的能力和局限性知之甚少,因此,我們必須盡可能多地了解它們的創(chuàng)建方式。” Theis 說,許多公司正在努力開放他們的 AI 模型,因為他們希望更多的人能夠使用它們。“讓人們接受工具培訓是行業(yè)的核心利益。”他說。例如,F(xiàn)acebook 的母公司 Meta 一直在推動更多開放模型,因為它希望更好地與 OpenAI 和谷歌等公司競爭?屏_拉多大學博爾德分校的計算機科學家 Daniel Acua 說,讓人們訪問其模型將帶來新的、富有創(chuàng)意的想法。但Hoos表示,期望公司泄露所有“秘密配方”是不現(xiàn)實的,這也是另一方面的原因,需要學術界保持技術和人才能力跟上行業(yè)發(fā)展。
互惠互利
并非所有人都過于擔心行業(yè)主導人工智能開發(fā)的部分,一部分人希望學術界和企業(yè)能夠找到平衡點。Theis 說:“必須明確的是,產業(yè)和學術界深度參與人工智能研究對雙方都有好處。”
學者們可以自由地追求意想不到或高風險的研究方向,而公司則能從中受益這可能會帶來新的突破,解決其產品面臨的一些問題。“如果不采用完全不同的方法,當前人工智能工具的一些局限性可能無法克服。” Vallor說。而那些不太關心他們的想法是否能轉化為成功產品的研究人員,更可能發(fā)現(xiàn)這些方法。
迅猛發(fā)展
自然指數(shù)期刊中人工智能(AI)研究的增長速度非?,甚至允許數(shù)據庫在 2022年擴展到健康科學領域。例如,從 2019 年到 2021 年,中國的人工智能份額增長了一倍多。美國和中國之間的差距也在迅速縮校
至于學者,盡管他們可以自由地從事好奇心驅動的項目,但他們也可以從行業(yè)獲得知識和支持,幫助他們解決有趣而棘手的問題。“我和其他實驗室的實習生去大型科技公司或制藥公司學習行業(yè)經驗是很常見的,”Theis 說。“兩者之間實際上存在不斷來回的交流和傳播。”
Acua 和他的同事研究了行業(yè)和學術研究人員對人工智能的不同方法3。他們分析了 1995 年至 2020 年期間在各種人工智能會議上發(fā)表的論文,以了解研究團隊的組成與其工作的新穎性的關系,及其對引用和模型創(chuàng)建方面的影響。
他們發(fā)現(xiàn),完全由行業(yè)研究人員組成的團隊的工作往往被引用率更高,并產生最先進的模型。相比之下,學術團隊往往產生更新穎的工作,他們的論文更有可能包含非常規(guī)和非典型的想法。有趣的是,學術-行業(yè)合作往往與行業(yè)團隊的結果相似,致力于解決能夠大量被引用的困難工程問題,但失去了學術項目標志性的新穎性。
這種分工在許多其他科學領域都很常見,這就是為什么Acua說他比其他人更看好學術界人工智能研究的未來。即使學者們沒有足夠的資源或計算能力來構建最大的大型語言模型,他們也有能力做更新、更具突破性的工作。“放肆一點好了,”他說。“不要因為你身處學術界而輕視某個領域,你有自由去做任何你想做的事。”
與產業(yè)界同步
然而,為了最大限度地利用這種自由,學者們需要支持最重要的是資金支持。“要有更大力廣泛地投資基礎研究,這樣的研究方不至于應者寥寥、曇花一現(xiàn)。”Theis 說。
盡管政府不太可能匹敵行業(yè)投入的巨額資金,但規(guī)模較孝更集中的投資可以產生巨大影響。“加拿大的人工智能戰(zhàn)略并沒有花費大量資金,但卻非常有效,”Hoos 說。自 2016 年以來,該國已在人工智能計劃上投資了約 20 億加元(14.6 億美元),并于 2024 年宣布計劃在未來幾年內再投入 24 億加元。其中大部分資金專門用于為大學研究人員提供人工智能應用所需的計算能力,支持負責任的人工智能研究,以及招募和留住頂尖人才。這一戰(zhàn)略幫助加拿大在學術研究和商業(yè)開發(fā)方面取得了超乎尋常的成就,并在全球排名榜上保持領先地位。2023 年,加拿大在人工智能研究自然指數(shù)產出排名中位居世界第 7 位,在自然科學領域總體排名第 9 位。
人工智能領域十大新興機構
德國亥姆霍茲研究中心聯(lián)合會,是自然指數(shù)中人工智能研究產出增幅最大的機構之一,該聯(lián)合會設立了一個專門部門,為在工作中使用人工智能的研究人員提供專業(yè)知識和資金。
加拿大卓越研究主席計劃等招聘計劃為各個領域的頂尖研究人員提供為期八年、高達 800 萬加元的資助,以吸引他們移居或留在加拿大;德國的亞歷山大馮洪堡人工智能教授職位為期五年,提供 500 萬歐元,這兩項計劃都有助于鞏固這些國家的人工智能研究。Hoos本人就擁有一個洪堡教授職位。
歐洲還推出了多項旨在促進人工智能學術研究的計劃。Theis是亥姆霍茲人工智能計劃的科學總監(jiān)。該計劃由德國亥姆霍茲研究中心亥姆霍茲聯(lián)合會運營,為研究實驗室提供資金、計算訪問和咨詢,幫助他們將人工智能工具應用于工作,例如尋找新方法利用他們在藥物發(fā)現(xiàn)和氣候建模等領域產生的大型數(shù)據集。Theis說:“我們希望通過民主化訪問人工智能,為研究人員提供支持。真正加速這些研究實驗室的發(fā)展。”
歐洲人工智能研究實驗室聯(lián)盟 CLAIRE 提出了一項更加雄心勃勃的計劃,該聯(lián)盟由 Hoos 于 2018 年與他人共同創(chuàng)立。該計劃的靈感來自物理科學中跨機構甚至跨國家共享大型昂貴設施的方法。“我們的粒子物理學家朋友找對了路。”Hoos 說。“他們用公共資金建造了大型機器。”
Hoos 和他在 CLAIRE 的同事提出了一項“登月計劃”,旨在建立一個設施,為學術科學家提供必要的計算基礎設施,使他們在人工智能研究方面跟上產業(yè)界的步伐有點像人工智能領域的 CERN(位于瑞士日內瓦附近的粒子物理實驗室)。他們估計,該項目將在六年內需要歐盟提供約 1000 億歐元的資金,Hoos 說,與最初的登月計劃美國宇航局的阿波羅太空計劃(以今天的貨幣計算,耗資約 2400 億歐元)以及 CERN 本身的成本相比,這個數(shù)額相當合理。他說,這樣的設施將用于“公開”進行人工智能研究,而不是在私人公司實驗室進行,從而使研究對公眾完全透明。他說,就像阿波羅計劃和 CERN 一樣,它將給社會和工業(yè)帶來巨大利益。
Vallor 表示,無論采取何種方法,讓公共資助的獨立學術研究人員站在人工智能進步的最前沿對于該技術的安全發(fā)展至關重要。“如果人工智能被濫用、如果沒有正確的監(jiān)管治理、如果沒有以負責任的方式開發(fā),它有可能非常危險。”她說。“我們理應擔憂任何以商業(yè)激勵作為唯一‘舵手’的人工智能生態(tài)系統(tǒng)。”
Brian Owens是加拿大新不倫瑞克省的自由撰稿人。
1. Ahmed, N., Wahed, M. & Thompson, N. C. Science 379, 884886 (2023).
原文以Rage against machine learning driven by profit為標題發(fā)布在2024年9月18日出版的《自然》增刊“自然指數(shù)-人工智能”上。
nature