新智元報道
編輯:LRS【新智元導讀】人工智能工具正在幫助科研人員快速整合和理解大量科學文獻,但完全自動化的高質量文獻綜述生成仍面臨挑戰(zhàn),雖然能提升研究效率,但也存在生成低質量綜述的風險,需謹慎使用,所以說現階段還是人眼看論文靠譜。網絡的普及,加上文獻數量的爆炸式增長,如今的科研人員要面臨的一個主要難題就是,盡管可能已經收集了足夠的數據來幫助理解某個復雜的領域或系統,但由于信息量的巨大,人類無法全面地閱讀和理解所有文獻。就像是面對一個巨大的圖書館,雖然每本書都包含了寶貴的知識,但沒有人能夠閱讀所有的書籍并從中獲得一個完整的認知。
因此,盡管科學的進步為我們提供了大量的數據,但如何有效地整合和理解這些數據仍然是一個亟待解決的問題。最近Nature上有一篇專欄文章,介紹了一些現有的、文獻綜述自動化生成的方法,并指出了這類方法主要面臨的困境及用戶痛點。
文章鏈接:https://www.nature.com/articles/d41586-024-03676-9盡管身處ChatGPT時代,但想要完全沒有人類參與,讓AI「一鍵」完成系統性綜述生成,集查詢、整理、文獻篩選、總結歸納等于一身,并且沒有幻覺錯誤,仍然是一項不可能完成的任務。
用AI做文獻綜述
幾十年來,研究人員們一直在嘗試提升「將大量相關研究匯編成綜述」的速度,由于工作量過大,很多綜述在提交的時候往往就已經過時了。ChatGPT等大模型展現出的超強語言理解能力,也再次激發(fā)了人們對于自動化綜述的興趣,今年9月,美國初創(chuàng)公司FutureHouse構建了一個新系統,宣稱能夠在幾分鐘內生成一個比維基百科更準確的科學知識綜合頁面,并且已經為大約17,000個人類基因(human gene)生成了維基百科風格的條目,其中大部分在此前缺乏詳細的描述介紹。
一些科學文獻搜索引擎也已經開始引入AI驅動能力,來幫助用戶通過查找、排序和總結出版物來制作敘述性文獻綜述,但目前質量普遍比較低。大多數研究人員都認可,離實現自動化「金標準綜述」還有很長的路要走,整個過程涉及嚴格的程序來搜索和評估論文,還包括元分析來合成結果,或許10年、甚至100年后才能略有進展。
計算機輔助評審
幾十年來,計算機軟件一直在輔助研究人員搜索和解析研究文獻。早在大型語言模型(LLMs)出現之前,科學家們就開始使用機器學習和其他算法來幫助識別特定研究,或快速從論文中提取發(fā)現,但類似ChatGPT這樣的大模型讓自動綜述的能力顯著提升。不過,研究人員表示,要求ChatGPT或其他AI聊天機器人從頭開始撰寫學術文獻綜述,是相當不現實的。如果模型被要求對某個主題的研究進行綜述,LLM可能會從一些可信的學術研究、不準確的博客中,或是其他未知的信息來源中整合信息,而不會對最相關、最高質量的文獻進行權衡。LLMs的運行機制,即通過反復生成對查詢在統計上合理的單詞,決定了模型對同一個問題會生成不同的答案,并「幻想」出一些錯誤信息,比如眾所周知的「不存在」的學術引用,和人類進行綜述的過程可以說是毫無相似之處。
一個更復雜的過程是檢索增強生成(RAG),包括將預先選定的論文語料庫上傳到LLM,并要求模型從中提取關鍵點,并基于這些研究給出答案,可以在一定程度上減少幻覺現象,但無法完全消滅幻覺。RAG的過程中,還可以設置信息來源,類似Consensus和Elicit等專門的、AI驅動的科學搜索引擎就是這樣做的,雖然大多數公司沒有透露系統工作的確切細節(jié),但大體上就是將用戶的問題轉化為對學術數據庫(如Semantic Scholar和PubMed)的搜索,并返回最相關的結果;谒阉鹘Y果,大型語言模型(LLM)會總結這些研究,并將其綜合成一個「帶引用來源」的答案,用戶可以根據具體需要選擇要引用的工作。丹麥南部大學奧登塞分校的博士后研究員Mushtaq Bilal認為,這些工具肯定能讓提升綜述和寫作的效率,并且還自己開發(fā)了一個工具Research Kick。至少搜索引擎引用的內容是絕對真實存在的,用戶可以進一步點擊查看,自己分辨。不同的輔助工具有不同的特點,例如Scite系統可以快速生成支持或反駁某個主張的論文的詳細分解,Elicit等系統可以從論文的不同部分提取間接(方法、結論等)。
大多數AI科學搜索引擎不能全自動地生成準確的文獻綜述,其輸出更像是「一個本科生通宵達旦,然后總結出幾篇論文的主要觀點」,所以研究人員最好使用這些工具來優(yōu)化綜述過程中的部分環(huán)節(jié)。但這種工具還有一些缺點,例如只能搜索開放獲取的論文和摘要,而非文章的全文,Elicit搜索約1.25億篇論文,Consensus包含超過2億篇。大部分研究文獻都處于付費墻后,而且搜索大量全文計算量很大,讓AI應用運行數百萬篇文章的全部文本將需要很多時間,計算成本也會非常高。
系統性綜述仍然很難
敘述性地總結文獻已經非常難了,如果想把相關工作系統性地綜述更是難上加難,一個專業(yè)的研究人員也需要花費數月甚至數年才能完成。根據Glasziou團隊的分析,系統綜述包括至少25個仔細的步驟,在梳理文獻后,研究人員必須從長列表中篩選出最相關的論文,然后提取數據,過濾出可能存在偏見的研究,并綜合結果。這些步驟通常還需要另一位研究人員進行重復,以檢查不一致性。在ChatGPT出現之前,Glasziou開始嘗試創(chuàng)造科學界的世界紀錄:在兩周內完成一篇系統綜述。Glasziou和其他幾位同事,包括Marshall和Thomas,已經開發(fā)了計算機工具來提高效率,當時可用的軟件包括RobotSearch,能夠快速從一系列研究中識別出隨機試驗;RobotReviewer可以幫助評估研究是否存在因為未充分盲化而產生偏見的風險。第一次嘗試最終總共用了九個工作日;后來團隊又將該記錄縮短到了五天。這個過程還能變得更快嗎?
Elicit是一家專注于幫助研究人員進行系統綜述而不僅僅是敘述性綜述的公司,但該工具并不提供一鍵式系統綜述,而是自動化其中某些步驟,包括篩選論文和提取數據等。大多數使用Elicit進行系統綜述的研究人員都會上傳使用其他搜索引擎找到的相關論文,但用戶普遍擔心這類工具可能無法滿足研究的兩個基本標準:透明度和可復制性。如果不理解具體的算法,那就不算是系統綜述,而只是一篇簡單的綜述文章。今年早些時候,Glasziou團隊成員Clark領導了一項系統綜述,研究了使用生成式AI工具輔助系統綜述的研究,最終團隊只找到了15項已發(fā)表的研究,并將AI的性能與人進行充分對比。這些尚未發(fā)表或同行評審的結果表明,這些AI系統可以從上傳的研究中提取一些數據,并評估臨床試驗的偏差風險,F有的模型在閱讀和評估論文方面似乎做得還不錯,但在所有其他任務上表現得非常糟糕,包括設計和進行完善徹底的文獻搜索。
潛在風險
自動化信息合成也伴隨著風險。研究人員多年來就知道許多系統評價存在冗余或質量差等問題,而人工智能可能會使這些問題變得更糟;作者可能會有意或無意地使用人工智能工具來快速完成不遵循嚴格程序或包含低質量工作的評審,并得到誤導性的結果。除了綜述別人的工作外,Glasziou表示,這類模型還可以促使研究人員快速檢查以前發(fā)表的文獻,找出其中的錯誤,來繼續(xù)提高研究人員的水平。甚至在未來,人工智能工具可以通過尋找P-hacking等明顯跡象來幫助標記和過濾掉質量較差的論文。Glasziou將這種情況視為一種平衡:人工智能工具可以幫助科學家做出高質量的評審,但也可能會讓部分研究者快速生成不合格的論文,目前還不知道會對出版的文獻產生什么影響。有些研究者認為,合成和理解世界知識的能力不應僅僅掌握在不透明的營利性公司手中,希望未來可以看到非營利組織構建并仔細測試人工智能工具,小心謹慎地,盡可能保證每次提供的答案都是正確的。參考資料:https://www.nature.com/articles/d41586-024-03676-9