新智元報道
編輯:LRS【新智元導(dǎo)讀】10個AI領(lǐng)域,50篇精品論文,每周看一篇,到2026就能成「AI工程」專家!別再反復(fù)看Transformer之類的古董級論文了,該更新論文清單了!現(xiàn)行的AI從工程技術(shù)角度可以分為十個領(lǐng)域:前沿大模型、基準(zhǔn)評估、提示思維鏈、檢索增強(qiáng)生成、智能體、代碼生成、視覺、聲音、圖像/視頻擴(kuò)散、微調(diào),每個領(lǐng)域選出5篇代表作和相關(guān)工作,看完+實踐=AI全棧大神!
前沿大模型
OpenAI發(fā)布的ChatGPT把大模型帶入普通消費(fèi)者的日常生活中,旗下的GPT系列模型也一直是行業(yè)標(biāo)桿,其中GPT1/2/3, Codex, InstructGPT, GPT4都有論文,GPT3.5, 4o, o1和o3只有相關(guān)的宣發(fā)活動。
GPT-4論文鏈接:https://arxiv.org/pdf/2303.08774
Claude 3和Gemini算是OpenAI最大的競爭對手,其論文也值得一讀;模型的最新迭代版本為Claude 3.5 Sonnet和Gemini 2.0 Flash/Flash Thinking/Gemma 2.0。
論文鏈接:https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf
另一個分支是開源模型Llama家族,可以分為1/2/3代;家族樹下的其他子模型還包括Mistral 7B, Mixtral和Pixtral。
論文鏈接:https://arxiv.org/pdf/2407.21783
爆火的DeepSeek V1, Coder, V2, V3在開源大模型也有一席之地,以低成本高效率著稱。
論文鏈接:https://arxiv.org/pdf/2401.02954
最后是Apple Intellgence論文,在Mac和iPhone上都有部署。
論文鏈接:https://arxiv.org/pdf/2407.21075
其他非最前沿的模型也值得了解,包括AI2(旗下的Olmo、Molmo、OlmOE、Tülu 3、Olmo 2)、Grok、Amazon Nova、Yi、Reka、Jamba、Cohere、Nemotron、Microsoft Phi、HuggingFace SmolLM等;Mamba1/2和RWKV有可能在未來發(fā)力。
基準(zhǔn)和評估
MMLU Pro, GPQA Diamond和BIG-Bench Hard是頂尖AI實驗室常用的知識基準(zhǔn)評估。
MMLU-Pro論文鏈接:https://arxiv.org/pdf/2406.01574
MuSR主要評估自然語言敘事中的多步軟推理任務(wù),特點是長上下文,其他基準(zhǔn)包括LongBench, BABILong和RULER
論文鏈接:https://arxiv.org/pdf/2310.16049
MATH基準(zhǔn)主要關(guān)注數(shù)學(xué)競賽,包括12500個高難度數(shù)學(xué)題目,每個問題都有完整的逐步解決方案,前沿研究主要關(guān)注其子集MATH level 5, AIME, FrontierMath, AMC10/AMC12
論文鏈接:https://arxiv.org/pdf/2103.03874
IFEval評估語言模型的指令遵循能力,主要關(guān)注「可自動驗證的指令」,比如「寫超過400字」和「至少提到人工智能3次」等。總共有25個指令類型,構(gòu)建了越500個提示;其他可用基MT-Bench
論文鏈接:https://arxiv.org/pdf/2311.07911
ARC AGI用一組抽象和推理語料庫(Abstraction and Reasoning Corpus),模擬人類來測試模型的智能程度。
論文鏈接:https://arxiv.org/pdf/1911.01547
提示、上下文學(xué)習(xí)(ICL)和思維鏈
馬里蘭大學(xué)、OpenAI、斯坦福等13個機(jī)構(gòu)的研究人員發(fā)布的「提示詞報告」,對提示技術(shù)進(jìn)行分類,提供了提示工程的最佳實踐和指南,算是目前最全面的提示工程綜述報告。
論文鏈接:https://arxiv.org/pdf/2406.06608
思維鏈(Chain-of-Thought):在足夠大的語言模型中,只需要在提示詞中加入特定模版,就能引導(dǎo)大模型逐步思考,就能在各種算術(shù)、常識和符號推理任務(wù)上實現(xiàn)更高的性能,甚至比微調(diào)還管用。
論文鏈接:https://arxiv.org/abs/2201.11903
思維樹(Tree of Thoughts)克服了思維鏈只能基于token的、從左到右決策的缺陷,使得語言模型可以通過考慮多種不同的推理路徑和自我評估選擇來決定下一步行動,從而進(jìn)行有意識的決策,并在必要時進(jìn)行前瞻或回溯以做出全局選擇;
論文鏈接:https://arxiv.org/pdf/2305.10601
Prompt Tuning不對模型參數(shù)進(jìn)行調(diào)整,而是通過反向傳播學(xué)習(xí)「軟提示」,可以將凍結(jié)的模型用于多個下游任務(wù)。
論文鏈接:https://aclanthology.org/2021.emnlp-main.243.pdf
自動提示工程師(APE)能夠避免人工編寫低質(zhì)量提示詞帶來的性能影響,在指令候選池中進(jìn)行搜索優(yōu)化,可用于自動生成和選擇指令,最終在19/24個任務(wù)上實現(xiàn)了比人類標(biāo)注指令的性能更好。
論文鏈接:https://arxiv.org/pdf/2211.01910
檢索增強(qiáng)生成(RAG)
RAG是2024年AI工程的核心,主要難點在于信息檢索,可用的技術(shù)包括TF-IDF, BM25, FAISS, HNSW等。2020年,Meta首次提出RAG概念,結(jié)合預(yù)訓(xùn)練參數(shù)和非參數(shù)記憶用于語言生成,其中非參數(shù)記憶通過「預(yù)訓(xùn)練神經(jīng)檢索器」訪問「維基百科的稠密向量」索引獲得,結(jié)果在三個開放問答任務(wù)上都實現(xiàn)了最佳性能,并且生成的內(nèi)容更具體、多樣化和符合事實。
論文鏈接:https://arxiv.org/pdf/2005.11401
使用文本嵌入(word embedding)進(jìn)行「語義文本相似度」計算是一個常見的檢索技術(shù)。
METB是一個大規(guī)模文本嵌入基準(zhǔn),包括58個數(shù)據(jù)集和112種語言,結(jié)果是沒有某一種文本嵌入方法在所有任務(wù)中都占據(jù)絕對主導(dǎo)地位。
論文鏈接:https://arxiv.org/pdf/2210.07316
傳統(tǒng)RAG無法處理處理「以查詢?yōu)橹行牡恼谷蝿?wù),比如「數(shù)據(jù)集中的主題是什么?」這種全局問題,檢索需求不明確。
GraphRAG可以根據(jù)用戶問題的普遍性和需要索引的源文本數(shù)量進(jìn)行擴(kuò)展,首先從源文檔中導(dǎo)出實體知識圖譜,然后為所有密切相關(guān)的實體組預(yù)生成社區(qū)摘要;對于一個問題,每個社區(qū)摘要用于生成部分回復(fù),最后總結(jié)給用戶。
論文鏈接:https://arxiv.org/pdf/2404.16130
OpenAI推薦的RAGAS(檢索增強(qiáng)生成評估)是一個用于無參考評估RAG流程的框架,無需人類標(biāo)注,可以對「檢索系統(tǒng)識別相關(guān)和專注上下文段落」和「LLM對檢索文檔忠實度」的能力進(jìn)行評估。
論文鏈接:https://arxiv.org/pdf/2309.15217
智能體(Agent)
在被Anthropic、Devin和OpenAI采用后,SWE-Bench一躍成為最具知名度的智能體基準(zhǔn)測試(其他基準(zhǔn)包括WebArena、SWE-Gym),由來自12個流行Python倉庫的真實GitHub問題和相應(yīng)拉取請求中的2294個軟件工程問題組成。給定一個代碼庫以及一個需要解決的問題描述,語言模型的任務(wù)是編輯代碼庫以解決該問題,通常需要理解并同時協(xié)調(diào)多個函數(shù)、類甚至文件之間的變化,要求模型能夠與執(zhí)行環(huán)境互動,處理極長的上下文,并進(jìn)行復(fù)雜的推理,而不只是傳統(tǒng)的代碼生成任務(wù),更多的是智能體測試。
論文鏈接:https://arxiv.org/abs/2310.06770
ReAct開啟了一系列關(guān)于「工具使用」和「函數(shù)調(diào)用」的研究,通過與簡單的維基百科API交互,克服了思維鏈推理中普遍存在的幻覺和錯誤傳播問題,生成結(jié)果比沒有推理軌跡的模型更具可解釋性。
論文鏈接:https://arxiv.org/pdf/2210.03629
MemGPT提出了虛擬上下文管理技術(shù),智能地管理不同的存儲層次,以便在LLM的有限上下文窗口內(nèi)有效地提供擴(kuò)展的上下文,并使用中斷來管理其與用戶之間的控制流。在文檔分析和多會話聊天中展現(xiàn)了記憶、反思和動態(tài)演變能力。
論文鏈接:https://arxiv.org/pdf/2310.08560
Voyager是第一個由大型語言模型(LLM)驅(qū)動的、在Minecraft中進(jìn)行終身學(xué)習(xí)智能體,能夠持續(xù)探索世界,獲取多樣化的技能,并在無人干預(yù)的情況下進(jìn)行新的發(fā)現(xiàn)。
主要包括三個關(guān)鍵組件:自動課程用于最大化探索;一個不斷增長的可執(zhí)行代碼技能庫,用于存儲和檢索復(fù)雜行為;一種新的迭代提示機(jī)制,結(jié)合環(huán)境反饋、執(zhí)行錯誤和自我驗證來改進(jìn)程序。
論文鏈接:https://arxiv.org/pdf/2305.16291
Voyager通過黑箱查詢與GPT-4進(jìn)行交互,無需對模型參數(shù)進(jìn)行微調(diào);開發(fā)的技能具有時間擴(kuò)展性、可解釋性和組合性,使得智能體的能力迅速增強(qiáng),并減輕了災(zāi)難性遺忘。
代碼生成
The Stack項目包含30種編程語言的許可源代碼,大小為3.1TB,論文描述了數(shù)據(jù)集的收集過程;通過在不同的Python子集上訓(xùn)練具有3.5億參數(shù)的解碼器,展現(xiàn)了根據(jù)文本生成代碼的潛力,僅使用許可數(shù)據(jù)就可以達(dá)到之前模型在HumanEval和MBPP的性能,后續(xù)模型發(fā)展為Stack v2和StarCoder
論文鏈接:https://arxiv.org/pdf/2211.15533
開源的代碼模型論文包括 DeepSeek-Coder, Qwen2.5-Coder, CodeLlama;很多人認(rèn)為Claude 3.5 Sonnet是最好的代碼模型,但沒有相關(guān)論文。
論文鏈接:https://arxiv.org/pdf/2401.14196
HumanEval/Codex論文是GitHub Copilot底層技術(shù)解釋,是代碼領(lǐng)域必備知識的基準(zhǔn)測試;編碼領(lǐng)域更有名的是SWE-Bench,可以評估大型語言模型在解決真實世界中GitHub軟件問題能力:給定一個代碼庫和一個具體的問題描述,要求語言模型生成一個補(bǔ)丁來解決該問題;其他替代品包括Aider, Codeforces, BigCodeBench, LiveCodeBench和SciCode
Codex論文鏈接:https://arxiv.org/pdf/2107.03374
代碼生成問題有別于自然語言生成問題,需要精確匹配目標(biāo)語言的語法,識別出常見路徑和邊緣情況,更關(guān)注細(xì)節(jié)。
AlphaCodium論文提供了一種通用的解決方案,基于測試的、多階段的、面向代碼的迭代流程,可以提高LLMs在代碼問題上的性能,在驗證集上將GPT-4的性能從19%提升到了44%
論文鏈接:https://arxiv.org/abs/2401.08500
CriticGPT主要關(guān)注代碼生成中的安全問題,可以幫助人類更準(zhǔn)確地評估模型編寫的代碼;模型使用RLHF訓(xùn)練以編寫自然語言反饋;實驗發(fā)現(xiàn)模型在63%的情況下比人類的批評結(jié)果更好,成功識別出在ChatGPT訓(xùn)練數(shù)據(jù)中標(biāo)記為「完美無瑕」的數(shù)百個錯誤,并且很多都是分布外的「非代碼任務(wù)」。
論文鏈接:https://criticgpt.org/criticgpt-openai/
視覺模型
YOLO不算是基于大模型的工作,但仍然很重要,已經(jīng)更新到了v11,很多基于Transformer的模型如DETRs目前已經(jīng)超越了YOLO的性能。YOLO v1將目標(biāo)檢測視為一個回歸問題,即預(yù)測空間上分離的邊界框及其相關(guān)的類別概率,通過一個神經(jīng)網(wǎng)絡(luò)即可直接從整張圖像中預(yù)測邊界框和類別概率,訓(xùn)練過程可以進(jìn)行端到端優(yōu)化。
基礎(chǔ)的YOLO模型預(yù)測速度可以實現(xiàn)每秒45幀,小網(wǎng)絡(luò)Fast YOLO可以實現(xiàn)每秒155幀,平均精度比其他實時檢測器高出兩倍。
論文鏈接:https://arxiv.org/pdf/1506.02640
CLIP模型是第一個成功的ViT模型,目前已經(jīng)被BLIP/BLIP/SigLIP/PaliGemma取代。
CLIP直接從關(guān)于圖像的原始文本中學(xué)習(xí)表征,監(jiān)督信號的來源比「固定、預(yù)設(shè)的對象類別」更廣泛;訓(xùn)練任務(wù)也很簡單,預(yù)測圖像描述與哪個圖像匹配,在4億個(圖像,文本)數(shù)據(jù)對上對模型從頭開始訓(xùn)練,實現(xiàn)了與原始ResNet-50在ImageNet相當(dāng)?shù)牧銟颖緶?zhǔn)確率;在30多個計算機(jī)視覺基準(zhǔn)任務(wù)上,性能與完全監(jiān)督的基線模型相當(dāng),而不需要特定數(shù)據(jù)的訓(xùn)練。
論文鏈接:https://arxiv.org/pdf/2103.00020
MMVP(多模態(tài)視覺模式)基準(zhǔn)量化了CLIP的核心問題:視覺信息是否足以應(yīng)對語言描述?
論文鏈接:https://arxiv.org/pdf/2401.06209
論文探索了CLIP的視覺嵌入空間與僅視覺的自監(jiān)督學(xué)習(xí)之間的差距,揭示了多模態(tài)模型和CLIP的視覺模式存在高度關(guān)聯(lián),經(jīng)常會給出錯誤的答案和幻覺解釋。
Segment Anything Model (SAM)及SAM 2是非常成功的圖像和視頻分割基礎(chǔ)模型,通常與GroundingDINO搭配使用。
研究人員在SAM中構(gòu)建了迄今為止最大的分割數(shù)據(jù)集,包含超過10億個遮罩,1100萬張授權(quán)圖像;模型具備零樣本學(xué)習(xí)能力,可以直接遷移到新的圖像分布和任務(wù),并且性能與之前的完全監(jiān)督模型性能相當(dāng),甚至更優(yōu)。
論文鏈接:https://arxiv.org/pdf/2304.02643
聲音模型
OpenAI的Whisper一個相當(dāng)成功的ASR模型,后續(xù)發(fā)布的Whisper v2, v3, distil-whisper以及v3 Turbo都是開放權(quán)重但是沒有論文。
Whisper論文鏈接:https://arxiv.org/pdf/2212.04356
在PaLM變?yōu)镚emini之前,AudioPaLM算是谷歌在語音領(lǐng)域的絕唱。
AudioPaLM將基于文本(PaLM-2)和基于語音(AudioLM)的語言模型融合成一個統(tǒng)一的多模態(tài)架構(gòu),能夠處理和生成文本和語音,下游應(yīng)用包括「語音識別」和「語音到語音的翻譯」;繼承了AudioLM保持副語言信息(如說話者身份和語調(diào))的能力,以及像PaLM-2這樣的基于文本的大型語言模型中獨(dú)有的語言知識。
論文鏈接:https://arxiv.org/pdf/2306.12925
Meta發(fā)布的Llama 3語音模型也可以作為競品參考。
論文鏈接:https://arxiv.org/pdf/2407.21783
NaturalSpeech是領(lǐng)先的「語音合成」(TTS)方法之一,最新版本為v3
研究人員在論文中首先基于主觀測量的統(tǒng)計顯著性來定義「人類水平」的語音合成質(zhì)量,然后利用變分自編碼器(VAE)進(jìn)行端到端的文本到波形生成,并通過幾個模塊來增強(qiáng)先驗從文本中的能力,以及降低后驗從語音中的復(fù)雜性,包括音素預(yù)訓(xùn)練、可微分時長建模、雙向先驗/后驗建模,以及VAE中的記憶機(jī)制。
論文鏈接:https://arxiv.org/abs/2205.04421
圖像/視頻擴(kuò)散模型
Stable Diffusion絕對是最有名的開源文生圖模型,旗下還有SD2, SDXL, SD3模型及論文。Latent Diffusion模型首次將擴(kuò)散模型應(yīng)用于預(yù)訓(xùn)練自編碼器的潛空間中,極大降低了擴(kuò)散模型的訓(xùn)練、微調(diào)、推理的成本,可以在降低復(fù)雜度和保留細(xì)節(jié)之間達(dá)到最優(yōu)的平衡,并提升視覺保真度。
論文鏈接:https://arxiv.org/pdf/2112.10752
通過在模型架構(gòu)中引入交叉注意力層,擴(kuò)散模型就變成了通用條件輸入生成器,可以處理文本或邊界框,實現(xiàn)高分辨率合成。
OpenAI的DALL-E系列文生圖模型有三代,其論文也值得閱讀。
DALL-E 3論文鏈接:https://cdn.openai.com/papers/dall-e-3.pdf
谷歌的文生圖模型Imagen有三代,后續(xù)工作為Ideogram 2.0
Imagen 3論文:https://arxiv.org/abs/2408.07009
一致性模型論文是后續(xù)工作LCMs(潛一致性模型)的基礎(chǔ),解決了由于迭代采樣導(dǎo)致生成速度過慢的問題:直接將噪聲映射到數(shù)據(jù)來生成高質(zhì)量樣本,采用多步采樣來提升效率,但樣本質(zhì)量略有下降;同時支持零樣本數(shù)據(jù)編輯,如圖像修復(fù)、上色和超分辨率,而無需進(jìn)行顯式訓(xùn)練,最新版本為sCMs
論文鏈接:https://arxiv.org/pdf/2303.01469
文本到視頻模型Sora雖然沒有論文,但是其底層原理DiT和開源模仿者OpenSora可以作為參考。
DiT用一個潛在塊Transformer替換了常用的U-Net主干網(wǎng)絡(luò),具有更高的Gflops,通過增加Transformer的深度/寬度或增加輸入token的數(shù)量,可以進(jìn)一步降低FID距離分?jǐn)?shù),在類條件ImageNet 512x512和256x256基準(zhǔn)測試中超越所有先前的擴(kuò)散模型。
DiT論文鏈接:https://arxiv.org/abs/2212.09748
擴(kuò)散模型同樣可以應(yīng)用在其他模態(tài)上,如Text Diffusion, Music Diffusion
微調(diào)
使用LoRA/QLoRA在本地模型和4o模型上進(jìn)行微調(diào),都已被證明是一種低成本的微調(diào)方法。
QLoRA論文鏈接:https://arxiv.org/pdf/2305.14314
QLoRA通過凍結(jié)4位量化預(yù)訓(xùn)練語言模型和低秩適配器(LoRA)實現(xiàn)反向傳播,可以在單個48GB GPU上微調(diào)一個650億參數(shù)的模型,同時保持16位微調(diào)任務(wù)的性能;最佳模型Guanaco在僅24小時的微調(diào)后達(dá)到了ChatGPT性能的99.3%
文中還詳細(xì)分析了聊天機(jī)器人基準(zhǔn)測試的局限性,展示了GPT-4評估是一種廉價且合理的替代人類評估的方法。
DPO(直接偏好優(yōu)化)是PPO(近端策略優(yōu)化)的替代方案,開發(fā)者更喜歡用DPO,但其性能上略遜一籌,OpenAI也選擇DPO作為偏好微調(diào)方法。
DPO論文鏈接:https://arxiv.org/pdf/2305.18290
基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)是一個復(fù)雜且不穩(wěn)定的過程,需要先訓(xùn)練一個反映人類偏好的獎勵模型,再通過強(qiáng)化學(xué)習(xí)對大型無監(jiān)督語言模型進(jìn)行微調(diào)。
DPO是一種新的獎勵模型參數(shù)化方法,可以用簡單的分類損失來解決標(biāo)準(zhǔn)的RLHF問題,穩(wěn)定、高效且計算成本低,無需在微調(diào)過程中從語言模型中抽樣或進(jìn)行大量的超參數(shù)調(diào)整;在控制生成內(nèi)容符合人類偏好方面,DPO的表現(xiàn)超過了基于PPO的RLHF
ReFT(表示微調(diào))不關(guān)注某些層,而是關(guān)注特征:在凍結(jié)的基礎(chǔ)模型上操作,學(xué)習(xí)對隱藏表示進(jìn)行特定任務(wù)的干預(yù),可以替代現(xiàn)有的參數(shù)高效微調(diào)(PEFT)方法,學(xué)習(xí)到的干預(yù)措施比LoRA的效率提升15到65倍。
論文鏈接:https://arxiv.org/pdf/2404.03592
Orca和Orca2項目展現(xiàn)了使用「合成數(shù)據(jù)」對小型語言模型進(jìn)行訓(xùn)練后,可以極大提升模型性能;
Orca 3-AgentInstruct的研究成果再把這個結(jié)論向前推進(jìn)了一步:開發(fā)了一個框架,可以從原始數(shù)據(jù)源大規(guī)模生成多樣化和高質(zhì)量的定制數(shù)據(jù)集(包括用戶提示和模型回復(fù)),最終吸能在AGIEval上提高了40%,在MMLU上提高了19%,在GSM8K上提高了54%;論文公開了其中100萬個數(shù)據(jù)對。
報告鏈接:https://www.microsoft.com/en-us/research/blog/orca-agentinstruct-agentic-flows-can-be-effective-synthetic-data-generators/
雖然OpenAI的o1模型使用的強(qiáng)化學(xué)習(xí)微調(diào)仍然存在爭議,但Let's Verify Step by Step論文提供了部分底層原理解釋。
在復(fù)雜的多步推理時,研究人員發(fā)現(xiàn)「過程監(jiān)督」顯著優(yōu)于「結(jié)果監(jiān)督」,可以解決MATH測試集中78%的問題;主動學(xué)習(xí)(active learning)還能提高過程監(jiān)督的有效性;文中發(fā)布PRM800K數(shù)據(jù)集,包含80萬個「步驟級」人類反饋標(biāo)簽。
論文鏈接:https://arxiv.org/pdf/2305.20050
HuggingFace微調(diào)實踐:https://www.philschmid.de/fine-tune-llms-in-2025
參考資料:https://x.com/DrJimFan/status/1874490807652356377