當(dāng)前位置：人工智能實(shí)驗(yàn)室> 企業(yè)新聞 > 阿里云PAI大模型評測最佳實(shí)踐

阿里云PAI大模型評測最佳實(shí)踐
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-06-20 09:05:58 瀏覽：11134次

導(dǎo)讀：作者：施晨、之用、南茵、求伯、一耘、臨在背景信息內(nèi)容簡介在大模型時(shí)代，隨著模型效果的顯著提升，模型評測的重要性日益凸顯�？茖W(xué)、高效的模型評測，不僅能幫助開發(fā)者有效地衡量和對比不同模型的性能，更能指導(dǎo)他們進(jìn)行精準(zhǔn)地模型選擇和優(yōu)化，加速AI創(chuàng)...

作者：施晨、之用、南茵、求伯、一耘、臨在

背景信息

內(nèi)容簡介

在大模型時(shí)代，隨著模型效果的顯著提升，模型評測的重要性日益凸顯�？茖W(xué)、高效的模型評測，不僅能幫助開發(fā)者有效地衡量和對比不同模型的性能，更能指導(dǎo)他們進(jìn)行精準(zhǔn)地模型選擇和優(yōu)化，加速AI創(chuàng)新和應(yīng)用落地。因此，建立一套平臺化的大模型評測最佳實(shí)踐愈發(fā)重要。

本文為PAI大模型評測最佳實(shí)踐，旨在指引AI開發(fā)人員使用PAI平臺進(jìn)行大模型評測。借助本最佳實(shí)踐，您可以輕松構(gòu)建出既能反映模型真實(shí)性能，又能滿足行業(yè)特定需求的評測過程，助力您在人工智能賽道上取得更好的成績。最佳實(shí)踐包括如下內(nèi)容：

如何準(zhǔn)備和選擇評測數(shù)據(jù)集

如何選擇適合業(yè)務(wù)的開源或微調(diào)后模型

如何創(chuàng)建評測任務(wù)并選擇合適的評價(jià)指標(biāo)

如何在單任務(wù)或多任務(wù)場景下解讀評測結(jié)果

平臺亮點(diǎn)

PAI大模型評測平臺，適合您針對不同的大模型評測場景，進(jìn)行模型效果對比。例如：

不同基礎(chǔ)模型對比：Qwen2-7B-Instructvs.Baichuan2-7B-Chat

同一模型不同微調(diào)版本對比：Qwen2-7B-Instruct 在私有領(lǐng)域數(shù)據(jù)下訓(xùn)練不同 epoch 版本效果對比

同一模型不同量化版本對比：Qwen2-7B-Instruct-GPTQ-Int4vs.Qwen2-7B-Instruct-GPTQ-Int8

考慮到不同開發(fā)群體的特定需求，我們將以企業(yè)開發(fā)者與算法研究人員兩個(gè)典型群體為例，探討如何結(jié)合常用的公開數(shù)據(jù)集（如MMLU、C-Eval等）與企業(yè)的自定義數(shù)據(jù)集，實(shí)現(xiàn)更全面準(zhǔn)確并具有針對性的模型評測，查找適合您業(yè)務(wù)需求的大模型。最佳實(shí)踐的亮點(diǎn)如下：

端到端完整評測鏈路，無需代碼開發(fā)，支持主流開源大模型，與大模型微調(diào)后的一鍵評測；

支持用戶自定義數(shù)據(jù)集上傳，內(nèi)置10+通用NLP評測指標(biāo)，一覽式結(jié)果展示，無需再開發(fā)評測腳本；

支持多個(gè)領(lǐng)域的常用公開數(shù)據(jù)集評測，完整還原官方評測方法，雷達(dá)圖全景展示，省去逐個(gè)下載評測集和熟悉評測流程的繁雜；

支持多模型多任務(wù)同時(shí)評測，評測結(jié)果圖表式對比展示，輔以單條評測結(jié)果詳情，方便全方位比較分析；

評測過程公開透明，結(jié)果可復(fù)現(xiàn)。評測代碼開源在與ModelScope共建的開源代碼庫eval-scope中，方便細(xì)節(jié)查看與復(fù)現(xiàn)：

https://github.com/modelscope/eval-scope

前提條件

已開通PAI并創(chuàng)建了默認(rèn)工作空間。具體操作，請參見開通PAI并創(chuàng)建默認(rèn)工作空間。

如果選擇自定義數(shù)據(jù)集評測，需要創(chuàng)建OSS Bucket存儲空間，用來存放數(shù)據(jù)集文件。具體操作，請參見控制臺創(chuàng)建存儲空間。

使用費(fèi)用

PAI大模型評測依托于PAI-快速開始產(chǎn)品�？焖匍_始是PAI產(chǎn)品組件，集成了眾多AI開源社區(qū)中優(yōu)質(zhì)的預(yù)訓(xùn)練模型，并且基于開源模型支持零代碼實(shí)現(xiàn)從訓(xùn)練到部署再到推理的全部過程，給您帶來更快、更高效、更便捷的AI應(yīng)用體驗(yàn)。

快速開始本身不收費(fèi)，但使用快速開始進(jìn)行模型評測時(shí)，可能產(chǎn)生DLC評測任務(wù)費(fèi)用，計(jì)費(fèi)詳情請參見DLC計(jì)費(fèi)說明。

如果選擇自定義數(shù)據(jù)集評測，使用OSS存儲，會產(chǎn)生相關(guān)費(fèi)用，計(jì)費(fèi)詳情請參見OSS計(jì)費(fèi)概述。

場景一：面向企業(yè)開發(fā)者的自定義數(shù)據(jù)集評測

企業(yè)通常會積累豐富的私有領(lǐng)域數(shù)據(jù)。如何充分利用好這部分?jǐn)?shù)據(jù)，是企業(yè)使用大模型進(jìn)行算法優(yōu)化的關(guān)鍵。因此，企業(yè)開發(fā)者在評測開源或微調(diào)后的大模型時(shí)，往往會基于私有領(lǐng)域下積累的自定義數(shù)據(jù)集，以便于更好地了解大模型在私有領(lǐng)域的效果。

對于自定義數(shù)據(jù)集評測，我們使用NLP領(lǐng)域標(biāo)準(zhǔn)的文本匹配方式，計(jì)算模型輸出結(jié)果和真實(shí)結(jié)果的匹配度，值越大，模型越好。使用該評測方式，基于自己場景的獨(dú)特?cái)?shù)據(jù)，可以評測所選模型是否適合自己的場景。

以下將重點(diǎn)展示使用過程中的一些關(guān)鍵點(diǎn)，更詳細(xì)的操作細(xì)節(jié)，請參見模型評測產(chǎn)品文檔。

1. 準(zhǔn)備自定義評測集

1.1. 自定義評測集格式

1.基于自定義數(shù)據(jù)集進(jìn)行評測，需要提供JSONL格式的評測集文件

o文件格式：使用question標(biāo)識問題列，answer標(biāo)識答案列。

o文件示例：llmuses_general_qa_test.jsonl

阿里云PAI大模型評測最佳實(shí)踐

2.符合格式要求的評測集，可自行上傳至OSS，并創(chuàng)建自定義數(shù)據(jù)集，詳情參見上傳OSS文件和創(chuàng)建及管理數(shù)據(jù)集。

1.2. 創(chuàng)建自定義評測集

1.登錄PAI控制臺。

2.在左側(cè)導(dǎo)航欄選擇AI資產(chǎn)管理>數(shù)據(jù)集，進(jìn)入數(shù)據(jù)集頁面

3.單擊創(chuàng)建數(shù)據(jù)集

4.填寫創(chuàng)建數(shù)據(jù)集相關(guān)表單，從OSS中選擇您的自定義評測集文件

2. 選擇適合業(yè)務(wù)的模型2.1. 查找開源模型

1.在PAI控制臺左側(cè)導(dǎo)航欄選擇快速開始，進(jìn)入快速開始頁面

2.單擊快速開始提供的模型分類信息，直接進(jìn)入到模型列表中，根據(jù)模型描述信息進(jìn)行查看。

阿里云PAI大模型評測最佳實(shí)踐

3.單擊進(jìn)入模型詳情頁后，對于可評測的模型，會展示評測按鈕。

a.支持模型類型：當(dāng)前模型評測支持HuggingFace所有AutoModelForCausalLM類型的模型

2.2. 使用微調(diào)后的模型

1.使用快速開始進(jìn)行模型微調(diào)，詳細(xì)步驟請參見模型部署及訓(xùn)練

2.微調(diào)完成后，在快速開始>任務(wù)管理>訓(xùn)練任務(wù)中，單擊訓(xùn)練好的任務(wù)名稱，進(jìn)入任務(wù)詳情頁后，對于可評測的模型，右上角會展示評測按鈕。

阿里云PAI大模型評測最佳實(shí)踐

3. 創(chuàng)建評測任務(wù)

1.在模型詳情頁右上角單擊評測，創(chuàng)建評測任務(wù)

2.在新建評測任務(wù)頁面，配置以下關(guān)鍵參數(shù)。

阿里云PAI大模型評測最佳實(shí)踐

3.任務(wù)創(chuàng)建成功后，將自動分配資源，并開始運(yùn)行。

4.運(yùn)行完成后，任務(wù)狀態(tài)顯示為已成功。

4. 查看評測結(jié)果4.1. 評測任務(wù)列表

1.在快速開始頁面，單擊搜索框左側(cè)的任務(wù)管理。

2.在任務(wù)管理頁面，選擇模型評測標(biāo)簽頁。

4.2. 單任務(wù)結(jié)果

1.在模型評測列表頁，單擊評測任務(wù)的查看報(bào)告選項(xiàng)，即可進(jìn)入評測任務(wù)詳情頁

2.評測報(bào)告如下圖所示，選擇自定義數(shù)據(jù)集評測結(jié)果，將在雷達(dá)圖展示該模型在ROUGE和BLEU系列指標(biāo)上的得分。此外還會展示評測文件每條數(shù)據(jù)的評測詳情。

阿里云PAI大模型評測最佳實(shí)踐

rouge-n類指標(biāo)計(jì)算N-gram（連續(xù)的N個(gè)詞）的重疊度，其中rouge-1和rouge-2是最常用的，分別對應(yīng)unigram和bigram，rouge-l 指標(biāo)基于最長公共子序列（LCS）。

bleu (Bilingual Evaluation Understudy) 是另一種流行的評估機(jī)器翻譯質(zhì)量的指標(biāo)，它通過測量機(jī)器翻譯輸出與一組參考翻譯之間的N-gram重疊度來評分。其中bleu-n指標(biāo)計(jì)算n-gram的匹配度。

阿里云PAI大模型評測最佳實(shí)踐

3.最終評測結(jié)果會保存到您指定的OSS路徑中

4.3. 多任務(wù)對比

1.當(dāng)需要對比多個(gè)模型的評測結(jié)果時(shí)，可以將它們聚合在一個(gè)頁面上展示，以便于比較效果。

2.具體操作為在模型評測任務(wù)列表頁，左側(cè)選擇想要對比的模型評測任務(wù)，右上角單擊對比，進(jìn)入對比頁面。

3.自定義數(shù)據(jù)集評測對比結(jié)果

阿里云PAI大模型評測最佳實(shí)踐

場景二：面向算法研究人員的公開數(shù)據(jù)集評測

算法研究通常建立在公開數(shù)據(jù)集上。研究人員在選擇開源模型，或?qū)δＰ瓦M(jìn)行微調(diào)后，都會參考其在權(quán)威公開數(shù)據(jù)集上的評測效果。然而，大模型時(shí)代的公開數(shù)據(jù)集種類繁多，研究人員需要花費(fèi)大量時(shí)間調(diào)研選擇適合自己領(lǐng)域的公開數(shù)據(jù)集，并熟悉每個(gè)數(shù)據(jù)集的評測流程。為方便算法研究人員，PAI接入了多個(gè)領(lǐng)域的公開數(shù)據(jù)集，并完整還原了各個(gè)數(shù)據(jù)集官方指定的評測metrics，以便獲取最準(zhǔn)確的評測效果反饋，助力更高效的大模型研究。

在公開數(shù)據(jù)集評測中，我們通過對開源的評測數(shù)據(jù)集按領(lǐng)域分類，對大模型進(jìn)行綜合能力評估，例如數(shù)學(xué)能力、知識能力、推理能力等，值越大，模型越好，這種評測方式也是大模型領(lǐng)域最常見的評測方式。

以下將重點(diǎn)展示使用過程中的一些關(guān)鍵點(diǎn)，更詳細(xì)的操作細(xì)節(jié)，請參見模型評測產(chǎn)品文檔。

1. 支持的公開數(shù)據(jù)集

目前PAI維護(hù)的公開數(shù)據(jù)集包括MMLU、TriviaQA、HellaSwag、GSM8K、C-Eval、CMMLU、TruthfulQA，其他公開數(shù)據(jù)集陸續(xù)接中。

阿里云PAI大模型評測最佳實(shí)踐

2. 選擇適合的模型2.1. 查找開源模型

1.在PAI控制臺左側(cè)導(dǎo)航欄選擇快速開始，進(jìn)入快速開始頁面

單擊快速開始提供的模型分類信息，直接進(jìn)入到模型列表中，根據(jù)模型描述信息進(jìn)行查看。

阿里云PAI大模型評測最佳實(shí)踐

3.單擊進(jìn)入模型詳情頁后，對于可評測的模型，會展示評測按鈕。

a.支持模型類型：當(dāng)前模型評測支持HuggingFace所有AutoModelForCausalLM類型的模型

2.2. 使用微調(diào)后的模型

1.使用快速開始進(jìn)行模型微調(diào)，詳細(xì)步驟請參見模型部署及訓(xùn)練

阿里云PAI大模型評測最佳實(shí)踐

3. 創(chuàng)建評測任務(wù)

1.在模型詳情頁右上角單擊評測，創(chuàng)建評測任務(wù)

2.在新建評測任務(wù)頁面，配置以下關(guān)鍵參數(shù)。本文以MMLU數(shù)據(jù)集為例。

阿里云PAI大模型評測最佳實(shí)踐

3.任務(wù)創(chuàng)建成功后，將自動分配資源，并開始運(yùn)行。

4.運(yùn)行完成后，任務(wù)狀態(tài)顯示為已成功。

4. 查看評測結(jié)果

4.1. 評測任務(wù)列表

1.在快速開始頁面，單擊搜索框左側(cè)的任務(wù)管理。

2.在任務(wù)管理頁面，選擇模型評測標(biāo)簽頁。

4.2. 單任務(wù)結(jié)果

1.在模型評測列表頁，單擊評測任務(wù)的查看報(bào)告選項(xiàng)，即可進(jìn)入評測任務(wù)詳情頁

2.評測報(bào)告如下圖所示，選擇公開數(shù)據(jù)集評測結(jié)果，將在雷達(dá)圖展示該模型在公開數(shù)據(jù)集上的得分。

o左側(cè)圖片展示了模型在不同領(lǐng)域的得分情況。每個(gè)領(lǐng)域可能會有多個(gè)與之相關(guān)的數(shù)據(jù)集，對屬于同一領(lǐng)域的數(shù)據(jù)集，我們會把模型在這些數(shù)據(jù)集上的評測得分取均值，作為領(lǐng)域得分。

o右側(cè)圖片展示模型在各個(gè)公開數(shù)據(jù)集的得分情況。每個(gè)公開數(shù)據(jù)集的評測范圍詳見該數(shù)據(jù)集官方介紹。

阿里云PAI大模型評測最佳實(shí)踐