展會信息港展會大全

【NeurIPS'24】阿里云 PAI 團(tuán)隊論文被收錄為 Spotlight,并完成主題演講分享
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-12-13 13:24:01   瀏覽:127次  

導(dǎo)讀:當(dāng)?shù)貢r間12月10日,人工智能領(lǐng)域全球頂級學(xué)術(shù)會議 NeurIPS (Annual Conference on Neural Information Processing Systems) 在加拿大溫哥華正式召開。官方數(shù)據(jù)顯示,NeurIPS 2024共收到超一萬五千篇有效論文投稿,投稿量創(chuàng)新高,參會人數(shù)超萬人規(guī)模。阿里云 PAI 團(tuán)隊的論文《PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invar...

當(dāng)?shù)貢r間12月10日,人工智能領(lǐng)域全球頂級學(xué)術(shù)會議 NeurIPS (Annual Conference on Neural Information Processing Systems) 在加拿大溫哥華正式召開。官方數(shù)據(jù)顯示,NeurIPS 2024共收到超一萬五千篇有效論文投稿,投稿量創(chuàng)新高,參會人數(shù)超萬人規(guī)模。

阿里云 PAI 團(tuán)隊的論文《PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations》被 NeurIPS D&B Track 2024 收錄,并被列為 Spotlight,本年度 NeurIPS 的 Spotlight 論文錄取率僅為3%。論文通過對大語言模型真實知識能力的評估,揭示現(xiàn)有靜態(tài)評測集指標(biāo)的可信性問題以及大語言模型知識掌握中的各種弱點,并指導(dǎo)改進(jìn)的發(fā)展。

同時,在本次會議中,PAI 團(tuán)隊為參會者帶來主題演講分享、AI 工程化平臺產(chǎn)品能力 Demo。演講分享的議題為“可信 AI 的技術(shù)解讀與最佳實踐”,深入研討在大語言模型廣泛應(yīng)用的當(dāng)下,如何保障使用 AI 全流程的安全、可靠和可信。

中選論文

論文《PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations》被 NeurIPS 2024 收錄,并入選 Spotlight。PertEval 是一款大型語言模型評估工具包,通過引入“知識不變擾動”的創(chuàng)新概念,對靜態(tài)基準(zhǔn)(static benchmarks)進(jìn)行改寫,從而更準(zhǔn)確地揭示大型語言模型(LLMs)的真實知識能力。


【NeurIPS\'24】阿里云 PAI 團(tuán)隊論文被收錄為 Spotlight,并完成主題演講分享


【NeurIPS\'24】阿里云 PAI 團(tuán)隊論文被收錄為 Spotlight,并完成主題演講分享


革新評估方式,提升可信度

傳統(tǒng)上,評估 LLM 性能的方法依賴于靜態(tài)基準(zhǔn)測試,例如 MMLU 和 C-Eval 等,這些方法雖然廣泛使用,但存在明顯的局限性和數(shù)據(jù)污染風(fēng)險,導(dǎo)致對模型真實能力的認(rèn)知失真。PertEval 通過應(yīng)用知識不變擾動,確保了在不改變模型所識別和應(yīng)用的知識前提下,對原始評估問題進(jìn)行修改。這種方法緩解了由于記憶效應(yīng)和數(shù)據(jù)污染造成的評估失真問題,顯著提高評估結(jié)果可靠性。

揭示現(xiàn)有評估方法的不足

研究團(tuán)隊利用 PertEval 重新評估了六個代表性的 LLM,包括 GPT-4,并發(fā)現(xiàn)這些模型在MMLU 等靜態(tài)基準(zhǔn)上的表現(xiàn)被顯著高估,其中 GPT-4 的表現(xiàn)被絕對高估了26%。進(jìn)一步分析顯示,這種虛高的性能主要源自 LLM 面對不確定知識時表現(xiàn)出的猶豫不決,以及對正確答案的死記硬背現(xiàn)象。這表明當(dāng)前的評估方法可能無法充分反映 LLM 在實際應(yīng)用中的表現(xiàn)。

推動行業(yè)進(jìn)步,指導(dǎo)未來研究

這項研究表明,為了更好地理解和改進(jìn) LLM 的能力,需要一種能夠體現(xiàn)其真實性能的評估方法。PertEval 提供了一種新的視角和工具,以幫助研究人員和開發(fā)者更準(zhǔn)確地評估和優(yōu)化 LLM。后續(xù),計劃將 PertEval 整合到 PAI 平臺中,支持一鍵式開啟任意模型(無論是 API、開源還是微調(diào)后的模型)的真實能力評估。此外,還將通過 leadboard 的方式向開發(fā)者社區(qū)反饋主流 LLM 的“知識能力”度量,促進(jìn)整個行業(yè)的健康發(fā)展。

PertEval 的推出標(biāo)志著在提升 LLM 評估準(zhǔn)確性方面邁出的重要一步,為推動 AI 技術(shù)的進(jìn)步提供了有力的支持。隨著這一工具的廣泛應(yīng)用,我們期待看到更加可靠和公平的模型評估標(biāo)準(zhǔn),以及由此帶來的技術(shù)創(chuàng)新。

論文標(biāo)題:PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations

論文作者:Jiatong Li, Renjun Hu, Kunzhe Huang, Yan Zhuang, Qi Liu, Mengxiao Zhu, Xing Shi, Wei Lin

論文地址:https://arxiv.org/abs/2405.19740

演講分享

演講標(biāo)題:可信 AI 的技術(shù)解讀與最佳實踐

Core Technical Interpretation and Best Practices of Responsible AI

演講人:林偉 | 阿里云智能集團(tuán)研究員、人工智能平臺 PAI 負(fù)責(zé)人


【NeurIPS\'24】阿里云 PAI 團(tuán)隊論文被收錄為 Spotlight,并完成主題演講分享


演講為 NeurIPS 參會者帶來阿里云人工智能平臺 PAI 的企業(yè)級可信 AI 解決方案以及技術(shù)解析。PAI 平臺提供的安全、可靠和可信的 AI 解決方案,通過確保數(shù)據(jù)合規(guī)與安全、算法穩(wěn)健性與可靠性、模型可信度和基礎(chǔ)設(shè)施安全與穩(wěn)定性這四大關(guān)鍵要素得以實現(xiàn)。為實現(xiàn)可信 AI,PAI 團(tuán)隊創(chuàng)新性地提出了 T 型安全架構(gòu)。從垂直的角度考慮,從下至上保障云計算基礎(chǔ)設(shè)施、數(shù)據(jù)和模型、AI 應(yīng)用的安全;從水平的角度考慮,覆蓋數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練和模型部署的 AI 開發(fā)全鏈路。目前,可信 AI-公平性分析、可信 AI-錯誤分析功能均已上線,歡迎您前往阿里云人工智能平臺 PAI 體驗。

更多原理介紹和操作步驟,請參考產(chǎn)品文檔 「人工智能平臺 PAI-Responsible AI」:https://help.aliyun.com/zh/pai/use-cases/responsible-ai。

產(chǎn)品能力展示

主題:AI Native 的大模型與 AIGC 工程平臺

阿里云人工智能平臺 PAI 提供包含數(shù)據(jù)集管理、算力管理、模型工具鏈、模型開發(fā)、模型訓(xùn)練、模型部署、AI 資產(chǎn)管理在內(nèi)的功能模塊,內(nèi)置100+種大模型最佳實踐,為用戶提供高性能、高穩(wěn)定、企業(yè)級的大模型工程化能力。在本次平臺產(chǎn)品能力 Demo 環(huán)節(jié),人工智能平臺 PAI 為大家?guī)戆韵露鄠實操展示:

1、以 Qwen2.5-Coder 為例,完成大語言模型微調(diào)訓(xùn)練、部署和評測

2、通過 PAI-EAS,搭建企業(yè)級大模型 RAG 對話系統(tǒng)

3、通過 PAI-裁判員模型,實現(xiàn)高效易用的智能模型評測

4、通過 PAI-Artlab,體驗自動化的一站式 AIGC 設(shè)計平臺

現(xiàn)場數(shù)百位參會者體驗 PAI 平臺的能力。目前,所有 Demo 均已在線上開放,歡迎您前往阿里云人工智能平臺 PAI 體驗。


【NeurIPS\'24】阿里云 PAI 團(tuán)隊論文被收錄為 Spotlight,并完成主題演講分享


如您對我們的論文或產(chǎn)品感興趣,或希望加入我們,歡迎您前往 NeurIPS2024 - Alibaba Cloud 展臺深入交流(West Hall A-Sponsor Exhibit Hall booth 143),期待您的到來!


贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港