东京干男人都知道,青青草原综合久久大伊人,国语对白男女一级毛片免费

【NeurIPS'24】阿里云 PAI 團(tuán)隊論文被收錄為 Spotlight，并完成主題演講分享

來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-13 13:24:01 瀏覽：127次

導(dǎo)讀：當(dāng)?shù)貢r間12月10日，人工智能領(lǐng)域全球頂級學(xué)術(shù)會議 NeurIPS (Annual Conference on Neural Information Processing Systems) 在加拿大溫哥華正式召開。官方數(shù)據(jù)顯示，NeurIPS 2024共收到超一萬五千篇有效論文投稿，投稿量創(chuàng)新高，參會人數(shù)超萬人規(guī)模。阿里云 PAI 團(tuán)隊的論文《PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invar...

當(dāng)?shù)貢r間12月10日，人工智能領(lǐng)域全球頂級學(xué)術(shù)會議 NeurIPS (Annual Conference on Neural Information Processing Systems) 在加拿大溫哥華正式召開。官方數(shù)據(jù)顯示，NeurIPS 2024共收到超一萬五千篇有效論文投稿，投稿量創(chuàng)新高，參會人數(shù)超萬人規(guī)模。

阿里云 PAI 團(tuán)隊的論文《PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations》被 NeurIPS D&B Track 2024 收錄，并被列為 Spotlight，本年度 NeurIPS 的 Spotlight 論文錄取率僅為3%。論文通過對大語言模型真實知識能力的評估，揭示現(xiàn)有靜態(tài)評測集指標(biāo)的可信性問題以及大語言模型知識掌握中的各種弱點，并指導(dǎo)改進(jìn)的發(fā)展。

同時，在本次會議中，PAI 團(tuán)隊為參會者帶來主題演講分享、AI 工程化平臺產(chǎn)品能力 Demo。演講分享的議題為“可信 AI 的技術(shù)解讀與最佳實踐”，深入研討在大語言模型廣泛應(yīng)用的當(dāng)下，如何保障使用 AI 全流程的安全、可靠和可信。

中選論文

論文《PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations》被 NeurIPS 2024 收錄，并入選 Spotlight。PertEval 是一款大型語言模型評估工具包，通過引入“知識不變擾動”的創(chuàng)新概念，對靜態(tài)基準(zhǔn)（static benchmarks）進(jìn)行改寫，從而更準(zhǔn)確地揭示大型語言模型（LLMs）的真實知識能力。

$【NeurIPS\'24】阿里云 PAI 團(tuán)隊論文被收錄為 Spotlight，并完成主題演講分享$

革新評估方式，提升可信度

傳統(tǒng)上，評估 LLM 性能的方法依賴于靜態(tài)基準(zhǔn)測試，例如 MMLU 和 C-Eval 等，這些方法雖然廣泛使用，但存在明顯的局限性和數(shù)據(jù)污染風(fēng)險，導(dǎo)致對模型真實能力的認(rèn)知失真。PertEval 通過應(yīng)用知識不變擾動，確保了在不改變模型所識別和應(yīng)用的知識前提下，對原始評估問題進(jìn)行修改。這種方法緩解了由于記憶效應(yīng)和數(shù)據(jù)污染造成的評估失真問題，顯著提高評估結(jié)果可靠性。

揭示現(xiàn)有評估方法的不足

研究團(tuán)隊利用 PertEval 重新評估了六個代表性的 LLM，包括 GPT-4，并發(fā)現(xiàn)這些模型在MMLU 等靜態(tài)基準(zhǔn)上的表現(xiàn)被顯著高估，其中 GPT-4 的表現(xiàn)被絕對高估了26%。進(jìn)一步分析顯示，這種虛高的性能主要源自 LLM 面對不確定知識時表現(xiàn)出的猶豫不決，以及對正確答案的死記硬背現(xiàn)象。這表明當(dāng)前的評估方法可能無法充分反映 LLM 在實際應(yīng)用中的表現(xiàn)。

推動行業(yè)進(jìn)步，指導(dǎo)未來研究

這項研究表明，為了更好地理解和改進(jìn) LLM 的能力，需要一種能夠體現(xiàn)其真實性能的評估方法。PertEval 提供了一種新的視角和工具，以幫助研究人員和開發(fā)者更準(zhǔn)確地評估和優(yōu)化 LLM。后續(xù)，計劃將 PertEval 整合到 PAI 平臺中，支持一鍵式開啟任意模型（無論是 API、開源還是微調(diào)后的模型）的真實能力評估。此外，還將通過 leadboard 的方式向開發(fā)者社區(qū)反饋主流 LLM 的“知識能力”度量，促進(jìn)整個行業(yè)的健康發(fā)展。

PertEval 的推出標(biāo)志著在提升 LLM 評估準(zhǔn)確性方面邁出的重要一步，為推動 AI 技術(shù)的進(jìn)步提供了有力的支持。隨著這一工具的廣泛應(yīng)用，我們期待看到更加可靠和公平的模型評估標(biāo)準(zhǔn)，以及由此帶來的技術(shù)創(chuàng)新。

論文標(biāo)題：PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations

論文作者：Jiatong Li, Renjun Hu, Kunzhe Huang, Yan Zhuang, Qi Liu, Mengxiao Zhu, Xing Shi, Wei Lin

論文地址：https://arxiv.org/abs/2405.19740

演講分享

演講標(biāo)題：可信 AI 的技術(shù)解讀與最佳實踐

Core Technical Interpretation and Best Practices of Responsible AI

演講人：林偉 | 阿里云智能集團(tuán)研究員、人工智能平臺 PAI 負(fù)責(zé)人

$【NeurIPS\'24】阿里云 PAI 團(tuán)隊論文被收錄為 Spotlight，并完成主題演講分享$

演講為 NeurIPS 參會者帶來阿里云人工智能平臺 PAI 的企業(yè)級可信 AI 解決方案以及技術(shù)解析。PAI 平臺提供的安全、可靠和可信的 AI 解決方案，通過確保數(shù)據(jù)合規(guī)與安全、算法穩(wěn)健性與可靠性、模型可信度和基礎(chǔ)設(shè)施安全與穩(wěn)定性這四大關(guān)鍵要素得以實現(xiàn)。為實現(xiàn)可信 AI，PAI 團(tuán)隊創(chuàng)新性地提出了 T 型安全架構(gòu)。從垂直的角度考慮，從下至上保障云計算基礎(chǔ)設(shè)施、數(shù)據(jù)和模型、AI 應(yīng)用的安全；從水平的角度考慮，覆蓋數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練和模型部署的 AI 開發(fā)全鏈路。目前，可信 AI-公平性分析、可信 AI-錯誤分析功能均已上線，歡迎您前往阿里云人工智能平臺 PAI 體驗。

更多原理介紹和操作步驟，請參考產(chǎn)品文檔「人工智能平臺 PAI-Responsible AI」：https://help.aliyun.com/zh/pai/use-cases/responsible-ai。

產(chǎn)品能力展示

主題：AI Native 的大模型與 AIGC 工程平臺

阿里云人工智能平臺 PAI 提供包含數(shù)據(jù)集管理、算力管理、模型工具鏈、模型開發(fā)、模型訓(xùn)練、模型部署、AI 資產(chǎn)管理在內(nèi)的功能模塊，內(nèi)置100+種大模型最佳實踐，為用戶提供高性能、高穩(wěn)定、企業(yè)級的大模型工程化能力。在本次平臺產(chǎn)品能力 Demo 環(huán)節(jié)，人工智能平臺 PAI 為大家?guī)戆韵露鄠€實操展示：

1、以 Qwen2.5-Coder 為例，完成大語言模型微調(diào)訓(xùn)練、部署和評測

2、通過 PAI-EAS，搭建企業(yè)級大模型 RAG 對話系統(tǒng)

3、通過 PAI-裁判員模型，實現(xiàn)高效易用的智能模型評測

4、通過 PAI-Artlab，體驗自動化的一站式 AIGC 設(shè)計平臺

現(xiàn)場數(shù)百位參會者體驗 PAI 平臺的能力。目前，所有 Demo 均已在線上開放，歡迎您前往阿里云人工智能平臺 PAI 體驗。

$【NeurIPS\'24】阿里云 PAI 團(tuán)隊論文被收錄為 Spotlight，并完成主題演講分享$

如您對我們的論文或產(chǎn)品感興趣，或希望加入我們，歡迎您前往 NeurIPS2024 - Alibaba Cloud 展臺深入交流（West Hall A-Sponsor Exhibit Hall booth 143），期待您的到來！

【NeurIPS'24】阿里云 PAI 團(tuán)隊論文被收錄為 Spotlight，并完成主題演講分享
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-13 13:24:01 瀏覽：127次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

【NeurIPS'24】阿里云 PAI 團(tuán)隊論文被收錄為 Spotlight，并完成主題演講分享 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-13 13:24:01 瀏覽：127次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

【NeurIPS'24】阿里云 PAI 團(tuán)隊論文被收錄為 Spotlight，并完成主題演講分享
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-13 13:24:01 瀏覽：127次