劃重點
01OpenAI舉行年度開發(fā)者大會DevDay,推出四大創(chuàng)新工具:提示詞緩存、視覺微調(diào)、實時API和模型蒸餾。
02提示詞緩存可減少輸入token成本多達50%,降低開發(fā)者成本并提高模型視覺理解水平。
03視覺微調(diào)功能讓開發(fā)者能用圖像和文本自定義模型的視覺理解功能,對自動駕駛汽車等領(lǐng)域產(chǎn)生深遠影響。
04實時API簡化了構(gòu)建語音助手和其他對話式AI工具的過程,為各行業(yè)語音App開辟了廣泛的可能性。
05模型蒸餾讓小模型也可擁有尖端模型功能,有助于化解AI行業(yè)尖端系統(tǒng)與易于訪問系統(tǒng)之間的鴻溝。
以上內(nèi)容由騰訊混元大模型生成,僅供參考
本文作者:李丹
來源:硬AI
美東時間10月1日周二,OpenAI舉行了年度開發(fā)者大會DevDay,今年的大會并沒有任何重大的產(chǎn)品發(fā)布,相比去年大會顯得更低調(diào),但OpenAI也為開發(fā)者派發(fā)了幾個大“禮包”,對現(xiàn)有的人工智能(AI)工具和API套件做了改進。
本次OpenAI DevDay推出一系列新工具,主要包括四大創(chuàng)新:提示詞緩存(Prompt Caching)、視覺微調(diào)(Vision Fine-Tuning)、實時API(Realtime API)、模型蒸餾(Model Distillation),在降低模型成本、提高模型視覺理解水平、提升語音AI功能和小模型性能方面,給開發(fā)者帶來福音。
有評論稱,今年DevDay的重點是提高開發(fā)者的能力和展示開發(fā)者圈子的故事,這表明隨著AI領(lǐng)域的競爭日益激烈,OpenAI的戰(zhàn)略發(fā)生了轉(zhuǎn)變。上述新工具突出表明,OpenAI的戰(zhàn)略重點是:增強其開發(fā)者的生態(tài)系統(tǒng),而不是直接在終端用戶應(yīng)用領(lǐng)域競爭。
有媒體提到,在DevDay活動前的記者會上,OpenAI的首席產(chǎn)品官Kevin Weil談及最近OpenAI首席技術(shù)官Mira Murati和首席研究官Bob McGrew離職,稱他們離開不會影響公司發(fā)展,“我們不會放慢腳步”。
提示詞緩存(Prompt Caching)可減少輸入token成本多達50%
提示詞緩存被視為本次DevDay發(fā)布的最重要更新。該功能旨在降低開發(fā)者的成本、減少延遲。
OpenAI引入的提示詞緩存系統(tǒng)自動對模型最近處理的輸入token提供50%的折扣,這可能會讓經(jīng)常重復(fù)使用上下文的應(yīng)用程序App得到大量節(jié)剩如此大幅降低成本給企業(yè)和初創(chuàng)公司提供了探索新應(yīng)用的重大機遇,因為這些應(yīng)用以前由于費用高昂無法實現(xiàn)。
OpenAI 平臺產(chǎn)品負責(zé)人 Olivier Godement稱,兩年前GPT-3大獲成功,現(xiàn)在OpenAI已經(jīng)將相關(guān)成本降低了將近1000倍。他舉不出來其他任何一個兩年內(nèi)能將成本降低同樣幅度的例子。
以下OpenAI的圖表展示了,提示詞緩存可以大幅降低應(yīng)用AI模型的成本,相比各種GDP模型的非緩存token,緩存輸入token的成本可以減少多達50%。
視覺微調(diào)(Vision Fine-Tuning):視覺AI新前沿
OpenAI DevDay公布,OpenAI最新的大語言模型(LLM) GPT-4o 引入了視覺微調(diào)。此功能讓開發(fā)者能用圖像和文本自定義模型的視覺理解功能。
這是被稱為視覺AI新前沿的重大更新。它可能會對自動駕駛汽車、醫(yī)學(xué)成像和視覺搜索功能等領(lǐng)域產(chǎn)生深遠影響。
OpenAI 稱,東南亞版“美團+滴滴” Grab 已經(jīng)利用這項技術(shù)改進其地圖服務(wù)。僅使用 100 個示例,Grab 就讓車道計數(shù)的準(zhǔn)確率提高了20%,限速標(biāo)志定位率提高13%。
這種現(xiàn)實世界的App展示了視覺微調(diào)的可能性,即使用小批量的視覺訓(xùn)練數(shù)據(jù),顯著增強各行各業(yè)的AI服務(wù)。
實時 API(Realtime API)彌補對話式 AI 的差距
OpenAI DevDay發(fā)布了實時 API,目前處于公開測試beta階段。實時API 本質(zhì)上簡化了構(gòu)建語音助手和其他對話式 AI 工具的過程,無需將多個模型拼接在一起進行轉(zhuǎn)錄、推理和文本到語音的轉(zhuǎn)換。
這項新產(chǎn)品讓開發(fā)人員能創(chuàng)建低延遲的多模態(tài)體驗,尤其是在語音轉(zhuǎn)語音App中。這意味著開發(fā)人員可以開始將 ChatGPT 的語音控件添加到App中。
為了說明該 API 的潛力,OpenAI 展示了 Wanderlust 的更新版本,它是一款在去年大會上展示過的旅行規(guī)劃App。
借助實時 API,用戶可以直接與新版App對話,進行自然對話來規(guī)劃行程。該系統(tǒng)甚至允許用戶在語句中間打斷,模仿人類之間的對話。
旅行規(guī)劃只是一個例子,實時 API 為各個行業(yè)的語音App開辟了廣泛的可能性。無論是專攻客服、教育領(lǐng)域還是殘障人士使用的無障礙工具,開發(fā)者現(xiàn)在都可以利用新的資源創(chuàng)造更直觀、響應(yīng)更快的AI驅(qū)動體驗。
包括營養(yǎng)和健身指導(dǎo)App Healthify 和語言學(xué)習(xí)平臺 Speak在內(nèi),一些App已經(jīng)將先行一步,將實時API融合到自身產(chǎn)品中。
有評論稱,實時API 的定價并不便宜,每分鐘音頻輸入收費0.06 美元,每分鐘音頻輸出收費0.24 美元,但對于希望創(chuàng)建基于語音App的開發(fā)人員來說,它仍然可以代表一個重要的價值主張。
模型蒸餾(Model Distillation)讓小模型也可擁有尖端模型功能
模型蒸餾被視為OpenAI此次最具變革性的新工具。這種集成的工作流程讓開發(fā)人員能通過使用諸如GPT o1-preview 和 GPT-4o這類尖端模型的輸出,對相對較小且經(jīng)濟實用的高校模型進行微調(diào),從而提高更高效模型、如 GPT-4o mini的性能。
這種方法讓小公司也可能利用與尖端模型類似的功能,并且無需承擔(dān)使用這類模型的計算成本。它有助于化解 AI 行業(yè)長期以來在尖端、資源密集型系統(tǒng)與更易于訪問但功能較弱的系統(tǒng)之間的鴻溝。
比如一家從事醫(yī)療技術(shù)的小型初創(chuàng)公司要為農(nóng)村的診所開發(fā)一種AI 驅(qū)動的診斷工具。使用模型蒸餾,該公司可以訓(xùn)練一個緊湊的模型,該模型可以捕捉大模型的大部分診斷能力,同時只需要在標(biāo)準(zhǔn)的筆記本電腦或平板電腦上運行。
因此,模型蒸餾可以讓資源受限的環(huán)境也能享有復(fù)雜的 AI 功能,有可能提高醫(yī)療服務(wù)欠發(fā)達地區(qū)的醫(yī)療保健水平。