白交 夢晨 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
“2024年上半年對標GPT-4”,這是23年科大訊飛全球1024開發(fā)者節(jié)現(xiàn)場給出的承諾。
今天,2024剛開年,訊飛星火就迎來重大升級:
訊飛星火V3.5整體接近GPT-4 Turbo;
數(shù)學、語言理解、語音交互能力超過GPT-4 Turbo;
代碼達到GPT-4 Turbo 96%;
多模態(tài)達到GPT-4V 91%。
尤其在語音交互功能上,超逼真的真人語音生成,直接讓線上網(wǎng)友驚嘆三連:
還有更多實用功能,比如現(xiàn)場幾十秒的時間生成22頁PPT!這速度,很快啊……
而圍繞著這個大模型底座,科大訊飛還有一攬子產(chǎn)品和場景應(yīng)用輸出。
國產(chǎn)首個語音大模型
星火開源大模型“星火開源-13B”
訊飛翻譯機升級
面向教育行業(yè)的智慧黑板
……
從基礎(chǔ)模型到應(yīng)用場景,下面一起來看。
訊飛星火V3.5底座能力升級
訊飛星火V3.5除了七大能力全面提升,整體能力接近GPT-4,還特別在語言理解、數(shù)學等能力上實現(xiàn)超越。
尤其對中文的理解更占優(yōu)勢,具體數(shù)據(jù)對比如下:
語言理解、數(shù)學能力超過GPT-4 Turbo;
代碼打到GPT-4 Turbo 96%;
多模態(tài)理解達到GPT-4V 91%
……
如果看數(shù)據(jù)圖表還不夠直觀,我們也提前實測了一番。
就拿此次網(wǎng)友最為稱道,也是本次更新最大的亮點全語音交互,不是語音消息那樣一條一條的,而是像打電話一樣實時交互,下面先來看一段視頻演示:
星火這一波應(yīng)對得怎么樣,算不算得上高情商?
要注意視頻沒有做加速處理,訊飛星火V3.5的語音響應(yīng)就是這么快,與ChatGPT的語音交互相比,省去了大量“等待AI思考”這個環(huán)節(jié),整個對話過程更流暢。
“聆飛逸”、“聆小”分別對應(yīng)男女聲兩種音色,可自由切換。在音色自然,還像人一樣時不時有停頓、“嗯……”等語氣詞。
在有感情,擬人度等方面,對比ChatGPT的“Ember”、“Juniper”音色也不遑多讓。
在交互模式上還設(shè)計了“一鍵打斷”功能,避免AI生成在一輪對話中內(nèi)容過長。
打斷后,可繼續(xù)提問下一個問題,也可以直接“掛斷”語音,切回到文字模式,看到剛剛整個對話過程的文字版。
除此之外,在其他能力表現(xiàn)上,我們先用一個經(jīng)典挖坑題來考驗。
結(jié)果訊飛星火V3.5不但回答了最后的問題,還沒有被前面無關(guān)的信息繞進去,每一個不合理之處都被揪出來了。
做到這一點不僅需要推理問題中的文字邏輯,還要結(jié)合大模型在訓練階段學到的關(guān)于現(xiàn)實世界的知識。
對比GPT-4,除了格式不同,推理能力、知識水平可以算是在一個level了。
另外也可以推測,由于要兼顧語音表現(xiàn),訊飛星火的回答總是一串連貫的句子,而GPT-4更注重視覺排版。
時效性方面,提問最新網(wǎng)絡(luò)流行梗,星火也是能跟得上潮流的。
相比之下,GPT-4現(xiàn)在雖然默認也有聯(lián)網(wǎng)功能,但不經(jīng)特意提醒不會意識到回答這個問題需要聯(lián)網(wǎng)搜索,而是開始了傳統(tǒng)藝能“一本正經(jīng)瞎編”。
而在更實用場景功能升級,比如學習、辦公等場景,也是訊飛星火一直以來的迭代重點。
比如在知識學習和內(nèi)容創(chuàng)作方面。
發(fā)布會現(xiàn)場,只截取一段簡單的新聞,就能提出問題,并且根據(jù)問題進行回答。
關(guān)鍵的是,里面回答的內(nèi)容原文并沒有。但它卻能根據(jù)問題旁征博引、擴充內(nèi)容。
在PPT創(chuàng)作上,在確定主題、提綱以及內(nèi)容的過程中,可以隨時補充內(nèi)容、精準生成。
而在更多像工業(yè)、數(shù)智化的生產(chǎn)力場景中,對大模型的邏輯推理、空間理解、多模態(tài)等方面的能力都提出了更大的考驗。
此次星火V3.5也得到了一定的增強。
比如在多模態(tài)和空間理解能力上,只給了一張圖,也沒有更多提示(只說分析這張圖片)。結(jié)果它直接判斷:這是一個室內(nèi)平面布局圖,并且進一步準確給出房間、家居位置。
除此之外,還可以幫忙設(shè)計裝修圖,并且根據(jù)自己的需求精細可控。
ps.你能看出這兩個有什么不同嗎?(提示:看后面的風格畫)。
總的來說,訊飛星火V3.5這次升級,在模型基礎(chǔ)能力、實用性、交互模式上都有提升,也帶領(lǐng)中國大模型行業(yè)進一步朝世界先進水平看齊。
不過在這幕后,還有一件更值得關(guān)注的進展。
這次訊飛星火V3.5能力升級,同時也是“飛星一號”平臺能力的首秀。
這是訊飛與華為共建的大模型算力平臺,基于華為騰生態(tài),實現(xiàn)了純國產(chǎn)化算力。
在“飛星一號”平臺首次對外宣布之時,劉慶峰曾表示“中國現(xiàn)有的大模型跟GPT4比還有差距,所以我們必須正視今天和GPT4的差距,找到差距所在。”
如今在“飛星一號”平臺正式投入使用后,這個差距正在逐漸縮短。
不僅如此,一個完全國產(chǎn)化、自主可控的算力底座,在保障網(wǎng)絡(luò)信息安全基礎(chǔ)上,還能更好地滿足國內(nèi)各行各業(yè)的需求,以及支持開發(fā)者、高校、企業(yè)更好自主研發(fā)。
憑借此算力底座,除了訊飛星火V3.5,這次一同出爐的還有國產(chǎn)首個語音大模型。
首個語音大模型發(fā)布
借助基礎(chǔ)大模型以及國產(chǎn)算力平臺,此次科大訊飛在技術(shù)和生態(tài)層面,還有一攬子成果輸出。
技術(shù)方面,首個語音大模型的發(fā)布。
在語音技術(shù)上深耕二十余年的科大訊飛,它認為大模型給語音技術(shù)發(fā)展,包括語音合成、識別、多語種等方面帶來了全新的機會。
不同于常規(guī)的語音大模型,訊飛的語音大模型將更多語音表征解耦,融入到大模型預(yù)訓練中,比如語種表征、內(nèi)容表征、韻律表征、音色表征。
在多語種識別中,在首批37個主流語種效果超過OpenAI Whisper 3。
并且在多語種語音生成、超擬人語音生成上,也有一定的提升。
目前語音大模型已經(jīng)向開發(fā)者完全開放,并且首發(fā)搭載在訊飛翻譯機上面。
除此之外,還首次發(fā)布了星火開源大模型“星火開源-13B”。據(jù)介紹,此次深度適配國產(chǎn)算力,并且也在思社區(qū)上發(fā)布,助力開發(fā)者、高校、企業(yè)自主研發(fā)。
而在應(yīng)用生態(tài)層面,此次同樣也干貨滿滿。
作為擁有超過全球590萬開發(fā)者生態(tài)的訊飛,繼續(xù)發(fā)揮著自己的場景勢能以大模型之力,持續(xù)在千行百業(yè)中落地。
以最典型的教育場景為例。
具體在教育場景上,此次訊飛星火智慧黑板有了一定升級。
劉慶峰認為,作為改變?nèi)祟愇磥砩a(chǎn)生活方式的重大技術(shù)突破,優(yōu)先應(yīng)該為孩子賦能、為教育賦能。
老師一聲上課,訊飛星火智慧黑板就開始工作。
不管是數(shù)學、化學,立體幾何還是化學方程式,只需在黑板上畫一下,就能識別成書面格式,并且支持編輯。
比如現(xiàn)場畫個苯酚,結(jié)果它秒秒鐘識別,并且推薦出視頻科普課程。
還能使用虛擬人,輔助老師授課。
一節(jié)講完,它還能自動存下來,課程實錄、視頻切片等內(nèi)容都有,可以隨時回顧重點。
除此之外,還有在保險、銀行、能源、汽車、通信等方面的合作進展。
發(fā)布會現(xiàn)場,中國移動攜手訊飛星火推出5G新通話創(chuàng)新應(yīng)用“商務(wù)速記”,能夠?qū)崿F(xiàn)通話語音同步紀要,關(guān)鍵事項精準提煉,且無需下載APP,所有手機都支持。
其中,值得一提的是,在農(nóng)業(yè)領(lǐng)域,科大訊飛同安徽省農(nóng)業(yè)農(nóng)村廳聯(lián)合打造“耕云農(nóng)業(yè)大模型”,并被寫入安徽省政府工作報告之中。
據(jù)介紹,在最新的安徽省政府工作報告中, “訊飛星火”還被評價道:科技創(chuàng)新實現(xiàn)新突破。訊飛星火認知大模型處于全國領(lǐng)先水平。
能得到這種自上而下的關(guān)注和協(xié)同合作,國內(nèi)并不多見。
這與科大訊飛本身在大模型生態(tài)影響力不無關(guān)系。截至目前,訊飛星火積累了這樣一份成績單。
訊飛聽見已經(jīng)擁有6500萬用戶,訊飛星火純用戶2400萬;
訊飛輸入法有1.4億活躍用戶;
內(nèi)容創(chuàng)作平臺,訊飛智作(音視頻創(chuàng)作),自815發(fā)布以來新增了21萬會員用戶,160萬音視頻內(nèi)容;而在圖文創(chuàng)作上,1024發(fā)布以來賦能企業(yè)用戶生產(chǎn)百萬內(nèi)容。
半年來,大模型開發(fā)者生態(tài)積累了35萬開發(fā)者數(shù)量,其中企業(yè)開發(fā)者數(shù)量為22萬。
要知道獲得這樣成績的訊飛星火,距離首次發(fā)布并不足一年。
一方面,再次印證了大模型作為基礎(chǔ)技術(shù)底座,持續(xù)釋放在千行百業(yè)的應(yīng)用潛力,而且迭代和落地速度只會越來越快。
去年十月,國務(wù)院發(fā)展研究中心下屬的國研經(jīng)濟研究院開展了一項大模型行業(yè)應(yīng)用能力測評研究。測評報告中顯示:
星火大模型V3.0在醫(yī)學、法律、教育、零售、汽車工程、計算機和工業(yè)設(shè)計平均準確率達72.3%,在所有測評行業(yè)中表現(xiàn)均優(yōu)于GPT3.5版,并且與GPT4.0各有優(yōu)劣。
而除了在行業(yè)場景中的生產(chǎn)勢能外,此次國產(chǎn)語音大模型的發(fā)布同樣值得關(guān)注。還記得GPT系列大模型剛出現(xiàn)時,關(guān)于各種技術(shù)「不存在了」的討論此消彼長。
作為AI語音龍頭,科大訊飛首次實踐證明:借助大模型來推動自身語音技術(shù)積淀達到新的高度,繼續(xù)引領(lǐng)語音技術(shù)發(fā)展。
大模型新階段,該怎么走?
經(jīng)歷了2023年的百模大戰(zhàn),2024整個行業(yè)來到一個新的階段。
作為國內(nèi)大模型的代表玩家,科大訊飛整場發(fā)布會看下來,能看到窺見到以下三點關(guān)鍵趨勢:
基礎(chǔ)技術(shù)層面,推理、多模態(tài)能力成為大模型技術(shù)升級的重點攻堅方向。
此次訊飛星火V3.0的升級方向,與前段時間奧特曼劇透GPT-5有不少相似之處。
此前在奧特曼對GPT-5的零星劇透來看,推理能力是重點提升方向,尤其在代表用戶處理通用任務(wù)方面有重要進步。
很快就可以問AI,我今天最重要的郵件是什么?
在產(chǎn)品功能上,“應(yīng)用戶強烈要求”,奧特曼正在考慮給ChatGPT添加視頻能力,以及給語音功能提供更好的語音質(zhì)量。
企業(yè)層面,大模型只是基礎(chǔ)底座,技術(shù)公司能夠借大模型來帶動自身技術(shù)升級和發(fā)展。
已經(jīng)明顯感知到的是,當下很多討論的技術(shù)都有一個共性,就是它并非突然涌現(xiàn),而是往往存在已久,終于來到了產(chǎn)業(yè)大規(guī)模應(yīng)用的拐點。
因此對于技術(shù)公司來說,持續(xù)保持對新技術(shù)的感知和投入,其實就能快速部署應(yīng)用,幫助自身技術(shù)布局和發(fā)展。
前段時間,Meta小扎官宣“All in 開源AGI”,但實則同此前元宇宙的布局并不沖突,他們將借助大模型,進一步推進雷朋Meta智能眼鏡為代表AI新型計算設(shè)備的升級。
生態(tài)層面,大模型的開放性和可擴展性正在成為推動行業(yè)生態(tài)繁榮的關(guān)鍵因素。
訊飛星火正吸引著更多的開發(fā)者和合作伙伴,促進技術(shù)的快速迭代和創(chuàng)新;诖竽P蜆(gòu)建出各種行業(yè)應(yīng)用,形成一個多元化的應(yīng)用生態(tài)。這種生態(tài)的構(gòu)建,有助于形成良性的技術(shù)競爭環(huán)境,推動整個行業(yè)的技術(shù)進步和應(yīng)用場景的拓展。
因此我們能看到,訊飛在教育、醫(yī)療等多個垂直領(lǐng)域的深入應(yīng)用,這些領(lǐng)域的應(yīng)用不僅能夠解決實際問題,還能夠反過來進一步為大模型提供豐富的數(shù)據(jù)支持,進一步優(yōu)化模型性能,實現(xiàn)升級迭代的正向循環(huán)。
這也是訊飛一次次敢于在重要時間節(jié)點提前“立下Flag”,又能準時帶著最新進展回來兌現(xiàn)承諾的底氣所在。
這一次,劉慶峰再次立Flag:今年上半年達到GPT-4現(xiàn)在水平。
而更長期的目標在于通用大模型持續(xù)對標、行業(yè)應(yīng)用實現(xiàn)超越、自主可控生態(tài)繁榮。
2024年才剛剛開始,對于這一年以訊飛星火為代表的AI技術(shù)又將給人們生活帶來哪些變化,你怎么看?