自2014年起,成都曉多科技有限公司(以下簡稱:曉多科技)在電商智能客服這個(gè)垂直領(lǐng)域,進(jìn)行了持續(xù)10余年的人工智能深耕和落地。
2023年5月,曉多科技推出了“電商專家大模型”,將人工智能技術(shù)在客服領(lǐng)域?qū)崿F(xiàn)了產(chǎn)品化和商業(yè)化;今年5月,其行業(yè)大模型“曉模型XPT”也成功通過國家生成式人工智能服務(wù)備案。
在大模型應(yīng)用元年,大模型的發(fā)展還有哪些迫切挑戰(zhàn)?垂類大模型又有怎樣的發(fā)展機(jī)遇?
曉多科技CTO向海在接受紅星資本局專訪時(shí)談到大模型現(xiàn)在最大的挑戰(zhàn),他認(rèn)為不在于技術(shù)和成本,還是場景突破,“目前看上半年場景問題還是比較焦灼,如果有應(yīng)用跑出來,大家的信心就會更強(qiáng)。”
曉多科技CTO向海
替代人工客服大模型已做到7成,尚欠缺“情緒價(jià)值”提供
紅星資本局:我們的大模型可以做到什么程度的智能化服務(wù)?是如何像人一樣理解并回答問題的呢?最終可以實(shí)現(xiàn)“人工智能替代人工”嗎?
向海:如果客戶的問題,是非常具體的,跟商品知識、店鋪政策相關(guān)的,那么我們自己包括市面上這類大模型,它就能做到跟人一樣。在知識類的這種問答過程中大模型大概能做到95%以上的正確率。
但如果真的“像人一樣”去跟消費(fèi)者溝通,目前大模型還做不到,比如說消費(fèi)者會過來問打折送東西、價(jià)格協(xié)商這類場景,大模型現(xiàn)在的回復(fù)可能會被消費(fèi)者“牽著走”,比如有消費(fèi)者想要多點(diǎn)贈品,那大模型的判斷可能會都給消費(fèi)者,這種情況會造成一些不可控的風(fēng)險(xiǎn)。
我們的設(shè)計(jì)是在大模型前面有一個(gè)小型的模型作為分類器,知識類的問答、涉及到錢和贈品的分別是不同類型的大模型去回答。但是它還不能完全“替代”人工。在圖文理解還有局限性,溝通上也還是偏客觀的表述,還不能給消費(fèi)者更精準(zhǔn)的判斷。
簡單類目的店鋪,比如服裝這種,大模型替代人工客服已經(jīng)可以做到7、80%了,為什么還剩20%,主要就是在“人與人情緒價(jià)值”上的提供,大模型還無法準(zhǔn)確達(dá)成。
目前我們還是想在一些簡單場景上,盡可能讓大模型全部做到“全自主”。但是對一些復(fù)雜類目,想做到完全替代人,還要隨著技術(shù)的發(fā)展來突破。
紅星資本局:垂類大模型是基于通用大模型的調(diào)整而來嗎?它的能力有何不同?
向海:以我們自己為例,技術(shù)線路分兩種,一是在別人的開源基礎(chǔ)模型上去二次預(yù)訓(xùn)練微調(diào),主要是解決預(yù)訓(xùn)練成本太高的問題。經(jīng)過這種微調(diào)之后,它會強(qiáng)化在電商領(lǐng)域的一些專業(yè)性的知識,能力上也有側(cè)重,商品的問答這一塊比較專業(yè),但其他能力還是受損的。
第二種是我們自己從頭到尾訓(xùn)練的模型,那就是把我們的商品知識和一些高質(zhì)量的對話數(shù)據(jù)都預(yù)訓(xùn)練進(jìn)去了,它應(yīng)該是一個(gè)比較優(yōu)秀的專家客服的角色,可以完整記住一些電商場景客服的會話技巧,會話風(fēng)格,在這方面的預(yù)訓(xùn)練會更強(qiáng)一些。
垂類模型能力更“專”
紅星資本局:業(yè)內(nèi)都在說大模型的應(yīng)用落地是很難的,垂類模型是否意味著解決了場景、落地這些問題?
向海:首先垂類模型肯定是為場景而生的,所以不存在場景上的“選擇困難”。不像通用模型,什么都可以用,但到底在哪個(gè)地方最強(qiáng),大家其實(shí)是拿不準(zhǔn)的。雖然沒有場景落地的難題,但垂類模型有一個(gè)技術(shù)落地的問題。
這跟大模型技術(shù)原理有關(guān),必然存在幻覺和生成不可控制的情況。所以落地我們認(rèn)為要有一套衡量標(biāo)準(zhǔn),比如說應(yīng)答,我們測它是在商品問答上比較強(qiáng),還是商品對比上比較強(qiáng),還是商品推薦上比較強(qiáng)?針對不同需求會有不同測試集,大模型還要經(jīng)過不斷迭代再上線。解決落地問題就是解決“幻覺”、解決準(zhǔn)確性的問題。最難的是,大模型即便回答問題能夠達(dá)到70%的正確,但剩下30%是人也很難判斷答案的好壞。這也是業(yè)內(nèi)大家共同要攻克的難題。
紅星資本局:您如何看待垂類模型的趨勢,垂類大模型的挑戰(zhàn)是什么?
向海:訓(xùn)練大模型,主要看數(shù)據(jù)和語料,通用模型的能力越來越強(qiáng),一旦它也掌握了垂類的這些數(shù)據(jù)語料,那垂類模型相較于通用模型的優(yōu)勢就不一定存在了。而且垂類模型,并不是做垂直領(lǐng)域應(yīng)用的一個(gè)必要前提,所以業(yè)內(nèi)也是在觀望,看GPT5的智慧程度。
在垂直領(lǐng)域,也要看大模型的實(shí)力。比如招聘一個(gè)客服,上崗之前都要進(jìn)行訓(xùn)練對抗和壓力測試,在這個(gè)場景里大模型模仿消費(fèi)者,我們測試過GPT4、豆包等模型,是具備模擬消費(fèi)的能力,達(dá)到個(gè)7、80分是沒問題的,也就是說通用大模型可以實(shí)現(xiàn)這個(gè)產(chǎn)品功能,垂直行業(yè)的場景依然可以通過通用大模型來解決。
但是有些場景需要大模型達(dá)到95分以上才可用,這個(gè)時(shí)候通用大模型在精準(zhǔn)問答上的能力就不如垂類模型。從我們的業(yè)務(wù)場景出發(fā),如果GPT4或者最好的模型都達(dá)不到需要的效果,我們認(rèn)為垂類模型還是有空間的。
垂類模型也是更“專科”的。比如最近“9.9和9.11誰大”,很多大模型都答錯(cuò)了,因?yàn)榇竽P?ldquo;文科強(qiáng)理科弱”。而在電商領(lǐng)域,有大量的數(shù)學(xué)場景,我們就要去訓(xùn)練垂類模型調(diào)用工具。識別到數(shù)學(xué)問題,是不讓它去算的,比如說推薦尺碼,是通過調(diào)用尺碼計(jì)算器,再結(jié)合商品信息適配,給出結(jié)論。
垂類模型的優(yōu)勢是尺寸更小,訓(xùn)練成本和推理成本都更低。比如訓(xùn)練10億的模型,我們大概花費(fèi)了2、300萬每次,如果訓(xùn)一個(gè)百億級的話,預(yù)計(jì)要到三四千萬左右這個(gè)水平。這相較通用大模型的成本還是成本低不少。
國產(chǎn)芯片挑戰(zhàn)除了人才還有生態(tài)
紅星資本局:您認(rèn)為國產(chǎn)芯片還有什么挑戰(zhàn)?
向海:難點(diǎn)就在于生態(tài)和人才。畢竟大家都習(xí)慣了英偉達(dá)的調(diào)試技巧,比如同樣的代碼,在國產(chǎn)芯片上的確還需要很多適配工作。會做適配工作的人才又少,這就會影響模型的驗(yàn)證和創(chuàng)新速度。國產(chǎn)芯片目前還需要所有供應(yīng)商通力配合,比如哪個(gè)地方跑不動了,哪個(gè)性能上不去了,這些都需要芯片廠商、生態(tài)供應(yīng)商和大模型企業(yè)一起去“磨”,不磨這個(gè)生態(tài)就起不來。
紅星資本局:對于大模型的算力供應(yīng)方面,您認(rèn)為業(yè)內(nèi)現(xiàn)在還有哪些瓶頸和制約?現(xiàn)在大模型發(fā)展面臨的問題,更緊迫的是這種技術(shù)突破還是這種成本的問題?
向海:目前我們看到的很大概率可能是推理這個(gè)板塊的算力會受限。大家現(xiàn)在都在想當(dāng)下怎么落地,業(yè)內(nèi)也預(yù)判殺手級的應(yīng)用會在近兩年內(nèi)爆發(fā),隨后帶來的就是大量的推理訴求。國產(chǎn)芯片是否能夠補(bǔ)位,這里就會出現(xiàn)“卡點(diǎn)”。
現(xiàn)在應(yīng)用沒起來,在推理方面的投資比較弱,等到應(yīng)用爆發(fā)時(shí),生態(tài)的“卡點(diǎn)”沒解決,大家可能到時(shí)還是要依賴英偉達(dá)。
我認(rèn)為現(xiàn)在大模型最大的挑戰(zhàn),不在于技術(shù)和成本,最終還是場景突破,它到底給我們帶來了哪些用處?如果它非常有用,成本不是問題,推理算力也都不是問題。有價(jià)值就有商機(jī),有商機(jī)就有辦法解決性能和成本問題,但看上半年場景問題還是比較焦灼,如果有應(yīng)用跑出來,大家的信心就會更強(qiáng)。
就像前陣大模型價(jià)格戰(zhàn)也是為了這個(gè)目的,我認(rèn)為價(jià)格戰(zhàn)短期還會持續(xù),直到殺手級應(yīng)用的出現(xiàn),大家可能會轉(zhuǎn)戰(zhàn)去卷場景。目前我也注意到一些小團(tuán)隊(duì)做應(yīng)用比較好的是在教育領(lǐng)域,比如寫論文這種,在教育領(lǐng)域的應(yīng)用我認(rèn)為會先行火起來。
紅星新聞記者 王田
編輯 肖子琦