展會信息港展會大全

文檔處理效能飆升!浩鯨科技“文檔大模型”核心技術(shù)揭秘!
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-09-26 11:06:51   瀏覽:3629次  

導(dǎo)讀:機(jī)器之心發(fā)布 機(jī)器之心編輯部 在當(dāng)今大模型技術(shù)日新月異的背景下,數(shù)據(jù)已躍升為構(gòu)建企業(yè)大模型知識庫、優(yōu)化訓(xùn)練與微調(diào),乃至驅(qū)動模型創(chuàng)新不可或缺的核心要素。 對于企業(yè)來說,積累的寶貴知識廣泛散布于形式多樣的電子文檔之中,這些文檔不僅格式多樣,其內(nèi)容...

機(jī)器之心發(fā)布

機(jī)器之心編輯部

在當(dāng)今大模型技術(shù)日新月異的背景下,數(shù)據(jù)已躍升為構(gòu)建企業(yè)大模型知識庫、優(yōu)化訓(xùn)練與微調(diào),乃至驅(qū)動模型創(chuàng)新不可或缺的核心要素。

對于企業(yè)來說,積累的寶貴知識廣泛散布于形式多樣的電子文檔之中,這些文檔不僅格式多樣,其內(nèi)容質(zhì)量亦呈現(xiàn)出顯著的差異性。對海量數(shù)據(jù)進(jìn)行精細(xì)化的清洗與預(yù)處理工作,已成為提升數(shù)據(jù)價值、確保模型精準(zhǔn)高效的關(guān)鍵一環(huán),如何有效提取并利用這些寶貴的知識資源,成為了擺在所有企業(yè)面前的一道難題。

9 月 20 日,老牌數(shù)字化轉(zhuǎn)型技術(shù)服務(wù)提供商浩鯨科技在云棲大會期間,成功舉行鯨智大模型技術(shù)體系發(fā)布會,作為企業(yè)內(nèi)部的 “資產(chǎn)沉淀專家”,鯨智文檔大模型重磅首發(fā)。

文檔處理效能飆升!浩鯨科技“文檔大模型”核心技術(shù)揭秘!

據(jù)了解,本次發(fā)布的 “鯨智文檔大模型”,專門針對企業(yè)文檔場景構(gòu)建了一組垂直領(lǐng)域模型,浩鯨科技大模型創(chuàng)新中心總經(jīng)理王玉木表示,鯨智文檔大模型與同類產(chǎn)品最大的差異在于,它提供了可快速價值落地的整體性方案,不僅包含了文檔大模型能力,還提供了多模態(tài)文檔工具鏈 DocChain 和開箱即用的軟硬件一體機(jī),基于垂直模型能力和軟硬件相互配合,可幫助企業(yè)實現(xiàn)文檔的知識抽娶知識融合,直至知識推理和問答的全流程覆蓋,為企業(yè)知識資產(chǎn)的沉淀、高效管理與利用提供了有效通路。

鯨智文檔大模型的實踐邏輯

浩鯨科技成立于 2003 年,立足于電信行業(yè),智慧觸角已觸及政務(wù)、電力、泛零售等多個領(lǐng)域,迄今已為全球 80 多個國家和地區(qū)的電信運(yùn)營商、700 + 政企客戶提供全棧數(shù)智化產(chǎn)品技術(shù)服務(wù)。

“鯨智文檔大模型” 始于浩鯨科技 20 余年的數(shù)據(jù)治理、知識沉淀能力積累,作為垂直領(lǐng)域模型,它從端到端解決場景需求的視角出發(fā),結(jié)合了大小模型協(xié)作等思路,基于基礎(chǔ)大模型構(gòu)建一套緊密配合的模型組合,主要分三個層面:

底層,精準(zhǔn)知識提。和ㄟ^標(biāo)題提娶表格提娶版面分析等多種模型,精準(zhǔn)捕捉文檔中的關(guān)鍵信息,確保內(nèi)容的完整提齲同時,知識密度分類與語義壓縮模型的加入,進(jìn)一步提升了知識提取的效率與質(zhì)量。

知識提取中,“標(biāo)題提取模型” 是最為優(yōu)先的。文檔標(biāo)題可用于文檔知識塊拆分、知識塊召回等場景,可解決指代消歧等問題,具有重要作用,但在服務(wù)企業(yè)過程中,大部分文檔格式不規(guī)范,直接影響了知識問答成功率。“標(biāo)題提取模型” 基于基礎(chǔ)大模型進(jìn)行微調(diào)訓(xùn)練,強(qiáng)化了標(biāo)題識別能力,能夠用于從正文中識別標(biāo)題,補(bǔ)全缺失標(biāo)題等場景,可以解決企業(yè)文檔標(biāo)題和目錄不規(guī)范,甚至標(biāo)缺失的問題,有效提升了成功率。

文檔處理效能飆升!浩鯨科技“文檔大模型”核心技術(shù)揭秘!

中間層,深度知識融合:在知識塊的基礎(chǔ)上,進(jìn)行抽象總結(jié)與多模態(tài)數(shù)據(jù)關(guān)聯(lián),將碎片化知識整合為系統(tǒng)化的知識體系,并映射至高維向量空間,為后續(xù)的知識推理奠定堅實基矗浩鯨科技積累的的主要模型有:

文本總結(jié)模型:生成短文本摘要,為知識萃取提供支持;

文本向量模型:提供更加準(zhǔn)確的文本特征提取能力,為知識的召回提供保障;

界面識別模型:圖片特征提取模型,支持圖文向量對齊;

文本重排模型:對多模態(tài),多路徑召回的文本內(nèi)容,進(jìn)行重排序,進(jìn)一步提升回答的準(zhǔn)確率。

其中,“界面識別模型” 強(qiáng)化了對用戶手冊中最常見軟件界面的支持,主要得益于很多用戶都喜歡使用截圖來對知識庫進(jìn)行提問。該模型訓(xùn)練數(shù)據(jù)提取自浩鯨科技研發(fā)云平臺,將軟件測試報告中的軟件界面圖片和內(nèi)容來構(gòu)建訓(xùn)練集,并使用反轉(zhuǎn)、隨機(jī)截娶變形、疊加反光等手段擴(kuò)增圖片庫,實現(xiàn)了一個支持軟件界面匹配的圖片識別模型,解決了現(xiàn)有大模型在軟件界面識別方面效果一般的問題。該模型的應(yīng)用顯著提升了圖片搜索的準(zhǔn)確率,文本檢索圖片召回成功率提升 25%,圖片檢索圖片召回成功率提升 40%。

上層,智能知識推理:構(gòu)建了知識問答模型和 BPO 優(yōu)化模型。面向知識問答任務(wù)場景,構(gòu)建了針對場景優(yōu)化的問答模型,強(qiáng)化根據(jù)參考知識信息進(jìn)行精準(zhǔn)回答,減少幻覺。另外一方面通過優(yōu)化用戶的輸入提示(prompt)來提高模型輸出與人類偏好的對齊程度,提升問答的準(zhǔn)確性。

文檔處理效能飆升!浩鯨科技“文檔大模型”核心技術(shù)揭秘!

DocChain:文檔處理的智慧引擎

為深度賦能企業(yè)用戶,浩鯨科技依托先進(jìn)的鯨智文檔大模型,匠心打造了多模態(tài)文檔工具鏈 DocChain。該產(chǎn)品不僅實現(xiàn)了企業(yè)文檔向?qū)氋F知識資產(chǎn)的轉(zhuǎn)化,更構(gòu)建了一個集文檔知識精準(zhǔn)提娶高效檢索與智能問答對話于一體的大模型知識服務(wù)平臺。DocChain 以其卓越的多模態(tài)處理能力、廣泛的文檔格式兼容性和極致的性能優(yōu)化,成為企業(yè)文檔處理領(lǐng)域的得力助手。

智能提取,精準(zhǔn)高效:集成前沿 NLP 算法與模型,實現(xiàn)文檔處理速度與精度的雙重飛躍。抽取精度高達(dá) 98%,問答響應(yīng)準(zhǔn)確率超越 80%,讓信息獲取更加智能、便捷。

格式兼容,全面廣泛:擁抱多樣化文檔生態(tài),支持超過 30 種文件格式,特別兼容 OFD 等國產(chǎn)信創(chuàng)標(biāo)準(zhǔn),確保各類文檔無縫接入,處理高效且精準(zhǔn),滿足企業(yè)多樣化需求。

多模態(tài)處理,深度解析:深度解析文檔內(nèi)容,無論是文本、目錄、圖片、表格、鏈接還是頁碼,均能精準(zhǔn)拆分與提齲支持多元模態(tài)檢索,無論是文找文、文找圖,還是圖找圖,均能游刃有余。

文檔處理效能飆升!浩鯨科技“文檔大模型”核心技術(shù)揭秘!

一體機(jī):解決企業(yè)私域場景下低成本上線大模型的訴求

浩鯨科技為解決客戶落地大模型過程中算力硬件缺乏、技術(shù)人員少、安全要求高等難題,同時推出了文檔大模型軟硬件一體機(jī)。一體機(jī)內(nèi)置了高性能算力,并且預(yù)裝了大模型以及 DocChain 應(yīng)用,可為企業(yè)快速部署和驗證智慧文檔處理服務(wù)。

從部署上來說,文檔大模型一體機(jī)具備開箱即用、數(shù)據(jù)安全可控、性能無憂、快速集成等幾個特點,專為輕量級場景設(shè)計,私有化部署解決企業(yè)隱私保護(hù)、數(shù)據(jù)安全等痛點,低成本實現(xiàn)企業(yè)內(nèi)部大模型快速上線,覆蓋通用知識檢索、文檔問答、服務(wù)支撐及品牌宣傳等,可幫助企業(yè)迅速構(gòu)建專屬大模型問答系統(tǒng)。

文檔處理效能飆升!浩鯨科技“文檔大模型”核心技術(shù)揭秘!

隨著基礎(chǔ)大模型的發(fā)展,以及模型增量訓(xùn)練的知識沖突問題日益凸顯,RAG 逐漸成為企業(yè)智能知識庫的標(biāo)準(zhǔn)解決方案,然而知識召回的準(zhǔn)確率和完整性成為了影響問答效果的關(guān)鍵因素。

鯨智文檔大模型,借鑒了 “大模型 + 小模型” 的思路,基于基座大模型構(gòu)建了一套大小模型的組合,形成了一套垂直大模型,可以端到端實現(xiàn)垂直應(yīng)用場景的需求。當(dāng)前,鯨智文檔大模型在多模態(tài)識別、檢索和精準(zhǔn)召回上做了很多的嘗試,也取得了一定的成果。

AI 大模型的迅速發(fā)展,讓企業(yè)沉淀的大量文檔的知識理解和處理帶來了轉(zhuǎn)機(jī),浩鯨科技正通過持續(xù)的技術(shù)創(chuàng)新與產(chǎn)品優(yōu)化,推動大模型技術(shù)與企業(yè)領(lǐng)域知識深度融合,實現(xiàn)企業(yè)文檔向有價值的資產(chǎn)轉(zhuǎn)化,為企業(yè)創(chuàng)造更多價值。返回

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港