語料數據(Corpus Data)指為語言分析、模型訓練等目的系統化收集的真實文本或語音材料的集合,是自然語言處理(NLP)領域的核心資源,相當于AI學習語言的“教材”。在AI時代,語料是人工智能發(fā)展的核心基礎之一,甚至被譽為AI產業(yè)的“金礦”,是決定模型能力上限的核心要素。隨著國產開源推理大模型DeepSeek的“出圈”,其思維鏈背后用到的數據合成技術,再次提升了對于高質量語料數據的需求。
政策引領,上海戰(zhàn)略布局推動語料體系建設
上海作為中國人工智能發(fā)展的前沿陣地,AI相關產業(yè)正迎來蓬勃發(fā)展的機遇,而語料正是其中最為關鍵的抓手之一,語料體系建設已被納入人工智能發(fā)展的核心框架。
2024年底發(fā)布的《關于人工智能“模塑申城”的實施方案》中明確提出,到2025年底,建成世界級人工智能產業(yè)生態(tài),力爭全市智能算力規(guī)模突破100EFLOPS(每秒百億億次浮點運算次數),形成50個左右具有顯著成效的行業(yè)開放語料庫示范應用成果。方案還明確提出,要建立一批通用和專用語料庫,打造多層次語料體系,支撐基礎大模型研發(fā)和垂直應用。聚焦前沿大模型訓練需求,推動打造基礎大模型訓練語料庫。聚焦金融、制造、教育、醫(yī)療、文旅、城市治理等行業(yè)需求,打造一批行業(yè)開放語料庫與測試數據集。此外,還要推動成立算力和語料基金,探索算力和語料作價入股等模式,加強創(chuàng)新型企業(yè)培育。
在近期舉行的2025全球開發(fā)者先鋒大會上,語料也成為一個備受矚目的議題。2月22日,“語料筑基 智生時代”主題論壇在上海徐匯舉行,會議深度聚焦大模型語料前沿主題,匯聚產學研用頂尖智慧,共同探討語料數據發(fā)展的無限機遇與潛力,共建上海大模型語料繁榮生態(tài),為人工智能大模型創(chuàng)新發(fā)展和應用注入新動能。
論壇由全球開發(fā)者先鋒大會組委會指導,由上海庫帕思科技有限公司承辦,漕河涇開發(fā)區(qū)總公司、上海人工智能實驗室、商湯科技、階躍星辰、稀宇科技等公司聯合協辦。上海市經濟和信息化委員會副主任張宏韜,徐匯區(qū)委常委、副區(qū)長俞林偉出席論壇并致辭。
在論壇上,張宏韜表示,上海已全面戰(zhàn)略布局人工智能大模型產業(yè),加速推進“模塑申城”行動方案,為大模型提供強大的基礎底座賦能和豐富的應用場景支持,成為產業(yè)界創(chuàng)新發(fā)展的理想沃土。未來,上海將持續(xù)夯實高質量綜合語料基座,構建數據語料核心樞紐,加快創(chuàng)新語料服務關鍵性技術,加速推動“5+6”垂類領域語料工程,完善行業(yè)語料供給體系,構建共贏繁榮的語料服務生態(tài),更好助力大模型創(chuàng)新發(fā)展和應用。
實踐先行,發(fā)力語料基建建設和生態(tài)協同
有研究表明,互聯網上的高質量語言數據資源或將在2027年消耗殆盡。與開采金礦需要在資源勘察、選礦廠建設、固定資產購置等方面開展大量工作,高質量的語料數據也需要解決在獲取、治理、安全、應用等多方面存在的挑戰(zhàn),語料基礎設施的建設和生態(tài)環(huán)境的形成至關重要。
上海為此已采取一系列措施來加強語料庫的建設和應用,推動世界級人工智能產業(yè)生態(tài)的形成。在本屆全球開發(fā)者先鋒大會,上海市經信委主任張英表示:“上海將開發(fā)者捧為主角,為這一群體傾力提供資源、政策與氛圍,努力培育繁榮的開發(fā)者生態(tài)!
2024年3月,首家由政府主導成立的人工智能語料公司上海庫帕思科技有限公司正式成立,公司定位于專業(yè)化的功能性語料服務運營平臺,致力于提供低成本、高質量的語料數據服務。
庫帕思去年已完成構建了“1+X”語料基座,語料服務規(guī)模達260T,鏈接合作伙伴超100家,簽署戰(zhàn)略合作協議57家,發(fā)布了9個語料團體標準,并完成了7個標準草案。目前已全面啟動具身智能、金融、制造、教育、醫(yī)療、文娛、城市治理等領域的行業(yè)語料庫建設。同時,為了形成高質量的多模態(tài)語料庫,庫帕思也正在建設大模型語料超級工廠,以每天最高1000GB的速度進行語料加工,計劃到今年年底將語料庫的總容量提升至2PB。
在生態(tài)協同上,徐匯區(qū)作為國家級人工智能產業(yè)集聚區(qū),在全市率先發(fā)展人工智能大模型產業(yè),市區(qū)聯手推出了全國首個大模型創(chuàng)新生態(tài)社區(qū)“模速空間”,打造了算力調度、開放數據、金融服務等五大功能平臺,為企業(yè)提供“保姆式”“專班式”服務。俞林偉表示,徐匯將持續(xù)做好落實要素保障,持續(xù)吸引全球頂尖人才,持續(xù)優(yōu)化大模型和語料服務產業(yè)生態(tài),把模速空間打造為“全球最大的人工智能孵化器”,打造徐匯建成全國人工智能高地的創(chuàng)新策源尖峰。
模塑申城,語料普惠計劃之語料數據智能創(chuàng)意大賽正式啟動
在本屆論壇上,市經濟和信息化委副主任張宏韜、上海信投黨委書記、副總裁黃衛(wèi)軍、人民網上海分公司總經理金煜純、上海人工智能協會秘書長鐘俊浩共同發(fā)布了模塑申城語料普惠計劃之語料數據智能創(chuàng)意大賽(簡稱CICC)。依托《模速申城語料普惠計劃》,CICC大賽面向全社會尋找“好語料、好技術、好場景”,為上!澳K苌瓿恰惫こ讨握Z料基石,打通高質量語料數據采集、標注、共享、應用全鏈路。
隨后,大會隆重發(fā)布2025語料風云榜招募令。為匯聚行業(yè)頂尖智慧、構建開放合作生態(tài),在2024年世界人工智能大會上,庫帕思發(fā)起了首屆語料風云榜,一批好企業(yè)、好產品脫穎而出。2025語料風云榜將延續(xù)“好企業(yè)、好產品、好規(guī)則”的基本框架,在未來4個月完成征集與遴選,并在2025年世界人工智能大會上正式對外發(fā)布“2025中國語料生產商風云榜TOP10”、“2025中國語料服務商風云榜TOP10”。
此外,為進一步促進高質量語料數據建設,在市經濟和信息化委的指導下,庫帕思以普惠、鏈接、創(chuàng)新的態(tài)度,攜手首批103家企業(yè)、科研機構和專家學者,聯合發(fā)起成立語料工作委員會。語料工作委員會將圍繞高質量語料建設,通過優(yōu)化語料平臺與各垂類應用領域鏈接機制,促進語料方、模型方、應用場景方三方合作模式跑通落地,從而構建高質量、具備應用價值的語料生態(tài)。
在可以預見的未來,上海不但是“魔都”,更將是AI產業(yè)的“模都”,致力于占據全球人工智能產業(yè)的發(fā)展高地。如今,上海正以語料為支點,撬動人工智能產業(yè)的全球競爭力,為全球行業(yè)發(fā)展提供新基建、新生態(tài)和新路線,這座“最懂開發(fā)者的城市”,正在書寫人工智能時代的“掘金傳奇”。