近期,《晶報》探訪并對深圳計算科學研究院進行了特別報道。深算院YashanDB技術總監(jiān)歐偉杰接受采訪,介紹了深算院的原創(chuàng)基礎研究成果和人才體系,以及全自研國產數據庫YashanDB在智慧城市數字孿生場景的應用推廣,以下為部分報道內容。
三款核心產品的名字,源自南宋三場戰(zhàn)事
但凡專業(yè)且抽象的事物,表述總會擔心太過于晦澀難懂,于是,先說一個大家都懂的詞:“卡脖子”。是的,相信這幾年,大家對這幾個字再熟悉不過了。
2019年4月13日,深算院在深圳大學揭牌成立,重點研究大數據領域方向的計算科學基礎理論,把原創(chuàng)理論落地轉化為實用系統(tǒng),致力打造中國原創(chuàng)的基礎軟件民族品牌。截至目前,該院已開發(fā)并落地三款全自研的戰(zhàn)略性基礎軟件產品崖山數據庫系統(tǒng)、采石磯數據質量系統(tǒng)、釣魚城數據分析系統(tǒng),并在多個重點行業(yè)領域落地應用。
數據庫是什么?通俗理解,它是“放數據的倉庫”。當信息世界里的數據處理量大了,就要對“倉庫”進行有序管理。此前,國內同行產品紛紛“站在巨人肩膀上”,在國外軟件企業(yè)提供的開源代碼上進行再開發(fā),加快產品上市速度,而深算院堅持自主研發(fā),一步一個腳印。
數據庫系統(tǒng)可以稱為軟件里的“重工業(yè)”,自主研發(fā)門檻高、周期長。為什么要堅持自主研發(fā)呢?基礎研究處于從研究到應用、再到生產的科研鏈條起始之端,是科技創(chuàng)新的源頭,更是整個科學體系的源頭。深算院深知關鍵核心技術,更是要不來、買不來、討不來的。加強基礎研究,從源頭解決關鍵技術問題,才能打好科技自立自強主動仗。
深算院崖山數據庫技術總監(jiān)歐偉杰列舉了一個形象的例子:“如果我們將基礎軟件看做一棵‘樹’,那么開源代碼就是一棵‘樹苗’,在開源基礎上開發(fā)相當于把它‘移栽’過來,它的品種是什么以及未來生長的樹冠有多大、能覆蓋多大的面積,這是它基因里自帶的,我們無法通過‘修剪’去改造它。但我們自己研發(fā),就相當于自己去培育一個品種,我們可以決定它的基因,比如它的根扎多深、未來樹冠有多大,這都是我們自己可以控制的!睔W偉杰表示:“目前的一些具體應用走開源代碼的道路是沒問題的,但在基礎軟件上,我們堅持用‘笨辦法’,從自己開始做研發(fā),希望它能夠走得更遠,哪怕它的時間長一點。”
深算院崖山數據庫技術總監(jiān)歐偉杰接受記者采訪
正如印刻在深算院標志中的口號“‘VENI VIDI VICI’(我來,我見,我征服)”那樣,深算院的初衷是“征服數據,做改變世界的一些事情”。
深算院標志中心圍繞著深算院口號“VENI VIDI VICI”(我來,我見,我征服)
這樣的精神同樣體現在深算院的產品上。據介紹,“崖山”“采石磯”“釣魚城”均由深算院首席科學家根據南宋三場保家衛(wèi)國之戰(zhàn)命名。其中,“崖山”以歷史上宋元海戰(zhàn)發(fā)生地為名,意在賡續(xù)崖山的民族氣節(jié)和風骨,“采石磯”之戰(zhàn)講的是以少勝多的歷史典故,希望繼承迎難而上的膽識豪情,“釣魚城”代表的是對抗外敵時的堅持頑強,是致敬不屈的先賢。通過三個典故,意在國產基礎軟件面臨強大挑戰(zhàn)的情況下實現全自研的技術和系統(tǒng),在數據庫領域重鑄華夏輝煌,為數據管理世界性難題提供中國答案,憑借數據分析領域領先的技術實力改變世界大數據的發(fā)展格局。
500人團隊,研發(fā)人員近八成
基礎研究既是一次科學家滿懷好奇心的探索之旅,也是一場“你有我無、我快你無”的激烈競爭。在這場全球參與的探索中,深算院的成績斐然。
引人注目的崖山數據庫系統(tǒng),融入了原創(chuàng)的有界計算理論、近似計算理論、并行可擴展理論和跨模融合計算理論,實現國產高端數據庫“從0到1”的全自研突破,經權威機構檢測,內核代碼自主率100%,從核心理論到關鍵系統(tǒng)均為中國原創(chuàng)、性能指標國際領先,成為國內率先實現自主可控技術突破的數據庫系統(tǒng)之一。歐偉杰告訴記者,崖山數據庫系統(tǒng)實現了從底層理論到系統(tǒng)工程的全鏈條基礎軟件研發(fā),真正掌握核心技術。
加強基礎研究,歸根到底要靠高水平人才。作為一個有產品能力的基礎研究機構,深算院利用多重渠道開展全球引才,在吸引人才時就注重吸收科學家和工程師!白铋_始,崖山數據庫系統(tǒng)的團隊人員不到10人。隨著系統(tǒng)起步,我們不斷搭建團隊,通過社招找到一些志同道合且具有豐富經驗的業(yè)界專家,并通過校招吸納青年人才,邀請他們一起來做產品,更重要的是通過成型的培訓體系培養(yǎng)數據庫人才。利用我們的培訓體系對應屆生或沒有接觸過數據庫的人進行培訓,引導他們上崗后不斷學習,2至3年的時間,讓他們能夠承擔一些任務。我們希望深圳能培養(yǎng)和吸引更多有志從事基礎軟件的年輕人才,讓更多人了解到行業(yè)發(fā)展的前景和機遇。”歐偉杰說。
崖山數據庫團隊日常討論
目前,崖山數據庫系統(tǒng)已擁有300余人規(guī)模的老中青梯次結構的團隊,深算院已建立起500人規(guī)模團隊,其中研發(fā)人員占比近八成,匯聚了一批優(yōu)秀青年科學家和工程實力媲美硅谷的系統(tǒng)開發(fā)人才,包括英國皇家學會院士1人、中國科學院院士2人、深圳市杰出人才1人、海外高層次人才5人、長江學者1人。值得一提的是首席科學家樊文飛院士于2019年當選為中國科學院外籍院士,2023年當選英國皇家工程院院士,他也是英國皇家學會計算機領域的唯一華裔科學家。
深算院展廳榮譽墻
五年來,深算院在SIGMOD、VLDB、ICDE、TODS等國際頂級期刊/會議發(fā)表/錄用論文100余篇(含CCF A類超90篇),申請專利/PCT共141項,理論研究成果產出比肩全球任何一支大數據學術團隊。
“數字孿生城市平臺”讓城市管理更精細化、智慧化
帶著刻板印象,記者還是忍不住問:為何研究院會選址在商圈的一隅?歐偉杰笑著說,大眾一般認為做研究的人喜歡“閉關修煉”,但其實深算院不僅要做研究,還要做產品。龍華科技創(chuàng)新中心位于配套設施完善的商圈內,這給予了深算院工作人員極大便利。例如,深圳北站的地理和交通優(yōu)勢,為深算院提供了便捷的區(qū)域連接和人員流動條件。同時,深圳北站龍華科創(chuàng)布局已經形成了強大的企業(yè)聚集效應,這有助于深算院在技術研發(fā)、項目合作以及人才培養(yǎng)等方面與周邊企業(yè)形成良性互動,推動科技創(chuàng)新成果的快速轉化。
一項重大原始創(chuàng)新背后離不開“板凳坐得十年冷”的堅持,而其背后穩(wěn)定的支持機制和投入,正是“冷板凳”加溫的熱源。深圳市政府通過專項資金扶持,為深算院的科研項目提供了必要的資金保障,確保了研發(fā)工作的順利進行。龍華區(qū)政府則提供場地等資源支持,有效解決了深算院在硬件設施方面的后顧之憂。
“在團隊拓展初期,我們去學校校招,有的同學反饋沒有食堂,龍華區(qū)政府了解到這一信息后,迅速在樓里建立了一個共享食堂,非常及時地解決了員工餐食的現實問題。”
隨著區(qū)域數字化發(fā)展的基礎越來越扎實,計算能力越來越突出,龍華區(qū)立足數字經濟、數字城區(qū)、數字治理“三位一體”數字龍華建設實際,2023年11月,推出了全國首創(chuàng)“全域全信創(chuàng)”數字孿生城市平臺。該平臺基于鯤鵬處理器、銀河麒麟操作系統(tǒng)等國產軟硬件環(huán)境,采用全自研國產數據庫崖山數據庫提供事務一致性、復雜查詢以及空間數據支持等能力,對接國產數字孿生引擎(SS Engine),為政務、住建、教育、醫(yī)療、應急指揮等關鍵領域提供了強大的數字化、智能化支撐,推動城市治理向智能化、精細化、高效化等方面全面發(fā)展,助力打造決策更科學、管理更精細的先鋒城市。
歐偉杰進一步解釋:“將建筑、道路、植被、水域、地下管廊等城市信息進行數字化以后,我們就得到了一個數字孿生城市,也就是一個與真實世界一模一樣的數字虛擬城市,我們可以在這個虛擬城市中進行模擬、預判,以數字賦能助推城市精細化、智慧化管理。”他舉例說:“近期深圳降雨較多,且偶爾出現瞬時降雨較大的極端情況,那么我們可以在出現類似降雨情況后,在數字孿生城市平臺利用采集的數據和地理空間信息,從而迅速判斷出哪個路口或涵洞可能出現積水,快速協(xié)調相應的政府部門前往現場進行處置,還可以通過導航提醒居民群眾經過那段路的時候,可能會出現積水。如果是傳統(tǒng)的方式,那么就需要人工對每一個路段進行排查!
龍華區(qū)服務人口已接近300萬,人口密度達到2.19萬人/平方公里,遠高于深圳全市8791人/平方公里的平均水平;龍華區(qū)數字孿生平臺的總數據量高達3.6+億條,還需支持1000并發(fā)訪問以及二三維數據的管理和融合查詢,這無疑對國產時空數據庫統(tǒng)一管理的能力提出了極高的要求。崖山數據庫團隊憑借關鍵技術的突破與轉化,在解決數字孿生背景下如何在數據庫中實現高效查詢與分析計算的問題方面,取得了階段性的突破,為支撐龍華區(qū)數字孿生平臺提供強大底層數據管理能力。龍華區(qū)數字孿生平臺整合了全區(qū)的三維空間模型,匯集并融合了多源異構的城市運行全要素數據,為區(qū)內社會治理動態(tài)監(jiān)測、預警、評估提供便捷高效、動態(tài)實時、精準可靠的信息服務。
城市數據的使用是一項創(chuàng)新性工作,在按下“快進鍵”的同時,也要系好“安全帶”。面向智慧城市數字孿生,崖山數據庫提供安全強大的空間數據、半結構化數據管理和計算能力。當前國際形勢復雜多變,自主知識產權的核心技術可以避免對外部技術的依賴,完全把握技術方向,真正做到把信息安全的“房子建在自家地基上”。
數字化轉型,更廣闊的應用場景
崖山數據庫始終致力于解決關鍵技術“卡脖子”難題,助力政府、國企央企的數字化轉型,在各行各業(yè)的應用遍地開花。
據介紹,目前,崖山數據庫系統(tǒng)已兼容適配國內主流軟硬件生態(tài)環(huán)境,在金融、政企、能源、交通、大型央國企集團、線上零售等領域進行了深度的應用和推廣。以能源領域為例,深圳燃氣集團的客戶信息管理系統(tǒng)原先采用某國外主流數據庫系統(tǒng),面臨著數據量大、擴展困難,運維低效等問題,后選用崖山數據庫系統(tǒng)實現無縫遷移,性能和成本方面均取得了明顯收益。
值得一提的是,深算院與深智城、長亮科技、迪思杰DSG等應用廠商聯合,基于崖山數據庫系統(tǒng)打造智慧城市、金融核心、空間數據管理以及數據交互等行業(yè)數據管理解決方案,為重點行業(yè)不同核心場景提供數字化轉型保障。
數字經濟事關國家發(fā)展大局。在推動經濟高質量發(fā)展、建設現代化產業(yè)體系的實踐中,深圳市具有強大產業(yè)優(yōu)勢,擁有眾多國際性數字經濟知名企業(yè)、一流的第三方專業(yè)服務機構,在大數據產業(yè)發(fā)展上擁有強大的產業(yè)優(yōu)勢。大數據作為現代產業(yè)發(fā)展的關鍵要素,其在深圳這樣的先鋒高科技城市中的作用尤為顯著。
要激活大數據新質生產力,歐偉杰表示,首先需要解決數據孤島和碎片化問題。當前,各業(yè)務系統(tǒng)間的數據共享存在障礙,導致數據資源不能有效整合和利用,市民在辦理業(yè)務時,常常出現“由于單位之間的數據不互通,業(yè)務無法辦理”的情況。針對這個問題,崖山自主研發(fā)攻克異構數據有界加速技術,可以通過崖山數據庫直接訪問原有的大數據生態(tài)系統(tǒng),并基于有界計算實現查詢加速,通過“融通、集成、協(xié)同、再造”打造“整體政府”,將“信息孤島”聯結為“數據大陸”,使數據共享更通暢、協(xié)同更高效。
數據質量問題也制約大數據潛能釋放。歐偉杰進一步介紹:“大數據作為新的生產要素,被稱為數字時代的‘石油’。當前數據有兩個方面的問題:一是質量比較差,因為大模型的訓練除了需要大量的算力以外,還需要質量相對較高的語料,而現在普遍是由人工打標簽、標注的方式來提升它的質量,成本高昂,效率低下,且數據質量參差不齊。在深算院,我們的采石磯系統(tǒng)就嘗試通過結合人工智能和一些邏輯的方式,自動對語料打標簽,在降低成本的同時,還能提高標注的準確性和一致性,從而提升數據的整體質量。這就好比數據是‘原油’,系統(tǒng)對其‘提煉’,形成標號的‘汽油’,才能滿足特定需求。”
基礎研究與系統(tǒng)研發(fā)并駕齊驅
數據多樣性導致的融合計算挑戰(zhàn)也不容忽視。深算院在跨模態(tài)融合計算方面進行了深入研究,旨在解決不同類型數據的整合和分析問題。通過跨模融合計算,可以實現面向多模數據的統(tǒng)一融合查詢能力,以及實現更深層次的數據挖掘和知識發(fā)現,充分激活多源異構數據價值。
深算院正在朝著建設世界一流的計算科學基礎研究機構的目標,在以新模式和新速度高速穩(wěn)健發(fā)展。與此同時,深算院也大力推動基礎軟件產業(yè)生態(tài)繁榮發(fā)展,助力科技強國和數字中國建設。2023年11月,崖山數據庫系統(tǒng)正式推出被稱為數據領域技術“制高點”的共享集群技術,在高可用性、高擴展性、高性能等方面取得了突破,為國產數據庫在金融、運營商等國計民生領域的應用奠定了基礎。
歐偉杰表示,未來,深算院將繼續(xù)堅持基礎研究與系統(tǒng)研發(fā)并駕齊驅的創(chuàng)新模式,踐行“四個面向”戰(zhàn)略方向,集聚力量進行原創(chuàng)性引領性科技攻關,致力于打造自主可控的國產基礎軟件產品,以“AI+”賦能培育新質生產力,以科技創(chuàng)新為驅動,積極與大數據產業(yè)鏈上下游公司開展深度合作,共同推動原創(chuàng)基礎研究成果的產業(yè)化落地,全力服務深圳市“基礎研究+技術攻關+成果產業(yè)化+科技金融”全過程創(chuàng)新生態(tài)鏈,助力數字中國建設戰(zhàn)略的實現,努力為國家高水平科技自立自強貢獻力量。