國產數據庫風口再起!對話鏡舟科技CEO孫文現:大模型將爲決策鏈路帶來驚喜

2023-12-6 23 12/6

国产数据库风口再起!对话镜舟科技CEO孙文现:大模型将为决策链路带来惊喜

“我過去的工作經歷,就是一個大數據工程師‘艱難’的一生。”北京鏡舟科技有限公司(簡稱“鏡舟科技”)CEO孫文現在接受時代週報記者採訪時調侃道。

孫文現從業以來一直與數據打交道。早期,他在百度做廣告效果監測,爲防止數據丟失,團隊每間隔一段時間就要進行一次數據恢復,被稱作“反恐24小時”。後來,他加入了金山雲,積累了大數據平臺的研發、解決方案、銷售等多方面的經驗。這些經歷,讓孫文現看到了企業數據分析的痛點及數據庫產業的巨大市場需求。

在2022年3月,孫文現創立了鏡舟科技。同年9月,鏡舟科技發佈了基於StarRocks開發的商業版本鏡舟數據庫。在短短一年時間內,鏡舟數據庫的付費客戶超過了70餘家,覆蓋金融、零售、製造、物流、電商、遊戲、汽車出行等多個行業。

近年來,我國已邁入全球數據庫產業第一梯隊,國產數據庫產業正在迎來大風口。中國通信標準化協會大數據技術標準推進委員會發布的《數據庫發展研究報告(2023年)》顯示,2022年全球數據庫市場規模爲833億美元,中國數據庫市場規模爲59.7億美元(約合403.6億元人民幣),佔全球7.2%。預計到2027年,中國數據庫市場總規模將達到1286.8億元,市場年複合增長率(CAGR)爲26.1%。

而隨着生成式人工智能席捲全球,適應大模型的向量數據庫趨熱,數據庫產業又將發生怎樣的變化?

孫文現在接受時代週報記者採訪時談到,大模型並不會在技術上影響數據庫行業,大模型使用自然語言與用戶對話,中間要依靠數據庫進行轉移。“我們所有的行業合作都不依靠大模型,大模型不是我們的賣點。不過在‘百模大戰’的趨勢下,需求延伸到了數據庫產業。”

孫文現還提到,未來,如果存儲介質成本極低,原始數據全部直接按照列存和行存的方式存在存儲介質裏,且大模型訓練速度極快,可任意回溯,當這些條件都滿足後,數據庫可能就不需要存在了。“但當這些條件一一實現的時候,AI也許就能統籌世界了。”

但不可否認的是,大模型的浪潮給數據庫廠商帶來了一波紅利,鏡舟科技的用戶和訂單量都有所增長。另外,大模型催動向量數據庫需求涌現。孫文現表示,目前正加強數據庫在向量化搜索方面的能力。

數字化轉型的本質是“業財一體化”

Q:目前,中國企業數字化轉型發展到了哪個階段?

孫文現:
數字化轉型分爲兩類。一類是完全沒有進行數字化,如溫州、東莞等地的一些老鞋廠,目前仍然依賴手寫接單。此時要進行的轉型是基於一級數據進行決策,使用一級數據分析得出結果並用於營銷等。很多傳統企業都將此稱作“業財一體化”,也即公司明年的業務指標是由財務定的,讓財務的敏感度直接能夠直達業務的第一線。事實上,數字化轉型的本質就是“業財一體化”,最大的動力也是這個。

在具備一定數字化基礎,初步完成IT化和數字化後,公司就需要做一些開源的事情,進行數字化升級。通過“業財一體化”,公司擬定了業務目標,實現該業務目標的路徑是否可行,要依據市場調研數據、測試數據等進行檢測。

目前,絕大多數企業需要的是數字化升級。我們能看到某些行業互聯網營銷做得越好,數字化升級就越好。財務收入是可以滾動預測的,有的企業即使在歷史上碰到了非常多次資本市場的危機,仍然能夠迅速翻身活過來。

再下一步就是智能化改造。決策鏈中的任何一個人都不是全能的,每個人的想法都有限,依賴於自己的經驗進行決策。所謂大模型,就是能夠爲決策鏈路的提供想象不到的、不確定性的、認知以外的驚喜。其商業價值是非常高的。不確定性產生的購買意願和商業價值,讓商品實現買方定價而非賣方定價。

智能化改造的目的,就是讓大模型集合所有人的經驗,以及歷史上所有可能被學習到的、挖掘到的經驗給出決策建議,這些建議在通常情況下只有特別高級的數據分析師才能給出,而利用大模型進行智能化改造,就已經能輕易實現。

Q:你覺得智能化改造的最大難點是什麼?

孫文現:
它需要同時實現以下三個條線:

第一,數據量足夠大。很多企業是缺數據的,如歷史財務數據、訂單數據、渠道數據等,這種情況就特別難進行智能化改造。但是有一個行業是永遠不缺數據的,監管要求企業必須把過去30年的數據全部保留下來,這就是金融行業。這也是我們重點做金融行業的原因。

在數據不缺的情況下,還有一個技術架構上的問題,即數據不僅要存得好,還要存得便宜,這要求基礎存儲層的優化和效率的提升。

第二,計算能力要強。因爲所有的分析、推理都需要非常強的計算資源,高效能的算力不至於給系統運行帶來過高成本。

第三,計算成本要低。目前大模型最差的使用體驗就在於計算成本太高,普通企業只能租用算力資源,但調取API接口的費用非常昂貴。

當跨越了這三個鴻溝之後,我認爲技術可以改變所有企業的經營模式和員工的工作模式。

向量化數據爲大模型加速

Q:行業內有聲音說“未來可能是一個私有化大模型定義的時代”,你如何看待不同行業對
私有化
大模型
提出的需求?

孫文現
:私有化大模型的前景非常好。企業私有化大模型的關鍵之一是將企業積累的所有結構化和非結構化的數據統一存儲起來,同時調用外部互聯網信息和資源,輔助大模型決策。

如果未來OpenAI所用的框架還能符合摩爾定律,我預估還有3年時間,才能將硬件成本降下來,進而降低公共算力資源的租賃成本。到那時,企業可以基於公用算力資源訓練私有化大模型,同時利用開源的開發框架將精準數據、半精準數據和非精準數據,納入到模型中進行訓練,最後得出一個相對科學的、符合認知又讓人感到驚喜的結論。我認爲這是私有化大模型未來最可能幫助企業的點,尤其是金融、製造類企業。

大模型時代或私有大模型時代,數據庫都不是“主角”,“主角”一定是做模型開發的人、做算力提升的人。

Q:大模型火了之後,向量數據庫變得非常熱門。這對於整個數據庫行業有什麼影響?

孫文現
:向量數據庫的發展對大模型較爲友好,原因是向量數據庫可以做很多非結構數據的分析。現實中也有非常多這樣的需求,如汽車的智能化停車監控等,向量化數據能夠加快大模型的計算速度。

目前,我們的產品還不具備這樣的能力。在鏡舟數據庫3.2版本發佈後,我們將與騰訊合作,加強向量化搜索。

國產數據庫崛起

Q:近年來,
國產
數據庫漸成趨勢,我國數據庫和國外傳統數據庫的差距主要在哪裏?

孫文現:
技術上基本沒有差距,甚至隨着中國互聯網公司下場做數據庫,在技術積澱方面已經超過海外的傳統數據庫廠商了。

主要差距在於成熟度上,每家企業對於這一項目的評價指標不一,概括起來主要包括三個維度:一是市場維度,如市場佔有率、用戶或客戶數量等;二是用戶的反饋,如應用性、穩定性、可靠性等;三是公司經營的成熟度,研發的規範性、有效性等。

例如,過去我們使用MySQL(關係型數據庫管理系統)一般不會使用最新版本,多用半年前的版本——可以簡單地認爲,成熟度高等於使用的人多。如Oracle等數據庫運行的時間足夠長,積累了大量的用戶和數據,研發支持者衆多,投入也較爲巨大,這是目前中國任何一家數據庫廠商都很難匹敵的。

Q:如果國產數據庫“彎道超車”,可能的方向是什麼?

孫文現:
這個彎道已經找到了,並且正在“超車”。目前,國產數據庫分佈式技術的性能和在某些情況下的易用性,已經超過國外。以Oracle爲標杆,即使國產數據庫在每個方面都超過了Oracle,最後集合起來是否能全面超過Oracle,現在還不好說,需要整個產業共同決定。

Q:鏡舟數據庫是依託於開源StarRocks發展起來的國產企業級分佈式數據庫,開源與商業化並行,如何平衡二者之間的關係?

孫文現
:開源能夠讓企業快速瞭解其忠實用戶,同時具備市場洞察能力和嗅覺。

鏡舟在創立之初就拒絕閉門造車,當我們決定做某個產品之前,必須要求產品經理和前線人員溝通十個以上的客戶,確認其所認知到的“痛點”是真實存在且具備普適性的,同時我們還要考慮到了開源用戶的需求。

如果純做商業化,那麼公司能看到的只有客戶的需求和合同化的訂單,慢慢會失去市場洞察力,戰略和產品策略調整也會遲鈍。我們看到很多同行只做商業化而不做開源的,碰到的最大困難就是案例難以複製,不具有生命力。

鏡舟將開源與商業化融合統一,同等對待開源用戶與付費客戶,開源用戶基本就等同於我們的商業用戶。尤其是騰訊、小紅書、攜程、滴滴、阿里、火山引擎、金山雲等合作伙伴,它們能爲公司提供代碼,實現雙贏。

Q:能否透露公司目前的營收情況?未來
規劃是什麼?

孫文現
:我們每年以兩倍多的速度增長,預計明年能夠實現收支平衡。

在產品策略上,我們主推金融。因爲金融行業的IT非常發達,且金融產品的迭代能力非常快,基本上不會長期使用開源,付費意願較高。未來,我們營收規模最大的可能是金融行業,第二大是新零售行業(包括快遞物流等)。