本文是“2021 InfoQ 年度技術盤點與展望”系列文章之一,由 InfoQ 編輯部制作呈現,重點聚焦操作系統在 2021 年的重要進展、動态,希望能幫助你準确把握 2021 年操作系統的核心發展脈絡,在行業内始終保持足夠的技術敏銳度。“InfoQ 年度技術盤點與展望”是 InfoQ 全年最重要的内容選題之一,将涵蓋架構、AI、大數據、大前端、雲計算、數據庫、中間件、操作系統、開源、編程語言十大領域,後續将聚合延展成專題、迷你書、直播周、合集頁面,在 InfoQ 媒體矩陣陸續放出,歡迎大家持續關注。特此感謝方勇、黃東旭、李海翔、羅榮龍、楊傳輝(花名日照)(按姓名首字母排序)對本文的貢獻,他們的真知灼見,是本文能與大家見面的關鍵。
2021 年以來,企業數字化轉型進入深水區,行業數字化場景爆發式增長,數據以指數級數量增長。就在去年,我國也明确了數據在市場化配置過程中成為了繼土地、勞動力、技術、資本之後的第五大生産要素,數據在社會發展進程中的重要性不言而喻。
承擔數據存儲與計算的數據庫與操作系統、中間件并列為三大基礎軟件,數據庫的種類非常多,常見的有從數據模型上對其進行劃分的,包括關系型數據庫、文檔型數據庫、圖模型數據庫,以及綜合了多種模型的多模數據庫等;再有從架構角度區分的,有單機型數據庫、主備數據庫、分布式數據庫等;還有從應用類型的角度區分的,如 OLTP、OLAP 等;以及從技術特征區分的,帶有時代特性,如 NoSQL、NewSQL 等。所以嚴格來講,數據庫沒有固定的劃分标準。
那麼,整體來看,數據庫領域 2021 年發生了哪些值得關注的大事件?業内資深大咖們又觀察到了哪些技術趨勢?
2021 年數據庫領域重大事件回顧2 月 24 日,華為雲正式發布雲數據庫 GaussDB(for openGauss)全網商用。GaussDB(for openGauss)是華為基于 openGauss 自研生态推出的企業級分布式數據庫,能為企業提供高可用、功能完備、性能卓越、開放生态、極緻彈性的企業級數據庫服務。
2021 年 3 月 19 日,中央政府采購網發布《中央國家機關 2021 年數據庫軟件協議供貨采購項目成交公告》,21 家數據庫廠商入圍,其中除了甲骨文的 Oracle 和微軟的 SQL Server,其餘全部為國産數據庫,份額達到 90%。
3 月 12 日,新華社受權全文播發《中華人民共和國國民經濟和社會發展第十四個五年規劃和 2035 年遠景目标綱要》。其中值得關注的是,“開源”首次被明确列入國民經濟和社會發展五年規劃綱要。
4 月 25 日,PingCAP 正式發布面向企業級核心場景的 TiDB 5.0 版本。TiDB 5.0 在性能、穩定性、易用性等方面均取得了巨大進步,并在事務處理、高可用與容災、安全合規等方面新增多項企業級特性,通過引入 MPP (Massively Parallel Processing,即大規模并行處理)架構成為具備完整 HTAP 能力的分布式數據庫,為企業數字化轉型提供一棧式數據服務平台。
5 月 11 日,浪潮發布開源國産數據庫 ZNBase 2021 發展規劃。ZNBase 是浪潮開源的一款 NewSQL 分布式數據庫,具備強一緻、高可用分布式架構、分布式水平擴展、高性能、企業級安全等特性,支持完整 ACID,支持 PostgreSQL 協議訪問,同時提供自動化運維、監控告警等配套服務。可為用戶提供完整的分布式數據庫解決方案。
5 月 18 日,騰訊雲發布首款全自研分布式分析型數據庫 TDSQL-A,以應對海量數據實時分析需求。這是騰訊雲數據庫在品牌升級後的首次新品發布。TDSQL-A 是騰訊首款全自研的分布式分析型數據庫,支持行列混合存儲,适應于海量 OLAP 關聯分析查詢場景,全面兼容 PostgreSQL 語法、高度兼容 Oracle 語法。
6 月 1 日,螞蟻集團自研數據庫 OceanBase 宣布開源,開放近 300 萬行源代碼,采用木蘭協議,代碼托管主站在 Gitee,鏡像在 GitHub,同時成立 OceanBase 開源社區,社區官網同步上線。最新的 OceanBase 3.0 版本,讓 OceanBase 同時具備了在事務處理和數據分析兩類任務的高性能能力,升級為一款支持 HTAP 混合負載的企業級分布式數據庫。和過去相比,事務處理性能提升 50%,數據分析性能提升 10 倍。
6 月 10 日,《中華人民共和國數據安全法》(簡稱《數據安全法》)經十三屆全國人大常委會第二十九次會議表決通過,并将于 2021 年 9 月 1 日起正式施行。《數據安全法》出台,标志着我國将數據安全保護的政策要求,通過法律文本的形式進行了明确和強化,為數據作為新的生産要素推動創新和經濟發展提供了法律依據,将為下一階段數字經濟的安全發展保駕護航。
6 月 20 日,全球公認三大數據庫頂尖會議之首的 SIGMOD 在西安舉辦,這也是時隔 14 年後 SIGMOD 大會再度回歸(2007 年 SIGMOD 第一次在中國北京舉辦)。
7 月 8 日,阿裡雲 RDS 數據庫進行品牌升級,推出雲原生企業級自治數據庫。
7 月 9 日,國家電網有限公司具有自主知識産權的電力行業圖數據庫産品“GridGraph”在 2021 世界人工智能大會正式發布。中國工程院院士倪光南表示:“在圖數據庫自主創新方面,我國從 2019 年起開始自主研制電力專用圖數據庫,實現了核心技術工具的技術創新和自主可控,有力支撐了‘電網一張圖’建設。
經過了近三個月的沉澱後,9 月 1 日,《數據安全法》正式落地實施。中國信息通信研究院聯合 30 餘家單位正式發起“數據安全推進計劃”(Data Security Initiative,以下簡稱“DSI”)。DSI 是一個公益性合作項目,将依托大數據協同安全技術國家工程實驗室、中國通信标準化協會大數據技術标準推進委員會、中國互聯網協會數據治理工作委員會開展具體工作,緻力于打造健康規範的數據安全生态體系,幫助企業了解監管要求,全方位提升企業數據安全能力。
9 月 17 日,TiDB 社區首批通過可信開源社區評估,獲評 OSCAR 尖峰開源項目及開源社區。會上中國信通院雲大所所長何寶宏發布了由 PingCAP 和中國信通院聯合撰寫的業内首個《開源社區成熟度白皮書》。
10 月 20 日,阿裡雲在 2021 雲栖大會現場宣布正式開源雲原生分布式數據庫 PolarDB-X 的源代碼,将自研雲原生分布式核心技術分享出來,進一步推動雲原生分布式數據庫發展。
12 月 20 日,OceanBase 通過工信部電子标準院首批開源項目成熟度評估。
這一年,從業者看到的幾大現象近兩年,作為基礎軟件之一,數據庫可以稱得上是最火熱的一個賽道,這背後根本的原因是因為大家認識到了數據的重要性。技術發展到如今,上層應用和底層基礎設施發生的了翻天覆地的變化,而這種變化一定會推動中間層——數據庫的變化,也就是說,光靠傳統的狹義的數據庫已經無法解決當下的新需求了,我們需要一些新内容注入到數據庫中。而這一年,關于數據庫的發展,從業者眼中看到了幾大現象。
數據庫産品工程化程度變高
多家産品走向金融行業,開始落地生産環境
2010 年起,随着雲計算技術的快速興起,雲數據庫技術也順勢得到了迅猛發展,這給了國産數據庫廠商彎道超車的機會。多家産品走向金融行業,開始落地生産環境。在過去的一年裡,騰訊雲 TDSQL 落地在中國銀行和農業銀行等;OceanBase 在金融行業擁有多個标杆案例客戶如工商銀行、建設銀行、南京銀行、廣東農信、中華财險等,另外在運營商場景中也有落地,客戶數突破 400 ;而華為 GaussDB(for openGauss),主打政企核心業務負載的金融級分布式數據庫,在性能、可用性、彈性方面全面提升,并且已經受金融業務全場景的嚴苛考驗;PingCAP TiDB 成功應用于浦發銀行、北京銀行、浙商銀行、中國人壽、平安科技、微衆銀行等多家金融企業的聯機交易、在線支付、信貸管理、實時風控等場景。
各類型數據庫走向“大一統”
随着雲上技術和基礎設施的日臻成熟,數據庫領域迎來了的“大一統”。
數據庫的種類紛繁複雜,以前集中式數據庫和分布式之間有明顯的邊界,而近年來,這條邊界正在逐漸模糊,集中式數據庫和分布式數據庫在慢慢融合,兩者能夠在同一套架構裡互有補益,這是第一種融合。
其次,OLTP 數據庫跟 OLAP 數據庫也在融合,比如 OceanBase 底層是基于原生分布式架構,在解決數據量問題的同時,在一套系統裡又能做好交易、也能做好分析,這是 OLTP 和 OLAP 的融合;TiDB 今年發布的 5.0 版本也提供了完整的 HTAP 混合負載處理能力,引入了 MPP 引擎,在實時性與一緻性前提下實現 OLTP 和 OLAP 負載完全隔離,在中通快遞雙十一等讀寫雙高的極緻場景下提供優異的性能和穩定性。
第三個融合,是傳統數據庫跟炙手可熱的大數據之間的融合。傳統數據庫更偏向結構化、事務化的數據的處理,大數據更偏向非結構化、非事務化的數據的處理。當前新型的數據庫,既能處理傳統數據庫擅長的事務型工作,又能适配大量的 SQL 語法兼容當前的數據開發工作,甚至能進行非結構化、分布式計算的大數據類型工作,所以數據庫基本上是朝着一個融合的趨勢發展的。
其實數據庫的“大一統”是業内人士一直在嘗試去做的事情,隻是彼時苦于雲上技術和基礎設施不夠成熟而無法實現。但是最近兩年,這些條件基本已經成熟了,所以 HTAP 才能變成了可能。
甩掉“落伍”數據庫的包袱
因此甩掉“落伍”的數據庫的包袱,對數據庫的發展來說是一個利好。
新型數據庫的迅速崛起,給傳統數據庫帶來了一定沖擊。以 Hadoop 為例,Apache Hadoop 作為一個完整的開源大數據套件,在過去的十多年裡深刻影響了整個計算機界,但随着各類新興技術的發展,面對種種新需求時,Hadoop 已經明顯“力不從心”了。就在今年,13 個與大數據相關的 Apache 項目(包括 Sentry、Tajo 和 Falcon)宣布取消,這就給了新技術庫騰出了更多的發展空間。
數據庫的發展必須要跟業務場景相結合,新的技術要有場景和人去使用才會有它的進步空間,如果老舊的數據庫架構一直占用着有限的應用場景,那麼新技術的發展空間就會受到限制,因此甩掉“落伍”的數據庫的包袱,對數據庫的發展來說是一個利好。
資本進入,為數據庫添了一把火
資本的進入,為數據庫領域添了一把火。
資本都是逐利的,而在基礎軟件領域,數據庫無疑是最受資本青睐的一塊“大蛋糕”。2020 年 9 月,Snowflake 在紐約證券交易所上市,讓人震驚的是,上市首日股價大漲超 110%,估值翻了一番多,從 330 億美元增至 700 多億美元,并一舉成為了美國有史以來 IPO 規模最大的一家軟件公司。
Snowflake 在股市中的強勁表現背後釋放出了一種信号:開源及數字基礎設施被資本盯上了!據《2021 年數據庫發展研究報告》顯示,從融資總量上看,我國數據庫産業投融資在近幾年呈井噴式爆發。從 2013 年開始,數據庫企業逐步吸引了資本的目光。
據不完全統計,2021 年各企業完成千萬級甚至上億級融資數量在 14 輪以上。對比我國數據庫初創企業成立時間分布可以看出,衆多初創數據庫企業經過幾年的技術積累與市場運作,已逐步在資本市場嶄露頭角。資本的進入,為數據庫領域添了一把火。
圖片來源:國家工信安全中心整理
2022 年數據庫未來展望數據庫并不是一個新領域,它已經發展了 40 年,可作為基礎軟件之一,它是一個既傳統又古老的領域。回顧數據庫的發展曆史,1980 年到 1990 年屬于商業起步階段,此時 Oracle、IBM DB2、Sybase 以及 SQL Server 和 Informix 等開始出現。1990 年至 2000 年,開源數據庫開始展露頭角,出現了 PostgreSQL 和 MySQL 等。
在剛剛過去的 2021 年,随着資本的強勢進入,各類型數據庫趨于融合,數據庫未來的發展趨勢也将會發生一些改變,主要概括為以下幾點:
開源将更加深入
就我國目前基礎軟件的現狀來看,尤其是數據庫領域,如果不做開源,基本上是不太有未來的。
最早的技術軟件,比如一些數據庫、存儲和商業軟件,其他都是不開源的,但是發展到一定階段以後,都要經曆開源的過程,數據庫領域也是如此,主要原因在于:
第一、就我國目前基礎軟件的現狀來看,尤其是數據庫領域,如果不做開源,基本上是不太有未來的。這背後的這個原因很簡單:對于用戶來說,對于數據庫這樣重要的基礎軟件來說,如果它是一個黑盒,那麼用戶很難對它産生信任;
第二、開源的數據庫更容易構建出屬于開源數據庫的生态。如果你是個閉源的數據庫,就會将很多想要尋求合作的夥伴拒之門外,而且數據庫如果最後要成熟、成功,它必須要依靠生态去推進,單純依靠一項技術或者一個軟件很難去構建出生态;
第三、現在的業務場景都是非常敏捷的,如果不是開源數據庫,沒有很好的開源社區來貢獻力量,那麼數據庫廠商的視角永遠是滞後的,因為隻有搞業務的人才知道這個東西應該怎麼用以及應該往什麼方向發展。閉源的數據庫反饋鍊條會特别長,而業務變化又很快,所以它是跟不上時代進步的。
而随着開源的日益深入,商業數據庫的市場也受到了一定的沖擊,有一些閉源的數據庫的廠商,就可能推出曆史舞台。然而,這種沖擊也并非全是壞事,更多的數據庫廠商在看到了這種沖擊後,很快找到了一條可以平衡開源和商業化的道路。
其實開源數據庫離真正的商業需求還是有一定差距的,開源數據庫無法定制化地滿足一些客戶的特定需求和服務,這時候就需要開源數據庫的商業版來彌補這樣的不足,所以每一家雲廠商還是能夠在開源背後平衡好兩者之間的關系的,當越來越多的人去使用數據庫去解決它的業務問題時,将會創造更大的市場。
“雲 分布式”數據庫是大勢所趨
所有面向雲設計的數據庫一定是分布式的。
2021 年,數據庫領域可謂是百花齊放。而這其中,分布式數據庫的表現尤為亮眼,很多業内人士将這一年視為分布式數據庫的元年。
分布式數據庫由多個相互連接的數據庫組成,這些數據庫組合在一起形成一個面向用戶的單個數據庫。實際上它們分布在各個數據中心,通過中央服務器進行通信。分布式數據庫具有高可擴展性、高并發性和高可用性的特點。
根據 Gartner 測算,全球分布式數據庫軟件市場規模持續走高,年複合增長率達 16.9%;而根據 IDC 的預測,中國的關型數據庫的市場則發展更加迅猛,年複合增長率接近 30% 左右,在這其中雲數據庫和分布式數據庫的增長貢獻非常大。
所有面向雲設計的數據庫一定是分布式的。Gartner 指出,雲計算将主導數據庫市場的未來,到 2022 年,75% 的數據庫将被部署或遷移至雲平台,隻有 25% 的數據庫會在本地運行。随着企業業務更加數字化、智能化,企業面臨的數據存儲量将會更加巨大,面臨着更多突發狀況帶來的挑戰,想要進一步降本增效并讓數據更好地進行決策,那麼就需要進入“雲 分布式”的時代。
DB-Engines 今年 12 月份數據庫排名顯示,傳統數據庫霸主 Oracle 依然穩居榜首,但據去年同期分數下跌 43.86;知名開源數據庫 MySQL 位列第二,分數較去年同期下跌 49.41,較上個月下跌 5.48;而位居榜三的微軟 SQL Server 分數較去年同期下跌 84.07,穩占“同期跌幅榜冠軍”。
此外,從 DB-Engines 發布的數據上還可以看出,開源數據庫 PostgreSQL、MongoDB 雖然排名不及 Oracle 和微軟 SQL Server,且短時間内與兩者有一定差距,但 PostgreSQL 的分數較去年同期上漲 60.64,穩穩拿下了“本月同期漲幅冠軍”。
圖片來源:DB-Engines
圖片來源:墨天輪
在全社會都在積極進行數字化轉型的大背景下,傳統數據庫的很多技術如緩沖區管理、各種對象的創建等都受到了資源的限制,因此很難有更廣闊的發展空間,而雲原生數據庫、開源數據庫等新一代數據庫正在加速崛起。
原創硬核技術将成為驅動企業成長的原動力
原創硬核技術的核心價值在于具有突破性,能帶來巨大的增量空間。
任何一項技術,沒有原創性、沒有壁壘,都不過是空中樓閣,數據庫産品也是如此。最近幾年,對于數據庫基礎理論的研究也更加深入,許多廠商開始重視基礎技術理論研究,這是一個好的開端。如 TDSQL 在事務處理的并發訪問控制層面,對最核心的數據異常問題能展開體系化的研究,提出數據異常并指明造成問題的本質,并對數據異常進行分類研究,指出數據異常和隔離級别等的關系等。這就是基礎理論的進步推動了具體技術的叠代。國産自研數據庫技術要想進步,就需要在基礎理論層面多做工作,基礎理論的突破,會帶來巨大的增量空間。
AI 和數據庫更加融合
AI 與數據庫是相互輔助的關系。
在過去的五十年中,數據庫(DB)和人工智能(AI)技術都得到了廣泛的應用。數據庫系統已在金融、醫療等多個領域中得到使用,而人工智能技術借助算法、數據集、硬件等方面的進步,近三十年取得了飛速發展。二者的交叉技術通過結合數據庫中系統設計、查詢優化、數據管理等方面的技術和人工智能從曆史數據中學習的優勢,幫助解決各自的問題。
數據和人工智能,像一枚硬币的正反面,兩者是不分家的。作為承載數據的數據庫,它與人工智能的關系也同樣十分緊密,人工智能中間的一些過程,比如存儲、智能推薦等都要用到數據庫,而人工智能也需要為數據庫服務,比如當下很火的自治數據庫,能做一些智能的搜索、優化、運維等工作,背後也都是 AI 的力量在推動,在數據庫中融入 AI,會讓那些靠人工操作基本搞不定的工作變得更簡單,所以 AI for DB 是一條很新,但必須要走的路。
采訪嘉賓(按姓名首字母排序):
方勇,好大夫基礎架構部高級工程師
黃東旭,PingCAP 聯合創始人兼 CTO
李海翔,騰訊 TDSQL 分布式數據庫首席架構師
羅榮龍,中國電子科技集團子公司金信軟件股份有限公司 高級技術專家
楊傳輝(花名:日照),螞蟻 OceanBase CTO
,