Mike Stonebraker,這位2014年圖靈獎得主,因其在數(shù)據(jù)庫系統(tǒng)領(lǐng)域的開創(chuàng)性貢獻(xiàn)而廣受贊譽(yù)。他的研究成果不僅被寫進(jìn)教科書,還催生了多個商業(yè)上成功的工程系統(tǒng),如Ingres、Postgres、Vertica、VoltDB和SciDB等。最近,Stonebraker做客meta資深工程師Ryan Peterman的播客,分享了他對數(shù)據(jù)庫行業(yè)的深刻見解以及對人工智能(AI)的獨(dú)到看法。
在對話中,Stonebraker直言不諱地批評了行業(yè)中的一些做法。他提到,Oracle的創(chuàng)始人Larry Ellison在推廣產(chǎn)品時,常常混淆現(xiàn)在時和將來時,實(shí)際上是在對客戶撒謊。他還對Google過去推崇的MapReduce和最終一致性表示質(zhì)疑,認(rèn)為這些技術(shù)不僅效率低下,而且在處理復(fù)雜數(shù)據(jù)時存在嚴(yán)重缺陷。對于亞馬遜同時維護(hù)多個數(shù)據(jù)庫系統(tǒng)的做法,他也認(rèn)為過于冗余,建議精簡至三個以內(nèi)。
談到AI,Stonebraker認(rèn)為當(dāng)前的agentic AI大多還停留在“只讀”階段,即只能進(jìn)行數(shù)據(jù)分析和預(yù)測,而無法真正修改數(shù)據(jù)庫中的數(shù)據(jù)。然而,一旦AI開始進(jìn)行讀寫操作,比如兩個agent協(xié)作完成轉(zhuǎn)賬,問題就會回到數(shù)據(jù)庫的核心領(lǐng)域:事務(wù)、一致性和原子性。他指出,盡管大模型在公開的text-to-SQL基準(zhǔn)上表現(xiàn)不錯,但在真實(shí)生產(chǎn)環(huán)境中的準(zhǔn)確率卻極低,甚至為零。這表明,至少在可見的未來,這項(xiàng)技術(shù)還不足以投入生產(chǎn)使用。
Stonebraker還分享了他對數(shù)據(jù)庫系統(tǒng)發(fā)展的看法。他認(rèn)為,一種數(shù)據(jù)庫不可能解決所有問題,針對不同需求設(shè)計(jì)專門的數(shù)據(jù)庫方案才是正確的方向。他舉例說,流處理數(shù)據(jù)庫、列存數(shù)據(jù)庫和關(guān)系數(shù)據(jù)庫在實(shí)現(xiàn)上完全不同,但每種都比通用數(shù)據(jù)庫快一個數(shù)量級。因此,使用不適合工作負(fù)載的數(shù)據(jù)庫會付出巨大的性能代價。
在談到自己的職業(yè)生涯時,Stonebraker回憶了他在伯克利大學(xué)如何從零開始構(gòu)建Ingres和Postgres的過程。他強(qiáng)調(diào),學(xué)術(shù)版Ingres最初的目標(biāo)是支持地理信息系統(tǒng)(GIS),但由于數(shù)據(jù)類型限制而失敗。這一教訓(xùn)促使他在Postgres中設(shè)計(jì)了可擴(kuò)展的類型系統(tǒng),使其能夠高效支持各種抽象數(shù)據(jù)類型。這一創(chuàng)新大大擴(kuò)展了Postgres的適用范圍,使其成為開源關(guān)系型數(shù)據(jù)庫的首選。
對于年輕工程師,Stonebraker建議他們尋找那些能夠挑戰(zhàn)自我、實(shí)現(xiàn)三倍于合理工作量目標(biāo)的機(jī)會。他認(rèn)為,真正出色的工程師通常能夠輕松應(yīng)對深度技術(shù)問題,而識別不聰明的人也只需通過簡單的對話即可。他還提到,自己天生不適合大公司的官僚環(huán)境,更喜歡在學(xué)術(shù)界和創(chuàng)業(yè)領(lǐng)域發(fā)揮作用。
在對話的最后部分,Stonebraker介紹了他的最新項(xiàng)目DBOS(Database Operating System)。這個項(xiàng)目起源于一個學(xué)術(shù)想法:用數(shù)據(jù)庫技術(shù)來管理操作系統(tǒng)中的大規(guī)模數(shù)據(jù)。盡管最初的目標(biāo)是替換Linux內(nèi)核,但實(shí)際商業(yè)化的產(chǎn)品更側(cè)重于編程語言和持久化工作流。DBOS支持多種編程語言,并在云環(huán)境中表現(xiàn)出色,尤其在處理agentic AI的讀寫操作時具有原子性和一致性的優(yōu)勢。
對于數(shù)據(jù)庫領(lǐng)域的未來,Stonebraker認(rèn)為,盡管大模型在text-to-SQL任務(wù)上表現(xiàn)不佳,但隨著技術(shù)的進(jìn)步,這一問題有望得到解決。他強(qiáng)調(diào),將所有數(shù)據(jù)轉(zhuǎn)化為表格形式,并利用查詢優(yōu)化器進(jìn)行連接,是處理復(fù)雜結(jié)構(gòu)化數(shù)據(jù)的有效方法。他還看好agentic AI在讀寫操作中的發(fā)展?jié)摿ΓJ(rèn)為這將是一個充滿機(jī)遇的領(lǐng)域。





















