AlphaGo核心人物戴維·席爾瓦創(chuàng)業(yè)：10億美元融資，探索強化學習新路徑

發(fā)布時間：2026-02-21 01:47 來源：快訊作者：顧雨柔

人工智能領域迎來一位重量級創(chuàng)業(yè)者的身影——前谷歌DeepMind首席科學家、AlphaGo項目核心負責人戴維·席爾瓦（David Silver）宣布在倫敦創(chuàng)立人工智能公司"Ineffable Intelligence"。據(jù)知情人士透露，這家初創(chuàng)企業(yè)正在推進規(guī)模達10億美元的種子輪融資，目前已進入收官階段。這一融資規(guī)模與OpenAI前首席科學家伊利亞·蘇茨克維（Ilya Sutskever）2024年創(chuàng)立的Safe Superintelligence（SSI）持平，創(chuàng)下AI初創(chuàng)企業(yè)融資新紀錄。

與當前主流的大語言模型技術(shù)路線形成鮮明對比，席爾瓦的新公司明確提出要突破傳統(tǒng)范式。其核心戰(zhàn)略是回歸強化學習（Reinforcement Learning）本質(zhì)，構(gòu)建能夠自主探索未知領域的智能系統(tǒng)。這種技術(shù)路徑不依賴人類既有知識庫，而是通過智能體與環(huán)境的持續(xù)交互實現(xiàn)自我進化。作為圖靈獎得主查理·薩頓（Charlie Sutton）的得意門生，席爾瓦在強化學習領域深耕二十余年，其學術(shù)成果被引用超28萬次，2019年更榮獲ACM計算獎。

2025年4月，席爾瓦與導師薩頓聯(lián)合發(fā)表的《歡迎來到經(jīng)驗時代》論文引發(fā)學界震動。該研究提出新一代AI系統(tǒng)應聚焦"經(jīng)驗學習"——通過持續(xù)試錯、自我迭代和長期互動積累知識，而非單純依賴靜態(tài)數(shù)據(jù)訓練。這一理論框架直接構(gòu)成了Ineffable Intelligence的技術(shù)基石。論文指出，當前主流的"預訓練+微調(diào)"模式存在根本性局限：AI的能力邊界被人類數(shù)據(jù)規(guī)模和質(zhì)量所束縛，難以實現(xiàn)真正的認知突破。

資本市場對席爾瓦的技術(shù)路線表現(xiàn)出強烈信心。參與融資談判的投資人分析，10億美元的天價估值主要基于兩點考量：一是席爾瓦在AI領域的權(quán)威地位，二是其提出的"后大模型時代"技術(shù)路線具有戰(zhàn)略前瞻性。盡管公司尚未發(fā)布任何產(chǎn)品，但多位頂級風投機構(gòu)已承諾注資，認為這可能是通往通用人工智能（AGI）的全新路徑。

這場技術(shù)路線之爭正引發(fā)AI界的深刻變革。2024年以來，多位參與AlphaGo項目的核心成員陸續(xù)離職創(chuàng)業(yè)，其中Reflection AI同樣聚焦強化學習領域。meta首席AI科學家楊立昆（Yann LeCun）則帶領團隊重組"超級智能實驗室"，探索非Transformer架構(gòu)的新路徑。行業(yè)觀察家指出，當前局面與2010年代深度學習爆發(fā)前夜頗為相似，學界普遍意識到現(xiàn)有大模型可能并非通往AGI的終極方案。

不過，席爾瓦的激進路線也面臨現(xiàn)實挑戰(zhàn)。批評者指出，強化學習在圍棋等規(guī)則明確的環(huán)境中表現(xiàn)優(yōu)異，但在現(xiàn)實世界這類開放環(huán)境中，其有效性尚未得到充分驗證。大語言模型的成功恰恰在于語言作為人類智慧載體的高效性——通過學習語言，AI能以較低成本獲取常識知識。若完全摒棄這條路徑，Ineffable Intelligence可能需要構(gòu)建極其復雜的數(shù)字孿生系統(tǒng)，其算力成本將呈指數(shù)級增長。

據(jù)悉，Ineffable Intelligence已在倫敦設立總部，并啟動全球頂尖強化學習專家的招募計劃。雖然公司尚未公布具體產(chǎn)品路線圖，但其技術(shù)方向和資源投入規(guī)模，已使其成為影響AI技術(shù)演進的關(guān)鍵力量。這場由技術(shù)理想主義驅(qū)動的創(chuàng)業(yè)實驗，或?qū)⒅匦露x人工智能的發(fā)展邊界。

更多>同類內(nèi)容