馬斯克xAI新動(dòng)作！Grok 4.1開(kāi)放使用，多項(xiàng)能力表現(xiàn)亮眼引關(guān)注-天脈財(cái)經(jīng)

馬斯克旗下人工智能公司 xAI 毫無(wú)征兆地扔出一枚“重磅炸彈”——最新模型 Grok 4.1 正式登場(chǎng)，且已全面向所有用戶(hù)開(kāi)放。用戶(hù)可在 Grok 官網(wǎng)、社交平臺(tái) X 以及 iOS 和 Android 應(yīng)用等多個(gè)渠道使用這一新模型。

此次更新，Grok 4.1 在 Auto 模式中即刻推送，用戶(hù)還能在模型選擇器中手動(dòng)挑選。xAI 宣稱(chēng)，該模型在真實(shí)世界可用性方面實(shí)現(xiàn)了質(zhì)的飛躍，特別是在創(chuàng)造力、情感互動(dòng)以及協(xié)作交互領(lǐng)域表現(xiàn)卓越。它對(duì)用戶(hù)細(xì)微意圖的感知更為敏銳，對(duì)話更具吸引力，整體人格連貫性更強(qiáng)，同時(shí)延續(xù)了前代模型強(qiáng)大的智能與可靠性。

為了達(dá)成這些提升，xAI 在支撐 Grok 4 的大規(guī)模強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施基礎(chǔ)上，進(jìn)一步優(yōu)化了模型的風(fēng)格、個(gè)性、助人性和對(duì)齊性。并且，針對(duì)不可直接驗(yàn)證的獎(jiǎng)勵(lì)信號(hào)，xAI 開(kāi)發(fā)出全新方法，利用前沿的智能體式推理模型作為獎(jiǎng)勵(lì)模型，實(shí)現(xiàn)大規(guī)模自主評(píng)估與輸出結(jié)果迭代。

在用戶(hù)偏好對(duì)比評(píng)估中，Grok 4.1 展現(xiàn)出強(qiáng)大競(jìng)爭(zhēng)力，相較于此前線上生產(chǎn)模型，有 64.78% 的概率被用戶(hù)優(yōu)先選擇。

在通用能力方面，Grok 4.1 在盲測(cè)的人類(lèi)偏好評(píng)估中樹(shù)立了新標(biāo)桿。在 LMArena 的 Text Arena 排行榜上，其推理模式（代號(hào)：quasarflux）以 1483 的 Elo 分?jǐn)?shù)傲居總榜榜首，領(lǐng)先排名最高的非 xAI 模型 31 分。非推理模式（代號(hào)：tensor）也毫不遜色，無(wú)需使用思維 token 即可即時(shí)響應(yīng)，以 1465 Elo 分?jǐn)?shù)位列第二，即便不啟用推理，也超越了其他所有模型在完整推理配置下的表現(xiàn)。與 Grok 4 相比，Grok 4.1 整體表現(xiàn)大幅提升，此前 Grok 4 總排名僅為第 33 名。

在情感智能領(lǐng)域，xAI 通過(guò) EQ-Bench3 對(duì) Grok 4.1 進(jìn)行測(cè)試。EQ-Bench 是一個(gè)由大語(yǔ)言模型評(píng)判的測(cè)試，用于評(píng)估主動(dòng)情緒智能，涵蓋情緒理解、洞察力、同理心以及人際交往技能等方面。測(cè)試集包含 45 個(gè)具有挑戰(zhàn)性的角色扮演場(chǎng)景，多數(shù)由預(yù)先編寫(xiě)的三輪對(duì)話提示組成，通過(guò)多項(xiàng)標(biāo)準(zhǔn)驗(yàn)證模型回答質(zhì)量并計(jì)算歸一化 Elo 分?jǐn)?shù)。結(jié)果顯示，Grok 4.1 的推理模式和非推理模式在榜單中占據(jù)前兩名。

創(chuàng)意寫(xiě)作方面，xAI 在 Creative Writing v3 基準(zhǔn)測(cè)試上評(píng)估了 4.1 系列模型。該基準(zhǔn)要求模型針對(duì) 32 個(gè)不同寫(xiě)作提示生成回答，并進(jìn)行 3 輪迭代，評(píng)分依據(jù)評(píng)分細(xì)則和模型對(duì)戰(zhàn)的歸一化 Elo 分?jǐn)?shù)。結(jié)果顯示，Grok 4.1 的推理模式和非推理模式分別位居第二和第三名，僅次于早期 GPT 5.1。

針對(duì)配備搜索工具的 Fast（非推理）模型易出現(xiàn)事實(shí)性錯(cuò)誤的問(wèn)題，xAI 在 Grok 4.1 的后訓(xùn)練過(guò)程中著重降低信息查詢(xún)類(lèi)提示的事實(shí)幻覺(jué)。通過(guò)按類(lèi)別分層抽樣評(píng)估模型幻覺(jué)率，并評(píng)測(cè) FActScore（包含 500 個(gè)關(guān)于不同人物的傳記類(lèi)問(wèn)題的公共基準(zhǔn)測(cè)試），觀察到生產(chǎn)環(huán)境信息查詢(xún)提示中幻覺(jué)率顯著下降。