真实夫妻露脸自拍视频在线播放-亚洲精品乱码久久久久久蜜月-免费动漫成人av在线观看-中文字幕av三区三级爽-日韩熟女人妻一区二区-亚洲欧美乱日韩乱国产-一二三四区中文字幕在线-国产美女香蕉久久精品-久久视频在线播放视频

馬斯克xAI新動(dòng)作!Grok 4.1開(kāi)放使用,多項(xiàng)能力表現(xiàn)亮眼引關(guān)注

   時(shí)間:2025-11-18 13:06 來(lái)源:天脈網(wǎng)作者:顧青青

馬斯克旗下人工智能公司 xAI 毫無(wú)征兆地扔出一枚“重磅炸彈”——最新模型 Grok 4.1 正式登場(chǎng),且已全面向所有用戶(hù)開(kāi)放。用戶(hù)可在 Grok 官網(wǎng)、社交平臺(tái) X 以及 iOS 和 Android 應(yīng)用等多個(gè)渠道使用這一新模型。

此次更新,Grok 4.1 在 Auto 模式中即刻推送,用戶(hù)還能在模型選擇器中手動(dòng)挑選。xAI 宣稱(chēng),該模型在真實(shí)世界可用性方面實(shí)現(xiàn)了質(zhì)的飛躍,特別是在創(chuàng)造力、情感互動(dòng)以及協(xié)作交互領(lǐng)域表現(xiàn)卓越。它對(duì)用戶(hù)細(xì)微意圖的感知更為敏銳,對(duì)話更具吸引力,整體人格連貫性更強(qiáng),同時(shí)延續(xù)了前代模型強(qiáng)大的智能與可靠性。

為了達(dá)成這些提升,xAI 在支撐 Grok 4 的大規(guī)模強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施基礎(chǔ)上,進(jìn)一步優(yōu)化了模型的風(fēng)格、個(gè)性、助人性和對(duì)齊性。并且,針對(duì)不可直接驗(yàn)證的獎(jiǎng)勵(lì)信號(hào),xAI 開(kāi)發(fā)出全新方法,利用前沿的智能體式推理模型作為獎(jiǎng)勵(lì)模型,實(shí)現(xiàn)大規(guī)模自主評(píng)估與輸出結(jié)果迭代。

在用戶(hù)偏好對(duì)比評(píng)估中,Grok 4.1 展現(xiàn)出強(qiáng)大競(jìng)爭(zhēng)力,相較于此前線上生產(chǎn)模型,有 64.78% 的概率被用戶(hù)優(yōu)先選擇。

在通用能力方面,Grok 4.1 在盲測(cè)的人類(lèi)偏好評(píng)估中樹(shù)立了新標(biāo)桿。在 LMArena 的 Text Arena 排行榜上,其推理模式(代號(hào):quasarflux)以 1483 的 Elo 分?jǐn)?shù)傲居總榜榜首,領(lǐng)先排名最高的非 xAI 模型 31 分。非推理模式(代號(hào):tensor)也毫不遜色,無(wú)需使用思維 token 即可即時(shí)響應(yīng),以 1465 Elo 分?jǐn)?shù)位列第二,即便不啟用推理,也超越了其他所有模型在完整推理配置下的表現(xiàn)。與 Grok 4 相比,Grok 4.1 整體表現(xiàn)大幅提升,此前 Grok 4 總排名僅為第 33 名。

在情感智能領(lǐng)域,xAI 通過(guò) EQ-Bench3 對(duì) Grok 4.1 進(jìn)行測(cè)試。EQ-Bench 是一個(gè)由大語(yǔ)言模型評(píng)判的測(cè)試,用于評(píng)估主動(dòng)情緒智能,涵蓋情緒理解、洞察力、同理心以及人際交往技能等方面。測(cè)試集包含 45 個(gè)具有挑戰(zhàn)性的角色扮演場(chǎng)景,多數(shù)由預(yù)先編寫(xiě)的三輪對(duì)話提示組成,通過(guò)多項(xiàng)標(biāo)準(zhǔn)驗(yàn)證模型回答質(zhì)量并計(jì)算歸一化 Elo 分?jǐn)?shù)。結(jié)果顯示,Grok 4.1 的推理模式和非推理模式在榜單中占據(jù)前兩名。

創(chuàng)意寫(xiě)作方面,xAI 在 Creative Writing v3 基準(zhǔn)測(cè)試上評(píng)估了 4.1 系列模型。該基準(zhǔn)要求模型針對(duì) 32 個(gè)不同寫(xiě)作提示生成回答,并進(jìn)行 3 輪迭代,評(píng)分依據(jù)評(píng)分細(xì)則和模型對(duì)戰(zhàn)的歸一化 Elo 分?jǐn)?shù)。結(jié)果顯示,Grok 4.1 的推理模式和非推理模式分別位居第二和第三名,僅次于早期 GPT 5.1。

針對(duì)配備搜索工具的 Fast(非推理)模型易出現(xiàn)事實(shí)性錯(cuò)誤的問(wèn)題,xAI 在 Grok 4.1 的后訓(xùn)練過(guò)程中著重降低信息查詢(xún)類(lèi)提示的事實(shí)幻覺(jué)。通過(guò)按類(lèi)別分層抽樣評(píng)估模型幻覺(jué)率,并評(píng)測(cè) FActScore(包含 500 個(gè)關(guān)于不同人物的傳記類(lèi)問(wèn)題的公共基準(zhǔn)測(cè)試),觀察到生產(chǎn)環(huán)境信息查詢(xún)提示中幻覺(jué)率顯著下降。

 
 
更多>同類(lèi)天脈資訊
全站最新
熱門(mén)內(nèi)容
媒體信息
新傳播周刊
新傳播,傳播新經(jīng)濟(jì)之聲!
網(wǎng)站首頁(yè)  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)隱私  |  RSS訂閱  |  違規(guī)舉報(bào) 魯公網(wǎng)安備37010202700497號(hào)