真实夫妻露脸自拍视频在线播放-亚洲精品乱码久久久久久蜜月-免费动漫成人av在线观看-中文字幕av三区三级爽-日韩熟女人妻一区二区-亚洲欧美乱日韩乱国产-一二三四区中文字幕在线-国产美女香蕉久久精品-久久视频在线播放视频

馬斯克xAI公司再發(fā)力!Grok 4.1大模型性能飛躍,情感創(chuàng)意雙提升

   時間:2025-11-18 13:03 來源:天脈網(wǎng)作者:楊凌霄

埃隆?馬斯克旗下人工智能公司 xAI 近日有了新動作,其于11月17日正式推出最新大語言模型 Grok 4.1,并面向全體用戶開啟全面推送,這一消息引發(fā)了行業(yè)內(nèi)外的廣泛關(guān)注。

此次更新,xAI 著重提升 Grok 在真實(shí)世界場景下的可用性。官方介紹,Grok 4.1 不僅延續(xù)了前代模型在智能敏銳度和高可靠性方面的優(yōu)勢,還在創(chuàng)造性、情感理解以及協(xié)作互動等關(guān)鍵領(lǐng)域?qū)崿F(xiàn)了重大突破。這使得新模型能夠更精準(zhǔn)地捕捉用戶意圖,為用戶帶來更具吸引力且人格連貫性更強(qiáng)的對話體驗(yàn)。

在性能表現(xiàn)上,Grok 4.1 堪稱業(yè)界翹楚。在大型語言模型競技場(LMArena)的文本能力排行榜中,其具備深度思考能力的版本(代號:quasarflux)憑借 1483 的 Elo 分?jǐn)?shù)傲居榜首,領(lǐng)先第二名多達(dá) 31 分。而無需深度思考的“即時響應(yīng)”版本也不甘示弱,以 1465 的 Elo 分?jǐn)?shù)位列第二,甚至超越了其他所有模型的“全推理”模式。與前代 Grok 4(排名第 33 位)相比,此次新模型實(shí)現(xiàn)了質(zhì)的飛躍,充分彰顯了其在底層能力上的絕對優(yōu)勢。

除了通用能力表現(xiàn)出色,Grok 4.1 在“軟實(shí)力”方面同樣成績斐然。在衡量模型情商的 EQ-Bench3 基準(zhǔn)測試中,該模型的推理與非推理模式成功包攬榜單前兩名,充分證明了其在情感理解、洞察力和人際交往能力方面的卓越表現(xiàn)。在評估創(chuàng)意能力的 Creative Writing v3 測試中,Grok 4.1 的兩種模式也分別位列第二和第三,僅次于早期的 GPT - 5.1 模型。這意味著 Grok 4.1 不僅能夠應(yīng)對復(fù)雜的邏輯推理問題,還能更好地理解并回應(yīng)帶有情感色彩的提示,進(jìn)行富有想象力的內(nèi)容創(chuàng)作,讓人機(jī)交互更具“人情味”。

值得一提的是,Grok 4.1 還有一個關(guān)鍵改進(jìn),即大幅降低了模型的“幻覺”率。對于配備搜索工具的快速響應(yīng)模型而言,由于推理深度和工具調(diào)用預(yù)算有限,容易出現(xiàn)事實(shí)性錯誤。針對這一問題,xAI 在 Grok 4.1 的訓(xùn)練后期,專門針對優(yōu)化信息查詢類提示進(jìn)行優(yōu)化,致力于減少事實(shí)性幻覺。根據(jù)對真實(shí)世界查詢樣本的評估,新模型的幻覺率已顯著降低,能夠?yàn)橛脩籼峁└煽?、更?zhǔn)確的信息。

 
 
更多>同類天脈資訊
全站最新
熱門內(nèi)容
媒體信息
新傳播周刊
新傳播,傳播新經(jīng)濟(jì)之聲!
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)隱私  |  RSS訂閱  |  違規(guī)舉報(bào) 魯公網(wǎng)安備37010202700497號