真实夫妻露脸自拍视频在线播放-亚洲精品乱码久久久久久蜜月-免费动漫成人av在线观看-中文字幕av三区三级爽-日韩熟女人妻一区二区-亚洲欧美乱日韩乱国产-一二三四区中文字幕在线-国产美女香蕉久久精品-久久视频在线播放视频

智譜GLM-5V-Turbo發(fā)布:視覺編程新突破,一眼識圖生成代碼

   時間:2026-04-03 11:51 來源:快訊作者:機器之心Pro

在開發(fā)領域,視覺信息占據(jù)著主導地位,超過80%的需求以視覺形式呈現(xiàn)。然而,許多國內(nèi)代碼大模型長期以來只能依賴文本描述來推測頁面布局,難以直接處理視覺信息。近日,智譜推出的GLM-5V-Turbo模型打破了這一局限,為視覺編程帶來了新的突破。

GLM-5V-Turbo是一款專為視覺編程設計的多模態(tài)模型,能夠原生融合視覺與文本能力。它不再依賴文本轉(zhuǎn)譯來“猜測”世界,而是直接理解設計圖、解析復雜界面并生成對應代碼,實現(xiàn)了從視覺感知到代碼實現(xiàn)的完整開發(fā)鏈路。這一創(chuàng)新在海外社區(qū)引起了廣泛關注,主貼閱讀量迅速突破百萬。

該模型在推理速度和核心能力上均表現(xiàn)出色。在前端看重的Design2code評測中,GLM-5V-Turbo以92.6的高分超越了K2.5的91.3分,展現(xiàn)了其在視覺UI轉(zhuǎn)化為代碼方面的精準度。在多模態(tài)工具調(diào)用方面,它在BrowseComp-VL評測中取得了48.7的成績,領先于K2.5的42.9分,具備了“看圖找工具辦事”的實用能力。在Agent復雜任務評測中,其Pass3分數(shù)接近行業(yè)頂尖水平,顯示出強大的綜合規(guī)劃與執(zhí)行力。

GLM-5V-Turbo的能力不僅限于單一圖像場景,還延伸至圖文混合理解與生成任務。例如,在處理斯坦福大學《2025年人工智能指數(shù)報告》時,該模型能夠提煉核心結論,并將其轉(zhuǎn)化為精美的多頁HTML演示文檔,同時生成結構化大綱JSON和Markdown格式的摘要。這一過程展示了模型在“閱讀—理解—抽象—表達—生成”多步流程中的卓越表現(xiàn)。

在更復雜的測試中,GLM-5V-Turbo被要求基于一張設計圖復刻一個完整的網(wǎng)頁。模型不僅實現(xiàn)了光標周圍清晰、其他位置模糊的視覺效果,還使網(wǎng)頁元素可點擊,并將特定文字改為打字機特效展示。網(wǎng)頁上的便利貼點擊后會展開記事本,不同窗口可展示圖片和視頻素材,初步效果令人驚艷。

GLM-5V-Turbo的技術優(yōu)勢源于其獨特的模型架構和訓練方法。與大多數(shù)多模態(tài)模型“先語言后視覺”的工程化方法不同,該模型從預訓練階段就將文本和視覺信號深度融合。自研的CogViT視覺編碼器在通用物體識別、細粒度細節(jié)理解等方面顯著提升,配套的MTP結構則保證了推理效率。模型在強化學習階段同步優(yōu)化超過30種任務,覆蓋STEM推理、視覺定位、視頻理解等領域,實現(xiàn)了能力的均衡提升。

為解決Agent領域高質(zhì)量多模態(tài)交互數(shù)據(jù)稀缺的問題,智譜構建了分層數(shù)據(jù)體系,利用合成環(huán)境自動生成大規(guī)??煽財?shù)據(jù),并通過過程獎勵模型(PRM)數(shù)據(jù)抑制幻覺生成。同時,模型工具鏈擴展至多模態(tài)搜索、區(qū)域框選標注等視覺交互類工具,將編程與任務執(zhí)行的鏈路升級為“視覺-行動混合閉環(huán)”。

目前,GLM-5V-Turbo已開放API,Coding Plan用戶可申請搶先試用。開發(fā)者可通過BigModel開放平臺、AutoClaw(澳龍)和Z.ai等渠道訪問該模型。隨著API的開放和Agent生態(tài)的打通,智譜為開發(fā)者提供了“視覺感知+動作執(zhí)行”的基礎設施,開啟了AI應用開發(fā)的新篇章。

 
 
更多>同類天脈資訊
全站最新
熱門內(nèi)容
媒體信息
新傳播周刊
新傳播,傳播新經(jīng)濟之聲!