成人美女黄网站免费|哔哩哔哩免费观看在线视频|freexx老女人|欧美精品三区|近的2019中文字幕在线|97中文字幕一区二区|日本jazz护士

站內(nèi)搜索 | 手機(jī)版

巨人財經(jīng) - 專業(yè)科技行業(yè)財經(jīng)媒體

巨人天成 > 產(chǎn)經(jīng) > 正文內(nèi)容

阿里等機(jī)構(gòu)聯(lián)合打造EDIR基準(zhǔn)：以圖像編輯技術(shù)破解AI圖像檢索評估難題

發(fā)布時間：2026-01-27 04:52 來源：快訊作者：朱天宇

在電商平臺上尋找同款不同色的商品，或是根據(jù)文字描述調(diào)整圖片中的天氣效果——這種需要同時理解圖像和文字的搜索需求，正隨著人工智能技術(shù)的發(fā)展迎來新的突破。由中科院自動化所、阿里巴巴通義實(shí)驗室等機(jī)構(gòu)聯(lián)合研發(fā)的EDIR評估基準(zhǔn)，為這一領(lǐng)域提供了更精準(zhǔn)的"測量工具"，讓AI模型的組合圖像檢索能力首次得到全面、客觀的評估。

傳統(tǒng)評估方法存在明顯短板：要么覆蓋范圍狹窄，僅針對服裝或特定場景；要么分類粗糙，無法區(qū)分"顏色變化"與"材質(zhì)替換"等細(xì)微差異。更嚴(yán)重的是，部分模型通過"投機(jī)取巧"的方式——僅依賴文字描述而忽視圖像內(nèi)容——就能在現(xiàn)有測試中取得不錯成績。這種評估方式如同用模糊的鏡片觀察世界，既無法準(zhǔn)確反映模型的真實(shí)能力，也難以發(fā)現(xiàn)技術(shù)改進(jìn)的關(guān)鍵方向。

研究團(tuán)隊創(chuàng)新性地采用"逆向生成"策略構(gòu)建測試樣本：先設(shè)計詳細(xì)的編輯指令，再通過圖像編輯技術(shù)生成對應(yīng)的目標(biāo)圖片。這種方法確保每個測試案例都經(jīng)過精確設(shè)計，覆蓋屬性修改、物體操作、關(guān)系調(diào)整、全局環(huán)境變化及復(fù)合修改五大類、十五小類場景。從"將紅色外套改為藍(lán)色"的顏色調(diào)整，到"在客廳添加書架"的空間操作，再到"把白天照片轉(zhuǎn)為夜景"的環(huán)境變化，測試案例全面覆蓋用戶實(shí)際需求。

數(shù)據(jù)生成過程猶如精密的工業(yè)流水線。研究人員從4億張圖片中篩選出36.8萬張清晰、適合編輯的"種子圖片"，再為每張圖片設(shè)計15-18個編輯指令。這些指令經(jīng)過AI改寫為自然語言查詢后，最終形成108.7萬個高質(zhì)量測試樣本。通過雙重質(zhì)檢機(jī)制——確保圖像符合指令要求、查詢語句與圖像變化完全匹配——研究團(tuán)隊構(gòu)建出包含5000個查詢和17.8萬張圖片的EDIR基準(zhǔn)庫。

實(shí)驗結(jié)果顯示，現(xiàn)有模型在EDIR上的表現(xiàn)遠(yuǎn)低于預(yù)期。基于CLIP架構(gòu)的傳統(tǒng)模型平均準(zhǔn)確率僅18.4%，難以識別細(xì)微差異；新一代多模態(tài)語言模型（MLLM）雖將準(zhǔn)確率提升至36.9%，但能力分布極不均衡。例如，某領(lǐng)先模型在"添加物體"任務(wù)中達(dá)到74%的準(zhǔn)確率，卻在"刪除物體"任務(wù)中僅獲24%——這種差距如同數(shù)學(xué)家不會基礎(chǔ)運(yùn)算，暴露出技術(shù)發(fā)展的嚴(yán)重偏科現(xiàn)象。

進(jìn)一步分析發(fā)現(xiàn)，模型存在四大典型缺陷：難以理解否定指令（如"不要紅色"）、組合推理能力不足、對材質(zhì)紋理等細(xì)節(jié)不敏感、處理復(fù)雜約束時易遺漏條件。這些問題在傳統(tǒng)評估中難以被發(fā)現(xiàn)，因為現(xiàn)有測試集存在"評估偏食癥"——某些類型查詢占比過高，而關(guān)鍵能力測試不足；以及"模態(tài)偏見"——部分測試中僅用文字描述就能獲得更好成績，參考圖片反而成為擺設(shè)。

針對性訓(xùn)練實(shí)驗揭示了問題的深層原因。研究人員利用數(shù)據(jù)合成技術(shù)生成22.5萬個訓(xùn)練樣本后，模型在顏色、材質(zhì)等類別的準(zhǔn)確率顯著提升（最高達(dá)59.0%），表明這些問題可通過增加訓(xùn)練數(shù)據(jù)解決；但在數(shù)量判斷、空間推理等類別，提升幅度有限（最高僅33%），反映出當(dāng)前模型架構(gòu)存在根本局限。這種區(qū)分"數(shù)據(jù)饑餓型"與"架構(gòu)局限型"問題的能力，為技術(shù)改進(jìn)指明了方向。

EDIR基準(zhǔn)的推出，為圖像檢索領(lǐng)域提供了更公平、更全面的評估標(biāo)準(zhǔn)。其測試案例的平衡設(shè)計——每個子類別包含300個樣本（復(fù)合類別800個）——確保模型在各方面得到充分考驗。人工評估顯示，該基準(zhǔn)的假陽性率僅8.0%，假陰性率7.3%，質(zhì)量達(dá)到行業(yè)領(lǐng)先水平。這一工具不僅能幫助研究人員診斷模型缺陷，也為電商、設(shè)計、內(nèi)容創(chuàng)作等領(lǐng)域的實(shí)際應(yīng)用提供了技術(shù)參考。

盡管存在數(shù)據(jù)合成成本較高、復(fù)合查詢復(fù)雜度有限等挑戰(zhàn)，EDIR已為技術(shù)發(fā)展奠定重要基礎(chǔ)。它像一面清晰的鏡子，照出當(dāng)前AI模型在組合圖像檢索中的優(yōu)勢與不足。隨著更多研究人員利用這一工具，我們有望看到真正理解復(fù)雜視覺查詢的智能系統(tǒng)——無論是尋找"藍(lán)色同款汽車"，還是創(chuàng)作"無帽版人物肖像"，AI都將更精準(zhǔn)地滿足人類需求。

Q&A

Q1：組合圖像檢索技術(shù)有哪些實(shí)際應(yīng)用場景？A：該技術(shù)可廣泛應(yīng)用于電商（尋找同款不同色商品）、設(shè)計（調(diào)整場景風(fēng)格或元素）、內(nèi)容創(chuàng)作（修改圖片細(xì)節(jié)）等領(lǐng)域。例如，用戶上傳紅色裙子圖片并輸入"找藍(lán)色同款"，或提供風(fēng)景照并要求"轉(zhuǎn)為雪景"，均屬于組合圖像檢索的應(yīng)用范疇。

Q2：EDIR基準(zhǔn)如何確保測試公平性？A：EDIR通過兩大機(jī)制避免"作弊"：一是采用"先設(shè)計指令再生成圖片"的方法，確保查詢與圖像緊密關(guān)聯(lián)；二是實(shí)驗證明，在EDIR上僅用文字描述的表現(xiàn)明顯低于同時使用圖文的表現(xiàn)，而傳統(tǒng)基準(zhǔn)（如CIRCO）存在僅用文字表現(xiàn)更好的反常現(xiàn)象。

Q3：當(dāng)前AI模型在哪些任務(wù)上表現(xiàn)最差？A：實(shí)驗顯示，模型在"刪除物體"（準(zhǔn)確率24%）、"視角變換"（24.7%）、"數(shù)量判斷"（24%）等任務(wù)上表現(xiàn)最差。即使經(jīng)過針對性訓(xùn)練，這些類別的提升幅度也顯著低于"顏色變化"（提升13%）、"材質(zhì)修改"（提升21.7%）等任務(wù)，反映出當(dāng)前技術(shù)對空間推理、復(fù)雜約束等能力的支持不足。

更多>同類內(nèi)容

現(xiàn)代名圖N Line：中型轎車新選擇運(yùn)動風(fēng)范與實(shí)用空間配置的完美融合

01-26

科大訊飛廈門授權(quán)店揭秘：訊飛智能辦公本X5如何重塑高端辦公新體驗

01-26

湖北十堰新地標(biāo)！東風(fēng)汽車全球最大中重型商用車智慧工廠投產(chǎn)下線新車

01-25

科大訊飛學(xué)習(xí)機(jī)大比拼：S30、T30、T30 Ultra，AI精準(zhǔn)學(xué)誰更勝一籌？

01-25

合肥制造業(yè)“智改數(shù)轉(zhuǎn)”加速跑：數(shù)字技術(shù)賦能，產(chǎn)業(yè)升級成效顯著

01-24

2026款朗逸改款上市，配置微調(diào)價格堅挺，面對新能源浪潮壓力倍增

01-24

華為Pura 80 Pro+釉紅版：以東方美學(xué)破局 2026年憑硬核實(shí)力穩(wěn)占高端市場

01-23

書香盈春共競技！青島市圖書館邀您以“語”為媒開啟新年成長之旅

01-23

AI“寵溺”式陪伴：兒童深陷情緒價值陷阱，專家呼吁守護(hù)真實(shí)成長空間

01-23

智譜AI算力告急+國際CPU提價，國產(chǎn)算力板塊活躍，云計算ETF（159890）盤中漲2.22%

01-23

一汽大眾全新探岳L：中型SUV家用車優(yōu)選，外觀內(nèi)飾動力科技全在線

01-22

懸崖絕境顯擔(dān)當(dāng)！曲靖宣威多方攜手6小時成功救援墜崖群眾

01-21

2025合資車企大變局：德日下滑美韓漲，轉(zhuǎn)型突圍重塑市場新格局

01-21

廣東六城攜手破局！智能網(wǎng)聯(lián)汽車道路測試認(rèn)證開啟互認(rèn)互通新篇章

01-20

現(xiàn)代途勝L：緊湊型SUV“全能選手”，混動版低油耗開啟綠色出行新選擇

01-20

點(diǎn)擊查看更多 +

全站最新

解鎖高效學(xué)習(xí)新方式：兩款學(xué)習(xí)機(jī)助力孩子輕松開啟智慧成長路

解鎖高效學(xué)習(xí)新方式：兩款學(xué)習(xí)機(jī)助力孩子輕松開啟智慧成長路

訊飛星辰智能體平臺升級：打通技術(shù)壁壘，讓智能體“能說會做”成現(xiàn)實(shí)

訊飛星辰智能體平臺升級：打通技術(shù)壁壘，讓智能體“能說會做”成現(xiàn)實(shí)

360大模型領(lǐng)域最新成果亮相國際AI頂會AAAI 2026

360大模型領(lǐng)域最新成果亮相國際AI頂會AAAI 2026

小身材大能量！埃斯頓ER20C緊湊型機(jī)器人：空間節(jié)省與高效作業(yè)的完美融合

小身材大能量！埃斯頓ER20C緊湊型機(jī)器人：空間節(jié)省與高效作業(yè)的完美融合

2026中國營銷新趨勢：AI賦能、信任筑基、人感破局、圈層增長與共創(chuàng)共贏

2026中國營銷新趨勢：AI賦能、信任筑基、人感破局、圈層增長與共創(chuàng)共贏

從容應(yīng)對質(zhì)疑，百度以長期主義深耕AI，終迎商業(yè)與口碑雙豐收

從容應(yīng)對質(zhì)疑，百度以長期主義深耕AI，終迎商業(yè)與口碑雙豐收

現(xiàn)代沐颯N Line：運(yùn)動風(fēng)范加持，緊湊型SUV里的年輕時尚新寵兒

現(xiàn)代沐颯N Line：運(yùn)動風(fēng)范加持，緊湊型SUV里的年輕時尚新寵兒

硬派越野新標(biāo)桿！新款柴油版豐田普拉多升級登場，動力越野雙提升

硬派越野新標(biāo)桿！新款柴油版豐田普拉多升級登場，動力越野雙提升

熱門內(nèi)容

本欄最新

巨人天成財經(jīng) 微信：netspread（注明:巨人天成財經(jīng)）簡體繁體根據(jù)客戶端智能切換，如顯示有問題，請點(diǎn)擊頁面右上角的簡繁切換功能！
Copyright ? 2016-2023 jur.com.cn All rights reserved. 魯ICP備11015305號-4