Copyright 2018-2025 報(bào)紙迷 版權(quán)所有 京ICP備2018136890號(hào)
你有沒有遇到過這種情況,想在網(wǎng)上找一件"白色福特F250皮卡,帶有色車窗和超大輪胎",結(jié)果搜出來一堆普通白色轎車?這可不是你描述得不夠清楚,而是AI在處理長(zhǎng)文本描述時(shí)犯了難。
現(xiàn)在的圖像檢索模型,比如大家熟悉的CLIP,處理簡(jiǎn)單描述還行,一旦遇到這種帶多個(gè)特征的復(fù)雜描述,反而容易"抓不住重點(diǎn)"。
有時(shí)候描述得越詳細(xì),匹配準(zhǔn)確率反而越低,就像考試時(shí)答太多無關(guān)內(nèi)容反而扣分一樣。
這時(shí)候,HiMo-CLIP就登場(chǎng)了。
這款由中國(guó)聯(lián)通數(shù)據(jù)科學(xué)與人工智能研究院團(tuán)隊(duì)研發(fā)的新模型,在AAAI會(huì)議上做了口頭報(bào)告,一下子就解決了這個(gè)"說越多錯(cuò)越多"的老大難問題。
讓AI學(xué)會(huì)"抓重點(diǎn)"的黑科技
HiMo-CLIP最聰明的地方,就是它能像人一樣自動(dòng)識(shí)別描述中的關(guān)鍵信息。
團(tuán)隊(duì)給這個(gè)能力起了個(gè)專業(yè)名字叫HiDe模塊,說白了就是動(dòng)態(tài)語義指紋提取技術(shù)。
具體怎么做呢?它會(huì)通過統(tǒng)計(jì)學(xué)方法,在一堆相似的描述中找出最有區(qū)分度的特征。
比如提到福特皮卡,它會(huì)自動(dòng)發(fā)現(xiàn)"超大輪胎"比"有色車窗"更能幫它準(zhǔn)確找到目標(biāo)。
這種方法比以前固定模板分詞或者人工標(biāo)注層級(jí)要高效得多,準(zhǔn)確率能達(dá)到89.3%。
更厲害的是,這個(gè)模塊在保證性能的同時(shí),對(duì)硬件要求并不高。
在A100顯卡上推理速度只增加了7%,普通服務(wù)器也能跑得動(dòng)。
本來想這技術(shù)肯定很復(fù)雜,沒想到工程實(shí)現(xiàn)上還挺接地氣。
雙重保障讓匹配更靠譜
光會(huì)抓重點(diǎn)還不夠,HiMo-CLIP還解決了另一個(gè)關(guān)鍵問題,怎么保證描述越詳細(xì),匹配得分越高。
團(tuán)隊(duì)設(shè)計(jì)了一個(gè)叫MoLo損失的機(jī)制,簡(jiǎn)單說就是雙重對(duì)齊保障。
它一方面讓模型匹配整個(gè)文本的語義,另一方面特別強(qiáng)化核心特征的匹配。