近日,國(guó)際權(quán)威機(jī)器視覺(jué)問(wèn)答榜單VQA Leaderboard出現(xiàn)關(guān)鍵突破
阿里巴巴達(dá)摩院以81.26%的準(zhǔn)確率創(chuàng)造了新紀(jì)錄讓AI在“讀圖會(huì)意”上首次超越人類(lèi)基準(zhǔn)
近10年來(lái),AI技術(shù)保持高速發(fā)展。然而在視覺(jué)問(wèn)答VQA(Visual Question Answering)這一涉及視覺(jué)-文本多模態(tài)理解的高階認(rèn)知任務(wù)上,AI始終未取得超越人類(lèi)水平的突破。
為攻克這一難題而設(shè)立的挑戰(zhàn)賽VQA Challenge,自2015年起先后于全球計(jì)算機(jī)視覺(jué)頂會(huì)ICCV及CVPR舉辦,形成了國(guó)際上規(guī)模最大、認(rèn)可度最高的VQA數(shù)據(jù)集,其包含超20萬(wàn)張真實(shí)照片、110萬(wàn)道考題。
在首屆VQA挑戰(zhàn)賽上,AI的最高準(zhǔn)確率僅能達(dá)到55%。今年8月,達(dá)摩院以81.26%的準(zhǔn)確率創(chuàng)造VQA Leaderboard全球紀(jì)錄,首次超越人類(lèi)基準(zhǔn)線80.83%。
這是VQA測(cè)試以來(lái),AI第一次超過(guò)人類(lèi)水平,是標(biāo)志性的重大突破。
VQA技術(shù)自2015年的進(jìn)展
01 什么是VQA?
自然語(yǔ)言技術(shù)與計(jì)算機(jī)視覺(jué)交融,是多模態(tài)領(lǐng)域重要的前沿研究方向。其中,VQA是AI領(lǐng)域難度最高的挑戰(zhàn)之一,對(duì)研發(fā)通用AI具有重要意義。
VQA的任務(wù)是根據(jù)給定圖片及自然語(yǔ)言問(wèn)題,生成正確的自然語(yǔ)言回答。
例如下面這張圖,AI先提取了問(wèn)題關(guān)鍵信息——玩具人;再根據(jù)常識(shí)做出回答——星球大戰(zhàn)。
VQA問(wèn)題
What movie franchise are the action figures from?(圖中玩具人的IP出自哪部電影?)
△點(diǎn)擊查看AI回答
完成VQA挑戰(zhàn),需要AI從圖像中提取與問(wèn)題相關(guān)的信息,包含從細(xì)微物體的監(jiān)測(cè)到抽象場(chǎng)景的推理,并基于對(duì)視覺(jué)、語(yǔ)言和常識(shí)性知識(shí)的理解做出回答,也就是“讀圖會(huì)意”——通過(guò)視覺(jué)理解信息,是人類(lèi)的一項(xiàng)基礎(chǔ)能力,但對(duì)AI來(lái)說(shuō)卻是要求極高的認(rèn)知任務(wù)。
VQA挑戰(zhàn)的核心難點(diǎn)也在于此:單個(gè)AI模型需融合復(fù)雜的計(jì)算機(jī)視覺(jué)及自然語(yǔ)言技術(shù),才能夠根據(jù)給定的圖片以及自然語(yǔ)言問(wèn)題生成正確的回答。
02 VQA高分背后
為了解決VQA挑戰(zhàn),達(dá)摩院對(duì)AI視覺(jué)-文本推理體系進(jìn)行了系統(tǒng)性的設(shè)計(jì),并融合大量算法創(chuàng)新,針對(duì)運(yùn)算流程進(jìn)行優(yōu)化:
提升圖片理解能力
測(cè)試中,AI需要先對(duì)圖像信息進(jìn)行掃描,為提高圖片理解能力,達(dá)摩院運(yùn)用了多項(xiàng)創(chuàng)新算法。
多樣性視覺(jué)特征表示:同時(shí)使用Region,Grid,Patch等多樣性視覺(jué)特征表示,從各方面刻畫(huà)圖片的局部和全局語(yǔ)義信息。
更好地讓AI理解圖文關(guān)聯(lián)
AI需結(jié)合對(duì)問(wèn)題文本的理解,建立圖片與文字的關(guān)聯(lián)性:即多模態(tài)信息融合。
多模態(tài)預(yù)訓(xùn)練模型:達(dá)摩院提出SemVLP,Grid-VLP,E2E-VLP和Fusion-VLP等預(yù)訓(xùn)練模型,用于進(jìn)行多模態(tài)信息融合和語(yǔ)義映射。
自適應(yīng)的跨模態(tài)語(yǔ)義融合和對(duì)齊技術(shù):為使這一融合更加高效,研發(fā)自適應(yīng)的跨模態(tài)語(yǔ)義融合和對(duì)齊技術(shù),在預(yù)訓(xùn)練模型中,加入了Learning to Attend機(jī)制。
其中自研的多模態(tài)預(yù)訓(xùn)練模型E2E-VLP,StructuralLM已被國(guó)際頂級(jí)會(huì)議ACL2021接受。
相關(guān)論文:
1.E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual Learning, ACL20212.A Structural Pre-trained Model for Table and Form Understanding, ACL 20213.SemVLP: Vision-Language Pre-training by Aligning Semantics at Multiple Levels
讓AI更有常識(shí)
在圖文融合基礎(chǔ)上,為AI增加更多常識(shí)性?xún)?nèi)容,提高對(duì)圖片和文本的理解推理能力。
知識(shí)驅(qū)動(dòng)的多技能AI集成:采用Mixture of Experts (MOE)技術(shù)進(jìn)行知識(shí)驅(qū)動(dòng)的多技能AI集成,類(lèi)似于為AI增加計(jì)數(shù)、讀鐘表等生活技能,以及百科知識(shí)等“人類(lèi)常識(shí)”。
在Mixture of Experts (MOE)技術(shù)支持下的VQA模型
03 VQA的未來(lái)
VQA技術(shù)擁有廣闊的應(yīng)用場(chǎng)景,可用于圖文閱讀、跨模態(tài)搜索、盲人視覺(jué)問(wèn)答、醫(yī)療問(wèn)診、智能駕駛等領(lǐng)域,或?qū)⒆兏锶藱C(jī)交互方式。
目前,VQA技術(shù)已在阿里內(nèi)部應(yīng)用于智能客服、直播視頻交互、跨模態(tài)搜索等場(chǎng)景。
例如部分淘寶天貓商家的店小蜜客服開(kāi)通了VQA視覺(jué)問(wèn)答功能:一般商品詳情海報(bào)上包含了大量有價(jià)值的商品信息,當(dāng)消費(fèi)者對(duì)商品進(jìn)行提問(wèn)時(shí),AI客服可通過(guò)理解、檢索商品海報(bào)進(jìn)行回答,如裁切一張小圖作為答案。
這既能夠快速幫助消費(fèi)者解決疑問(wèn),也能為賣(mài)家節(jié)省了大量配置成本。盒馬、考拉的客服場(chǎng)景,閑魚(yú)的圖文同款匹配場(chǎng)景也接入了VQA能力。
未來(lái),當(dāng)VQA技術(shù)在電商領(lǐng)域成熟運(yùn)用后,還將被推廣至醫(yī)療問(wèn)診等更廣泛的社會(huì)應(yīng)用領(lǐng)域。