給AI下指令的時候,總覺得和人交流不一樣。

是的,雖然AI可以理解一些特定的人類指令,比如:
幫我從餐廳拿把椅子。
但如果改成只有代詞和動詞的模糊指令,AI會很困惑:
幫我找個能墊腳的東西。
現(xiàn)在,終于有研究人員提出了一種新的處理方法:AI不能學習理解動詞嗎。
動詞本身和一些特定的名詞綁定在一起比如抹黃油這個動作,肯定離不開刀叉之類的名詞
只需要將它們進行匹配,無需刀叉等名詞指令,AI也能準確找出目標對象:
目前,該論文正式收錄于NeurIPS 2022,相關模型已經(jīng)開源:
那么它是如何訓練AI理解動詞的呢。
蓋名詞,讓AI看圖找東西
本文提出了一個稱為TOIST的框架。
TOIST面向任務的實例分割轉換器,這是一種基于轉換器的實例分割新方案。
實例分割不同于語義分割的全圖切割,它還具有目標檢測的特點。比如下圖直接找出與名詞兩廂對應的對象:
此前,案件分割模型通常分為兩步第一步是檢測可能的目標,第二步是對可能的目標進行排序并預測最可能的結果
但與這種方式不同的是,TOIST框架直接采用了一個整體的Transformer框架,其中解碼器中的自我關注機制可以建立候選目標之間的偏好關系。
TOIST框架分為三個部分。
其中,多模態(tài)編碼器負責提取特征標記,變換器編碼器負責聚合兩種模式的特征,并基于變換器解碼器中的注意機制預測最合適的目標。
隨后,提出了一種新的名詞—代詞提取方法來訓練模型。
具體來說,基于知識提煉框架,以無監(jiān)督學習的方式訓練AI通過上下文猜測名詞原型。
比如原來的實例分割任務是用滑板挖洞,但是在訓練模型的時候,名詞滑板會被代詞某物代替:
這種分割效果在實際案例中表現(xiàn)如何。
目標探測準確率提高10.9%
本文在大規(guī)模任務數(shù)據(jù)集COCO—Tasks上對TOIST進行了測試。
評價方法采用mAP,常見于目標檢測等視覺任務。
簡單來說,TOIST在例如分割和目標檢測方面比以前的SOTA模型表現(xiàn)得更好,而添加了名詞代詞提取方法的增強版TOIST的表現(xiàn)比TOIST in好上一層樓。
與目前最好的Yolo+GGNN相比,增強版TOIST的決策幀精度圖在目標檢測任務中提高了10.9%,在案例分割任務中,mask精度比Mask—RCNN+GGNN提高了6.6%。
對于名詞—代詞提取方法,與TOIST的原始版本相比,實例切分的準確率分別提高了2.8%和3.8%。
在具體的案例表現(xiàn)上,模型效果也非常接近實際的分割真值。
比如圖中,算法甚至識別出啤酒瓶蓋可以用桌子打開,在理解上可以說是滿分:
我們實驗室其實是負責機器人的研究的,但是在平時的調查中發(fā)現(xiàn),用戶有時候更喜歡向機器人描述需求,而不是直接告訴他們該做什么。
換句話說,AI算法是用來讓機器人想得更多,而不僅僅是一個聽從命令的助手。
李鵬飛,清華大學智能產業(yè)研究院博士生,畢業(yè)于中國科學院大學他的研究興趣是自動駕駛和計算機視覺
對大視覺—語言模型感興趣的朋友可以試試這個新思路~
論文地址:
項目地址:
。聲明:本網(wǎng)轉發(fā)此文章,旨在為讀者提供更多信息資訊,所涉內容不構成投資、消費建議。文章事實如有疑問,請與有關方核實,文章觀點非本網(wǎng)觀點,僅供讀者參考。

