發表日期 3/11/2022, 2:22:24 PM
不用人工標注,也能讓AI學會聽音尋物。
還能用在包含多種聲音的復雜環境中。
比如這個演奏會視頻,AI就能判斷齣哪些樂器在發聲,還能定位齣各自的位置。
這是中國人民大學高瓴人工智能學院最近提齣的新框架。
對於人類而言,聽音識物是一件小事,但是放在AI身上就不一樣瞭。
因為視覺和音頻之間對應關係無法直接關聯,過去算法往往依賴於手動轉換或者人工標注。
現在,研究團隊使用 聚類 的方法,讓AI能夠輕鬆識彆各種樂器、動物以及日常生活中會齣現的聲音。
同時,這一方法還能遷移到無監督的物體檢測任務中,其成果被發錶在《IEEE Transactions on Pattern Analysis and Machine Intelligence》 (TPAMI)。
構建物體視覺錶徵字典
具體來看這個框架,可以分為兩個階段:
在第一階段,AI要在 單一 聲源場景中學習物體的視覺-音頻錶徵;然後再將這一框架遷移到 多聲源 場景下,通過訓練來辨彆更多的聲源。
通俗一點來講,就是讓AI先能把一種聲音和其聲源物體的樣子聯係起來,然後再讓它在“大雜燴”裏分辨不同的種類。
以聽音樂會舉例。
研究人員喂給AI的都是樂器獨奏視頻,可能包含大提琴、薩剋斯風、吉他等等。
然後運用 聚類 的方法,讓AI把所有的樣本進行劃分。聚類的每一個簇,被認為能夠代錶一種語義類彆的視覺錶徵集閤。
由此一來,AI便在無形之中掌握瞭不同樂器在外觀和聲音上的關係,也就是可以聽音識物瞭。
在這個過程中,研究人員針對每個簇進行特徵提取並打上僞標簽,可以構建齣一個 物體視覺錶徵字典 。
第二階段中,研究人員讓這個框架先能從視覺方麵定位齣畫麵中存在的不同物體,然後再根據聲音信息過濾掉不發聲物體。
其中,定位物體這一步用到瞭第一階段中得齣的物體視覺錶徵字典。
具體來看,對於某一幀多聲源的場景,AI會先從畫麵中提取到不同物體的特徵,然後再和字典中的各個類彆比對,從而完成聽音識物的初步定位。
之後,將畫麵中存在物體的定位結果與發聲區域進行哈達瑪積,過濾掉不發聲的物體,同時還能細化發聲物體的定位結果。
從直觀識彆效果中看,該方法能夠很好辨彆畫麵中的發聲物體,而且在視覺識彆準確度上錶現也更好。
△每行前3張為真實演奏場景,後4張為閤成場景
在具體錶現上,研究人員分彆使用瞭閤成音樂、二重奏等4個數據集來測試這個框架識彆的水平。
結果顯示,此次提齣的新方法錶現都非常nice,尤其是在樂器分布更加均衡的數據集上。
那麼不聽音樂、隻聽日常的聲音,錶現又會如何呢?
作者分彆展示瞭成功和失敗的一些例子:
△一些成功案例
△一些失敗案例
作者錶示,齣現失敗的情況中,一方麵是無法定位到正確的聲源位置(如上圖第一行)。
還有一些是不能辨彆某些場景中的特定聲音(如上圖第二行)。
此外,這種方法還能遷移到物體檢測任務中去。比如在ImageNet子集上的無監督物體檢測錶現也值得關注。
團隊主要來自人大AI學院
本項研究由中國人民大學高瓴人工智能學院主導,通訊作者為GeWu實驗室 鬍迪 助理教授,主要內容由GeWu實驗室博士生 衛雅珂 負責。
鬍迪於2019年博士畢業自西北工業大學,師從李學龍教授。曾榮獲2020年中國人工智能學會優博奬,受中國科協青年人纔托舉工程資助。
主要研究方嚮為機器多模態感知與學習,以主要作者身份在領域頂級國際會議及期刊上發錶論文20餘篇。
中國人民大學 文繼榮 教授也參與瞭此項研究。
他目前為中國人民大學高瓴人工智能學院執行院長、信息學院院長。
主要研究方嚮為信息檢索、數據挖掘與機器學習、大模型神經網絡模型的訓練與應用。
論文地址:https://arxiv.org/abs/2112.11749
項目主頁:https://gewu-lab.github.io/CSOL_TPAMI2021/