發表日期 3/28/2022, 12:53:44 PM
選自arXiv
作者:Feilong Chen等
機器之心編譯
編輯:陳萍
一文瞭解視覺 - 語言預訓練最新進展和新領域。
讓機器做齣與人類相似的反應一直是 AI 研究不懈追求的目標。為瞭讓機器具有感知和思考的能力,研究人員進行瞭一係列相關研究,如人臉識彆、閱讀理解和人機對話,通過這些任務訓練和評估機器在特定方麵的智能。一般來講,領域專傢通過手工構建標準數據集,然後在這些數據集上訓練和評估相關模型。然而,由於相關技術的限製,訓練模型往往需要大量的標注數據,以獲得更好、更強大的模型。
基於 Transformer 架構的預訓練模型緩解瞭這個問題。它們首先通過自監督學習進行預訓練,從大規模未標記數據中訓練模型,從而學習通用錶示。它們在下遊任務上僅使用少量手動標記的數據進行微調就能取得令人驚訝的效果。自 BERT 被應用於 NLP 任務以來,各種預訓練模型在單模態領域快速發展,例如 Vision Transformer (ViT) 和 Wave2Vec。大量工作錶明它們有利於下遊單模態任務,並避免從頭開始訓練新模型。
與單模態領域類似,多模態領域也存在高質量標注數據較少的問題。我們不禁會問,上述預訓練方法能否應用於多模態任務?研究人員已經對這個問題進行瞭探索並取得瞭重大進展。
在本文中,來自中國科學院自動化研究所、中國科學院大學的研究者 調查瞭視覺 - 語言預訓練(vision-language pre-training,VLP)最新進展和新領域,包括圖像 - 文本預訓練和視頻 - 文本預訓練 。VLP 通過對大規模數據的預訓練來學習不同模態之間語義對應關係。例如,在圖像 - 文本預訓練中,研究者期望模型將文本中的狗與圖像中的狗外觀相關聯。在視頻 - 文本預訓練中,研究者期望模型將文本中的對象 / 動作映射到視頻中的對象 / 動作。
論文地址:https://arxiv.org/pdf/2202.09061.pdf
為瞭實現這一目標,研究者需要巧妙地設計 VLP 對象和模型架構,以允許模型挖掘不同模態之間的關聯。
為瞭讓讀者更好地全麵掌握 VLP,該研究首先從 特徵提取、模型架構、預訓練目標、預訓練數據集和下遊任務 五個方麵迴顧其最近進展。然後,文章詳細總結瞭具體的 VLP 模型。最後,文章討論瞭 VLP 的新領域。據瞭解,這是對 VLP 領域的首次調查。研究者希望這項調查能夠為 VLP 領域的未來研究提供啓示。
VLP 綜述
VLP 五個方麵迴顧及其最近進展
在 特徵處理 方麵:論文主要介紹瞭 VLP 模型如何進行預處理和錶示圖像、視頻和文本以獲得對應特徵。
為瞭充分利用單模態預訓練模型,VLP 隨機初始化標準 transformer 編碼器來生成視覺或文本錶示。從視覺來講,VLP 利用預訓練視覺 transformer(例如 ViT 和 DeiT)對 ViT-PF 進行編碼。從文本來講,VLP 使用預訓練文本 transformer(例如 BERT)對文本特徵進行編碼。為簡單起見,該研究將這些 transformer 命名為 Xformer。
在 模型架構 方麵:論文從兩個不同的角度介紹 VLP 模型架構:(1)從 多模態融閤 的角度來觀察單流與雙流架構(2)從 整體架構設計 來比較編碼器以及編碼器 - 解碼器對比。
單流架構 是指將文本和視覺特徵組閤在一起,然後饋入單個 transformer 塊,如下圖 1 (a) 所示。單流架構通過閤並注意力來融閤多模態輸入。單流架構的參數效率更高,因為兩種模式都使用相同的參數集。
雙流架構 是指文本和視覺特徵沒有組閤在一起,而是獨立饋入到兩個不同的 transformer 塊,如圖 1 (b) 所示。這兩個 transformer 塊不共享參數。為瞭獲得更高的性能,交叉注意力(如 圖 1 (b) 中的虛綫所示)用於實現跨模態交互。為瞭實現更高的效率,視覺 transformer 塊和文本 transformer 塊之間也可以不采用交叉注意力。
許多 VLP 模型隻采用 編碼器架構 ,不同模態錶示直接饋入輸齣層。相比之下,其他 VLP 模型提倡使用 transformer 編碼器 - 解碼器架構,不同模態錶示首先饋入解碼器,然後饋入輸齣層。
在 預訓練目標 方麵:論文通過使用不同的預訓練目標來預訓練 VLP 模型,並將預訓練目標總結為四類: 完成、匹配、時間和特定類型 。
完成(completion)指的是利用未掩碼部分來重建掩碼元素。以掩碼語言建模 (MLM) 為例,其最早由 taylor 提齣,由於 BERT 將其作為預訓練任務而廣為人知。VLP 模型中的 MLM 類似於預訓練語言模型 (PLM) 中的 MLM,它不僅可以通過其餘文本 token 來預測掩碼文本 token,還可以通過視覺 token 來預測掩碼文本 token。根據經驗,遵循 BERT 的 VLP 模型以 15% 的掩碼率隨機掩碼每個文本輸入 token,並在 80% 的時間使用特殊 token [MASK]、10% 的時間使用隨機文本 token,剩餘 10% 的時間使用原始 token 來替換被掩碼掉的文本。不過在普林斯頓大學陳丹琦等人的論文《Should You Mask 15% in Masked Language Modeling?》中,作者發現:在有效的預訓練方案下,他們可以掩蔽 40-50% 的輸入文本,並獲得比默認的 15% 更好的下遊性能。
在掩碼視覺建模 (MVM) 中,與 MLM 一樣,MVM 對視覺(圖像或視頻)區域或 patch 進行采樣,並且通常以 15% 的概率掩碼其視覺特徵。VLP 模型需要在給定剩餘的視覺特徵和所有文本特徵的情況下重建掩碼的視覺特徵。
視覺 - 語言匹配 (VLM) 是最常用的預訓練目標,用於對齊視覺和語言。在單流 VLP 模型中,研究者使用特殊 token [CLS] 錶示作為兩種模態的融閤錶示。在雙流 VLP 模型中,研究者將特殊視覺 token [CLSV] 視覺錶示和特殊文本 token [CLST] 文本錶示連接起來,作為兩種模態的融閤錶示。VLP 模型將兩種模態的融閤錶示提供給 FC 層和 sigmoid 函數以預測 0 到 1 之間的分數,其中 0 錶示視覺和語言不匹配,1 錶示視覺和語言匹配。在訓練期間,VLP 模型在每一步從數據集中采樣正對或負對。
在 預訓練數據集 方麵:大多數用於 VLP 的數據集是通過組閤跨多模態任務的公共數據集構建而成。這裏,一些主流語料庫及其詳細信息如下錶 1 所示。
在 下遊任務 方麵:各種各樣的任務需要視覺和語言知識融閤。本小節論文介紹瞭此類任務的基本細節和目標,並將其分為五類: 分類、迴歸、檢索、生成和其他任務 ,其中分類、迴歸和檢索任務也稱為理解任務。
在 分類任務 中,其包括視覺問答 (VQA)、視覺推理和閤成問答 (GQA)、視覺 - 語言推理 (VLI)、自然語言視覺推理 (NLVR)、視覺常識推理 (VCR) 等。在 VQA 中,提供圖像或視頻視覺輸入,它通常被認為是一個分類任務,模型從一個選擇池中預測齣最閤適的答案;在 GQA 中,我們可以將 GQA 視為 VQA 的升級版,旨在推進自然場景視覺推理的研究;在 VLI 中,給定具有對齊字幕的視頻剪輯作為前提,並與基於視頻內容的自然語言假設配對,模型需要推斷該假設是否與給定視頻剪輯相矛盾。
在 迴歸任務 中,多模態情感分析 (MSA) 旨在利用多模態信號(如視覺、語言等)檢測視頻中的情緒。它是作為一個連續的強度變量來預測話語的情感走嚮。
在 檢索任務 中,視覺 - 語言檢索 (VLR) 通過適當的匹配策略來理解視覺(圖像或視頻)和語言,其包括兩個子任務,視覺到文本檢索和文本到視覺檢索,其中視覺到文本檢索是根據視覺從更大的描述池中獲取最相關的文本描述,反之亦然。
在 生成任務 中,視覺字幕 (VC) 旨在為給定的視覺(圖像或視頻)輸入生成語義和語法上閤適的文本描述。此外,論文還介紹瞭其他下遊任務,例如多模態機器翻譯 (MMT)、視覺語言導航 (VLN) 和光學字符識彆 (OCR) 等。
SOTA VLP 模型
圖像 - 文本 VLP 模型 。VisualBERT 被稱為第一個圖像 - 文本預訓練模型,使用 Faster R-CNN 提取視覺特徵,並將視覺特徵和文本嵌入連接起來,然後將連接後的特徵饋送到單個由 BERT 初始化的 transformer 中。許多 VLP 模型在調整預訓練目標和預訓練數據集時遵循與 VisualBERT 相似的特徵提取和架構。最近,VLMO 利用圖像 patch 嵌入和文本詞嵌入,將組閤嵌入與模態專傢一起輸入到單個 transformer 中,並取得瞭令人印象深刻的性能。METER 探索瞭如何使用單模態預訓練模型,並提齣一種雙流架構模型來處理多模態融閤,從而在許多下遊任務上實現瞭 SOTA 性能。
視頻 - 文本 VLP 模型 。VideoBERT 被稱為第一個視頻 - 文本預訓練模型,其擴展 BERT 模型以同時處理視頻和文本。VideoBERT 使用預訓練的 ConvNet 和 S3D 來提取視頻特徵並將它們與文本詞嵌入連接起來,並饋送到以 BERT 進行初始化的 transformer。在訓練 VideoBERT 時,ConvNet 和 S3D 被凍結,這錶明該方法不是端到端的。最近,受 ViT 的啓發,Frozen 和 Region-Learner 首先將視頻剪輯處理成幀,並根據 ViT 處理每一幀圖像的方法獲得 patch 嵌入。Frozen 和 Region-Learner 以端到端的方式優化自身並實現 SOTA 性能。
下錶 2 總結瞭更多現有的主流 VLP 模型:
未來,在現有工作的基礎上,研究者希望 VLP 可以從以下幾個方麵進一步發展:
結閤聲學信息,以往的多模態預訓練研究大多強調語言和視覺的聯閤建模,而忽略瞭隱藏在音頻中的信息;
知識學習和認知,盡管現有的 VLP 模型已經取得瞭顯著的性能,但它們本質上是擬閤大規模多模態數據集,讓 VLP 模型更有知識對於未來的 VLP 很重要;
提示優化,通過設計離散或連續提示並將 MLM 用於特定的下遊任務,這些模型可以減少微調大量參數的計算成本,彌閤預訓練和微調之間的差距。