感知和推理一直是人類特有的天賦,從孩童開始,人類就開始學習並逐漸學會瞭排除推理(Reasoning by elimination)的方法。而人工智能如果能夠做到這一點,必然將會助推機器人等産業實現更大的飛躍。
英偉達(NVIDIA)研究人員於去年12月在 NeurIPS 上發錶20篇研究最新進展的論文,解釋瞭最新的人工智能和圖形圖像理解技術。
英偉達一直走在人工智能創新的最前沿,不斷突破著機器學習、自動駕駛汽車、機器人、圖形等領域的技術界限,這次他們的研究理論同樣非常有意思。
▍為什麼要做陌生環境推理?
在本次的論文中,英偉達介紹瞭嘗試進行的一係列排除推理學習研究,包括如何從零樣本中進行排除推理學習,以及識彆已知環境的不同新組閤。他們將 Franka機器人 作為研究載體,將理論研究成果在機器人上快速實現瞭實驗和初步驗證。
從視頻中可以看到,這個叫做Gemini的機器人,能夠通過與人對話,理解人類的選擇意圖,並最終從有多個物體的復雜環境中做齣正確的抓取選擇,也可以根據所處環境的位置來區分物體並進行動作。
這並不是一件很容易的事情, 因為人類對復雜場景的理解能力遠遠超齣瞭機器人自上而下的3D感知方式。例如人類過一條沒有指示燈的馬路,就可以根據車流、馬路情況,去選擇閤適的時間避開車輛成功過馬路,但機器人很難做到。
英偉達的研究人員發現,這是因為當人類在不確定的自然場景中進行思考和動作時,會先根據看到的場景和人,預判場景中各類事物的邏輯關係,同時預測物體和人的移動軌跡,甚至可以推斷他們動作的原因,從而纔能完成對於場景的確定性排除推理,得到最正確的答案。
英偉達希望通過機器學習和人工智能結閤的方法,嘗試解析並實現這種對於空間的立體感知和選擇能力。為此,他們不僅讓機器人結閤瞭機器視覺,嘗試利用2D畫麵來檢測、跟蹤、推斷3D姿勢並重建完整的 3D場景,還開發瞭一種允許人工智能通過自主學習推理環境變量的算法。
這個算法建立在例如英偉達的Riva等以語言交互為基礎的加速的對話式AI應用框架上。
Riva這個框架是英偉達於2020年5月發布並對外推齣的一個GPU加速應用框架,該框架可以使企業能夠根據自身所處行業、産品和客戶的特點,使用視頻和語音數據構建最為先進的定製化對話式AI服務。
隨著居傢辦公、遠程醫療和遠程學習的快速興起,對於能夠支持實時轉錄、視頻通話摘要等定製化語言型AI服務的需求也隨之激增。而英偉達的Riva則還可以用在更廣泛的方麵,例如配閤視覺提高機器人的環境推理能力。
在視頻中,搭載Riva的 Franka機器人 根據需求語音發現場景下麵臨多個選擇時,會再次提齣問題,從而縮小選擇範圍,正確判斷和推理排除不確定因素,最後調整位姿完成動作。
當然,要想更加輕易實現對物體的感知、視覺推理和對話式AI,首先需要一個很好的機器人開發硬件平台,英偉達的Gemini則依然是附加瞭FCI (Franka Control Interface)控製接口的Franka Emika探索版機器人,並在此基礎上集成瞭一個具備AI對話和視覺推理的係統。
▍排除推理學習的新方法
在開源版 Franka機器人 (Researchversion)的基礎上,英偉達發現, 物體要素特徵剝離是機器人能夠順利完成自主推理的關鍵, 這對於機器人能否進入更廣泛的環境中至關重要。尤其是如何讓機器人在沒有采取大量訓練的情況下,在陌生環境中對不熟悉的對象進行推理,或者是在熟悉與不熟悉對象混閤的開放世界場景中進行工作。
傳統機器學習模型主要被訓練來執行歸納推理:從訓練的示例中概括歸納規則。但在英偉達的這項研究工作中,研究人員其實采取瞭一種排除推理的方法。即機器人收到並理解語音轉成的文本指令進行類似輪廓物品的推理,例如“選擇青色的燈泡和棕色的鑰匙”(圖 1),這其中就包含熟悉的概念和不熟悉的概念。
在英偉達的這個學習框架中, Franka機器人 結閤瞭感知模塊與包含內部記憶的推理模塊,通過強化學習構建推理策略,通過考慮所有可行性,實現對於即使從未見過的對象或概念,也可以做齣正確的推理判斷。此外,它還能使用單樣本學習(one-shot learning)的方式將新概念添加到其已知概念集中,從而可以識彆更多新概念。
此外,英偉達在Franka Emika探索版機器人的基礎上,還展示瞭如何使用強化學習訓練進行RBE推理,機器人能使用它來學習新概念,並將其新知識應用於推理其他新概念上。
他們在一組新的環境中對這種方法進行瞭評估,例如能夠使用機器人上的視覺硬件讀取相同盒子上的標簽信息以確定內容,得益於此,靈活的 Franka機器人 從一堆隨機分布的物體中,選取齣瞭正確的物體,同時調整瞭關節位置和速度,並選擇以最佳軌跡抓取和移動物體將它遞給指定對象。
結果錶明, Franka機器人 成功地通過排除推理學習的方式,還可以學習新的概念並將其用於進一步的推理。這種方法通過擴展豐富的有監督學習方法和能夠處理新概念的理性框架,為隨機應變處理開放世界環境鋪平瞭道路。
▍零樣本識彆組閤推理
Franka穩定的開源版機器人(Research version)硬件平台和靈敏的力控製使得英偉達在進行更深層次、更具創新性的一些研究試驗時同樣能夠更容易獲得成功。
組閤推理一直被認為是人類智能的標誌,也是目前人工智能係統目前麵臨的一個基本限製。舉個簡單的例子,即使人們從未見過紫色花椰菜,也可以根據他們對花椰菜和其他紫色物體的熟悉程度來識彆。盡管多特徵組閤性是深度學習網絡的關鍵設計因素,但不幸的是,因為新標簽通常建立在與類標簽相關的特徵上,當前的深度學習模型難以推廣到新標簽多次組閤的情況。
在這些實驗中,英偉達通過一些方式,解決瞭零樣本組閤的機器識彆問題,同時英偉達嘗試在簡單的隨機性場景中,讓 Franka機器人 通過遵循簡短的語言指令,通過排除推理的方式完成對某些事物的判斷和選擇。
零樣本隨機性組閤是機器學習識彆已知屬性對象進行組閤後産生的新問題,這種組閤泛化能力對於視覺和語言等現實領域的學習至關重要,此類場景在無人駕駛中會遇到非常多。
例如,行駛中的汽車就因為視覺場景重疊組閤會麵臨很高的空間復雜度問題,這個復雜度會隨著物體數量及其屬性的增加呈指數增長。因此目前沒有一個無人駕駛的方案能夠覆蓋所有場景下的組閤子集,從而精準來識彆各類場景分布下的長尾問題。
這種多事物泛化組閤的情況也齣現在很多AI領域的問題中齣現, 例如文本理解、語音語義理解和控製。
不僅如此,按照傳統方法從數據中訓練齣來的模型往往會因組閤泛化而失敗,原因有兩個:分布偏移和糾纏(distribution-shift and entanglement)。
因為識彆新組閤是分布偏移的一種極端情況,想要識彆在訓練中從未觀察到或者齣現過的標簽組閤(零樣本學習)非常難。在以往的訓練期間,模型需要學習多標簽相關性,但這會在實際測試中因為多標簽的負責聯係損害人工智能的推理性。
同時,因為訓練樣本本身通常以組閤方式標記,因此將它們的“基本”特徵與示例分離通常會造成更多難以明確定義的問題。例如這會導緻對新分布的樣本分類錯誤和混淆,導緻學習係統很難進行組閤泛化。
英偉達嘗試使用瞭因果框架(causal framework)解決這兩個挑戰,並提齣瞭一個基於因果關係的嵌入模型,置入該模型的 Franka機器人 能從相關(混淆)數據中分離視覺對象的訓練數據,並將預測屬性和對象重新組閤,實現更高顆粒度的真實數據集。
▍結語
人們可以從語言或演繹推理提供的信息中,無需任何樣本而學習到新的視覺概念,這將有助於機器人在對於文本的上下文理解中占據更強的優勢,例如, 機器人可以使用推理排除法從上下文中推斷齣某些文字和特殊語句的含義。
可以預見,在未來基於視覺觸覺的推理學習和對話式人工智能將使機器人技術取得更大進步,但在此之前,如何解決復雜環境下的特徵抓取和少樣本情況問題,仍然需要更多人進行研究和探索。
責任編輯: