發表日期 5/3/2022, 12:36:26 PM
新智元報道
編輯:LRS
【新智元導讀】 ImageNet見證瞭計算機視覺發展的輝煌曆程,在部分任務性能已超越人類的情況下,計算機視覺的未來又該如何發展?李飛飛最近發文指瞭三個方嚮:具身智能,視覺推理和場景理解。
在深度學習革命進程中,計算機視覺依托大規模數據集ImageNet,在圖像分類、目標檢測、圖像生成等多個任務都錶現齣驚人的性能,甚至比人類的準確率還要高!
但CV為何能取得如此巨大的成就?未來將嚮何處發展?
最近,「華人AI女神」李飛飛在美國文理科學院的會刊 D dalus 上發錶瞭一篇文章,以計算機視覺中的物體識彆任務為切入點,研究瞭ImageNet數據集及相關算法的發展曆程。
文章鏈接:https://www.amacad.org/publication/searching-computer-vision-north-stars
文章認為技術的發展很大程度上源於對北極星(North Stars)的追求。「北極星」在這裏指的是研究人員專注於解決一個科學學科中的關鍵問題,可以激發研究熱情並取得突破性的進展。
在ImageNet和物體識彆的成功之後,越來越多的北極星問題湧現齣來。
這篇文章主要講述瞭ImageNet的簡要曆史、其相關工作以及後續進展。其目的是激發更多北極星問題相關的工作,以推動該領域乃至整個人工智能的發展。
文章第二作者Ranjay Krishna是華盛頓大學艾倫計算機科學與工程學院的助理教授,2021年從斯坦福大學博士畢業,導師為李飛飛,主要研究方嚮為計算機視覺和人機交互的交叉領域,利用源於社會和行為科學的框架來開發機器學習模型的錶示、互動、模型、訓練範式、數據收集pipeline和評估協議。
ImageNet的前世今生
對大部分普通用戶來說,人工智能是一個飛速發展的領域,當然,一切都是源於現代計算機科學的工程壯舉,尤其是近幾年,AI的工程進展速度越來越快。
從垃圾電子郵件的過濾到個性化的推薦係統,再到汽車裏的智能自主刹車,係統內都是大量的工程實踐。
工程背後的科學往往被忽視瞭。
作為AI領域的研究人員,往往對工程和科學有著深刻的認識,會認為二者是密不可分、相輔相成。在實踐中激發新的思路和探索,隨著時間的推移,將之付諸為工程實踐。
一旦確定瞭基本問題,找到瞭下一個北極星,你就已經處於領域的前沿瞭。正如愛因斯坦所說:提齣一個問題往往比解決這個問題更重要。
自1950年起,人工智能領域就由各種北極星問題所驅動,當時圖靈巧妙地提齣瞭如何判斷一台計算機是否值得被稱為智能的問題,即「圖靈測試」
6年後,當人工智能的奠基人計劃舉辦達特茅斯會議時,他們設定瞭另一個雄心勃勃的目標,提議建造能夠「使用語言、形成抽象和概念、解決現在留給人類的各種問題,並改進自己」的機器。
如果沒有這道指路明燈,我們可能永遠無法解決新問題。
在人工智能的研究中,視覺是核心,一些進化生物學傢假設,動物眼睛的優先進化導緻瞭物種的不同。
那如何教計算機看東西呢?
在世紀之交時,受之前大量相關工作的啓發,李飛飛及閤作者提齣一個物體識彆的問題:計算機正確識彆給定圖像中齣現的內容的能力。
這似乎是一個有前途的北極星問題,在1990年到2000年初的十幾年時間裏,物體識彆的研究人員已經朝著這個艱巨的目標取得瞭巨大的進步,但由於現實世界物體的外觀韆差萬彆,取得的進展十分緩慢。
即使在一個單一的、具體的類彆(如房子、狗或花)中,物體看起來也可能完全不同。例如,能夠準確將照片中的物體識彆為狗的AI模型,無論它是德國牧羊犬、貴賓犬還是吉娃娃,無論是從正麵還是側麵拍攝,奔跑接球或四肢著地,或者脖子上圍著藍色頭巾,都應該能正確識彆。簡而言之 ,狗相關的圖像種類繁多,令人眼花繚亂,而過去教計算機識彆此類物體的模型無法應對這種多樣性。
一個主要原因是過去的模型傾嚮於使用手工設計的模闆來捕捉圖像中的特徵,模型缺乏大規模圖像數據的輸入,無法應付物體的多樣性。
這意味著,我們需要一個全新的數據集來實現三個設計目標:大規模、多樣性和高質量。
首先是規模,心理學傢假設,類似人類的感知需要接觸上韆種不同的物體。當幼兒開始學習時,他每天的生活已經開始接觸大量的圖像。例如,六歲的孩子大概已經看過瞭三韆個不同的物體,並且學到瞭足夠多的特徵來幫助區分三萬多個類彆。
而當時,最常用的物體識彆數據集隻包含20種物體,所以擴展數據集很重要,我們從互聯網搜集瞭1500萬張圖像,並將其標注齣對應的物體類彆。
參照WordNet,李飛飛將新的數據集命名為ImageNet
第二是多樣性。從互聯網上搜集的圖像涵蓋瞭許多類彆,光鳥類就有八百多種,總共包括21841個類彆來組織這上韆萬張圖像。為瞭讓訓練後的模型更魯棒,ImageNet中的數據包含瞭各種場景下的圖像,例如「廚房中的德國牧羊犬」等,並且還給類彆標注瞭上下位詞,如哈士奇包括「阿拉斯加哈士奇」和「重毛北極雪橇犬」
第三點是質量。為瞭創造一個可以復製人類視力敏銳度的金標準數據集,ImageNet隻接收高分辨率的圖像。為瞭讓標簽的準確率更高,研究團隊請普林斯頓大學的本科生來標記並驗證這些標簽,後來使用瞭亞馬遜的眾包平台,最終在2007年至2009年間迅速從167個國傢和地區雇傭瞭大約5萬名標注人員來標記和驗證數據集中的物體。
有瞭ImageNet數據,如何讓它發揮作用成瞭關鍵。
ImageNet團隊一緻認為:免費開放給任何感興趣的研究人員,還設立瞭年度競賽來激勵相關模型的開發。
轉摺點齣現在2012年,AlexNet橫空齣世,首次將捲積神經網絡應用於物體識彆,並且準確率碾壓第二名參賽者。
雖然此前神經網絡已經研究瞭幾十年,但正是ImageNet讓神經網絡發揮瞭其本來的威力。
一年之內,幾乎所有的AI論文都是關於神經網絡瞭。隨著更多人參與研究,物體識彆的準確率也越來越高。
2017年,挑戰賽完結。八年來,參賽選手將算法正確識彆率從71.8%提升到97.3%,這樣的精度甚至已經超越瞭我們人類自己(95%)。
學會識彆物體隻是學習「看」的一種形式,計算機視覺領域還有更多的任務,如目標檢測等,但它們之間都存在著某些相似之處,這也意味著經驗可以用來參考藉鑒。
從理論上來講,計算機應該可以利用到這些相似之處,這一過程也稱之為「遷移學習」
人類非常擅長遷移學習,並且遷移學習對AI也有極大的幫助,目前幫助計算機進行遷移學習的方法就是預訓練,起點就是用ImageNet數據集學習物體識彆。
但這並不是說ImageNet對所有計算機視覺都有用。
一個例子是醫學成像。在概念上講,對醫學圖像(如篩查腫瘤)進行分類的任務與識彆手機拍攝的圖像沒有本質區彆,都需要視覺圖像和類彆標簽,也可以經過適當訓練的模型來判斷。
但ImageNet數據集並不能用來篩查腫瘤,因為裏麵根本沒有這個任務的相關數據。更重要的是,使用眾包平台也基本不可行,標注醫療診斷相關的數據需要非常高的專業知識,稀缺且昂貴。
計算機視覺當然也有其他應用場景,例如分析衛星圖像來幫助政府評估作物産量,水位、森林砍伐和野火的變化,並跟蹤氣候變化。
ImageNe的使用也帶來一個問題,人們過於關注大規模數據,而忽視瞭單一數據的影響。例如某些「對抗樣例」通過修改單個像素,就可以讓模型錯誤地分類圖像,目前有研究人員也在緻力於研究如何抵禦攻擊。
最後,ImageNet的廣泛影響使數據集接受瞭一些批評,也引起瞭一些創立之初沒有充分考慮的問題。
其中最嚴重的是人物肖像的公平問題。盡管我們很早就知道要過濾掉一些諸如種族、性彆歧視等公然詆毀的圖像標簽,但數據集中還是存在一些微妙的問題:例如那些本質上不是貶義,但應用不當可能會引起冒犯的標簽。
盡管這些公平問題很難完全消除,但也有一些工作緻力於減輕偏差的影響。
CV北極星在哪?
計算機視覺的下一步朝哪發展?
作者認為其中最具潛力的領域是具身人工智能(embodied AI),即能夠用於導航、操作和執行指令等任務的機器人。
機器人並不是指有頭、兩條腿走路的人形機器人,任何在空間中移動的有形智能機器都是一種具身人工智能的形式,無論是自動駕駛汽車、機器人吸塵器,還是工廠裏的機械臂。正如ImageNet旨在代錶現實世界廣泛而多樣的圖像一樣,具身人工智能的研究需要解決人類任務的復雜多樣性,小到疊衣服,大到探索新城市。
另一顆北極星是視覺推理(visual reasoning),例如理解一個二維場景中的三維關係等。可以想象一個場景,即使是讓機器人執行一個看似非常簡單的指令,如「將杯子帶迴麥片碗的左邊」也需要視覺推理。執行這樣的指令當然需要比視覺更多的東西,但視覺是一個重要的組成部分。
理解場景中的人,包括社會關係和人的意圖,又增加瞭另一個層次的復雜性,這種基本的社會智能也是計算機視覺的一顆北極星。比如看到一個女人摟著腿上的小女孩,這兩個人很可能是母女關係;如果一個男人打開冰箱,他可能是餓瞭。但目前計算機還沒有足夠的智能來推斷這些事情。
計算機視覺,就像人類視覺一樣,不僅僅是感知,還需要深入的認知。毫無疑問,所有這些北極星都是巨大的挑戰,比ImageNet還大的挑戰。
通過看圖片來識彆狗或椅子是一迴事,而思考和瀏覽無限的人和空間的世界是另一迴事。
但這是一組非常值得追求的挑戰:隨著計算機視覺智能的展開,世界可以成為一個更好的地方。醫生和護士將擁有一雙不知疲倦的眼睛來幫助他們診斷和治療病人,汽車將更安全地運行,機器人將幫助人類勇闖災區來拯救被睏者和傷員。
而科學傢們可以在更強大的智能機器的幫助下,突破人類的盲點,發現新的物種、更好的材料,以及探索未知的領域。
參考資料:
ttps://www.amacad.org/publication/searching-computer-vision-north-stars