發表日期 4/4/2022, 1:41:12 PM
演講:周明
編輯:杜偉
在自然語言領域,感知智能之後的下一個窗口是什麼呢?瀾舟科技創始人周明對「認知智能」的發展前景和需要解決的問題做瞭詳細的綜述和展望。
3月23日,機器之心AI科技年會在綫上召開。在下午的人工智能論壇上,創新工場首席科學傢、瀾舟科技創始人、ACL前主席和CCF副理事長周明做瞭主題為《認知智能的創新時代》的演講。
https://www.bilibili.com/video/BV15Z4y1B76d
機器之心對演講內容進行瞭不改變原意的整理。
感謝機器之心的推薦,有這樣的機會嚮大傢介紹一下我們在瀾舟科技所從事認知智能的想法,我的演講題目是「認知智能的創新時代」。
大傢都知道人工智能經過過去幾十年的發展,經曆瞭起起伏伏。從最早的圖靈測試到達特茅斯會議,帶來瞭AI的起源,然後是 60 年代的專傢係統,接著人工智能很不幸地進入瞭第一次鼕天,大傢都不太信人工智能瞭。到 80年代,日本第五代計算機的興起帶來瞭新的希望,比如Prolog編程語言等。但隨後很快又進入瞭人工智能的第二個鼕天。
到90年代,機器學習開始興起,即基於數據驅動做統計機器學習。當時統計機器翻譯等領域也都開始實用化。人工智能真正飛躍源於深度學習的崛起,大概在 2006 年。2016 年齣現一個裏程碑――ImageNet 評測超過人類。2017年,AlphaGO戰勝人類圍棋冠軍。對自然語言來講,2018年預訓練模型開始興起,以及後來AlphaFold高精度預測蛋白質結構。所有這些都是人工智能發展曆程的裏程碑。
總的來講,人工智能技術大概分為兩個流派。第一個流派是人工智能前期基於符號計算的流派,第二個流派是以最近深度學習為代錶的神經網絡流派。當然,這兩個流派各有韆鞦,前者可解釋性比較強,但是需要專傢內醒,而且比較脆弱。後者依賴大數據,缺乏可解釋性。
無論如何,最近幾年深度學習帶來的人工智能技術深深改變瞭人類的生活,從圖像到語音到自然語言處理、知識圖譜、搜索和推薦都實現大幅提升,並且自動駕駛、安防、自動翻譯、醫療診斷等熱門技術深深融入到瞭人們的生活。
我們是從事自然語言理解的,關心的是在感知智能之後自然語言的機會在哪裏?我這裏在判斷感知智能之後的認知智能開始崛起,推動瞭産業的發展。
這裏有幾個關鍵點。第一個關鍵點是最近基於預訓練模型的研究推動瞭很多自然語言處理任務的飛躍,其中一個代錶性工作是 2019 年榖歌用Bert預訓練模型做閱讀理解,超過瞭人類的標注水平。再加上知識圖譜和推理領域的一些進步,人們對自然語言為代錶的認知智能的崛起充滿瞭期待。
認知智能到底要解決什麼問題呢?實際上,認知智能要解決語言理解、問題求解、輔助決策和預測規劃問題,它還有非常廣泛的應用,從機器翻譯到搜索、聊天、專傢係統、廣告、情感分析、對話、信息抽取、故障診斷、推理、知識圖譜、情感計算等。
有瞭認知智能,人們就可以從大數據齣發,走到信息檢索,走到知識和推理,再走到洞見的發現,基於大數據充分地加強智能引擎,促進各行各業的數字化轉型,推動業務的升級。
瀾舟科技在認知智能領域做瞭什麼?
我們在創新工場孵化瞭一個團隊――瀾舟科技,旨在推動認知智能的發展。
我們首先做瞭預訓練模型,它是基於自研的孟子輕量化模型,可以處理多語言和多模態,同時支持理解和生成,通過定製來滿足不同領域和不同場景的需求。
然後在預訓練的基礎上做一係列自然語言處理任務。以機器翻譯為例,我們用預訓練模型和多語言聯閤訓練,加上術語識彆和翻譯的技術,實現瞭以中文為中心的世界主要語言之間的翻譯,而且在很多垂直領域都做到瞭業界頂尖的水平,通過與傳神等公司的閤作,幫助譯員提高生産效率。
第三個是文本生成。所謂文本生成,用戶有一些關鍵詞或者是一些題目,讓電腦生成一篇文章甚至一篇小說。我們用瞭自研的預訓練模型,在通用和領域大數據的支撐下開發瞭一個交互式可控文本生成技術。用戶可以指定關鍵詞或知識單元或應用場景來生成一篇文本,應用於營銷文案生成(與數說故事―容徽公司閤作)、新聞摘要、小說或者劇本的寫作等。
第四個是搜索引擎。我們基於預訓練模型從頭開始做一個新的搜索引擎。20 年以前,大傢都基於 TF-IDF 人工定義瞭很多的特徵(feature),比如很多搜索引擎用瞭上萬個特徵來做排序。我們想通過預訓練模型不去手工定義這麼多特徵,通過端到端學習提高 relevance 和recall,同時使用知識圖譜實現從搜索到推理到洞見發現的全流程過程。我們想幫助金融、營銷、法律、政務等領域提高搜索加研判的效率。
2021 年,我們的工作獲得瞭HICOOL 國際創業大賽一等奬,參賽隊伍共4800支,有6個隊獲得瞭一等奬。並且,我們在人工智能和金融賽道獲得的是第一名。
但是,認知智能這件事聽起來很玄,你做瞭很多技術,各行各業怎麼用起來呢?這就涉及到認知智能的解決方案問題。我們的想法是這樣的。首先,最底層要構建大規模的預訓練模型,包括GPU的集群、數據、訓練、微調、壓縮、模型的輕量化等。在此基礎上,訓練單語言、多語言和多模態預訓練模型,支撐從搜索引擎到文本理解、機器翻譯、文本生成、語音識彆和閤成、圖像和視頻的標注和生成等各項任務。注意,它們都是從自然語言齣發,通過多模態延伸到其他模態的理解和處理。
在此基礎上,我們通過一個柔性AI智能雲把自身的能力釋放齣去。所謂柔性AI智能雲,就是用戶可以用拖拉拽的方式所見即所得,很快形成業務的組成。具體實踐中,可通過SaaS或者深度定製的方法得到相應的服務。
輕量化模型訓練之路
我們的大規模預訓練模型走瞭一條逆襲之路。很多公司都在追求大規模的預訓練模型,越大越好。而我們認為,預訓練模型到瞭一定程度可能要做得更加精,更加準,更加輕量化,用戶纔可以很容易地實施。
這裏給大傢介紹一下大規模預訓練模型的大概思路。第一你得有大規模的海量文本,也要有大規模算力去計算一個語言模型。這個語言模型還得針對下遊任務進行微調,有時大傢也在研究不需要微調的zero-shot方法,像GPT-3,然後去完成一些下遊任務。這種方法的好處是解決瞭碎片化的問題,你隻要有數據來訓練模型,這個模型就能通過遷移學習的過程,在處理新任務的時候對較小的標注數據集做微調,從而達到相對比較高的水準。
這種新範式帶來瞭自然語言生産效率的大幅度提高,也標誌著NLP進入到瞭工業化和實施的階段,這無疑是一件好事。所以大傢都在研究預訓練模型,現在主要的模型有 Encoder模式(比如Bert)、Decoder模式(比如GPT)和 Encoder-Decoder模式(比如T5)。
現在很多預訓練模型都是遵循這些流派。大傢的思路無外乎是,要麼去研究更多數據或者模型更大,要麼去研究更加高效的預訓練方法,要麼研究如何用知識來增強預訓練模型,或者研究小樣本學習和統一的微調機製等。
我們為什麼要關注輕量化模型呢?模型的訓練代價非常之高,如下圖所示,據報道最開始訓練一個GPT-3模型需要 460萬美金,當然現在這個數字要小很多,但依然花費很高。過去幾年,預訓練模型的參數增長瞭不止三個數量級,硬件能力雖然也在增長,但其速度遠遠低於模型參數量的增長速度,所以訓練費用仍然上升瞭兩個數量級。
我們很多業界的同仁都在研究如何降低訓練成本,但依然是一個很大的數字。訓練的成本主要考慮如下幾個因素:模型參數量、GPU和TPU算力以及數據量。在實際任務中,大模型適配下遊任務的過程中,實施的代價比較大,用戶也不能承受買那麼多GPU來做推理。有鑒於此,我們需要降低成本,提高訓練能力,加快訓練速度,研究輕量化模型現在是我們瀾舟科技的一個重中之重。
不同的輕量化模型技術
我們已經研究瞭很多輕量化模型的技術,這裏簡要介紹一下。
第一個是模型優化,針對不同類型的預訓練,我們都做瞭相應的模型優化。
第二個是知識增強,包括基於實體抽取的增強、常識知識和領域知識的增強、事件依賴與因果關係和多模態世界知識的感知,從各個方麵研究如何能夠使用相應的知識來在同樣大小的模型下使它的能力有所提高。我們也用基於語言學的知識來增強,比如用依存關係來增強這樣的模型。
最後,我們考慮瞭數據增強,包括領域知識增強,即基於領域文本在已有模型基礎上繼續訓練;任務數據增強,比如通過信息檢索獲得問答對,用於問答任務;跨語言資源增強,比如某種語言的資源比較多,通過多語言預訓練做語言的知識遷移,遷移到低資源的語言。
諸如此類的工作使得我們訓練的小模型的能力並不一定低,而且可以針對新的領域實現快速定製。目前,我們已經開源瞭四個小模型,包括文本分析、生成、圖像理解和金融模型。
下圖是我們20 21 年 7月到9月份參加 CLUE打榜的成績體現。我們的模型是10億參數,但是對比其他公司的百億和韆億參數的模型,毫不遜色,甚至有所提升。在語義相似度等多項自然語言處理任務上,我們的模型在所有任務的綜閤體現中都是第一名。
我們模型的特點是小,成本低,但是比較精,這得益於它引入瞭很多的知識。另一大特點是快,我們訓練一個新的模型幾天就可以完成,做一個新的任務半天就可以完成。然後比較專,每個領域每個任務都可以定製一個預訓練模型,這種專有程度肯定超過通用大模型的能力。
我們的孟子開源模型也榮獲瞭中國《50傢最佳開源産品》。這些模型包括瞭Mengzi-BRET-base、Mengzi-BRET-base-fin、Mengzi-T5-base和Mengzi-Oscar-base。相關文檔和模型下載方式如下:
論文地址:https://arxiv.org/abs/2110.06696
項目地址:https://github.com/Langboat/Mengzi
能力擴展及相應模型
我們最近為這樣的模型增加瞭很多圖文的能力,如圖轉文,即一個圖片生成一段豐富的文字,來描寫這個圖片的內容。或者文轉圖,即給定一小段文字生成一個圖片。生成的效果還不錯,我們模型比較輕量化,所以用起來代價比較低。剛剛說到,我們的很多模型已經開源,很多人在開源社區裏通過充分討論和互相交流來提高對預訓練模型的認知,也增強瞭他們的業務能力。
在此基礎上,我們研究瞭機器翻譯。這裏說的機器翻譯包括通用的翻譯,以中文為中心,涵蓋中英、中德、中法等主要語言之間的翻譯。下圖為中英翻譯在各個垂直領域的錶現,很多是跟傳神公司閤作的。跟目前非常流行的翻譯相比有不錯的提高。無論是在金融、汽車、法律、閤同、機械、工程、石油、電力等方麵,現在都是居於一流的水平。
基於孟子預訓練模型,我們也在做文本生成領域的技術研究。我們研究可控文本生成,可控意味著用戶可以輸入主題、關鍵詞、知識圖譜、風格、人設等。我們的係統就要生成包含用戶這些信息,並真實體現用戶意圖的文本。我們管這個叫可控文本生成。
下圖為我們跟數說故事-容徽公司一起閤作做的營銷文案生成範例。用戶輸入標題「讓您的肌膚重返18歲」,關鍵詞如「薑汁、美白、麵膜」等,輸入一些知識圖譜,即用三元組來描述的事實點,用戶可以隨意輸入很多知識點或事實點。我們的係統「孟子」生成一篇比較流暢的營銷文案。
對比GPT等流行的模型,我們的模型有三個特點。第一生成的文本可能更加豐富,第二前後文更加連貫,第三體現用戶的輸入事實。GPT輸齣的每句話可能都通順但前後句子不連貫或者說齣瞭反事實的話。我們在這些方麵都做瞭深入的研究並有所剋服。
基於孟子預訓練模型,我們又做瞭新一代的行業搜索引擎,以金融搜索引擎為例。我們可以搜通用的股票股價信息,可以搜新聞、公告、年報,可以用問答方式得到新的事實點,也可以得到公司的財務信息。
其中一個特色是我們可以根據産業鏈和事件鏈來引導進行搜索。比如用戶輸入一個關鍵詞,我們搜索到一些結果。但是用戶想理解對産業鏈上下遊的影響,我們可以根據這個産業鏈來生成新的搜索關鍵詞,用戶得到新的搜索結果。同時,用戶希望發現這篇搜索結果中有哪些新的事件或者重要事件,我們需要對事件進行抽取,然後根據事理圖譜進行上下滑動得到「這樣的事件會影響什麼樣的事件」,或「預示什麼樣的事件會發生。」
這樣,我們做瞭一個基於産業鏈和事件引導的搜索體驗,幫助投研人員來分析哪些重要事件齣現的時候對産業鏈的影響,對下遊的影響或者預示有哪些新的事件産生,從而采取一些行動。
基於我們預訓練模型的文本生成技術,我們也在做智能研報的生成。所謂智能研報,就是有些客戶提供一些主題,傳統的方法需要在互聯網上人工搜索證據和文檔,然後人工進行整閤抽取。
我們想把這些過程全部自動化,所以給定一個主題,我們通過搜索得到很多相關的研報,然後基於孟子輕量化模型利用知識圖譜、小樣本學習和對比學習等做一些結構化事件的信息抽取、情感輿情分析、摘要生成、觀點研報和智能問答,把這些東西都做完瞭之後再組配起來形成一個研報。
大傢可以看到下圖中的例子,比如給一個關鍵詞「新能源汽車」,通過瀾舟的搜索引擎,從互聯網上搜索到很多相關的研報或者新聞,通過整閤就可以得到常見的問題對、事件抽取、摘要生成和輿情分析,然後所有這些內容輸入到我們的引擎中生成一個研報,包括標題、大綱及具體內容。
基於這樣的技術,我們就可以做「企業ESG社會責任報告生成」,道理也是一樣。用戶輸入某個公司的企業責任報告題目,根據這個報告的主題,自動地生成對應的寫作大綱,包括責任管理、市場績效、社會績效、環境績效、報告後記等,生成大標題、小標題,以及最後的總結和建議。
針對每個大綱的大標題和子標題,我們用信息抽取的方法抽齣關鍵的信息,然後生成相應的文本,每個段落生成之後再形成整篇報告。
當然這些生成結果,不可能代替人工專傢,還需要人工專傢核實、修正和完善,確保無誤。我們希望AI能夠配閤人類專傢提升整個工作的效率。
認知智能未來的挑戰
最後講一下未來認知智能麵臨的一些挑戰。
第一個挑戰是缺乏常識和推理。
大傢可以看到下圖一個有趣的問題,比如事實為「特朗普是美國第五十四屆總統」。經過如下問答過程,你會發現人類甚至小孩都可以迴答,但是有些機器迴答不瞭。比如誰是美國總統?機器和人都可以迴答。又如特朗普是美國最有權的人嗎?人可以迴答,但是除非在文檔中齣現瞭這樣的證據或話語,機器纔能迴答,否則迴答不瞭。這裏有個推理,美國總統應該是美國最有權的人,這是常識。沒有這個常識,機器就迴答不瞭這樣的問題。如何組織常識、利用常識進行推理,是目前預訓練模型所存在的一個缺陷。
第二個是在多輪對話中如何保證前後一緻,這也是我們文本生成中遇到的一個挑戰,即前後句子不一緻,比如說時間上不一緻、空間不一緻或邏輯上不一緻等。
這些挑戰帶來瞭很多思考,包括認知智能在內的下一代人工智能應該怎麼做,做什麼,什麼是我們的重點。我這裏根據自己的認知列齣瞭四個比較重要的問題。
第一個是可解釋性,對於現在我們的端對端學習,給一個輸入然後給齣一個分類或一個結果,實際上沒有一個解釋,導緻麵對很多應用的時候用戶不敢用,比如在金融中的應用。
第二個小樣本學習,現在端對端學習需要很多的標注文本來進行學習,如果標注的語料比較小,學習的效果不好。這就需要解決小樣本學習問題。
第三個是推理問題,剛纔說到有瞭知識圖譜或者常識,如何從輸入到輸齣走齣一個推理鏈條給齣結論。
最後就是常識問題,前麵提到瞭,這裏不再贅述。
這裏迴顧一下,對於人工智能和認知智能而言,它們實際上有兩個階段。先說第一階段,利用符號來推理,它有輸入有輸齣,有邏輯有推理。人們遇到一些不熟悉事實的時候,都會習慣做一些邏輯性的推理。這是System2。相比System2呢,System 1,就是現在深度學習的東西。利用經驗和數據就可以從一個輸入快速給齣輸齣,不需要一個深度推理過程,因而缺乏可解釋性。
如果把這兩者結閤起來,則具備兩者的能力,既可以快速給齣結果,又能給齣背後的邏輯。但是,基於規則的這種符號體係不可微,所以沒有辦法根據輸齣結果得到損失來調整網絡結構。而神經網絡可微但不具備可解釋性。
我在想能不能做一種基礎能力「Foundation Skill」的學習。一個啓發是人們做一件大事的時候,比如說推導一道數學題或者做一篇作文,它有很多基礎能力是以前在彆的地方學過的,不需要針對一個新的任務做端對端學習。如果把人類的每一個基礎能力都做好,處理一個大任務的時候快速地拼在一起。如果能夠解決可微的問題,不管基礎能力是基於數據還是基於邏輯,都可以快速地拼接成一個大係統,從而有效地解決小樣本學習的問題。
所以,為瞭研究基於基礎能力的小樣本學習求解復雜推理問題,我們正在做美國司法考試LSAT的自動答題研究。LSAT具有分析推理、邏輯推理和閱讀邏輯三大問題。下圖示例中為分析推理題,已知有六個條件,問「如果某一件事成立,上麵哪個答案是最有可能的」。
要解決這一問題,首先要做自然語言理解,把自然語言輸入變成一個邏輯錶達式。第二步是需要一個推理,從初始狀態齣發,經過一步步的推理,得到可能的終態。然後從可能的終態再去看滿足約束條件的多和少,把滿足約束條件多的答案抽取齣來。
這裏如何來解決自然語言理解問題呢?因為這是小樣本學習,LSAT 總共隻有幾韆道題,所以從端到端學習邏輯理解是非常睏難的。那麼,我們能不能用剛纔所說的基礎能力加上微調的能力去學習呢?也就是說分詞、語義錶達、邏輯錶達生成都在彆的渠道或者用彆的數據學完瞭,在這裏針對這樣一個新的數據集做快速的適配和遷移學習,看能不能解決這樣的問題。這裏也涉及到常識如何嵌入到整個的邏輯理解或者推理過程之中。
總之,LSAT 是一個非常好的數據集,來幫助大傢進行復雜推理任務的研究。
最後,我總結一下,認知智能現在發展的越來越好,大傢也對它充滿瞭期待。現在有個很好的機遇,因為預訓練模型加微調大大解決瞭碎片化問題。而SaaS模式希望能夠解決最後一公裏把服務交到用戶手中的問題。當然,機會與挑戰共存,最大的挑戰是知識化、輕量化和倫理道德的問題。我們還需要解決小樣本學習、可解釋和常識推理,這是未來5-10年的發展目標。瀾舟現在做瞭一些工作,即融閤神經網絡和符號係統,加上一些基礎能力和微調的設想,試圖來推進相關的實驗。
瀾舟科技是一傢認知智能公司,針對商業場景做數字化轉型,以自然語言處理為基礎提供商業洞見類的産品,主要的産品包括基於預訓練模型的功能引擎,像搜索、生成、翻譯、對話以及針對垂直行業場景的SaaS産品。我們有誌於成為世界上NLP的頂尖技術公司。
我們常年招聘研究員、工程師、産品經理和實習生,有興趣大傢可以訪問我們的網站獲得詳細信息。