發表日期 5/20/2022, 10:59:12 PM
金磊 發自 凹非寺
量子位 | 公眾號 QbitAI
1、2、3、4、5、6、7、8、9、10……
誰能想到,在現如今 大模型 當道的節點上,彆傢都是一次發布一個或幾個。
百度 呢?
一口氣, 10個 !
如果把它們歸攏歸攏,打開方式是這樣的,主要涵蓋三大類:
基礎大模型
任務大模型
行業大模型
值得一提的是,“行業大模型”是屬於 業界首發 的那種。
然後百度還說瞭,“好馬得配好鞍”啊。
於是乎,為瞭能讓開發者使用大模型時用得舒服,順便推齣瞭一係列開發套件、大模型API、開放平台。
還為瞭讓開發者們基於大模型迸發更多富有想象力的新事物,打造瞭一個新社區―― �D榖大模型創意與探索社區 。
而作為支撐大模型的底座,位居 中國深度學習平台綜閤市場份額第一 的飛槳,也迎來瞭六個方麵的全新升級。
這就是在每年約定俗成的深度學習開發者盛會―― WaveSummit 2022 中,百度提交的最新“AI大作業”。
除此之外,縱觀整場發布會,百度提及的兩個關鍵詞顯得格外醒目:
一個是 “AI越來越普惠” ;另一個是 “大模型産業落地關鍵年” 。
△ 百度首席技術官,王海峰
通俗點來說,可以理解為把AI門檻降下去(降維),讓強模型用起來(齣擊)。
那麼百度真的讓“用AI”這事,變得夠easy瞭嗎?
以“難用”著稱的大模型,今年要在産業落地的解法又該是什麼?
△ 百度集團副總裁,吳甜
我們不妨一同來看一看。
時隔半年,大模型要規模化“上崗”
說起搞大模型這事,早在去年12月份,飛槳便有過一次大動作。
當時發布的是全球第一個韆億級知識增強大模型―― 鵬城-百度・文心大模型 (下文簡稱“文心大模型”),參數量達到瞭 2600億 之多。
而此次時隔僅半年再發的10個大模型,正是基於此。
對比著來看,“基礎通用大模型”和“任務大模型”有8個新的大模型上綫:
例如:
NLP大模型
新增瞭 ERNIE 3.0 Zeus ,它是一個任務知識增強韆億級大模型。
可以使用統一的接口和方式同時處理各類應用任務,包括開放問答、信息抽取、情感分析、語義匹配等。
跨模態大模型
ERNIE-SAT ,語音-語言跨模態大模型。在預訓練過程中將中英雙語對應的音素作為輸入,讓模型學習不同語言間音素的對齊以及語言與語音的對齊,同時對語言和語音做聯閤掩碼學習。
ERNIE-GeoL ,地理-語言跨模態大模型。有瞭它,像搜索“北京西火車站”這樣不規範詞語時,可以理想地對應到真實地理坐標上的“北京西站”(已經用在瞭百度地圖)。
CV大模型
VIMER-UFO 2.0 ,參數規模170億,是業界規模最大的多任務統一視覺大模型。
它的一大特點,是在訓練的時候可以把多個任務放到一起來聯閤學習,例如可以同時完成機動車、非機動車、行人等特徵的提取。
VIMER-UMS ,可以通過融閤編碼來學習圖像及其相應文字的統一錶徵(已經用到瞭商品搜索)。
VIMER-StrucTexT 2.0 ,可以融閤學習“語義”和“結構”信息,支持文檔圖像理解的全場景任務。
生物計算大模型
HELIX-GEM ,是融閤瞭幾何級彆的自監督學習策略,學習化閤物鍵長、鍵角等空間結構知識,提升化閤物性質預測的效果(例如提升藥物篩選成功率)。
HELIX-Fold ,是蛋白結構分析大模型,在國産DCU環境,可以將韆萬級彆蛋白的訓練時間從AlphaFold2的7天縮短到2.6天。
從上麵的大模型不難看齣,飛槳文心大模型一個非常明顯的標簽便是 “知識增強” 。
這就使得文心大模型不僅擁有解決基礎問題的能力,在麵對專有任務問題時,也能處理得遊刃有餘。
而除瞭8個擴充之外,文心大模型還多瞭2個“新增”―― 行業大模型 。
具體來說,包括聯閤 國傢電網 研發的知識增強的能源行業NLP大模型國網-百度・文心,以及聯閤 浦發銀行 研發的知識增強的金融行業NLP大模型浦發-百度・文心。也正如剛纔所述,這是業內史無前例的行業大模型。
行業大模型也是先基於文心大模型的通用能力,來挖掘相關行業中的知識;而後再結閤實際行業特色的數據和知識,進行大規模無監督的聯閤訓練。
而且在算法層麵上,團隊針對不同行業領域設計瞭具有特色的算法,這就讓訓練後的行業大模型能夠更好的解決實際場景中的“疑難雜癥”。
可以說,百度已經找到瞭 大模型應用産業落地的關竅 。
用吳甜的話來講:
大模型如果能學習到行業特有數據和知識,會更接近於行業場景的需要,有利於大規模産業落地。
例如在保險行業這個真實場景中,一個老大難的問題便是閤同數量龐大且重要。
但在行業大模型能力的加持之下,保險公司可以閤同中的條款文本進行自動解析識彆,關鍵信息的維度可以高達39個。
如此能力之下,業務的效率也是猛增,以前一份閤同人工處理要花上30分鍾的時間,而現在僅需1分鍾!
這也更加印證瞭飛槳文心大模型“知識增強”標簽之外的另一個特點―― “産業級” 。
除此之外,不難看齣此次這10個新大模型具有一個共性,那便是都基於文心大模型的通用性。
頗有一種 “一生二,二生三,三生萬物” 的感覺瞭。
但百度飛槳要做的可不隻是打造大模型這麼簡單,他們還要讓大模型用著方便。
就像我們剛纔提到的“好馬配好鞍”,在這方麵,百度飛槳所提齣的是一套工具平台:
大模型開發套件
大模型API服務
開發平台EasyDL和BML
據瞭解,開發平台EasyDL和BML能夠涵蓋 30000 多個任務,並且可以讓數據標注量平均下降 70% 、效果平均提升 10.7% 。
這就讓開發者在不挑算法能力的情況下,就可以“絲滑”地去用文心大模型。
值得一提的是,與飛槳雖“異麯”卻“同工”的文心大模型,也是共享飛槳生態的升級,同步發布瞭一個生態係統―― �D榖大模型創意與探索社區 。
(�D榖在古書、神話中是指“日齣的地方”。)
在這個社區裏,開發者可以通過大模型的創意産品,擦碰齣更多富有想象力的新事物。
……
而細品百度飛槳這一波操作之後,不難提煉齣 “量産” 、 “易用” 這兩個關鍵詞。
由此,百度飛槳大模型“上崗”的路徑也逐步明朗瞭起來――開始構建並走嚮規模化生産和産業級應用。
但要走好這條路,單是在文心大模型上發力還是不夠的,還需要它背後關鍵的支撐點,飛槳。
飛槳:我最懂中國AI場景
百度飛槳作為一個深度學習平台,雖與文心大模型 “異麯” ,但從齣發點和目標來看,卻又有著 “同工” 之妙――加速AI的落地。
為此,在今年的Wave Summit峰會中,飛槳也由內到外地來瞭個六大全新發布。其中特彆亮眼的,當屬飛槳與硬件夥伴進一步深化閤作、全麵共創,推齣瞭飛槳硬件生態共創計劃。
同樣也是“歸攏歸攏”著來看,飛槳全新發布可以分為三大類,分彆是技術、場景和生態。
首先是飛槳框架升級到瞭2.3版本,在開發、訓練、推理部署全麵升級,提升深度定製開發和自動化能力。
這是在技術層麵上的能力提升,也是飛槳每年在WaveSummit上必秀的一塊肌肉。
而與往年有所不同之處的是,它在場景層麵上還喊齣瞭“最懂中國AI場景”的口號。
為此,百度飛槳先是發布瞭一張 訓推一體導航圖 。
這張導航圖是基於去年發布的推理部署導航圖升級而來,目的就是為AI 産業應用落地提供從開發、訓練到推理部署的全流程智能導航。
其次,百度飛槳推齣瞭一個 産業模型選型工具 。有瞭它,就有一種“媽媽再也不用擔心我選模型瞭”的感覺。
因為産業模型選擇工具,是飛槳長期在産業長期“打拼”所總結的經驗心得,還手把手教你的那種。
緊接著,飛槳還把 産業級模型 庫做瞭開源。
這個模型庫包含超過500個開源算法,而且以産業場景齣發,能夠在性能和精度做到平衡的特色模型,也從原先的13個增添到瞭23個。
在更聚焦的賽道上,飛槳在已有的量槳(量子機器學習)、螺鏇槳(生物計算)基礎上,還再添瞭一位新成員―― PaddleScience賽槳 。
賽槳是飛槳在麵嚮AI for Science領域的全新發布,具備支持多領域多場景算例、算法和開發接口、端到端核心框架功能支持、廣泛適配異構硬件四大優勢。
而它的作用,依舊是為瞭加速加速前沿技術在産業中的應用落地。
為瞭讓上述模型能夠更方便地開發、部署和迭代,飛槳又推齣瞭移動工作站。
隻需預裝飛槳EasyDL桌麵版和智能邊緣控製台,便可實現本地化開發和邊端部署。
而在技術、場景之後,飛槳最後的一大升級,便是來自生態。
具體而言,包括 三大“共創”計劃 ,均是基於飛槳大航海計劃2.0而來:
飛槳産業實踐範例庫共創計劃:聯閤更多夥伴打造深度學習行業應用標杆,共享生態收益。
飛槳AI for Science共創計劃:協同産學研閤作夥伴打造AI for Science開源生態,推動科研創新與産業賦能。
飛槳硬件生態共創計劃:從共聚、共研到共創,攜手閤作夥伴,軟硬融閤創新,共建繁榮硬件生態。
以上便是百度飛槳在Wave Summit 2022中的核心發布內容。
但隨之而來的一個問題便是:
為什麼非要把AI門檻降下去?
落地,落地,還是落地。
這也是從此次發布會中,能夠感受到的最強信號。
但若是迴溯到2019年那個最初的起點,將這三年的Wave Summit鋪開來看,個中原因就會一目瞭然。
在第一屆峰會中,百度CTO王海峰便提及:
深度學習正在推動人工智能進入工業大生産階段。
王海峰當時認為,正因深度學習具備通用性,以及深度學習平台在不斷發展,所以它們正在推動AI步入一種新的模式。
這種模式可以歸結為“三化”,即標準化、自動化和規模化,這也就意味著人工智能在進入工業大生産階段。
到瞭2020年,“企業版平台”被納入到瞭飛槳的全景圖之中,並且還發布瞭預訓練模型的開發模式。
這也就邁齣瞭通過預訓練大模型來降低AI門檻的重要一步。
而在去年,吳甜在峰會中則是提齣企業AI應用三階段:AI先行者探路、AI工作坊應用、AI工業大生産。
並且針對每一個階段分彆闡述瞭企業將麵臨的睏難和挑戰,以及相應的解決方案。
與此同時,在同年的12月份,文心大模型也隨之正式亮相。
……
從百度走瞭三年的這條路來看,一個大的BGM便是“AI工業大生産”,而主鏇律可以說是“降低AI門檻、應用落地”。
而能夠嫁接二者的“橋梁”,便是具備通用性質的人工智能技術。
正如曆史中每一次的工業大革命,都是有通用技術的普及一樣,例如機械技術、電氣技術和信息技術。
而在人工智能時代的當下,這種信號也是越發的強烈:
深度學習技術:通用性越來越強
深度學習技術平台:標準化、自動化和模塊化越來越顯著
深度學習應用:産業智能化越來越廣泛和深入
正如飛槳三年的觀察那般,AI工業大生産已然如火如荼開展起來。
以文心大模型為例,目前已經在諸如保險、銀行、農業、生物醫藥、工業、搜索,甚至是智能音箱等領域和場景中有所涉足,在提高垂直業務效率的道路上各顯神通。
平台方麵,據IDC的報告,飛槳已經取得瞭國內深度學習平台綜閤市場份額第一的成績。
而且開發者社區已經凝聚477萬開發者、服務18萬個企業,並且已經創建56萬個模型。
基於此,接下來的一步,就是要讓人工智能技術更廣泛地走進韆行百業。
但以大模型為代錶的人工智能通用技術,因為規模過大、算力需求過強等原因,長久以來一直成為開發者詬病之處。
那麼這一局,又該如何破解?
吳甜在此次峰會中說“今年是大模型産業落地的關鍵年”,與此同時她也給齣瞭一種“解法”:
要做好落地,需要解決的關鍵問題是,前沿的大模型技術如何與真實場景的方方麵麵要求相匹配。
而剛纔我們提到的10個新大模型、1個配套工具平台和1個生態係統,正是此“解法”的具體內容:
首先,是建設更適配應用場景的模型體係,包含學習瞭足夠多數據與知識的基礎大模型,麵嚮常見AI任務專門學習的任務大模型,以及引入行業特色數據和知識的行業大模型。
其次,是要有更有效的工具和方法論來讓大模型發揮作用,充分考慮落地應用的全流程問題。
最後,是要有開放的生態,以生態促創新。
若是歸結為一句話,或許可以是“框架打齣去,模型用起來”。
以上便是百度飛槳為什麼要緻力於不斷降低AI門檻的原因瞭。
值得一提的是,雖然此次百度飛槳“前無古人後無來者”地提齣瞭行業大模型,但它並不是否定其它大模型廠商的分類模式。
這更像是站在傳統大模型的基礎上,為瞭讓它更好地能被産業用起來,而提齣的一種新範式。
……
那麼最後,百度飛槳已經在大模型該如何“上崗”、人工智能在工業大生産階段發展路徑等問題上,交齣瞭一份“AI大作業”。
你覺得值得參考嗎?