發表日期 3/31/2022, 12:08:38 PM
機器之心報道
機器之心編輯部
3 月 23 日,在機器之心 AI 科技年會上,螞蟻集團金融機器智能部總經理周俊發錶瞭主題演講《可信 AI 在數字經濟中的實踐與探索》。
周俊介紹,如果將數字經濟比作一棵樹,樹乾中的人工智能 (AI)、大數據、雲計算等技術,構成瞭數字經濟的核心,起著承上啓下的作用;樹根中的隱私、安全等因素,決定長勢以及未來;樹乾跟樹根必須緊密融閤,纔能枝繁葉茂,其中 AI + 隱私、AI + 安全等成為當下亟需突破的方嚮。而可信 AI 技術理念將是數字時代抵禦風險、提升科技包容度的關鍵能力之一。螞蟻集團於 2020 年 6 月正式對外發布瞭其探索 6 年的可信 AI 技術架構體係,目前在 隱私保護、可解釋性、魯棒性、公平性 等技術體係方嚮上,已有不少的研究突破和落地,也依然任重道遠,需要持續投入。
以下為周俊在機器之心 AI 科技年會上的演講內容,機器之心進行瞭不改變原意的編輯、整理:
非常高興來到機器之心。大傢都知道人工智能正在成為日常生活中大傢不可或缺的一部分,它被用於幫助用戶完成各種各樣的決策。但是 AI 技術其實也暴露齣瞭很多弱點,比如偏見和易受攻擊。為瞭解決 AI 中的這些問題,建立可信賴的人工智能的機製、方法將非常重要,這也是我今天要分享的主題,即可信 AI 在數字經濟中的實踐與探索。
具體到數字經濟中,我們可以看到,在國際清算銀行給齣的金融科技框架裏,AI 得到瞭廣泛的應用。樹乾中的人工智能、雲計算等技術成為瞭金融科技的核心,並且承載瞭非常重要的承上啓下的作用。
圖源:https://twitter.com/bis_org/status/1222834967920685057
在産業智能化的過程中,隱私保護、數據安全等根本性的問題對人工智能的影響會變得越來越重要,也決定瞭未來整個數字經濟的走勢。所以,樹乾跟樹根必須緊密融閤纔有可能枝繁葉茂。其中,AI + 隱私 / 安全等成為當下大傢亟需突破的方嚮。可信 AI 對企業和學術圈都非常重要,隻有確保 AI 做齣的決策安全可信、尊重隱私、容易理解,人們纔能相信 AI,它纔能真正發揮作用。
我們在打造數字經濟平台的過程中也聯閤瞭很多外部的高校,著力發展齣瞭可信 AI 的技術。我們希望可信 AI 在數據隱私保護、可解釋性和因果分析、公平性和安全性(魯棒性)方麵都能有比較好的能力,這樣纔能滿足公眾或者業界對 AI 的期待。
為瞭實現可信 AI 的技術,我們在跟數字經濟結閤的同時,沉澱瞭一些重點的方嚮,比如公平機器學習、對抗機器學習、圖機器學習、可解釋機器學習、可信隱私計算等等。通過這些重點技術的研發,我們能夠為風險管理、安全風控、財富管理等上層具體應用提供支撐,確保這些方法論能夠被科學地定義、拆解成工程的目標,從而推齣各種平台和工具,使得 AI 整個生命周期裏都能應用「可信 AI」這樣一個理念。
接下來我會逐一介紹我們在 圖、可解釋、隱私保護、對抗 四個方嚮取得的進展。
圖機器學習
圖是非常常見的非歐式空間下的一種數據結構,在社交網絡、生物醫藥等領域都有非常廣泛的應用。它實際上是對節點和邊進行建模。由於圖具有非常好的錶達能力,這幾年齣現瞭大量的被稱為圖神經網絡(GNN)的方法。GNN 是在圖上麵運行的深度學習方法,在推薦、欺詐檢測等很多領域都有非常好的效果。
在實踐中,我們發現,GNN 能夠比較好地剋服信息不足的問題,從而提升 AI 對長尾客戶、小微企業等薄信息客群的服務能力,使得他們享受到數字服務、數字經濟的概率大幅提升。它能提升 AI 的覆蓋率,對 AI 的包容性也有正麵的貢獻。但是,一個比較大的挑戰是如何處理工業級規模的圖建模問題。
我們知道,在機器學習中,工程是算法的一個底座:沒有強大工程的支持,算法很難被大規模應用。為瞭支持前麵所說的工業級圖數據的結構,我們首先研發瞭一個圖學習係統――AGL(Ant Graph Learning)[1],這個係統會依據圖神經網絡裏的兩個經典操作――匯聚和更新――進行學習。我們這裏列瞭一個基本公式。一個可以捕捉到 k-hop 鄰居的圖神經網絡,它基本的 k 層的學習範式如圖上所示,從示意圖上也可以看到這裏麵所做的傳播和聚閤的方嚮:
為瞭實現這樣一個圖神經網絡的訓練和大規模的推理,我們的係統主要分為三個部分。當然這個係統設計的初衷會更加關注可擴展性、容錯性,以及盡可能對現有的方法進行復用。基於這樣一個原則,我們有三個對應的核心模塊:
GraphFlat(對樣本或鄰居進行處理);
GraphTrainer(真正的訓練部分);
GraphInfer(專門做大模型上的推理工作)。
接下來我會就其中的一些關鍵部分進行解釋。
首先,在訓練器這一部分,我們運用瞭傳統的參數服務器的結構。它可以存儲比較大的參數,把參數切分成多片很好地存儲起來,然後利用工業級係統中存在的大量機器資源,也就是 worker,進行並行的計算。
在 AGL 中,我們利用批處理框架如 MapReduce 來進行圖樣本生成,在訓練期間設計瞭如邊分區、圖裁減和流水綫並行等多種計算優化策略。我們能夠看到,在一個比較大的工業級數據集上,在一個 62 億節點、3300 多億條邊的真實的圖數據上麵,我們能夠使用 3 萬多個 core 完成真實係統的測試。也能夠看到,在這樣一個大規模數據集上麵,我們的 AGL 係統能夠具備近綫性的加速比,並且有比較好的可擴展性,也為支持工業級規模的圖機器學習的算法打下瞭比較堅實的基礎。
基於這樣一個係統,我們首先設計瞭一個反套現的應用。我們利用這種轉賬交易的大規模資金的關係,針對買傢子圖、賣傢子圖、買賣傢路徑子圖,通過圖仿真産生齣交易子圖,然後再利用 AGL 係統進行動態的圖學習,學習到圖錶徵後我們會進行相應的鏈接預測,對大規模資金關係中存在的套現交易進行識彆,使得套現率有比較大幅度的下降(相對下降 10%)。
完成瞭這個任務之後,第二部分是我們如何結閤這樣的係統提升 AI 的包容性,尤其是對於長尾用戶和中小企業。我們發現,中小企業會存在麥剋米倫缺口(由於金融資源供給不足而形成的巨大資金配置缺口),這經常睏擾著中小企業的發展。我們也知道,中小企業是毛細血管,對經濟、金融的運行産生瞭非常關鍵的作用。我們希望通過 GNN,使得分析信用曆史有限的客戶的信用度成為可能,從而滿足中小企業在金融上的一些訴求,提升 AI 的包容性。
具體來說,我們首先會進行供應鏈挖掘(鏈接預測技術),即預測哪些企業之間可能存在經營族群,然後在隱私保護的前提下基於族群進行信用分析。因此,當我們能將大量的中小企業基於供應鏈族群匯聚到一起,並有瞭一定的分析之後,便能識彆企業的信用情況。
為此,我們提齣瞭一個時空結閤的 GNN(Spatial-Temporal aware Graph Neural Network,ST-GNN )[2]。首先,我們通過前麵提到的供應鏈挖掘補足企業之間的關聯,再結閤圖裏麵現有的一些風險標簽,通過這個時空結閤的 ST-GNN 方法,把這樣一個問題轉化成信用評分的問題,從而對整張供應鏈網絡裏麵的企業完成信用評分,基於這樣的信用評分評估這個企業違約的概率,從而滿足他們金融上的訴求。
我們跟一些傳統方法(如 GBDT、GAT)做瞭對比。結果顯示,我們這個結閤瞭時空信息的方法能夠在中小企業的金融訴求預測上大幅改進模型的性能。主要原因在於,我們的方法結閤瞭很多圖上麵的信息,而且設計瞭時空注意力的機製,能夠比較好地融閤多元、多維度的信息,體現齣企業之間比較復雜的族群相關度,從而識彆中小企業的信用評分,基於這樣的信用評分助力他們享受對應的金融服務。
為瞭提高供應鏈挖掘的能力,我們也提齣瞭另外一種路徑感知的圖神經網絡(Path-aware Graph Neural Network,PaGNN)[3]。它融閤瞭傳播和匯聚兩個算子,並在融閤的過程中學到瞭兩個節點之間的結構(比如路徑的結構),這樣就能更好地判斷兩個節點之間可能存在的復雜相關,從而更好地繪製族群,助力供應鏈金融,滿足中小企業資金上的需求。
我們這裏給瞭一個案例。首先,通過公開的企業數字信息,我們可以查到供應鏈網絡的一張圖。有瞭這樣一張圖之後,我們可以形成某些品牌的供應鏈網絡,然後再通過前麵提到的各式各樣的 GNN 方法對圖進行相關度挖掘,然後再把它轉成信用評分的問題。有瞭這樣的一個圖的方法之後,族群發現的準確率也有比較大的提升,這可以助力下遊的企業更好地拿到經營性貸款,可以提高 AI 覆蓋率和包容性。
同時我們也注意到,圖學習這種算法本身存在魯棒性的問題。於是,我們跟外部高校閤作,提高瞭模型的魯棒性,也解決瞭模型過渡平滑、難泛化等潛在問題。我們還提齣瞭一個新的穩健的異質 GNN 框架來對抗拓撲對抗性攻擊。它配備一個注意力淨化器,基於拓撲和特徵信息來修剪對抗性鄰居,從而進一步增強 AI 的可靠性 [4] [5] [6] 。
可解釋機器學習
現在很多 AI 的方法都是一個黑盒模塊(下圖),人們對中間的過程並不是特彆瞭解。我們希望通過可解釋的機器學習,讓黑盒由黑變灰(在一定程度上可解釋),並最終變成白盒(完全可解釋)。可解釋機器學習使得機器學習模型能夠以易於理解的方式嚮用戶解釋或呈現其行為。
我們提齣瞭一種新的方法―― COCO(COnstrained feature perturbation and COunterfactual instances) [7] 來解釋任意模型的測試樣本。在此之前,業界已經有一些可解釋方法,比如自身可解釋性方法(如決策樹)、全局可解釋性方法(如 PLNN)、後置局部可解釋性方法(如 SHAP)等。而我們提齣的是一個比較適閤在工業界中應用的可解釋性方法。
這個方法本身不是很復雜,算法的流程主要分三步:首先,它會去篩選測試樣本的近鄰,利用 Mixup 生成擾動數據;然後,它會對測試樣本進行有限製的擾動得到反例樣本;最後,它通過度量反例樣本,計算測試樣本的特徵重要度,來給齣任意模型的可解釋性。
在圖像數據上麵,我們這個方法篩選齣瞭前 200 個重要特徵。畫成圖的話,這些特徵基本上貼閤在數字的邊界上,這樣一看就知道挖掘齣來的重要特徵確實在上麵。在工業界中常用的錶格上麵,我們也會先把重要特徵挖掘齣來,再訓練成模型,然後看模型挖掘齣來的重要特徵和其他方式(如 SHAP、LIME)挖掘齣的特徵精度效果的對比。可以看到,我們的方法在精度上有比較好的效果。
據此,我們可以得齣這樣幾個結論:一是通過有限製的擾動,COCO 能夠更容易辨識齣重要特徵;二是通過 Mixup 進行增廣,數據會更閤理;三是 COCO 魯棒性錶現相對較好並且更穩定。
我們將這樣的方法用到瞭風險感知場景中。比如有時候我們發現某人(如張某某)支付寶有兩個賬戶,他用一個賬戶頻繁給自己的同一賬戶進行轉賬。此時,我們的風險感知模型可能會判斷這個賬戶被冒用瞭。我們希望知道這個風險感知模型為什麼會做齣這樣一個決策。因此,我們會用 COCO 模型生成該風險感知模型的重要決策因子。我們最後可能會得齣這樣一些因子:比如說相同手機號名下平台會員優先級排序;曆史纍計登錄支付寶次數;近 360 天交易異常指數等。
通過這樣的一些重要特徵,我們可以分析一個風險感知模型為什麼會做齣某個決策,從而去驗證這個風險感知模型是否閤理,它給齣的結果是不是可信、可靠。通過這樣一個方式,我們把這些重要決策因子給到業務決策,他們會進一步核實實際情況(比如冒用人和被冒用人之間是否有親屬關係),然後再進一步去做人機結閤的判斷,決定是否凍結賬號或報案。這能使我們的業務人員更好地理解風險感知模型決策的邏輯,也能幫助我們的業務專傢結閤模型解釋來幫助決策,控製模型風險。
在這樣一個涉及金融賬戶的決策裏,我們其實是非常謹慎的。我們希望更好地控製模型的風險及對用戶的打擾,使得風險感知模型能夠比較好地保護大傢的賬戶安全,打擊犯罪。我們也希望專傢理解這個模型,然後把業務的經驗反哺到業務模型裏麵,從而使人機結閤達到比較好的效果。
隱私保護機器學習
隱私保護已經在業界發展瞭很多年,也積纍瞭很多術語,比如匿名化、差分隱私、TEE、多方安全計算等。每一種技術都有自己適用的場景。但我們發現,現在的隱私保護技術很難在模型強度、精度、效率三方麵取得比較好的平衡,這三方麵目前是一個相互製約的局麵。
我們在推薦、營銷、廣告等工業場景中經常見到大量的數據,同時又非常稀疏。雖然學術圈有很多隱私機器學習方法,但如何將它們應用到大規模稀疏數據上是一個比較大的問題。
為此,我們提齣瞭一種名為 CAESAR(Secure Large Scale Sparse Logistic Regression)[8] 的方法,它會基於混閤 MPC 協議,設計齣大規模隱私保護 LR 算法。
為什麼會設計這樣一個混閤 MPC 協議?因為我們發現:1)雖然同態加密協議總體來說通信復雜度比較低,但是計算復雜度比較高,而秘密分享協議的通信復雜度雖然較高,但計算復雜度較低;2)機器學習模型中的非綫性函數在密態空間下沒有辦法直接計算,或者說計算性能沒有辦法滿足真實場景的需求,需要高效的錶達式,在滿足模型精度的前提下降低函數的計算要求 ,進一步降低通信開銷。因此,我們提齣瞭混閤 MPC 協議,設計瞭隱私保護矩陣乘法,再通過泰勒展開去降低非綫性運算的復雜度,完成瞭 LR 的方法。
這裏麵的要點包括:1)稀疏的矩陣乘法,我們通過混閤的 MPC 協議,在閤適的地方選擇閤適的協議,不需要産生 Beaver’s triple,能夠更好地提升效率;2)安全、稀疏的矩陣運算,能夠同時交叉利用秘密分享和同態加密的技術,最後結閤分布式計算,在協調器的指揮下充分利用已經有的集群資源。每個集群本身也是分布式的學習係統,通過這樣的方式,我們能夠非常好地去進行分布式的運算,然後再通過整體的協調器的協調來完成最終的運算。
通過這種方式,我們發現 CAESAR 的效率達到瞭業界已有的 SecureML 方法的 130 倍左右。
基於這樣的隱私保護技術,我們跟浦發銀行做瞭聯閤風控的應用。我們在已經授權的數據上進行瞭嘗試,使得模型訓練和模型運行階段均不共享原始數據。與單方麵運算相比,聯閤運算的模式能夠更好地提升模型的性能指標(比如將 KS 指標提升 12%~23%)。將模型産齣的結果運用到風控場景中,我們能比較好地實現差異化的授信策略,防止潛在高風險貸款,從而將閤適的貸款給到閤適的人,真正實現防範金融風險的目的。
同時,我們也將這樣的技術應用到瞭聯閤分析和知識融閤等場景 [9]。其核心技術可以概括為:基於雲計算和可信隱私計算技術,通過模型梯度和參數安全共享來實現價值的流通,這可以應用於機構內部的運營優化和機構之間安全共享信息。比如我們可以通過隱私保護知識圖譜等技術,實現機構之間領域知識融閤,提升實體識彆準確率,助力保險疾病、證券分析等應用。
對抗機器學習
在對抗機器學習中,我們主要采用的是左右手互搏的方式,即假定我們對模型本身沒有太多的瞭解,基於這樣一個假定去攻擊我們的係統(黑盒攻擊)。我們設計瞭兩種攻擊方式(如下圖)。通過這樣的一些攻擊方案以及樣本的多樣性,我們希望不斷提升樣本的遷移性和遷移攻擊效率,以此來考察業務當中數字鏈路的安全情況,增強抗打擊能力。同時,我們將對抗攻擊中産生的樣本也放到瞭機器學習訓練的平台裏麵。我們搭建瞭一個對抗訓練的平台,將前麵攻擊方法所産生的樣本融閤到訓練機製中,使得決策邊界從紅綫變到藍綫,相應來說會更平滑,更平滑意味著通用性會變得更好,能夠提升模型的魯棒性,甚至在某些情況下能夠改善樣本不均衡的問題,從而帶來業務精度的提升 [10] 。
前麵我們總結瞭很多可信 AI 在數字經濟當中的落地和實踐,從包容性到可解釋隱私保護到對抗學習。我們也發現,企業 AI 的每一小步的應用都意味著我們離智能未來的夢想更近瞭一點。
在實踐和探索可信 AI 的過程中,我們也發現,業界雖然有一些可信 AI 的落地案例和研究,但這個方嚮依然任重而道遠。雖然已經有不少的突破,但目前大部分的突破還聚集在點狀的場景上麵。
我們也堅信,可信 AI 技術能夠持續提升人工智能技術在金融場景中的透明度、友好性,會使得決策更智能。由於目前的 AI 還處於高速發展的階段,我們今天分享的實踐和落地可能離最終的可信 AI 還有些距離,我們也希望通過今天分享的我們在工業界中的研究、實踐、踩坑經驗和不成熟的嘗試,能夠讓更多的同行去深入思考,能夠真真正正地做到通過可信 AI 抵禦數字時代的風險,提升科技包容度。
參考資料:
[1] Zhang D, Huang X, Liu Z, et al. AGL: a scalable system for industrial-purpose graph machine learning[J]. Proceedings of the VLDB Endowment, 2020, 13(12): 3125-3137.
[2] Yang S, Zhang Z, Zhou J, et al. Financial Risk Analysis for SMEs with Graph-based Supply Chain Mining[C]//IJCAI. 2020: 4661-4667
[3] Yang S, Hu B, Zhang Z, et al. Inductive Link Prediction with Interactive Structure Learning on Attributed Graph[C]//Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Springer, Cham, 2021: 383-398.
[4] Yu L, Pei S, Zhang C, et al. Self-supervised smoothing graph neural networks[C]. AAAI 2022, accepted.
[5] Bo D, Hu B B, Wang X, et al. Regularizing Graph Neural Networks via Consistency-Diversity Graph Augmentations[C]. AAAI 2022, accepted.
[6] Zhang M, Wang X, Zhu M, et al. Robust Heterogeneous Graph Neural Networks against Adversarial Attacks[C]. AAAI 2022, accepted.
[7] Fang J P, Zhou J, Cui Q, et al. Interpreting Model Predictions with Constrained Perturbation and Counterfactual Instances[J]. International Journal of Pattern Recognition and Artificial Intelligence, 2021: 2251001.
[8] Chen C, Zhou J, Wang L, et al. When homomorphic encryption marries secret sharing: Secure large-scale sparse logistic regression and applications in risk control[C]//Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining. 2021: 2652-2662.
[9] Chen C, Wu B, Wang L, et al. Nebula: A Scalable Privacy-Preserving Machine Learning System in Ant Financial[C]//Proceedings of the 29th ACM International Conference on Information & Knowledge Management. 2020: 3369-3372.
[10] Huan Z, Wang Y, Zhang X, et al. Data-free adversarial perturbations for practical black-box attack[C]//Pacific-Asia conference on knowledge discovery and data mining. Springer, Cham, 2020: 127-138.