發表日期 3/28/2022, 12:53:43 PM
機器之心報道
機器之心編輯部
通過你用手機的方式看你的財力,扶貧準確率最高能提升 21%。
新冠大流行摧毀瞭許多低收入和中等收入國傢,導緻廣泛的糧食不安全以及生活水平的急劇下降。為瞭應對這場危機,世界各國政府和人道主義組織已嚮超過 15 億人分發瞭社會援助。但是,他們正麵臨著一個關鍵的挑戰:在現有數據的情況下,快速確定最需要援助的目標人群仍是一項艱巨的任務。
在近日發錶在 Nature 上的論文《Machine Learning and Phone Data can Improve Targeting of Humanitarian Aid》中,來自加州大學伯剋利分校、德國曼海姆大學、美國西北大學的研究者展示瞭利用手機網絡的數據可以提升人道主義救援的針對性。
他們使用傳統調研數據來訓練機器學習算法,以識彆用戶手機數據中的貧睏狀況。然後,經過訓練的算法可以優先嚮那些最貧睏的手機用戶提供援助。
研究者通過研究西非國傢多哥(Togo)的一個旗艦緊急現金轉移項目(Novissi)對方法進行瞭評估,這項計劃使用算法分配瞭價值數百萬美元的新冠救濟援助金。他們在分析中比較瞭不同目標確定機製下的結果,包括排除誤差(exclusion errors,真正的窮人被錯誤地認為沒有資格)、總體社會福利和公平性衡量。
相較於多哥政府采用的地理位置目標確定方法,研究者使用機器學習方法將排除誤差減少瞭 4�C21%。而相較於需要全麵社會登記(一種假設,多哥並不存在這種登記)的方法,機器學習方法將排除誤差增加瞭 9�C35%。這些結果強調瞭新數據源在確定人道援助方麵能夠對傳統方法做齣補充,尤其是在傳統數據缺失或過時的危機環境中。
研究背景
我們先來瞭解一下多哥的旗艦緊急現金轉移項目 Novissi。2020 年 4 月,在首批新冠病例齣現不久,多哥政府推齣瞭這一項目。由於經濟限製命令導緻很多多哥人停工,並引發瞭廣泛的糧食安全問題。Novissi 項目旨在為受影響最重的人提供生存現金援助。
項目地址:https://publicadministration.un.org/zh/Themes/Digital-Government/Good-Practices-for-Digital-Government/Compendium/CompendiumID/472
但是,當多哥政府剛開始推齣 Novissi 項目時,沒有可用來評估獲援資格的傳統社會登記係統,也抽不齣時間或資源在新冠流行期間構建這類登記係統。最近的一次人口普查完成於 2011 年,沒有包含傢庭富裕或貧睏信息。最近的國傢生活水平調查僅僅涵蓋瞭一部分傢庭。
在這種情況下,Novissi 項目的援助資格根據 2019 年末更新的國傢選民登記係統中包含的數據來確定。但遺憾的是,這種方法無法將多哥最貧睏傢庭納入 Novissi 項目的援助範圍。
該研究旨在幫助多哥政府將 Novissi 項目的援助範圍從首都洛美的非正式工作者擴展到鄉村地區的更貧睏人群,在實現過程中還要滿足多哥政府的兩個既定政策目標:將援助引嚮該國最貧睏的地理區域;優先嚮這些地理區域的最貧睏手機用戶分配援助。
基於此,研究者使用機器學習算法分析瞭從衛星到手機網絡上的非傳統數據,並最終提升瞭最貧睏手機用戶人群的目標確定。
對手機用戶進行調查,確定用戶財富和消費水平
第一步將機器學習算法用於高分辨率衛星圖像,以獲得多哥每 2.4 公裏 × 2.4 公裏區域財富微觀估計。這些估計提供瞭每個小網格單元中所有傢庭相對財富,之後對這些網格單元進行人口加權平均,從而得齣多哥最小行政單元財富估計。
第二步通過機器學習算法對多哥兩傢移動電話運營商提供的移動電話元數據進行處理,以估計每個移動電話用戶的平均日消費。
具體而言,該研究從多哥兩傢移動網絡運營商那裏獲得瞭 2018-2021 年特定時間段的手機元數據(呼叫詳細記錄 (CDR))。該研究重點關注移動網絡數據的三個分段片:2018 年 10 月至 12 月、2019 年 4 月至 6 月和 2020 年 3 月至 9 月。CDR 數據包含以下信息。通話:來電者電話號碼、接收者電話號碼、通話日期和時間、通話時長、撥打電話的基站 ID;SMS 消息:發送方電話號碼、接收方電話號碼、消息的日期和時間、發送消息的天綫 ID;移動數據使用:電話號碼、交易日期和時間、數據消耗量(上傳和下載相結閤);移動貨幣交易:發送方電話號碼、接收方電話號碼(如果是點對點)、交易日期和時間、交易金額以及交易類型的廣泛類彆(現金、現金、點對點或 賬單支付)。
該研究對具有代錶性的手機用戶進行瞭調查,並用這些調查來衡量每個用戶的財富或消費,然後將基於調查的估計與每個用戶使用手機曆史的詳細元數據相匹配,采用有監督機器學習算法對樣本數據進行訓練,通過手機使用來預測用戶財富和消費水平。這第二步與傳統的代理生活狀況調查 ( proxy means test,PMT) 類似,但有兩個主要區彆:該研究使用手機特徵的高維嚮量而不是資産的低維嚮量來估計財富;該研究使用旨在最大化樣本外預測能力的機器學習算法,而不是最大化樣本內擬閤優度的傳統綫性迴歸。
大傢比較關心數據隱私問題,為瞭保護獲取到的數據機密性,該研究在分析之前通過將每個電話號碼哈希編碼為唯一 ID 來對 CDR 進行化名。這些數據存儲在大學服務器上,設置瞭訪問權限。在將 CDR 記錄與調查迴復進行匹配之前,該研究在電話調查中獲得瞭所有研究對象的知情同意。
精準評估
該研究對這種將機器學習和手機數據相結閤方法稱為基於手機的方法。通過比較該方法與反事實方法下的定位誤差:政府在 2020 年夏天試行的一種地理定位方法(多哥 admin-2 極,即多哥各縣的貧睏地圖,40 個縣),貧睏州(多哥 admin-3 級,397 個州);基於職業的定位(包括 Novissi 針對非正式工人的最初定位方法,以及針對該國最貧窮職業類彆的最佳方法)。
該研究想要實現幫助 100 個最窮州的最窮的人,研究發現,相對於多哥政府的其他可行目標定位方法,基於電話的目標定位方法大大減少瞭排除誤差和包容錯誤(errors of inclusion)(非窮人被錯誤地認為有資格),如圖 1a 和錶 1 所示。
使用 PMT 作為真實貧睏狀況的衡量標準,基於電話的定位(麯綫下麵積 (AUC) = 0.70)優於針對農村 Novissi 援助的其他可行方法(例如,地域範圍定位的 AUC = 0.59-0.64)。
圖 1:Novissi 目標與替代目標的比較
錶 1。
更多細節內容請閱讀原論文。