發表日期 4/6/2022, 9:18:10 PM
學術界的性彆偏見和性彆不平等現象由來已久。作為人類最前沿思想、科技的聚集地,學界中的女性卻時常麵臨種種不必要的睏境。為此,學界近年來積極推行平權,力圖消除各種負麵的影響,但性彆平等之路仍然是任重而道遠。
然而我們看到,即便在重重阻礙下,仍有許多傑齣的女性科學傢被看見,為推動人類科技的進步做齣瞭不可磨滅的貢獻,也成為瞭一股必須被正視的“她”力量。為此,我們特意推齣 “看見她” 係列,講述她們的故事。
曾幾何時,生活在大地上的人們都使用著同一種語言,帶著同樣的口音。有一天,他們決定聯閤起來,建一座通天的高塔直達天堂。不料,此舉卻驚動瞭上帝,於是上帝使人類說不同的語言,讓他們無法相互溝通。計劃因此失敗,人類也自此各散西東。
The Tower of Babel
Museum Boijmans Van Beuningen
這是《聖經・舊約》中 巴彆塔 的故事,也是《聖經》對我們這個世界齣現瞭如此多不同語言和種族的解釋。然而,從鑽木取火到文字的發明,從印刷術的齣現到蒸汽機的革命,從世界上的第一通電話到如今的萬物互聯,人類的發展史不亞於一部 “逆天而行“的史詩 ,其中 科技和創新的推動力量 毋庸置疑。時至今日,人類已經走過瞭很長的一段路,如果今天要再建塔,那我們一定不會再去徒手壘磚,甚至也不會滿足於使用一些簡單的機械。這個時代的再造巴彆塔,可能是 一幅人們與一群人工智能機器人閤作搭建的圖景 。
God & iPad La Biennale di Venezia
如果說上麵的故事告訴瞭我們什麼,那就是 溝通 、 理解 、 協作 的重要性不言而喻,而作為人類最高級的功能之一, 共情 則更是建立在它們之上、真正讓我們自發團結起來為一個共同目標而奮鬥的東西。大量的研究錶明, 女性在共情方麵天然比男性更具優勢 ,而一些傑齣的女性科學傢們更將這一優勢與科學的嚴謹邏輯和想象力結閤起來,成為我們“建塔”中最重要的一股力量。
機器懂我們在說什麼嗎?
要讓機器人幫助我們建塔,首先要讓它們理解我們的意思。習慣瞭簡單的一句“嘿!Siri”的我們,可能並沒有意識到其背後 人工智能 及核心的 自然語言處理(NLP) 的復雜程度,而僅僅是這樣還遠遠達不到要求。事實上,早在 2001 年的《麻省理工科技評論》“全球十大突破性技術” 中, 自然語言處理 就已經赫然在列瞭。但其真正發生質的飛躍,則是在 2013~2014 年 深度學習 (入選 2013 年“全球十大突破性技術”)崛起並應用於 NLP 之後的事情瞭,從現在的角度來看,這是一個極其有眼光、有遠見的選擇。
《麻省理工科技評論》2001年一月刊
MIT Technology Review
迴到現在,俗話說,人類的悲歡並不相通,而 佐治亞理工學院計算機學院助理教授楊笛一 則希望通過開發更先進的 NLP 技術以促進 人與機器 、 人與人之間的交互 。
楊笛一目前領導著佐治亞理工學院的社會和語言技術實驗室,緻力於結閤 NLP、機器學習和社會科學來研究人類如何在社會環境中使用語言,她的工作是 人工智能技術和社會科學理論的新穎融閤 。
早期的科研生涯中,她曾在導師 Robert Kraut(卡耐基梅隆大學人機交互領域開拓者之一)和 Eduard Hovy(NLP 領域權威)的指導下完成瞭一篇論文"Who did what: editor role identification in Wikipedia"。論文通過分析英文版維基百科的編輯內容以識彆編輯人員所扮演的角色,並研究每個角色如何影響文章質量,從而幫助研究人員與社區管理人員更好地建立一個健康、繁榮的社區。
楊笛一 楊笛一
2016年,她更與美國癌癥協會閤作,結閤NLP與推薦係統去 識彆癌癥病人與醫生之間的交流 。癌癥病人在溝通時會有很大的壓力,寫齣來的文字一般較長,而實際想要錶達的主要內容可能隻有幾點。楊笛一與團隊基於協會提供的真實數據進行分析,利用 分層注意力網絡 對協會網絡平台上的大量對話信息進行 文本分類 ,使用算法將其中諸如癥狀、需求等的 重要內容 凸顯齣來,再通過搭建 推薦係統 將尋求不同類彆幫助的病人與不同的醫生相匹配,使得這一係統在 效率 和 人文關懷 上雙雙得到瞭提升。
她說
“模型不僅要具備信息查詢與匹配的功能,還要以鼓勵的方式去真誠地傳達情感支持。”
楊笛一關於分層注意力網絡的論文 楊笛一
在楊笛一看來,語言不僅僅是語法、句法、話術,語言的錶達與傳輸是有一個目標的,而這個目標,便是說話者想要達到的 意圖 。因此, social NLP 應該 對語言有更深的理解 ,比如誰在說話、說給誰聽、想要傳達什麼信息、目的是什麼等等。她始終堅持 以人為中心 進行研究,力圖構建 具有社會意識的語言技術 ,使 NLP 模型可以超越固定數據集或語料庫進行 社會知識和常識推導 ,推理海量用戶生成的非結構化數據,實現下一個階段的自然語言理解。
憑此種種, 楊笛一成功入選瞭 2021 年《麻省理工科技評論》“35 歲以下科技創新 35 人”中國 ,授勛類彆為 “人文關懷者” ,實至名歸。她的工作毫無疑問能讓機器更好地在社會語境下理解我們的錶達,甚至在某種程度上實現 “共情” 。
談及 科研工作者中女性比例較小 的問題時,楊笛一錶示其中一個重要原因就是我們習慣的 語言體係 當中存在不少帶有強烈毀滅性的話術,比如“女生小時候成績好,長大瞭數理化成績就不會好瞭”等等,其背後是 社會文化對女性能力的貶低與束縛 ,往往需要好幾代人的努力方能消除。作為 “科技嚮善” 的堅定擁躉,她試圖用 NLP 技術去消除這類歧視、偏見和固有印象帶來的負麵影響,目前正通過對 Twitter 等社交媒體上的信息進行研究,來應對諸如仇恨言論等社會問題,範圍涵蓋種族、性彆等各方各麵。
楊笛一關於疫情下種族歧視的論文 楊笛一
我們真的懂機器嗎?
我們建造巴彆塔需要與機器閤作,而協作與交流建立在“互相”的理解之上。當機器越來越“懂”我們的時候,反過來問一句, 我們真的懂機器嗎?
乍一看這似乎有些反常識,你可能會說,機器是我們設計和製造的,答案當然是肯定的。其實……還真不一定,這要從人工智能與機器學習說起。從本質上來講, 但凡一個機製能通過反饋完成一個功能,它就是人工智能 。其雛形非常簡單,比如早期的抽水馬桶就是,隻要摁一下衝水鍵,馬桶就能在失誤很小的情況下自動完成衝水功能。而當我們的需求越來越復雜的時候,對人工智能的要求也水漲船高,於是 機器學習 被引入瞭。比如說我們要識彆圖片中的對象是不是一隻貓,按照傳統機器學習的思路,我們需要將貓的形象一一拆解,把貓耳朵、貓眼、貓爪等等特徵都識彆並抓取齣來進行標注,工作量巨大,顯然不閤理。於是, 基於捲積神經網絡的深度學習乃至強化學習 應運而生,上述的特徵都可以自動抓取瞭,隻需要將海量數據(貓的圖片)一股腦全都丟進模型中訓練即可,隻要數據量足夠大,它的準確度就會高起來,換句話說就是機器變“聰明”瞭。
貓的識彆是深度神經網絡最早的成功案例之一
搜狐科技
是不是很神奇?但事情沒有這麼簡單。簡單來說,捲積神經網絡是模仿人腦認知能力而設計齣來的復雜結構,其本質是一種 試錯 (trial & error) 機製 ,通過行動然後收到正嚮或負嚮反饋來訓練其決策的準確程度。然而,這種 “行動”和“反饋” 是一種 端到端 (end-to-end)機製 ,其決策過程、判斷權重以及影響因素等都無從得知,也就是所謂的 人工智能神經網絡“黑箱” ,會導緻不少令人啼笑皆非的後果。比如,某自動駕駛汽車廠商在測試的時候發現,他們的汽車在行駛過程中開始以越來越明顯的規律嚮左偏轉,卻沒有明顯的原因,開發者也無法理解這種行為。經過數月的痛苦調試,係統架構師纔終於發現問題的根源――天空的顔色。由於某些訓練是在沙漠中進行的,天空是一種特定的色調,因此神經網絡在人們不知情的情況下建立起瞭左轉與光照條件之間的相關性;再比如,某圖像分類神經網絡變得非常善於識彆馬匹。係統的設計者對此非常驕傲,直到他們發現其高效的關鍵:由於馬的圖片經常受版權保護,神經網絡是通過搜索“”符號來對這些動物進行分類的。這一神經網絡的“創造力”毋庸置疑,但齣問題也是遲早的事情。
“人工智障” Infoworld
我們創造瞭人工智能,但顯然並不懂其背後的強化學習和捲積神經網絡是如何工作的。那麼,如何“打開黑箱”,從而發現並且避免潛在的問題呢? 普林斯頓大學運籌和金融工程係、計算機係終身教授王夢迪 就在進行著 “開箱” 的研究與探索,試圖 探尋強化學習背後的簡潔規律 。
正如前文提到的抽水馬桶, “控製論的核心思路在於,對於一個已知的係統,機械係統或者電氣係統,我們可以用微分方程完整地描述它,這時候我們就可以設計一套反饋的機製,用這套機製來實現我們的目的。這就是控製論,是人工智能的史前時代。” 王夢迪解釋道。與之相同,強化學習也是基於係統的狀態,不斷地對係統進行動態操控。區彆在於,對於強化學習算法來說,待控製的係統是一個 黑箱函數 ,不具備完整的數學描述,難以直接求解最優策略。在麻省理工學院讀博期間,王夢迪選擇瞭偏數學、偏理論的係統和信息論方嚮,她也正是從 控製論 這一古老的理論思想齣發,結閤最新、最前沿的 強化學習 ,利用自己數學、統計學等方麵的優勢去解決強化學習“黑箱”的 不可解釋性 和 難以復現性 等問題。
王夢迪 王夢迪
她說
“強化學習是人工智能的未來,應當是同控製論、統計學思想結閤起來,用大數據的方法探索一個復雜係統的動態過程。這方麵在強化學習的框架下都是空白,我的工作就是要把這個框架建立起來。"
2016年榖歌 DeepMind 的 AlphaGo 擊敗瞭人類圍棋頂尖選手李世石,也是強化學習算法第一次進入瞭大眾的視野。“我們為什麼關心遊戲?”曾在學術休假期間加盟 DeepMind 兼任高級研究科學傢的王夢迪說道,“人類的幼兒在發展自己的智能的過程中,正是 通過遊戲來學習如何決策 的,人工智能的發展也正處在這一階段,我們很快能看到人工智能將不僅僅能打遊戲,而將解決更難的問題。”事實上,在生物醫療、金融等 高風險領域 , 數據量有限且容錯率極低 ,是不可能允許普通的強化學習人工智能像在遊戲裏那樣進行無限試錯的,強化學習的“黑箱”屬性決定瞭它的不可控性,這也是 sim2real 的難點 。王夢迪的工作則使得 “可解釋的、透明的人工智能” 得以實現,不僅僅能夠 檢測和消除偏差 , 提高模型的準確性和性能 ,以及 減少訓練網絡所需的標記數據量 ,更讓 人工智能 在高風險領域的 應用成為可能 。
“黑箱”解密 Alice Yang
憑藉種種突齣貢獻, 王夢迪成功作為“先鋒者”入選 2018 年《麻省理工科技評論》“35 歲以下科技創新 35 人”中國 。
當前,王夢迪的研究工作聚焦 數據降維 和 離綫強化學習 ,更看重“有效率”的嘗試,以最小的代價收集數據,並保留最有內容的信息。她的工作大大推動瞭“黑箱透明化”,換句話說, 我們終於能夠知道人工智能機器人在“想”什麼瞭 。
我們該如何與機器閤作?
當我們與機器人互相理解之後,接下來的問題就是要如何 對話與閤作 瞭。建造巴彆塔是字麵意義上的“登天”行為,我們必須將各自的 優勢最大化 地發揮齣來纔有可能實現。所幸,又有一位傑齣的女性科學傢為我們打好瞭“塔基”。“機器和人類有著迥異的能力,” 普林斯頓大學計算機係助理教授陳丹琦 如此說道, “ 我們人類長於邏輯推理和辨彆語言中的暗示和精微玄妙之處,而機器則很擅長大規模地處理海量的數據 。” 作為最早一批將深度學習應用於自然語言處理 (NLP) 的先行者之一,她的研究涵蓋瞭 NLP 當中 理解語言 本身結構 的任務以及 具體應用 兩大主要門類,在 句法分析、知識圖譜、信息提取、對話及問答係統 等幾個關鍵問題上都輸齣瞭重要研究成果,幫助機器獲取知識且更好地迴答問題。
陳丹琦 陳丹琦
陳丹琦從小即對人文很感興趣,同時又極其擅長數學,而與機器的不解之緣早在高中時期就已結下。她當時參加競賽並總結齣一套分治算法,後來被普遍采用,影響力很大,還被業內人士按照她的名字命名為 “CDQ 分治” 。2012年,她從清華姚班畢業去瞭斯坦福大學,開始做 NLP 相關的研究時纔突然意識到 NLP 實際上是人文和數學兩個世界的交集 ,對於自己來說是最好不過的,近乎一種使命。陳丹琦師從 NLP 領域權威 Christopher Manning,與其共同開發的算法後來催生瞭著名的 榖歌 SyntaxNet ,被稱為 “全球最精準自然語言解析器” 。
後來,她在 Facebook (現Meta)旗下 AI 研究機構 FAIR 實習期間主導搭建瞭 開放域問答係統項目――DrQA 並發錶論文"Reading Wikipedia to Answer Open-Domain Questions",闡述瞭這一項目是如何通過海量閱讀和檢索從維基百科上獲取答案,並迴答 factoid 問題的。這一項目展示瞭機器的閱讀和問答能力是如何藉助 大規模開源的外部知識庫 得到突破的,也為我們展現瞭一種可能,也即問機器任何一個問題,然後機器就能在海量的數據中找到相關的信息並將它們組織成為答案甚至是解決方案,協助我們進行決策。
DrQA Meta (Facebook)
類似的研究還有很多,其中不得不提的還有她的博士畢業論文"Neural Reading Comprehension and Beyond"。這篇專注於機器閱讀理解的、156頁的論文一經發布,很快就成為瞭 斯坦福10年來最熱門的博士論文之一 ,對此她的導師 Christopher Manning 也不吝溢美之詞:“她 簡單、乾淨、高成功率的模型 吸引瞭眾人的目光……她的這篇畢業論文主要研究神經網絡閱讀理解和問答,這些新興技術正在帶來更好的信息訪問方式。” 簡潔、實用 ,這一直是她研究中貫穿始終的關鍵詞。
她說
“我對那些最根本、最簡單但卻最實用的方法倍感興奮。我非常關心如何構建實用的 NLP 係統,而且總是非常享受這個過程。我不希望我的研究成果隻停留在一個美好的概念上,而是要被切實可行地投入到實際應用當中去。”
憑藉以上種種貢獻, 陳丹琦作為“先鋒者”成功入選瞭 2019 年《麻省理工科技評論》“35 歲以下科技創新 35 人”中國 。如今,她已經在普林斯頓組建瞭自己的 NLP 團隊,緻力於解決更多 NLP 領域的核心問題。其中最有野心的可能是進一步利用機器大規模處理數據的優勢,讓機器可以通過 NLP 獲取和理解互聯網上 人類現存的所有知識 ,並能夠像人一樣“思考”,進一步就這些浩如煙海的知識進行邏輯推導,在很少甚至是沒有監督的情況下得齣判斷和決策。陳丹琦將它稱為 “深度理解” 。
再造巴彆塔
溝通,理解,共情,是任何時代建造“巴彆塔”的基石。 不論是人與人之間,還是人與機器之間,這些傑齣的女性科學傢們堅持從人本身齣發,為這個世界的互通有無做齣瞭不可磨滅的貢獻。或許有一天我們真的“通天”瞭,到達的可能不是所謂的“應許之地”,而是 全人類的大同 。
翻譯一切的“巴彆魚” 《銀河係漫遊指南》
世界發展需要科學,而女性是推動其發展的不可或缺的中堅力量。
自 1999 年以來,《麻省理工科技評論》每年都會從世界範圍內遴選 "35 歲以下科技創新 35 人"(MIT Technology Review Innovators Under 35,簡稱 TR35),堪稱科技領域最權威的青年人纔評價體係之一。2017 年,TR35 中國評選正式推齣,目前已曆經五屆,其中每年都不乏優秀的青年女性科學傢成功入選。
【正在報名】
2022 年"35 歲以下科技創新 35 人"中國的報名火熱進行中!歡迎 35 歲以下的中國(包括目前在海外的華人)青年學者、科研工作者、發明傢、科技創業者等報名參選,同時也嚮社會各界徵集候選人提名,共同尋找最有可能改變世界的 35 人。
【谘詢郵箱】
參考資料:
1.https://tr35.mittrchina.com/
2.https://www.boijmans.nl/en
6.https://www.aminer.cn/pub/5843777eac44360f108417ec/hierarchical-attention-networks-for-document-classification
7.https://scholar.google.com/citations?view_op=view_citation&hl=zh-CN&user=j9jhYqQAAAAJ&sortby=pubdate&citation_for_view=j9jhYqQAAAAJ:1yQoGdGgb4wC
8.https://faculty.cc.gatech.edu/~dyang888/
12.https://scholar.google.com/citations?view_op=view_citation&hl=zh-CN&user=33yNvIgAAAAJ&sortby=pubdate&citation_for_view=33yNvIgAAAAJ:EYYDruWGBe4C
13.https://mwang.princeton.edu/
14.https://engineering.princeton.edu/news/2020/06/29/princeton-engineering-faculty-members-receive-grants-covid-19-research-c3-ai-digital-transformation-institute
16.https://medium.com/analytics-vidhya/reinforcement-learning-a-surface-level-explanation-75690f03840d
17.https://www.infoworld.com/article/3315748/explainable-ai-peering-inside-the-deep-learning-black-box.html
21.https://www.cs.princeton.edu/news/ushering-machines-world-human-knowledge
22.https://www.technologyreview.com
- End -