發表日期 5/7/2022, 12:57:45 PM
編譯 | 核子可樂、褚杏娟
Josh Urbane 是一位從業多年的軟件架構師,很喜歡在社交媒體分享技術觀點。近日,他寫瞭一篇文章,記錄瞭自己憑藉經驗贏瞭與新人開發者打賭的故事,而“我的 JavaScript 比你的 Rust 更快”的結論也是來自這個打賭。他的故事或許可以說明運行策略在研發實踐中的重要性。
對我來說,軟件架構師這活兒最讓人開心的一點就是能指導開發者理解最新的概念、影響他們的技術判斷。有些開發者不是很囂張嗎,那就用理論加現實啪啪打他們的臉;架構師還得負責營造齣寓教於樂的學習氛圍,幫助年輕氣盛的開發者逐漸長大成熟。
最會讓我在心裏暗爽的事兒就是一個愣頭青開發者突然跳齣來、想要挑戰我的技術建議(從開發者的視角看,架構師就是一幫總在提「錯誤」建議的傻瓜),而且賭上全部身傢堅持認為自己的辦法更好。
問題是,我已經乾這行很久瞭,不用驗證我就知道問題的正確答案是什麼。所以那就來唄,咱們手底下見真章,我把這段故事記錄瞭下來、在幾年後整理成瞭今天的這篇文章。
梭哈是一種“智慧”
老實講,下麵要講的這個事已經過去好幾年瞭,所以很多細節我已經記不清楚。大體情況就是結閤當時團隊的知識儲備、可用工具庫和原有技術債務,我給齣的建議是讓大傢使用 Node.js。
一個新任初級開發者對自己剛拿到的計算機科學學士證書很有信心,想要用“炫技”的方式挫挫我的銳氣。他們聽說我是輔修的計算機科學,所以覺得我壓根不瞭解計算機底層原理。其實剛畢業那會我也認為自己很懂,但這行乾久瞭,我越來越覺得計算機係統像是魔法……
他的信心並非毫無來由,這個結論如同“C++ 比 JavaScript 速度快”,基本屬於業界共識。但作為典型的架構師,我仍然堅持認為“要視情況而定”。
更具體地講,“經過充分優化的 C++,確實比具有同等優化水平的 JavaScript 跑得更快”,畢竟 JavaScript 有著無法避免的執行開銷(即便如此,我們也可以把代碼編譯成靜態程序來獲得高度接近 C++ 的性能)。反正話已至此,那就梭瞭唄。
意外的是,JavaScript 代碼確實要比 C++ 版本更快一點,而且從架構設計的角度來看,JS 版本可以由當前團隊一力維護、不需要藉助其他部門的技術能力。
還好還好,其實我也不敢百分之百確定自己是對的,但考慮到這個用例中的內存對象大小可能是動態的、再加上那位年輕開發者確實經驗不足,所以我願意賭上一把。
JS 比 C++ 還快,怎麼實現的?
我猜大多數開發者都理解不瞭這樣的結果。這明顯跟“編譯”語言快於“解釋”語言、“靜態”程序快於“VM”程序的基本原則背道而馳啊。但請注意,這些隻是經驗、而非真理。
我之前也提到,“優化”纔是決定速度的關鍵。畢竟即使 C++ 語言自身的性能優勢再強,糟糕的編寫質量也會讓程序身陷泥潭。另一方麵,Node.js(使用基於 C++/C 的 V8 與 libuv 庫)則更具優化空間,所以實際運行速度並不差。甚至可以說,質量同樣差勁的 JS 和 C++ 程序,JS 的性能可能還更好一點。但這隻是宏觀論述,下麵咱們來看點細節。
內存是關鍵
大多數開發者應該很熟悉棧和堆的概念,但這種理解基本隻停留在瞭錶麵――例如隻知道棧是綫性的,而堆就是帶有指針的“坨”(並非嚴格術語,大傢能理解就行)。
更重要的是,棧和堆的概念對應著多種實現和方法。底層硬件並不知道“堆”是個什麼東西,因為內存的管理方式是由軟件來定義的,而內存管理方麵的選擇必然會對程序的最終性能産生巨大影響。
大傢也可以就這個問題深挖下去,很有意義也很有價值。現代硬件和內核都相當復雜,其中往往包含大量具有特殊用途的優化機製,例如更高效地利用高級內存布局。這意味著軟件可以(或者必須)藉用由硬件提供的內存管理功能。此外還有虛擬化的影響……這裏就不多做展開瞭。
魔法的核心:垃圾迴收
沒錯,Node.js 解決方案的啓動時間肯定更長,因為它需要通過 JIT 編譯器來實現腳本的加載和運行。不過一旦加載完成,Node.js 代碼其實反而擁有一項神秘的優勢――垃圾迴收機製。
而在 C++ 程序中,應用程序往往會在堆中創建動態大小的對象,之後再將其刪除。這意味著程序的分配器必須一遍又一遍地在堆中分配和釋放內存。這項操作本身速度較慢,而且實際性能基本由分配器中的算法決定。在多數情況下,dealloc 的速度會特彆慢,即使是精簡後的 alloc 也沒好太多。
對於 Node.js 程序,這項絕技就是程序隻運行一次就會退齣。Node.js 同樣運行腳本並分配必要的內存,但後麵的刪除操作會由垃圾迴收器挑選空閑時間再推遲執行。
誠然,垃圾迴收機製在本質上並不比其他內存管理策略更好或者更差(一切都是權衡),但在我們打賭的這個特定程序中,垃圾迴收確實能顯著提升性能,因為這個程序壓根就沒真正運行過。我們隻是把一大堆對象塞進內存,再在退齣時一次性丟棄。
垃圾迴收肯定是有代價的,Node.js 進程占用的內存容量明顯大於 C++ 程序。這就是“省 cpu= 費內存”和“省內存 = 費 cpu”的經典難題,但我的目標就是打那小子的臉,所以費點內存也無所謂。
而我之所以能贏,是因為對方選擇瞭一個幼稚的策略。其實他要想贏,最好的辦法就是添加內存泄漏,故意把所有分配都保留在內存當中。這樣 C++ 程序的內存占用量還是更小,但速度卻比原先快得多。或者,他也可以用給棧分配緩衝區之類的設計來進一步提高性能,這種辦法在實際生産中其實經常用到。
另外還有如何選擇性能基準的問題。一般來說,大傢比較的就是每秒操作數量。這裏的 JS 對 C++ 就是個很好的例子,證明瞭“先理解總體性能成本,再做選擇”往往更加靠譜。在軟件架構中,我們必須得時刻關注資源層麵的“總體擁有成本”。
步入現代:有請 Rust 上場
Rust 是我目前最喜歡的語言之一。它提供瞭很多現代特性、速度很快,而且具備良好的內存模型,生成的代碼也相當安全。
Rust 當然不是完美的,它的編譯時間比較長、涉及不少奇奇怪怪的語義,但總體來說還是值得推薦。大傢可以對 Rust 中的內存管理方式進行靈活控製,但其“棧”內存始終遵循所有者模型(ownership model),這也是其實現引以為傲的高安全性能的基礎。
我目前參與的一個項目就是用 Rust 編寫的 FaaS(函數即服務)主機,負責執行 WASM(WebAssembly)函數。它能快速安全地執行各項隔離函數,最大限度降低 FaaS 的運行開銷。它的速度也很快,每核心每秒能夠處理 90000 個簡單請求。更重要的是,它的總內存占用量隻有 20 MB 上下,可以說相當誇張瞭。
但這跟 Node.js 與 C++ 的賭局有什麼關係?
簡單來說,我是把 Node.js 視為“閤理”的性能基準(Go 屬於「夢幻」級基準,它的性能絕對不是那些專為 Web 服務設計的語言能比肩的,這裏就彆降維打擊瞭),畢竟我們那款程序的早期 C++ 版本性能實在不咋的,唯一的好處就是內存占用量隻有 Node.js 版本的不到十分之一。
雖然先讓代碼跑起來、再對代碼做優化確實沒啥毛病,但在 C++ 這種“快”語言上輸給瞭 JavaScript 肯定讓人非常沮喪。而我之所以敢當場梭哈,靠的就是對明顯瓶頸的基本判斷。這個瓶頸就是內存管理。
每個 guest 函數都被分配到一個內存數組,但在函數之內分配內存,以及在函數內存與主機內存間復製數據肯定會帶來大量性能開銷。由於動態數據被四處亂扔,分配器相當於是飽受四麵八方的重拳打擊。至於解決辦法嘛,作弊嘍!
加堆,兩個堆、三個堆......
從本質上講,堆代錶的是分配器用來管理映射的一部分內存。程序會請求 N 個內存單元,分配器在可用的內存池裏搜尋這些單元(或者嚮主機請求更多內存)及存儲哪些單元已被占用,之後再返迴該內存的位置指針。當程序用盡內存時,就會告知分配器,再由分配器更新映射以明確現在哪些單元已經再次可用。挺簡單的,對吧?
但如果我們需要分配一大堆生命周期有彆、大小各異的內存單元時,麻煩就來瞭。這一定會産生大量碎片,進而放大瞭新內存的分配成本。於是性能損失開始産生,畢竟分配器的功能太過簡單,隻是在尋找可用的存儲位置。
這個問題顯然沒有太好的解決方案,雖然目前可選的分配算法很多,但它們還是各有權衡、要求我們結閤用例特點選擇最適方法(也可以像大多數開發者一樣,直接用默認選項)。
再來說作弊。作弊的辦法可不隻一種:對於 FaaS,我們可以釋放每次運行的 dealloc,並在每次運行完成後清除整個堆;我們也可以在函數生命周期的不同階段使用不同的分配器,例如明確區分初始化階段和運行階段。這樣無論是乾淨的函數(每次運行,都會被重置為相同的初始內存狀態)還是有狀態函數(在每次運行之間保留狀態),都能獲得與之對應且經過優化的內存策略。
在我們的 FaaS 項目裏,大傢最終構建瞭一個動態分配器,它會根據使用情況選擇分配算法、且實際選擇會在每次運行之間持續留存。
對於“使用率較低”的函數(也就是大多數函數),隻使用簡單的棧分配器用指針指嚮下一個空閑槽即可。當調用 dealloc 時,如果該單元為棧上的最後一個單元,則迴滾指針;如果不是最後一個單元,則無操作。當函數完成時,指針將被設置為 0(相當於 Node.js 在垃圾迴收前退齣)。如果函數的 dealloc 失敗數和用量達到一定閾值,則在其餘調用中使用其他分配算法。結果就是,這套方案在大多數情況下都能顯著加快內存分配。
運行時中還用到瞭另一個“堆”――主機(或者說是函數共享內存)。它使用同樣的動態分配策略,並允許繞過早期 C++ 版本中的復製步驟、直接寫入函數內存。如此一來,I/O 就能直接從內核中復製 guest 函數,並繞過主機運行時,從而顯著提高吞吐量。
Node.js 對陣 Rust
經過優化,Rust FaaS 運行時最終比我們的 Node.js 參考實現快瞭 70% 以上,而內存占用量更是不到後者的十分之一。
但這裏的關鍵在於“經過優化”,它的初始實現其實速度反而更慢。我們的優化還要求對 WASM 函數做齣一些限製,具體限製在編譯過程中完全公開透明,而且極少齣現不兼容的情況。
Rust 版本的最大優勢就是內存占用小,省下來的 RAM 可以用作緩存或者分布式內存存儲等其他用途。這意味著 I/O 開銷進一步降低,生産運行的效率更高,其效果甚至比拉高 CPU 配置還更明顯些。
後續我們還有更多優化計劃,但主要是為瞭解決主機層中一些具有重大安全影響的問題。雖然跟內存管理或者性能沒啥關係,但畢竟也算支持瞭 “Rust 比 Node 更快”黨們的觀點。
總 結
其實全文寫下來,我也得不齣特彆明確的結論。下麵隻給齣幾個粗淺的觀點:
內存管理很有趣,每種方法都是在做取捨。隻要策略運用得當,任何一種語言都能獲得巨大的性能提升。
我仍然推薦大傢根據實際目標靈活使用 Node.js 和 Rust,所以這裏不做優劣判斷。JavaScript 的可移植性確實更好,而且特彆適閤雲原生開發場景;但如果大傢特彆看重性能,那 Rust 可能是個更好的選擇。
從頭到尾我都在說 JavaScript,但這裏實際指的是 TypeScript。
歸根結底,大傢得根據實際情況選擇最適閤的技術方案。我們越是瞭解不同棧的不同特徵,在選擇的時候就越是從容有數。
https://medium.com/@jbyj/my-javascript-is-faster-than-your-rust-5f98fe5db1bf