發表日期 3/1/2022, 1:07:00 PM
機器之心報道
編輯:澤南、小舟
我們終於知道那些摺磨人的樂譜是怎麼來的瞭 ―― 都是 AI 生成的。
知名偶像企劃 LoveLive! 發 AI 論文瞭,是的沒錯。
最近,預印版論文平台 arXiv 上的一篇論文引起瞭人們的注意,其作者來自遊戲開發商 KLab 和九州大學。他們提齣瞭一種給偶像歌麯自動寫譜的模型,更重要的是,作者錶示這種方法其實已經應用過很長一段時間瞭。
通過深度學習技術,AI 算法在圖像分類,語音識彆等任務上有瞭優異的錶現,但在理解復雜、非結構化數據方麵,機器學習麵臨的挑戰更大,比如理解音頻,視頻,文本內容,以及它們産生的機製。物理學傢費曼曾說過:「凡是我不能親自創造齣來的,我就不是真正理解。」
而隨著技術的發展,深度生成模型已在學界和業界獲得瞭廣泛應用。在如今的遊戲開發過程中,生成模型正在幫助我們構建各種內容,包括圖形、聲音、角色動作、對話、場景和關卡設計。
KLab 等機構提交的論文介紹瞭自己的節奏動作遊戲生成模型。KLab Inc 是一傢智能手機遊戲開發商。該公司在綫運營的節奏動作遊戲包括《Love Live!學院偶像季:群星閃耀》(簡稱 LLAS)已以 6 種語言在全球發行,獲得瞭上韆萬用戶。已經有一係列具有類似影響的類似遊戲,這使得該工作與大量玩傢密切相關。
在 LLAS 中,開發者麵臨的挑戰是為不同歌麯生成樂譜,提示玩傢在不同時機點擊或拉拽按鍵,這是節奏音樂遊戲中所定義的挑戰。在一局遊戲中,飄過來的按鈕被稱為音符,它們形成類似於樂譜的空間圖案,與後台播放的歌麯節奏對應。一首歌麯存在不同的難度模式,從初級、中級、高級和專傢到挑戰,復雜度順序遞增。
相對其他音遊,LLAS 雖然不怎麼考驗反應速度,但機製相對復雜得多在全部按準的前提下還有 buff、debuff、三種屬性分彆對應體力、暴擊和分數,想要高分還需要在打歌時不停切換隊伍。
由於 LoveLive!是一個有 12 年曆史的企劃,包含四個團體和數個小團體,個人還有角色歌,很多歌麯都會在遊戲中齣現,設計對應的樂譜變成瞭一件極具挑戰的工作。
隨便一搜就上韆首歌麯。
遊戲開發者錶示,他們的做法是通過 AI 輔助的半自動化方式:先由 AI 生成樂譜,再由 KLab 的藝術傢進行微調,另一種方式是 AI 生成低難度樂譜,遊戲設計師在這個基礎上設計高難度。
KLab 錶示,他們使用的 GenéLive! 模型成功地降低瞭一半業務成本,該模型已部署在公司日常的業務運營中,並在可預見的未來時間裏持續應用。
降低樂譜生成的成本對於在綫音遊開發者來說是一個重要挑戰,因為它是日常運營的瓶頸。KLab 提齣的方法實現瞭隻需要音頻,就可以直接生成樂譜。
在研究過程中,開發者們首先提齣瞭 Dance Dance Convolution (DDC) ,生成瞭具有人類高水平的,較高難度遊戲模式的樂譜,但低難度反而效果不好。隨後研究者們通過改進數據集和多尺度 conv-stack 架構,成功捕捉瞭樂譜中四分音符之間的時間依賴性以及八分音符和提示節拍的位置,它們是音遊中放置按鍵的較好時機。
DDC 由兩個子模型組成:onset(生成音符的時機)和 sym(決定音符類型,如輕按或滑動)
目前正在使用的 AI 模型在所有難度的麯譜上都獲得瞭很好的效果,研究人員還展望瞭該技術擴展到其他領域的可能性。
論文鏈接:https://arxiv.org/abs/2202.12823
KLab 應用深度生成模型來閤成樂譜,並改進樂譜的製作流程,將業務成本降低瞭一半。該研究闡明瞭如何通過專門用於節奏動作的多尺度新模型 GenéLive!,藉助節拍等來剋服挑戰,並使用 KLab 的生産數據集和開放數據集進行瞭評估。
方法
此前,KLab 樂譜的生成工作流是在不考慮自動化的情況下形成的,幾乎沒有達成明確的規則或數學優化目標。因此,該研究選擇使用監督機器學習。到 2019 年底,KLab 已經發布瞭數百首歌麯的音頻序列和相應的人工生成樂譜。
一方麵,這個項目被要求快速交付並起到協助的作用;另一方麵,項目的目標具有挑戰性,旨在改進 SOTA 深度生成模型。通常,研究新型神經網絡架構需要大量的反復試驗,這個過程需要六個月或更長時間。
為瞭解決時間上的問題,該研究組織瞭一個模型開發團隊和一個模型服務團隊,通過與藝術傢團隊保持聯係獲得反饋,將其反映到模型開發和服務中,並在第一時間提供更新的模型,從而使他們保持一緻。
GenéLive! 的基礎模型由捲積神經網絡 CNN 層和長短期記憶網絡 LSTM 層組成。對於頻域中的信號,作者利用 CNN 層來捕獲頻率特徵,對於時域利用 LSTM 層來完成任務。
GenéLive! 的模型架構。
在這裏,捲積堆棧(conv-stack)的主要任務是使用 CNN 層從 mel 頻譜圖中提取特徵。conv-stack 包括一個具有批量標準化的標準 CNN 層、一個最大池化層和一個 dropout 層,激活函數是 ReLU。最後為瞭規範輸齣,這裏使用瞭全連接層。
時域方麵采用瞭 BiLSTM,提供前一個 conv-stack 的輸齣作為輸入。為瞭實現不同的難度模式,作者將難度編碼為一個標量(初級是 10,中級是 20,以此類推)並將這個值作為新特徵附加到 convstack 的輸齣中。
Conv-stack 架構。
在訓練數據方麵,GenéLive! 使用瞭幾百首早期的 LLAS 歌麯,《歌之王子殿下》的歌麯,以及音樂遊戲引擎「Stepmania」中可公開訪問的音樂和樂譜。
模型開發
該模型是由 KLab 和九州大學閤作完成的。兩個團隊之間需要一個基於 Web 的協作平台來共享源代碼、數據集、模型和實驗等。具體來說,該研究用於模型開發的係統架構如下圖所示。
模型服務
為瞭使樂譜生成程序可供藝術傢按需使用,它應該方便藝術傢自行使用而無需 AI 工程師的幫助。並且由於該程序需要高端 GPU,將其安裝在藝術傢的本地計算機上並不是一個閤適的選擇。該模型服務係統架構如下圖所示。
實驗結果
為瞭度量該方法中每個組件的性能,研究者在「Love Live! All Stars」數據集上進行瞭消融實驗。
下錶 3 的結果錶明 GenéLive! 模型優於此前的 SOTA 模型 DDC。
為瞭評估節拍指導的作用,消融實驗的結果如下圖 9 所示。
使用未修改版 conv-stack 訓練模型和當前 GenéLive! 模型的結果差異如下圖所示。
GenéLive! 模型一次性訓練全部難度模式,為瞭查看這種訓練方式的優勢。該研究將其與每種難度模式單獨訓練的結果進行瞭比較,結果如下圖所示。
LoveLive! 企劃的活動範圍包括動漫、遊戲和真人偶像團體。音樂遊戲《Love Live! School Idol Festival》自 2013 年開始運營,截至 2019 年 9 月在日本擁有超過 2500 萬用戶。新一代的遊戲《Love Live! School Idol Festival All Stars》目前在全球已有上韆萬用戶。
GenéLive! 的研究,說不定也能讓音遊在 AI 領域裏火起來。