20 + 頂尖高校開打《王者榮耀》！實際是一場科研battle，你能信？

2022-10-13由量子位發表于娛樂

金磊假裝發自王者峽谷量子位報道 | 公眾號 QbitAI

不是吧，不是吧。

一群學霸聚集在一起，竟然是為了打《王者榮耀》？！

而且還是來自清北、中科院、浙大等

20餘所頂級學府

的那種。

但畢竟是一幫學霸們的“聚會”，果然連打遊戲的“姿勢”都那麼與眾不同：

他們竟然要用《王者榮耀》搞科研！

（妥妥的是有種諸葛亮“黃金分割率”的味道了。）

這到底是怎麼一回事？

在《王者榮耀》裡搞科研

要想搞清楚這件事，就需要先來顛覆一下你對《王者榮耀》的認知。

友友們，其實它不單單是一款遊戲那麼簡單：

還是一個極具科研價值的遊戲環境。

更準確來說，《王者榮耀》背後是一個

AI 開放研究平臺

，它背靠騰訊各方面資源優勢，為學術研究和演算法開發開放的研究與應用探索平臺——

“開悟”

。

但搞科研嘛，演算法、算力、資料、場景，可以說是缺一不可。

於是“開悟”就放話了：

各路英雄豪傑，我這兒啥都有！

比如《王者榮耀》提供了遊戲測試環境、脫敏遊戲資料集，還有遊戲核心叢集等資源。

騰訊AI Lab

則把搭建好的演算法、計算平臺、評估工具亮了出來；算力的支援則是由

騰訊雲計算

提供。

於是乎，來自各大頂尖高校的學霸們，就華山論劍般地匯聚於此。

至於各家高手們的“論劍之道”，就是在限定時間和資源內，訓練出

最優模型

，並把它部署到AI伺服器當中。

在提交系統之後，學霸們就相當於“煉”出了他們各自的《王者榮耀》英雄。

這不，同樣是貂蟬，在修煉完不同“功法”後，便展開了一場激烈的博弈。

在1級狹路相逢之際，便來了個同歸於盡。

注：動圖來自2021高校聯賽AI表演賽

雖說都只是

智慧體

，但在這波battle中，她們很好地發揮了自身的基本功：

作戰中…… 預測敵方走位…… 已擊殺，陣亡……

每個基本功背後，都是智慧體在“審時度勢”後的最佳決策。

而在雙方復活之後，策略之間的博弈就變得更加緊湊和激烈。

畢竟常言道：一招棋錯，滿盤皆輸

藍方貂蟬在入場發覺自己經濟較低，果斷選擇“發展我方經濟”。

但同時也沒有做到過分“猥瑣發育”，還是該出手時就出手——發起進攻、持續進攻。

而在後期的決策博弈更是精彩：

戰略撤退、進攻防禦塔、返回基地、追擊地方……

很是有種人類玩家的感覺了。

不僅如此，智慧體在緊張的戰鬥決策同時，還兼顧了

出裝策略

。

大家都知道，出完血書（血族之書）的貂蟬，戰鬥中的續航能力會得到大幅提升。

為此，藍方貂蟬第二個法術大件果斷選擇夢魘之牙，以此來剋制紅方貂蟬的回血。

紅藍貂蟬在交手“八百回合”之後，終於迎來了“決戰紫禁之巔”的時刻。

在紅方水晶之下，兩位貂蟬紛紛喊出“花開了，怒放吧”開啟大招，完成最後的較量。

最終，以雙方紛紛倒地，由藍方小兵推倒紅方水晶結束戰鬥。

這就是學霸們在《王者榮耀》裡搞科研的結果展示。

而更具體一點來說，就是在特定的環境中，對多智慧體之間的博弈展開研究，屬於

強化學習

領域範疇。

它的難點之一，就在於智慧體的每一個決策與動作，都會對全域性產生非常複雜的變化，是有種“牽一髮而動全身”的感覺了。

而在剛才的例子中，只是展示了學霸們在1V1場景中的科研成果，但其實他們還會有3V3的戰鬥。

這種場景對於智慧體的挑戰就更高了，因為每個智慧體僅能獲取區域性的觀測資訊，但無法得知其他“隊友”或“敵人”的資訊。

這就對合作與競爭、完成特定任務背後的演算法，提出了高難度的要求。

果然，學霸們打個遊戲都是如此燒腦。

不過講真，如此“名場面”還真不是什麼新鮮事。

遊戲中搞科研，並不是第一次

其實剛才學霸們的“科研展示”，就是去年中科大和電子科大，在第一屆 *騰訊“開悟”AI大賽上演的一場決鬥。

這場比賽可以說是擴大了社會各界對

“AI+遊戲”

的認知。

但說實話，在遊戲裡搞科研這件事，國內外早就有所行動了。

例如早在2017年，OpenAI“修煉”的智慧體，就單挑苦練了半輩子Dota的人類玩家

Dendi

，最終AI大獲全勝。

時隔一年（2018年），OpenAI再次派出

OpenAI Five

，以5V5模式對戰人類頂級陣容。

結果，又是以AI

100%勝率

告終比賽。

當時這樣的結果簡直是出乎觀眾的意料之外，就連

馬斯克

在比賽前被問及“誰會贏”，都非常自信地回覆到“人類”。

與此相關的技術論文也早就有所公佈。

而除了在Dota2這種5V5團隊競技型別遊戲外，“AI+遊戲”在其他型別的遊戲中也有所滲透。

例如 DeepMind 從2017年開始，也頻繁曝出在

《星際爭霸2》

這款遊戲中碾壓人類頂級玩家的訊息。

DeepMind在這方面的科研研究——

AlphaStar

，其背後的相關技術論文，更是登上了頂刊Nature。

而在國內，對於“AI+遊戲”的科研也是如火如荼地進行中。

例如早在2018年開始，騰訊AI Lab便在《王者榮耀》中持續發力，並與遊戲團隊打造出了策略協作型AI

“王者絕悟”

。

要知道，類似於這樣的5V5 團隊競技遊戲，單是玩家的

動作狀態空間

便高達1020000。

這個數字遠遠大於圍棋及其他簡單遊戲，甚至超過整個宇宙的原子總數（1080）。

在這三年期間，騰訊AI Lab在與之相關的研究，更是頻頻登上了AAAI、NeurIPS 等 AI 頂級會議（相關連結附在文末，感興趣的讀者可深入研究）。

而就在前不久的世界人工智慧大會中，“王者絕悟”更是以全英雄達到職業電競水平亮相。

在與人類頂級選手的較量中，更是以絕對的勝率驚豔四座。

值得一提的是，正是由於騰訊AI Lab在“AI+遊戲”領域的技術沉澱，才能夠在將其能力“打包”輸送給高校的學霸們，也就是我們剛才提到的“開悟”AI開放研究平臺。

至此，或許你有一個大大的疑問：

在遊戲裡搞科學研究，對我們現實生活有什麼意義嗎？

直接上答案—— 有的！而且意義非凡。

遊戲，會是下一個AI里程碑的誕生地嗎？

是的，這就是業界目前普遍認同的一種看法：

下一個AI里程碑可能會在複雜策略遊戲中誕生。

這種說法並不是空穴來風。

首先，“AI+遊戲”所涉足的大領域，便是

強化學習

。

一般來說，強化學習是用於描述和解決智慧體在與環境的互動過程中，透過學習策略以達成回報最大化或實現特定目標的問題。

而一些複雜的強化學習演算法，更是在一定程度上具備瞭解決複雜問題的通用智慧。

但要透過訓練，讓智慧體“煉就”如此能力，正如我們剛才說到的，演算法、資料、算力、場景，這四樣缺一不可。

尤其是場景和資料，需要夠複雜、夠具備不確定性，才能更好的貼近真實世界中人類決策時面對的環境。

遊戲場景

，恰恰就是符合這些高要求的“陣地”。

因此，長遠來看，“AI+遊戲”研究將是攻克通用人工智慧（AGI）的關鍵一步。

而之於現實意義，以近幾年大火的自動駕駛為例。

在這一領域中，隨著技術的不斷髮展，自動駕駛逐步地從“感知層”向“決策層”過渡。

這是因為自動駕駛車輛在面臨突發、不確定性問題時，需要作出精準的決策，來避免意外的發生。

可以把一輛自動駕駛汽車想象為一個遊戲中的智慧體，當它在現實生活中執行時，所要面對的問題複雜度之高，就不言而喻了。

這就離不開透過強化學習方法的大量訓練，讓自動駕駛這個“智慧體”的應變能力，能夠無限接近甚至超越人類。

但要練就這身功夫，在真實生活場景中訓練定然是不現實的，而遊戲，就成了一個非常好的訓練場。

自動駕駛只是應用場景的案例之一，更多的還包括城市/空中交通管理、多機器人協調、能源分配等問題。

而騰訊AI Lab之所以打造“開悟”，也是基於上述情況的考量，不過他想要的做的卻更多：

推動多智慧體強化學習的發展。

尤其是高校在這方面的研究，更是“硬性條件”上面臨著較為嚴峻的挑戰。

但開放“開悟”，僅僅是騰訊AI Lab為了完成這一目標的舉措之一。

據瞭解，開悟還攜手高校合作開發課程，進一步普及多智慧體強化學習教育。

例如在今年8月，騰訊就宣佈與四所國內一流高校（北京大學、電子科技大學、清華大學、中國科學技術大學），共建教學內容和課程體系改革專案。

據悉，這些頂尖高校將分別構建一門至少20學時的多智慧體及強化學習平臺的專業課程，理論授課知識點包括但不限於機器學習、強化學習、多智慧體決策等相關的知識點。

除此之外，騰訊“開悟”還聯合高校成立了

人工智慧科教聯盟

，並攜手高校、科研院所、產業園區、投資機構組建人工智慧科創聯合體。

正如《王者榮耀》執行製作人、騰訊天美L1總經理

黃藍梟

總結的那樣：

我們開放了《王者榮耀》核心機制，提供標準介面、核心演算法、脫敏的測試資料、評估工具和計算叢集等，給高校老師和同學們進行多智慧體的機器學習演算法研究、學習成果交流，對演算法成果反覆迭代升級。期待這些研究成果能夠落地其他產業環境，為工業機器人、救災機器人等提供助力。

讀到這裡，你想不想圍觀清北等高校的學霸們，如何不僅打了遊戲，還順便把科研也一塊搞了？

請繼續關注開悟平臺及賽事動向。

傳送門

開悟官網地址：

https：//aiarena。tencent。com/aiarena/zh/index

絕悟相關論文地址：

Mastering Complex Control in MOBA Games with Deep Reinforcement Learning： https：//arxiv。org/abs/1912。09729

Hierarchical Macro Strategy Model for MOBA Game AI： https：//arxiv。org/abs/1812。07887

Supervised Learning Achieves Human-Level Performance in MOBA Games： A Case Study of Honor of Kings： https：//arxiv。org/abs/2011。12582

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們，第一時間獲知前沿科技動態

上一篇：腦梗"禍根"找到了，醫生說：3種食物多吃1口，血管多堵1分

下一篇：我們只知自己是“龍的傳人”，卻不知龍還分這麼多種！

愛樓網

20 + 頂尖高校開打《王者榮耀》！實際是一場科研battle，你能信？

相關文章

推薦文章