20 + 頂尖高校開打《王者榮耀》!實際是一場科研battle,你能信?
金磊 假裝發自 王者峽谷 量子位 報道 | 公眾號 QbitAI
不是吧,不是吧。
一群學霸聚集在一起,竟然是為了打《王者榮耀》?!
而且還是來自清北、 中科院 、 浙大 等
20餘所頂級學府
的那種。
但畢竟是一幫學霸們的“聚會”,果然連打遊戲的“姿勢”都那麼與眾不同:
他們竟然要用《王者榮耀》搞科研!
(妥妥的是有種諸葛亮“黃金分割率”的味道了。)
這到底是怎麼一回事?
在《王者榮耀》裡搞科研
要想搞清楚這件事,就需要先來顛覆一下你對《王者榮耀》的認知。
友友們,其實它不單單是一款遊戲那麼簡單:
還是一個極具科研價值的遊戲環境。
更準確來說,《王者榮耀》背後是一個
AI 開放研究平臺
,它背靠騰訊各方面資源優勢,為學術研究和演算法開發開放的研究與應用探索平臺——
“開悟”
。
但搞科研嘛,演算法、算力、資料、場景,可以說是缺一不可。
於是“開悟”就放話了:
各路英雄豪傑,我這兒啥都有!
比如《王者榮耀》提供了遊戲測試環境、脫敏遊戲資料集,還有遊戲核心叢集等資源。
騰訊AI Lab
則把搭建好的演算法、計算平臺、評估工具亮了出來;算力的支援則是由
騰訊雲計算
提供。
於是乎,來自各大頂尖高校的學霸們,就華山論劍般地匯聚於此。
至於各家高手們的“論劍之道”,就是在限定時間和資源內,訓練出
最優模型
,並把它部署到AI伺服器當中。
在提交系統之後,學霸們就相當於“煉”出了他們各自的《王者榮耀》英雄。
這不,同樣是 貂蟬 ,在修煉完不同“功法”後,便展開了一場激烈的博弈。
在1級狹路相逢之際,便來了個同歸於盡。
注:動圖來自2021高校聯賽AI表演賽
雖說都只是
智慧體
,但在這波battle中,她們很好地發揮了自身的基本功:
作戰中…… 預測敵方走位…… 已擊殺,陣亡……
每個基本功背後,都是智慧體在“審時度勢”後的最佳決策。
而在雙方復活之後,策略之間的博弈就變得更加緊湊和激烈。
畢竟常言道:一招棋錯,滿盤皆輸
藍方貂蟬在入場發覺自己經濟較低,果斷選擇“發展我方經濟”。
但同時也沒有做到過分“猥瑣發育”,還是該出手時就出手——發起進攻、持續進攻。
而在後期的決策博弈更是精彩:
戰略撤退、進攻防禦塔、返回基地、追擊地方……
很是有種人類玩家的感覺了。
不僅如此,智慧體在緊張的戰鬥決策同時,還兼顧了
出裝策略
。
大家都知道,出完血書 (血族之書) 的貂蟬,戰鬥中的續航能力會得到大幅提升。
為此,藍方貂蟬第二個法術大件果斷選擇夢魘之牙,以此來剋制紅方貂蟬的回血。
紅藍貂蟬在交手“八百回合”之後,終於迎來了“決戰紫禁之巔”的時刻。
在紅方水晶之下,兩位貂蟬紛紛喊出“花開了,怒放吧”開啟大招,完成最後的較量。
最終,以雙方紛紛倒地,由藍方小兵推倒紅方水晶結束戰鬥。
這就是學霸們在《王者榮耀》裡搞科研的結果展示。
而更具體一點來說,就是在特定的環境中,對多智慧體之間的博弈展開研究,屬於
強化學習
領域範疇。
它的難點之一,就在於智慧體的每一個決策與動作,都會對全域性產生非常複雜的變化,是有種“牽一髮而動全身”的感覺了。
而在剛才的例子中,只是展示了學霸們在1V1場景中的科研成果,但其實他們還會有3V3的戰鬥。
這種場景對於智慧體的挑戰就更高了,因為每個智慧體僅能獲取區域性的觀測資訊,但無法得知其他“隊友”或“敵人”的資訊。
這就對合作與競爭、完成特定任務背後的演算法,提出了高難度的要求。
果然,學霸們打個遊戲都是如此燒腦。
不過講真,如此“名場面”還真不是什麼新鮮事。
遊戲中搞科研,並不是第一次
其實剛才學霸們的“科研展示”,就是去年中科大和電子科大,在第一屆 *騰訊“開悟”AI大賽 上演的一場決鬥。
這場比賽可以說是擴大了社會各界對
“AI+遊戲”
的認知。
但說實話,在遊戲裡搞科研這件事,國內外早就有所行動了。
例如早在2017年,OpenAI“修煉”的智慧體,就單挑苦練了半輩子Dota的人類玩家
Dendi
,最終AI大獲全勝。
時隔一年 (2018年) ,OpenAI再次派出
OpenAI Five
,以5V5模式對戰人類頂級陣容。
結果,又是以AI
100%勝率
告終比賽。
當時這樣的結果簡直是出乎觀眾的意料之外,就連
馬斯克
在比賽前被問及“誰會贏”,都非常自信地回覆到“人類”。
與此相關的技術論文也早就有所公佈。
而除了在Dota2這種5V5團隊競技型別遊戲外,“AI+遊戲”在其他型別的遊戲中也有所滲透。
例如 DeepMind 從2017年開始,也頻繁曝出在
《星際爭霸2》
這款遊戲中碾壓人類頂級玩家的訊息。
DeepMind在這方面的科研研究——
AlphaStar
,其背後的相關技術論文,更是登上了頂刊Nature。
而在國內,對於“AI+遊戲”的科研也是如火如荼地進行中。
例如早在2018年開始,騰訊AI Lab便在《王者榮耀》中持續發力,並與遊戲團隊打造出了策略協作型AI
“王者絕悟”
。
要知道,類似於這樣的5V5 團隊競技遊戲,單是玩家的
動作狀態空間
便高達1020000。
這個數字遠遠大於圍棋及其他簡單遊戲,甚至超過整個宇宙的原子總數 (1080) 。
在這三年期間,騰訊AI Lab在與之相關的研究,更是頻頻登上了AAAI、NeurIPS 等 AI 頂級會議 (相關連結附在文末,感興趣的讀者可深入研究) 。
而就在前不久的世界人工智慧大會中,“王者絕悟”更是以全英雄達到職業電競水平亮相。
在與人類頂級選手的較量中,更是以絕對的勝率驚豔四座。
值得一提的是,正是由於騰訊AI Lab在“AI+遊戲”領域的技術沉澱,才能夠在將其能力“打包”輸送給高校的學霸們,也就是我們剛才提到的“開悟”AI開放研究平臺。
至此,或許你有一個大大的疑問:
在遊戲裡搞科學研究,對我們現實生活有什麼意義嗎?
直接上答案—— 有的 !而且意義非凡。
遊戲,會是下一個AI里程碑的誕生地嗎?
是的,這就是業界目前普遍認同的一種看法:
下一個AI里程碑可能會在複雜策略遊戲中誕生。
這種說法並不是空穴來風。
首先,“AI+遊戲”所涉足的大領域,便是
強化學習
。
一般來說,強化學習是用於描述和解決智慧體在與環境的互動過程中,透過學習策略以達成回報最大化或實現特定目標的問題。
而一些複雜的強化學習演算法,更是在一定程度上具備瞭解決複雜問題的通用智慧。
但要透過訓練,讓智慧體“煉就”如此能力,正如我們剛才說到的,演算法、資料、算力、場景,這四樣缺一不可。
尤其是場景和資料,需要夠複雜、夠具備不確定性,才能更好的貼近真實世界中人類決策時面對的環境。
遊戲場景
,恰恰就是符合這些高要求的“陣地”。
因此,長遠來看,“AI+遊戲”研究將是攻克通用人工智慧 (AGI) 的關鍵一步。
而之於現實意義,以近幾年大火的自動駕駛為例。
在這一領域中,隨著技術的不斷髮展,自動駕駛逐步地從“感知層”向“決策層”過渡。
這是因為自動駕駛車輛在面臨突發、不確定性問題時,需要作出精準的決策,來避免意外的發生。
可以把一輛自動駕駛汽車想象為一個遊戲中的智慧體,當它在現實生活中執行時,所要面對的問題複雜度之高,就不言而喻了。
這就離不開透過強化學習方法的大量訓練,讓自動駕駛這個“智慧體”的應變能力,能夠無限接近甚至超越人類。
但要練就這身功夫,在真實生活場景中訓練定然是不現實的,而遊戲,就成了一個非常好的訓練場。
自動駕駛只是應用場景的案例之一,更多的還包括城市/空中交通管理、多機器人協調、能源分配等問題。
而騰訊AI Lab之所以打造“開悟”,也是基於上述情況的考量,不過他想要的做的卻更多:
推動多智慧體強化學習的發展。
尤其是高校在這方面的研究,更是“硬性條件”上面臨著較為嚴峻的挑戰。
但開放“開悟”,僅僅是騰訊AI Lab為了完成這一目標的舉措之一。
據瞭解,開悟還攜手高校合作開發課程,進一步普及多智慧體強化學習教育。
例如在今年8月,騰訊就宣佈與四所國內一流高校 ( 北京大學 、 電子科技大學 、 清華大學 、 中國科學技術大學 ) ,共建教學內容和課程體系改革專案。
據悉,這些頂尖高校將分別構建一門至少20學時的多智慧體及強化學習平臺的專業課程,理論授課知識點包括但不限於機器學習、強化學習、多智慧體決策等相關的知識點。
除此之外,騰訊“開悟”還聯合高校成立了
人工智慧科教聯盟
,並攜手高校、科研院所、產業園區、投資機構組建人工智慧科創聯合體。
正如《王者榮耀》執行製作人、騰訊天美L1總經理
黃藍梟
總結的那樣:
我們開放了《王者榮耀》核心機制,提供標準介面、核心演算法、脫敏的測試資料、評估工具和計算叢集等,給高校老師和同學們進行多智慧體的機器學習演算法研究、學習成果交流,對演算法成果反覆迭代升級。期待這些研究成果能夠落地其他產業環境,為工業機器人、救災機器人等提供助力。
讀到這裡,你想不想圍觀清北等高校的學霸們,如何不僅打了遊戲,還順便把科研也一塊搞了?
請繼續關注開悟平臺及賽事動向。
傳送門
開悟官網地址:
https://aiarena。tencent。com/aiarena/zh/index
絕悟相關論文地址:
Mastering Complex Control in MOBA Games with Deep Reinforcement Learning: https://arxiv。org/abs/1912。09729
Hierarchical Macro Strategy Model for MOBA Game AI: https://arxiv。org/abs/1812。07887
Supervised Learning Achieves Human-Level Performance in MOBA Games: A Case Study of Honor of Kings: https://arxiv。org/abs/2011。12582
— 完 —
量子位 QbitAI · 頭條號簽約
關注我們,第一時間獲知前沿科技動態