[其他討論] 南大AI单机训练一天，击败最高难度内置 Bot

[複製鏈接]

homfeer111

4010 主題	0 好友	1萬積分

教授

Rank: 8 Rank: 8

TA的每日心情

	開心 2024-11-18 10:00

簽到天數: 462 天

[LV.9]以壇為家II

推廣值: 0
貢獻值: 8
金錢: 4636
威望: 17063
主題: 4010

發消息

樓主

發表於 2021-8-25 16:47:43

腾讯AI Lab团队号称“首次在《星际争霸2》完整的虫族VS虫族比赛中击败了游戏的内置AI Bot”，这是首个能在正式比赛中击败内置机器人的AI系统，堪称研究道路上的一大突破。

根据发表在arXiv上的预印版论文，腾讯AI Lab团队使用的方法是人工定义大量的宏动作（macro-action）、人工编码科技树建造建筑，用虫族（擅长快推）在3000多个CPU上取得了这一成果。

实际上，在更早的4月份，来自南京大学的俞扬团队也深入研究了《星际争霸2》的分层强化学习方法。与腾讯AI Lab不同的是，南京大学团队不依赖人工定义的宏动作，而是从人类的演示数据中自动学习宏动作。再依靠强化学习自动学习基地运营和战斗调度，并仅在12个物理CPU核、48个线程、智能体设定为神族、对手设定为人族的情况下，取得了突破性的成果。

在“《星际争霸2》学习环境”SC2LE上的实验结果表明，南大团队通过分层强化学习和课程学的方法，在最困难的非作弊内置AI（level-7）中获胜的概率超过了93%，是当前最佳成绩。

负责这项研究的南京大学计算机系副教授俞扬博士表示：

《星际争霸》这一款超大规模游戏是强化学习的一大挑战。击败内置AI只是小小的并不值得宣扬的第一步，其实我们的研究目标在于探索适用于大规模问题而又不失通用性的强化学习方法，因此我们必须找到在尽可能避免手工设定、使用少量计算资源的条件下仍能高效学习的方法。在这一篇工作中，我们结合分层强化学习、宏动作学习、课程学习、奖赏设计等多种不同的强化学习技巧，达到了只使用单机计算资源在一天时间单机训练可达到击败《星际争霸2》内置AI的水平，为未来大规模强化学习方法提供参考。

返回列表

重要聲明：本論壇是以即時上載留言的方式運作，比思論壇對所有留言的真實性、完整性及立場等，不負任何法律責任。而一切留言之言論只代表留言者個人意見，並非本網站之立場，讀者及用戶不應信賴內容，並應自行判斷內容之真實性。於有關情形下，讀者及用戶應尋求專業意見(如涉及醫療、法律或投資等問題)。由於本論壇受到「即時上載留言」運作方式所規限，故不能完全監察所有留言，若讀者及用戶發現有留言出現問題，請聯絡我們。比思論壇有權刪除任何留言及拒絕任何人士上載留言 (刪除前或不會作事先警告及通知 )，同時亦有不刪除留言的權利，如有任何爭議，管理員擁有最終的詮釋權。用戶切勿撰寫粗言穢語、誹謗、渲染色情暴力或人身攻擊的言論，敬請自律。本網站保留一切法律權利。

		自動登錄	找回密碼
密碼			按這成為會員