王者荣耀AI大升级，TiG框架赋能，让AI学会高阶战略思维！

67 3 2025-10-06

王者荣耀AI突破：TiG框架助AI掌握高阶战略思维

在2025年9月，游戏与人工智能的融合迎来了一个重要的里程碑，腾讯研究团队推出的TiG（Think in Games）框架，以热门MOBA游戏《王者荣耀》为训练场景，成功弥补了大语言模型（LLM）在战略推理和实时决策能力方面的不足,为游戏AI的发展开辟了新的道路。

传统AI模型的局限与挑战

在TiG框架问世之前，游戏领域的AI发展面临着诸多困境，以游戏为导向的AI虽然能够完成基本的游戏操作，但对于决策背后的逻辑理解十分有限，它们就像没有灵魂的执行者，只是机械地按照预设程序行动,无法根据游戏中的复杂情况进行灵活调整。

而语言模型虽然具备一定的策略推理能力，能够分析游戏局势并给出理论上的策略建议，但在实际游戏操作中却显得力不从心，它们无法将抽象的策略转化为具体的游戏行动，导致在实际游戏中难以发挥出应有的作用，这种功能上的差距，限制了AI在游戏中展现出更强大的能力,也让开发者们一直致力于寻找有效的解决方案。

TiG框架的创新突破

独特的任务转化机制

TiG框架采用了一种创新的方法来解决传统AI模型的问题，它定义了40种预定义宏观动作，如“推上路”“夺龙”“击杀暴君”“守家”等，将复杂的游戏状态巧妙地转化为语言建模任务，通过这种方式,AI能够以更接近人类思维的方式来理解和处理游戏中的各种情况。

这种转化机制使得AI不再仅仅是简单地执行操作，而是能够深入理解游戏的战略意图，当游戏处于劣势时，AI能够根据“守家”这一宏观动作，分析出需要采取的具体防御策略，如合理安排防御塔的防守、组织英雄进行支援等。

两阶段训练方法

为了让模型更好地学习和掌握游戏策略，TiG框架采用了监督学习（SFT）与强化学习（GRPO）两阶段训练法。

在监督学习阶段，模型主要学习游戏的策略机制，它通过大量的游戏数据和专家经验，了解在不同场景下应该采取什么样的行动，在面对敌方英雄的进攻时，应该如何选择合适的英雄进行防御,以及如何合理地分配资源。

在强化学习阶段，TiG框架通过奖励机制来激励模型做出正确的决策，正确的行动会得到1分的奖励，错误的行动则得0分，这种明确的奖惩机制让模型能够更快地调整自己的策略，提高决策的准确性，当AI成功击杀敌方英雄时，会得到奖励,从而强化其在类似情况下采取相同行动的意愿。

多模型测试与评估

研究团队对多种语言模型进行了全面的测试，其中包括Qwen2.5（7B、14B、32B）、Qwen3 - 14B模型，并选择了DeepSeek - R1大模型作为对照组，他们从DeepSeek - R1中提取高质量训练数据，并运用群体相对策略优化（GRPO）技术来比较不同策略的优劣。

这种全面的测试和比较方法，能够更客观地评估TiG框架对不同模型的提升效果，通过对多个模型的测试，研究团队可以了解到TiG框架在不同模型上的适应性和有效性,为进一步优化模型提供了重要的依据。

显著的训练成果

经过TiG框架的训练，模型取得了令人瞩目的成果，以Qwen3 - 14B模型为例，它在游戏决策中的准确率达到了90.91%，超越了参数量更大的DeepSeek - R1（86.67%），Qwen2.5 - 32B和Qwen2.5 - 14B模型的准确率也分别从66.67%和53.25%大幅提升至86.84%和83.12%。

更值得一提的是，这些经过训练的模型不仅能够制定合理的行动计划，还能够清晰地解释做出这些决策的原因，AI会分析某个防御塔防守薄弱，是理想的进攻目标，但同时也会提醒注意可能埋伏的敌人，模型在训练后仍然保留了原有的文本理解、数学推理与问答能力。