摘 要:离线强化学习作为一种新兴范式,凭借其无需与环境交互即可利用大量离线数据进行策略学习的特性,展现出了很高的应用潜力和价值,特别是在医疗、自动驾驶等高风险领域中具有显著优势。从离线强化学习的基本概念(试读)...