一个强化学习教程地址: github.com/Paulescu/hands-on-rl课程内容从简到难,逐步解决不同难度的问题,包括Q-learning、SARSA、参数化Q学习、策略梯度等技术,最终会介绍如何将强化学习算法、优化方法和深度学习技术结合,解决更复杂的问题。不过课程大部分内容是几年前的,并不会涉及现在大模型里的强化学习。课程不要求先前了解深度学习,讲解中会为学习者提供相关背景,帮助理解其在现代强化学习中的重要性。课程包括: 强化学习简介 使用Q-learning驱动出租车 使用SARSA克服重力 使用参数化Q学习保持平衡 使用策略梯度登陆月球科技先锋官
