Q-Learning是强化学习中的最基础算法,它基于Q-Table来实现。这个表格的每一行都代表着一个状态(state),每一行的每一列都代表着一个动作(action),而每个值就代表着如果在该state下采取该action所能获取的最大的未来期望奖励。通过Q-Table就可以找到每个状态下的最优行为,进而通过找到所有的最优action来最终得到最大的期望奖励。

更多介绍,请参考:

https://zhuanlan.zhihu.com/p/365297539

https://blog.csdn.net/qq_39429669/article/details/117948150

https://blog.csdn.net/Hao_ge_666/article/details/126894658