本发明公开了一种基于强化学习和启发式搜索的路径规划方法及系统。该方法包括:S1:在马尔科夫决策过程框架下建立环境模型,所述环境模型的状态空间为S,动作空间为A,奖励函数为R,转移概率函数为P;S2:通过Dyna‑Q算法对所述环境模型进行采样更新,对每个状态‑动作对进行评估并确定目标点;S3:基于所述目标点,通过A*算法分别计算当前位置与起始点和所述目标点的欧式距离,确定初始路径;S4:对所述初始路径中每个状态‑动作对进行赋值;S5:根据每个状态‑动作对的评估值以及赋值,确定最优动作;S6:根据最优动作确定最优路径。本发明能够有效的加速强化学习的收敛速度,同时克服启发式搜索规划出次最优解等问题,从而更加快速、准确的规划路径。