本发明提供一种基于深度强化学习的水下联合中继选择和功率分配方法,包括:创建包括一个源节点u、N个候选中继节点r1, r2…rN和一个目的节点d的拓扑结构;广播信号给候选中继节点和目的节点,同时源节点根据状态信息进行中继选择和功率分配;选中的中继节点转发信号给目的节点;目的节点将状态信息反馈给源节点;采用深度强化学习方法,使源节点不断与环境进行交互得到所需状态信息,通过策略优化离线学习的方式,使源节点在试错中学习到经验用于决策。本发明方法基于信道状态信息和中继选择信息,利用深度强化学习来进行中继选择和功率的分配。把源节点视为深度强化学习中的智能体,利用源节点和环境不断交互学习来增强系统的决策能力,易于实现。