本发明公开一种复杂场景下结合跨模态信息的人群计数方法及系统,涉及计算机视觉技术领域,包括:获取待计数复杂场景下人群的RGB图像和深度图像;将RGB图像和深度图像输入优化后的深度神经网络模型中,得到估计的人群密度图;其中,深度神经网络模型包括依次连接的低层特征提取层、第一跨模态循环注意力融合层、中层特征提取层、第二跨模态循环注意力融合层、高层特征提取层、第三跨模态循环注意力融合层和人群密度图估计层;将估计的人群密度图进行逐像素相加,得到人群中人数的估计值。本发明能够避免现有人群计数方法在人群任意分布的复杂场景中准确率下降的问题。