本发明公开一种跨模态特征对齐融合的人群计数系统及方法,涉及计算机视觉技术领域,包括:获取待计数场景下人群的可见光图像和热红外图像;将可见光图像和热红外图像输入优化后的跨模态特征对齐融合计数系统中,得到估计的人群密度图;其中,跨模态特征对齐融合计数系统包括初始特征提取层、可见光跨模态特征对齐层、热红外跨模态特征对齐层、可见光频域特征提取层、热红外频域特征提取层、跨模态频域特征提取层、频域特征融合层、人群密度图估计层;将估计的人群密度图进行逐像素相加,得到人群图像中人数的估计值。本发明能够有效解决不同模态图像错位现象带来的准确率下降问题。