新一代信息技术

当前位置: 首页 > 科技资源 > 专利推介 > 新一代信息技术 > 正文

基于MD5三叉树和改进BIRCH算法的互联网论文数据自动抽取算法

专利号:ZL202110751368.1

专利类型:发明授权

发明人:宫继兵; 张瀚允; 寇肖萌; 龚石山; 彭吉全

公开(公告)日:2022-5-10

转化方式:转让、许可、作价入股

联系人:周老师

联系电话:0335-8518633

发明人 宫继兵; 张瀚允; 寇肖萌; 龚石山; 彭吉全 公开(公告)日 2022-5-10
专利类型 发明授权 转化方式 转让、许可、作价入股
联系人 周老师 联系电话 0335-8518633
本发明提供了一种基于MD5三叉树和改进BIRCH算法的互联网论文数据自动抽取算法,该方法包括:从所需要抽取出互联网论文数据的网站中抓取数据,进行页面清洗与预处理,基于MD5三叉树进行站内静态噪音去除,基于节点间相似度进行页间动态噪音去除,融合DBSCAN密度聚类算法对样本点数据进行密集区域与稀疏区域的划分,融合密度因素构建ACF树,修正密集区域与稀疏区域生成ACF森林,基于改进BIRCH算法进行字段单元构建,将得到的字段单元通过字段匹配与页面内容提取方法对字段单元和字段进行匹配,从而得到所需要提取的网页数据。本发明噪音去除技术更优,字段单元构建与字段匹配更高效,能有效解决互联网论文数据自动抽取问题。

关闭

河北省秦皇岛市河北大街西段438号燕山大学世纪楼1307

0335-8057035  0335-8067036

jszy@ysu.edu.cn

©版权所有:燕山大学科技产业促进中心

  • 燕山大学

  • 科技产业促进中心