搜索
您的当前位置:首页正文

一种基于多阶指纹的比对矩阵相似度检索方法[发明专利]

来源:知库网
专利内容由知识产权出版社提供

专利名称:一种基于多阶指纹的比对矩阵相似度检索方法专利类型:发明专利

发明人:段飞虎,吕强,冯自强,张宏伟申请号:CN201810347530.1申请日:20180418公开号:CN108573045A公开日:20180925

摘要:本发明公开了一种基于多阶指纹的比对矩阵相似度检索方法,该方法包括:将文本进行碎片化处理,保存于数据库并将文本数据清洗形成统一格式文本;将统一格式文本使用simhash算法进行编码,形成64位二进制的多阶指纹特征值并保存于数据库;计算要进行相似比对文本的特征值与其他文本特征值之间的海明距离,并选取海明距离小于阈值为3的文本进行二次计算;将原文本与比对文本两两构建比对矩阵,计算文本相似度和相似内容并标记输出;对文本相似度和相似度内容计算方法进行优化,该优化方法采用并行计算实用多个线程同时计算。

申请人:同方知网数字出版技术股份有限公司

地址:100084 北京市海淀区清华大学华业大厦

国籍:CN

代理机构:北京天奇智新知识产权代理有限公司

代理人:陈新胜

更多信息请下载全文后查看

因篇幅问题不能全部显示,请点此查看更多更全内容

Top