基于TF-IDF和simhash的内容查重方案

2024-10-16 08:22:16阅读1847评论2

内容查重方案，网上一查都是生成hash，然后计算海明距离。几大步骤没区别，但如何生成hash，如何计算海明距离？

可不是hash md5就OK了，也不是两段内容或两篇文章计算海明距离就完事了，这样准确度低，召回率低。

此方案同样也是几大步骤：

对内容进行分词；
特征词加权；
降维生成hash值；
比较海明距离。

但，不同之处是，使用内容分词生成hash值，改进加权算法。

一、内容分词

使用分词系统对内容分词，并标注词性，此处使用PHPAnalysis分词，其他编程语言就不推荐分词了，根据自己的喜好使用吧。

不管使用什么分词，要确保有词性的标注，并且准确度要高，否则结果差异很大。

二、加权

一般分词后会根据词频计算权重，这样会造成无意义的词权重很高（比如：的、了等），计算结果将不准确。

这一步对第一步的分词进行过滤，对于非名词、动词、形容词的其他词赋予低权重。

参考词性权重设置：

名词(n)：3
动词(v)：2
形容词(a)：1

其他词性权重为0。

如果单独的对词性的权重进行加减，会使得部分词权重过于高，而加重结果的不准确性。

单纯的使用TF-IDF算法不能满足我们对词性权重的要求，所以，基于TF-IDF算法，我们延伸出另外一套算法：

IF-IDF改进算法

对于出现多次的特征词，对其附加权重，出现次数大于2的，附加权重1，否则不进行附加权重。

综合上述，特征词的权重计算公式为：

三、降维生成hash

对每一个特征词使用同一种hash函数计算出二进制的指纹值hash，长度为64。

用第二步计算的特征词权重，对每一个特征词的hash值的每一位都进行处理，若某一位的hash值为1，则令此位的hash值为 weight，若为0，则令此位的hash值为 -weight。

将所有的特征词加权数字相加（64位一一对应相加），这里我们将它命名为：simhash指纹。

再降维形成最终的simhash签名（S）。对simhash指纹的每一位进行降维处理，若第i位的值大于0，则S_i设为1，若第i位的值小于等于0，则S_i设为0，从而得到二进制的simhash签名值。

四、计算海明距离

计算海明距离就不多说了，两个simhash签名值安位异或就得到海明距离了。

五、效果体验

已放工具箱，请移步：文本对比/判断查重

基于TF-IDF和simhash的内容查重方案

一、内容分词

二、加权

三、降维生成hash

四、计算海明距离

五、效果体验

有 2 位网友评论：

欢迎你来评论

相关文章

工信部推出“码号服务平台”公众号，可一键解绑应用

备忘-浙江大学google镜像问题答案

关于《EMLOG模板设置插件PLUS版》的使用问题回复

rpcms微信公众号插件演示页面

记录mysql ibd文件误删，服务启动不了的恢复解决过程

rpcms安装报错或者空白问题解决方案

在抖音上看到的很舒服、很漂亮的色彩搭配，整理了下有八种搭配

微信小程序APPID查询，看看那些appid都是谁

微信小程序APPID信息查询API接口开放使用

比特币是什么，入门教程

活动推荐

热度排行

使用phpstudy搭建的环境，更换Apache到2.4高版本教程

工信部推出“码号服务平台”公众号，可一键解绑应用

各大网站收录、搜索引擎提交接口

基于canvas的网页背景--旋转的星空

纯js数字滚动动画插件countUp.js

ai文章创作助手，大模型原创助手，已对接rpcms

rpcms微信公众号插件，隐藏内容、阅读全文、关键词回复等等

网站随机弹框，赚赏金产品推广rpcms插件

rpcms主动推送插件(百度+必应)，可选择列表推送

新品模板

rpcms极简主题模板，个人博客微博模板

dede织梦红色风格互联网营销企业官网模板，自适应手机端

dede织梦蓝色企业营销官网模板，自适应手机端