某个人来找我,他的采集站抓了很多资料,但是重复极多。
类似
a.com 刘关张桃园三结义
b.cn 刘关张桃园三结义
c.net 刘关张桃园三结义
d.com.cn [第一章] 刘关张桃园三结义
类似这样的。
如何排重。
首先需要考虑重复的类型,
比如标题相同,添加了不同域名。另外添加了其他的前缀。但是标题一样或者类似。其content是一样的。
预处理:首先对titile栏位的字符串反转后成为一个新栏位。按新titile排序。然后根据分隔符切割出一个新的title。作为判断是否重复的新的栏位。
预处理可能要经过好几个语句,好几次过滤。因为既然是采集的,必然是参差不齐的。
处理:对重复的,取默认排序或者你约定某个规则的第一条符合的,插入新表。后续删除主表再从这个新表复制。
如果数据太多,处理比较费时间。最主要是针对不同的情况要有好几种规划。也没有什么太复杂的。最后因为数据多没有给到一个合适的价格没有做这个事情,但是我把这个思路写出来分享一下。也备我今后复习这个事情。