赶集网图片电话识别分析

 

 

赶集网图片电话识别分析集与反采集总是在矛与盾之间进行角色转换的。58 赶集 口碑 这几个大网站成了采集分类信息的根据地。但是采集器对他们服务器的压力就不言而喻了。就火车头默认设置来说400ms发三个请求 一秒算10个。一台机器开两三个任务。如果多几个人采集,请求数就不言而喻了。不光是这几个大网站的信息资源的流失还有对服务器造成的压力,这些都是他们不想看到的。当然这几个大网站之间也是互相采集的。我采集58比较多。赶集和其他网站很少去做,我发现58也采集赶集,搜房网这些网站的信息,水印上有么。
言归正传,昨天赶集网又一次进行了版面规则调整,剑指采集。在赶集网WEB页面联系方式图片化后。WAP页面也进行了图片化,昨天的一次规则更新相信会阻止大部分的采集,当然也不可能阻止全部。
昨天也有几个朋友问我能不能采集到赶集了。简单的看下 答案是肯定的。当然能,可能也有其他的办法进行采集,但是我依旧是图片识别。赶集网WAP联系方式图片化要比58做的好一些。因为58只是单纯的出现数字,数字之间的间隔是相同的。比如

对于图片识别来说 这样的图是最好识别的。我相信就这一个图片识别想必就挡住了大部分人采集58的脚步
不过赶集的这次更新更变态。联系方式不光是图片化,而且还做了黏贴处理。几个数字黏贴到一起,对于识别来说这个就有点难度了。我之前发布的识别算法是不能识别黏贴的。当然 改进下是可以的,因为58没有这样做,我也没必要去改算法了。

右侧的就是黏贴的图。对于识别来说 这个是比较复杂的了。但是也是有办法解决的。
但是针对赶集网的联系方式图片化我发现了这样的问题。可能会有些帮助比如
我截图的这两张图片 

 

TAG:

评论加载中...
内容:
评论者: 验证码:
  

 

技术支持
点击这里给我发消息
业务咨询
点击这里给我发消息