爬虫总结--汇总贴

从 抓取 –> 分析 –> 存储 三个部分对之前5篇博客和代码进行重组。

抓取

cloud scrapy

博客

防止爬虫被 ban

设置 user-agent 和 ip 代理来防止爬虫被 ban 的测试
代码
博客

模拟登录

代码
博客

scrapy-splash 爬取js交互式表格数据

代码
博客

同时运行多个爬虫

代码

分布式爬虫

博客
代码

增量爬取

利用 redis
博客

处理验证码

  • 更换ip地址
  • 使用cookie登陆
  • 验证码识别手段

分析

不规则的 html

代码
博客

存储

如何进行网页去重?

将 url 抽象为关键特征相似度的计算。比如可以把站点抽象为一维特征,目录深度抽象为一维特征,一级目录、二级目录、尾部页面的名字也都可以抽象为一维特征。得到各个维度的特征,定义每个特征的重要程度,给出公式,把这个问题简化成一个机器学习的问题,只需要人为判断出一批url是否相似,用svm训练一下就可以达到机器判断的目的。
博客

内容以什么形式存储?

关系数据库 or NoSQL? (待补充)

代码快速通道

百度贴吧
百度知道
网易新闻
百度搜索、贴吧、知道分布式爬虫
京东、苏宁FAQ

徐阿衡 wechat
欢迎关注:徐阿衡的微信公众号
客官,打个赏呗~