从 抓取 –> 分析 –> 存储 三个部分对之前5篇博客和代码进行重组。
抓取
cloud scrapy
防止爬虫被 ban
设置 user-agent 和 ip 代理来防止爬虫被 ban 的测试
代码
博客
模拟登录
scrapy-splash 爬取js交互式表格数据
同时运行多个爬虫
分布式爬虫
增量爬取
利用 redis
博客
处理验证码
- 更换ip地址
- 使用cookie登陆
- 验证码识别手段
分析
不规则的 html
存储
如何进行网页去重?
将 url 抽象为关键特征相似度的计算。比如可以把站点抽象为一维特征,目录深度抽象为一维特征,一级目录、二级目录、尾部页面的名字也都可以抽象为一维特征。得到各个维度的特征,定义每个特征的重要程度,给出公式,把这个问题简化成一个机器学习的问题,只需要人为判断出一批url是否相似,用svm训练一下就可以达到机器判断的目的。
博客
内容以什么形式存储?
关系数据库 or NoSQL? (待补充)