将 url 抽象为关键特征相似度的计算。比如可以把站点抽象为一维特征，目录深度抽象为一维特征，一级目录、二级目录、尾部页面的名字也都可以抽象为一维特征。得到各个维度的特征，定义每个特征的重要程度，给出公式，把这个问题简化成一个机器学习的问题，只需要人为判断出一批url是否相似，用svm训练一下就可以达到机器判断的目的。
博客

内容以什么形式存储？

关系数据库 or NoSQL? (待补充)

代码快速通道

百度贴吧
 百度知道
 网易新闻
 百度搜索、贴吧、知道分布式爬虫
 京东、苏宁FAQ