控制网络爬虫访问你的网站的频率

由于增加了访问过滤,那么就需要告诉网络爬虫爬行的速度不要太快,还好这个问题比较好解决,在robots.txt中增加:
Robot-version: 2.0
Crawl-delay: 10
Request-rate: 60/1m
Visit-time: 0000-0800

由于这个还没有完全的标准,两种都用了,Crawl-delay是每秒访问的网页数,而Request-rate是页面数/时间段,可以设置为比较小的值,Visit-time为允许访问的时间段。
完整的规范可以看看:http://www.conman.org/people/spc/robots2.html#format.directives.request-rate


作者: Cherami
原载: 控制网络爬虫访问你的网站的频率
版权所有。转载时必须以链接形式注明作者和原始出处及本声明。

日志评价

 Votes | Average: 0 out of 5 Votes | Average: 0 out of 5 Votes | Average: 0 out of 5 Votes | Average: 0 out of 5 Votes | Average: 0 out of 5 (暂无评价) --点击星星直接投票
Loading ... Loading ...


相关日志

  • 暂时没有相关日志。


随机日志



添加到网摘

[del.icio.us]  [新浪 VIVI]  [365key]  [YouNote]  [博采中心]  [Poco]  [SOHU狐摘]  [天极网摘]  [和讯网摘]
喜欢这个插件?

当前日志信息