hongweipeng 发布的文章

scrapy 动态为每一个请求设置延时技巧


起步

限制访问频率是有效反反爬虫的一个手段。假设每个 n 秒请求一次。恰好我有几个固定的代理 ip。如果在 spider 中设置 DOWNLOAD_TIMEOUT 会使得每个请求之间都有延时,而不是针对代理进行延时,这样就不能很好的利用代理资源。

而我希望的是可以动态的来设置请求延时,目标争取让每个代理间隔 n 秒就发一次请求。