Table of Contents

scrapy第二种爬虫

变化：

rules = (
  Rule(LinkExtracotr(allow=r"",callback="回调函数",follw=True))
)

meta
- meta是一个字典
- 可以在管道，中间件中使用
分类：
- 下载中间件
- 爬虫中间件
作用
- header cookie更换
- 使用代理ip
- 对请求做定制化
中间件的使用方法
- 在middlerware.py 中定义中间件，需要注册
process_request
- request通过下载中间件时候使用
- 返回none 如果所有下载器中间件都返回none 则请求最终交给下载器
- 返回request 通过引擎交给调度器，不通过权重低的下载器
- 返回response 不再去请求，返给调度器
process_response
- 当下载器完成请求，传递给引擎时候调用
- 返回response 通过殷勤交给爬虫处理或交给权重更低的其他下器中间件process_response放啊
- 返回request 通过引擎交给调取器继续请求，不通过其他权重更低的process_request方法
权重值小优先执行

2020.7.18 爬虫复习

分布式爬虫