github

2020.6.13 Scrapy爬虫框架

wangjieshiwoa 发布于 2020-06-13 43 次阅读

Table of Contents

创建项目流程
- scrapy startproject 爬虫名（大写开头）
- cd 进入项目目录
- scrapy genspider 爬虫名(小写)
- 重要文件
  - settings.py 全局配置
  - pipelines.py 数据处理
  - 爬虫.py文件爬虫代码
  - items.py 爬取的字段（数据结构）
- 启动爬虫
  - scrapy crawl tencent
响应对象
- 属性
  - response.text 响应内容
  - response.body bytes数据类型
  - response.xpath(‘’)
- response.xpath()方法
  - .extract() 提取文本内容，将列表中所有元素序列化为Unicode字符串
  - extract_frist()
  - get() 列表第一个文本内容

日志变量级别

# 日志相关变量

LOG_LEVEL = ''
LOG_FILE = '文件名.log'


# 日志级别

5 CRITICAL ：严重错误
4 ERROR    ：普通错误
3 WARNING  ：警告
2 INFO     ：一般信息
1 DEBUG    ：调试信息

管道类
- 常用方法
  - open_spider(self,spider), 进入方法执行一次
  - process_item(self,spider),
  - close_spider(self,spider) 退出方法，执行一次
导出文件的方法
- -o 参数
  - scrapy crawl maoyan -o maoyan.json
  - scrapy crawl maoyan -o maoyan.csv
非结构化数据提取
- 需要管道继承ImagesPipeline类
  - 重写方法：get_media_requests
Middleware（中间件）
- 切换Agent
- 设置代理

4.扩展延伸知识

5.知识内容个人梳理

6.今天都复习了之前的什么内容

上一篇文章

2020.6.13 Selenium 框架

下一篇文章

2020.6.15 python知识补充