Table of Contents
- 创建项目流程
- scrapy startproject 爬虫名(大写开头)
- cd 进入项目目录
- scrapy genspider 爬虫名(小写)
- 重要文件
- settings.py 全局配置
- pipelines.py 数据处理
- 爬虫.py文件 爬虫代码
- items.py 爬取的字段(数据结构)
- 启动爬虫
- scrapy crawl tencent
- 响应对象
- 属性
- response.text 响应内容
- response.body bytes数据类型
- response.xpath(‘’)
- response.xpath()方法
- .extract() 提取文本内容,将列表中所有元素序列化为Unicode字符串
- extract_frist()
- get() 列表第一个文本内容
- 属性
- 日志变量级别
-
# 日志相关变量 LOG_LEVEL = '' LOG_FILE = '文件名.log' # 日志级别 5 CRITICAL :严重错误 4 ERROR :普通错误 3 WARNING :警告 2 INFO :一般信息 1 DEBUG :调试信息
-
- 管道类
- 常用方法
- open_spider(self,spider), 进入方法 执行一次
- process_item(self,spider),
- close_spider(self,spider) 退出方法,执行一次
- 常用方法
- 导出文件的方法
- -o 参数
- scrapy crawl maoyan -o maoyan.json
- scrapy crawl maoyan -o maoyan.csv
- -o 参数
- 非结构化数据提取
- 需要管道继承ImagesPipeline类
- 重写方法:get_media_requests
- 需要管道继承ImagesPipeline类
- Middleware(中间件)
- 切换Agent
- 设置代理
4.扩展延伸知识
5.知识内容个人梳理
6.今天都复习了之前的什么内容
6.今天都复习了之前的什么内容