2020.6.13 Scrapy爬虫框架

发布于 2020-06-13  43 次阅读


Table of Contents

  • 创建项目流程
    • scrapy startproject 爬虫名(大写开头)
    • cd 进入项目目录
    • scrapy genspider 爬虫名(小写)
    • 重要文件
      • settings.py 全局配置
      • pipelines.py 数据处理
      • 爬虫.py文件 爬虫代码
      • items.py 爬取的字段(数据结构)
    • 启动爬虫
      • scrapy crawl tencent
  • 响应对象
    • 属性
      • response.text 响应内容
      • response.body bytes数据类型
      • response.xpath(‘’)
    • response.xpath()方法
      • .extract() 提取文本内容,将列表中所有元素序列化为Unicode字符串
      • extract_frist()
      • get() 列表第一个文本内容
  • 日志变量级别
    • # 日志相关变量
      
      LOG_LEVEL = ''
      LOG_FILE = '文件名.log'
      
      
      # 日志级别
      
      5 CRITICAL :严重错误
      4 ERROR    :普通错误
      3 WARNING  :警告
      2 INFO     :一般信息
      1 DEBUG    :调试信息

  • 管道类
    • 常用方法
      • open_spider(self,spider), 进入方法 执行一次
      • process_item(self,spider),
      • close_spider(self,spider) 退出方法,执行一次
  • 导出文件的方法
    • -o 参数
      • scrapy crawl maoyan -o maoyan.json
      • scrapy crawl maoyan -o maoyan.csv
  • 非结构化数据提取
    • 需要管道继承ImagesPipeline类
      • 重写方法:get_media_requests
  • Middleware(中间件)
    • 切换Agent
    • 设置代理

4.扩展延伸知识

5.知识内容个人梳理

6.今天都复习了之前的什么内容