2020.6.13 Scrapy爬虫框架

发布于 2020-06-13  32 次阅读


1.复习内容

2.灵感代办

  • Scrapy爬虫框架

  • https://www.cnblogs.com/chancey/p/11561589.html
  • Scrapy框架分析
    • 创建项目流程
      • scrapy startproject 爬虫名(大写开头)
      • cd 进入项目目录
      • scrapy genspider 爬虫名(小写)
      • 重要文件
        • settings.py 全局配置
        • pipelines.py 数据处理
        • 爬虫.py文件 爬虫代码
        • items.py 爬取的字段(数据结构)
      • 启动爬虫
        • scrapy crawl tencent
    • 响应对象
      • 属性
        • response.text 响应内容
        • response.body bytes数据类型
        • response.xpath(‘’)
      • response.xpath()方法
        • .extract() 提取文本内容,将列表中所有元素序列化为Unicode字符串
        • extract_frist()
        • get() 列表第一个文本内容
    • 日志变量级别
      • # 日志相关变量
        
        LOG_LEVEL = ''
        LOG_FILE = '文件名.log'
        
        
        # 日志级别
        
        5 CRITICAL :严重错误
        4 ERROR    :普通错误
        3 WARNING  :警告
        2 INFO     :一般信息
        1 DEBUG    :调试信息

    • 管道类
      • 常用方法
        • open_spider(self,spider), 进入方法 执行一次
        • process_item(self,spider),
        • close_spider(self,spider) 退出方法,执行一次
    • 导出文件的方法
      • -o 参数
        • scrapy crawl maoyan -o maoyan.json
        • scrapy crawl maoyan -o maoyan.csv
    • 非结构化数据提取
      • 需要管道继承ImagesPipeline类
        • 重写方法:get_media_requests
    • Middleware(中间件)
      • 切换Agent
      • 设置代理

4.扩展延伸知识

5.知识内容个人梳理

6.今天都复习了之前的什么内容


Ares个人进阶之路