2020.6.9 模拟登陆

发布于 2020-06-09  36 次阅读


1.复习内容

2.灵感代办

3.学习内容

  • 爬虫的一些基础总结

    • urllib库()

      • 特点:
        • 官方库,不好用
      • request请求模块
        • request.get() url参数和timeout参数还有headers参数
      • url编码
        • urllib中有parse.urlencode({}),
        • quote(string) 加码
        • unquote(string) 解码
    • requests

      • 第三方,比较人性化
      • post方法
      • get方法
      • session方法
      • 常用参数

        • param ,data, headers,proxies,verify
    • csv模块

      • 使用方法:
        • 导入csv
        • csv.writer(f) 需要传递f来生成一个对象
        • writer.writerow([列表]) 写入一行
    • 代理

      • 使用代理服务器,就可以利用多线程快速爬取,
      • 定义proxies参数,里面是
    • re解析

    • xpath解析

    • 浏览器控制台抓包

      • 调试
        • js调试中,寻找断点
    • 常见反爬模式总结

      • 1.检查header信息
        • reference,user_agent等等
      • 2.ajax动态加载
        • 使用ajax方式来获取json格式
      • 3.css
        • 在css中content中写入内容
      • 4.加密url链接地址
        • token验证,sign签名,翻页参数_signuture
      • 5.在js中加载网址
        • 城市信息爬取
      • 6.检查ip地址
        • 频繁的请求,被服务器列入黑名单
  • 模拟登陆的两种方式

      • 使用:
        • 在浏览抓包中,将cookie内容复制下来
      • 缺点:
        • 容易过期,
    • session

      • 使用:
        • 1.创建对象
          • session = requests.session()
        • 2.请求
          • res = session.get(url,header)
      • 缺点:
        • 容易被验证码阻挡
  • Javascript window 对象

    • 实际上就是文档

4.扩展延伸知识

5.知识内容个人梳理

6.今天都复习了之前的什么内容


Ares个人进阶之路