2020.6.3 爬虫

发布于 2020-06-03  43 次阅读


1.复习内容

2.灵感代办

3.学习内容

  • python 爬虫

    • 企业获取数据方式

      • 公司自己获得的数据
      • 第三方数据平台(数据堂,贵阳大数据)
      • 爬虫爬虫数据:自定义比较高的数据
    • python爬虫优势

      • python:请求模块,解析模块丰富成熟,强大的scrapy
      • php:多线性异步支持不太好
      • java:代码笨重,代码量大(比较主流)
      • C/C++: 效率高成型慢
    • 爬虫分类:

      • 通用网络爬虫(搜索引擎使用,遵守robots协议)
        • robots协议:网站有robots文件规定哪个不可以爬
      • 聚焦网络爬虫:自己写的爬虫
    • 爬虫爬取数据步骤
      • 确定爬取url网址
      • 请求url地址发出请求,获取网站响应内容
      • 从响应内容提取数据
        • 保存数据,继续找url网站开始循环执行
    • 爬虫请求模块

      • 标准库 urllib.request

        • 导入模块名:from urllib import request
        • 常用方法详解:
          • request.urlopen(url,timeout) 打开请求,可以打开request.Request
          • request.Request(url,header={}) 伪造请求头等参数
          • geturl() 返回实际数据url
          • getcode() 返回状态码,判断状态码来操作
      • 网址中文解析

        • urllib.parse
          • 常用方法 urlencode({dict})
            • urlencode把字典中的中文进行编码,自动添加&
        • urllib.parse 、
          • 常用方法 quote方法
            • string = quote(string) 返回一个编码之后的字符串
          • 常用方法 unquote方法
            • string = unquote(string) 解码

4.扩展延伸知识

  • python open编码注意事项

    • html文件中,指定了编码 一般都是charset=utf-8
    • open(“filename”,”w”,encoding=”utf-8”)
    • Linux默认是utf-8
    • windows 一般是gbk
      • gbk gb2312 gb18030 最后一个最厉害
  • python 时刻记得range用法

    • range是有闭区间的,不包括结尾,从零开始
    • 切片类似长度,写到几就是几
  • 正则表达式 贪婪非贪婪模式

    • 推荐:非贪婪 *? +? ??
    • 贪婪是 * + ?
  • python 元组可以添加元素

    • tuple = ()
    • tuple += (1,2,3)

5.知识内容个人梳理

6.今天都复习了之前的什么内容


Ares个人进阶之路