2020.6.5 Xpath

发布于 2020-06-05  52 次阅读


1.复习内容

2.灵感代办

3.学习内容

  • xpath使用

    • 常用指令
      • // 全局查找 孙子
      • / 子级查找
      • . 当前节点下匹配
      • @ 提取属性值
      • [@属性=“值”] 属性值查找
      • div[1] 第一个子div
      • * 所有节点符合属性
    • 匹配多个路径
      • 用 | 来组合Xpath使用
    • 常用函数
      • contains()
        • 匹配属性值包含某些字符串节点
      • text()
        • 获取节点文本内容
  • python lxml模块

    • 导入模块:
      • from lxml import etree
    • 创建解析对象
      • parse_html = etree.HTML(html) //字符串
    • 解析对象调用xpath
      • parse_html.xpath(‘xpath表达式’)
    • 返回格式
      • 和findall一样,只要调用xpath,一定返回列表
    • 使用流程:
      • 先获取到外层大节点
      • 用for循环,使用. 在大节点中匹配细节信息

4.扩展延伸知识

  • python -m pip install参数(windows中)

    • 管理员运行pip命令
  • python 爬虫两个坑

    • 1.爬取不出来,一定要看看源码是否能找到元素
    • 2.js动态加载的元素,无法被xpath爬取
  • python 双下划线开头

  • python中存储数据库的坑

    • 真的utf-8,否则存储容易出错,尤其是字符存放
      • 字符集 utf8mb4
      • 排序规则utf8mb4_unicode_ci
      • alter table tablename convert to charset utf8mb4;

5.知识内容个人梳理

6.今天都复习了之前的什么内容


Ares个人进阶之路