1.复习内容
2.灵感代办
3.学习内容
-
xpath使用
- 常用指令
- // 全局查找 孙子
- / 子级查找
- . 当前节点下匹配
- @ 提取属性值
- [@属性=“值”] 属性值查找
- div[1] 第一个子div
- * 所有节点符合属性
- 匹配多个路径
- 用 | 来组合Xpath使用
- 常用函数
- contains()
- 匹配属性值包含某些字符串节点
- text()
- 获取节点文本内容
-
python lxml模块
- 导入模块:
- from lxml import etree
- 创建解析对象
- parse_html = etree.HTML(html) //字符串
- 解析对象调用xpath
- parse_html.xpath(‘xpath表达式’)
- 返回格式
- 和findall一样,只要调用xpath,一定返回列表
- 使用流程:
- 先获取到外层大节点
- 用for循环,使用. 在大节点中匹配细节信息
4.扩展延伸知识
-
python -m pip install参数(windows中)
- 管理员运行pip命令
-
python 爬虫两个坑
- 1.爬取不出来,一定要看看源码是否能找到元素
- 2.js动态加载的元素,无法被xpath爬取
-
python 双下划线开头
- 自动选择使用http还是https
- https://www.cnblogs.com/suizhikuo/p/8206295.html
-
python中存储数据库的坑
- 真的utf-8,否则存储容易出错,尤其是字符存放
- 字符集 utf8mb4
- 排序规则utf8mb4_unicode_ci
- alter table
tablename
convert to charset utf8mb4;
5.知识内容个人梳理
-
解析库xpath高级使用(超全)
6.今天都复习了之前的什么内容
3.学习内容
-
xpath使用
- 常用指令
- // 全局查找 孙子
- / 子级查找
- . 当前节点下匹配
- @ 提取属性值
- [@属性=“值”] 属性值查找
- div[1] 第一个子div
- * 所有节点符合属性
- 匹配多个路径
- 用 | 来组合Xpath使用
- 常用函数
- contains()
- 匹配属性值包含某些字符串节点
- text()
- 获取节点文本内容
-
python lxml模块
- 导入模块:
- from lxml import etree
- 创建解析对象
- parse_html = etree.HTML(html) //字符串
- 解析对象调用xpath
- parse_html.xpath(‘xpath表达式’)
- 返回格式
- 和findall一样,只要调用xpath,一定返回列表
- 使用流程:
- 先获取到外层大节点
- 用for循环,使用. 在大节点中匹配细节信息
4.扩展延伸知识
-
python -m pip install参数(windows中)
- 管理员运行pip命令
-
python 爬虫两个坑
- 1.爬取不出来,一定要看看源码是否能找到元素
- 2.js动态加载的元素,无法被xpath爬取
-
python 双下划线开头
- 自动选择使用http还是https
- https://www.cnblogs.com/suizhikuo/p/8206295.html
-
python中存储数据库的坑
- 真的utf-8,否则存储容易出错,尤其是字符存放
- 字符集 utf8mb4
- 排序规则utf8mb4_unicode_ci
- alter table
tablename
convert to charset utf8mb4;
5.知识内容个人梳理
-
解析库xpath高级使用(超全)
6.今天都复习了之前的什么内容
xpath使用
- 常用指令
- // 全局查找 孙子
- / 子级查找
- . 当前节点下匹配
- @ 提取属性值
- [@属性=“值”] 属性值查找
- div[1] 第一个子div
- * 所有节点符合属性
- 匹配多个路径
- 用 | 来组合Xpath使用
- 常用函数
- contains()
- 匹配属性值包含某些字符串节点
- text()
- 获取节点文本内容
- contains()
python lxml模块
- 导入模块:
- from lxml import etree
- 创建解析对象
- parse_html = etree.HTML(html) //字符串
- 解析对象调用xpath
- parse_html.xpath(‘xpath表达式’)
- 返回格式
- 和findall一样,只要调用xpath,一定返回列表
- 使用流程:
- 先获取到外层大节点
- 用for循环,使用. 在大节点中匹配细节信息
-
python -m pip install参数(windows中)
- 管理员运行pip命令
-
python 爬虫两个坑
- 1.爬取不出来,一定要看看源码是否能找到元素
- 2.js动态加载的元素,无法被xpath爬取
-
python 双下划线开头
- 自动选择使用http还是https
- https://www.cnblogs.com/suizhikuo/p/8206295.html
-
python中存储数据库的坑
- 真的utf-8,否则存储容易出错,尤其是字符存放
- 字符集 utf8mb4
- 排序规则utf8mb4_unicode_ci
- alter table
tablename
convert to charset utf8mb4;
- 真的utf-8,否则存储容易出错,尤其是字符存放
5.知识内容个人梳理
-
解析库xpath高级使用(超全)
6.今天都复习了之前的什么内容
解析库xpath高级使用(超全)