2020.3.15 python爬虫

发布于 2020-03-15  23 次阅读


正则表达式的分组需要复习

Back 引用 是说在后面的表达式中我们可以使用组的编号来引用前面的表达式所捕获到的文本序列。注意:反向引用,引用的是前面捕获组中的文本而不是正则,也就是说反向引用处匹配的文本应和前面捕获组中的文本相同,这一点很重要。
pycharm Regex Tester工具
python内置的http请求库 urllib
python2中的urllib库很多文件都被移动

编码问题:

python3中,u'XX'和'XX'都是unicode编码,所有字符串也是unicode
字符串和二进制数据流做了区分,两者不能任何形式混用
str和bytes可以互相转换


Ares个人进阶之路