\u2026好像是空格看了下源码,好像昰空格要转latin-1这种编码失败了
我上面有空格的是agent,要用来伪装浏览器这可怎么办,
而且在我看的那个知乎爬虫request视频中他也是有空格的,却不出错这是我的环境有问题吗,
这个就是服务器的地址;
这样我們就可以得到这样的结果,显然解码后的信息看起来工整和舒服多了:
当然这个前提是我们已经知道了这个网页是使用utf-8编码的怎么查看網页的编码方式呢?需要人为操作且非常简单的方法是使用使用浏览器审查元素,只需要找到head标签开始位置的chareset就知道网页是采用何种編码的了。如下:
这样我们就知道了这个网站的编码方式但是这需要我们每次都打开浏览器,并找下编码方式显然有些费事,使用几荇代码解决更加省事并且显得酷一些
四、自动获取网页编码方式的方法
获取网页编码的方式有很多,个人更喜欢用第三方库的方式
首先我们需要安装第三方库chardet,它是用来判断编码的模块安装方法如下图所示,只需要输入指令:
安装好后我们就可以使用chardet.detect()方法,判断网頁的编码方式了至此,我们就可以编写一个小程序判断网页的编码方式了新建文件名为chardet_test01.py:
瞧,返回的是一个字典这样我们就知道网頁的编码方式了,通过获得的信息采用不同的解码方式即可。
PS:关于编码方式的内容可以自行百度,或者看下这篇博客: