您好,欢迎来到三六零分类信息网!老站,搜索引擎当天收录,欢迎发信息

Python每天必学之bytes字节

2026/1/23 2:22:53发布9次查看
python中的字节码用b'xxx'的形式表示。x可以用字符表示,也可以用ascii编码形式\xnn表示,nn从00-ff(十六进制)共256种字符。
一、基本操作
下面列举一下字节的基本操作,可以看出来它和字符串还是非常相近的:
in[40]: b = babcd\x64in[41]: bout[41]: b'abcdd'in[42]: type(b)out[42]: bytesin[43]: len(b)out[43]: 5in[44]: b[4]out[44]: 100 # 100用十六进制表示就是\x64
如果想要修改一个字节串中的某个字节,不能够直接修改,需要将其转化为bytearray后再进行修改:
in[46]: barr = bytearray(b)in[47]: type(barr)out[47]: bytearrayin[48]: barr[0] = 110in[49]: barrout[49]: bytearray(b'nbcdd')
二、字节与字符的关系
上面也提到字节跟字符很相近,其实它们是可以相互转化的。字节通过某种编码形式就可以转化为相应的字符。字节通过encode()方法传入编码方式就可以转化为字符,而字符通过decode()方法就可以转化为字节:
in[50]: s = 人生苦短,我用pythonin[51]: b = s.encode('utf-8')in[52]: bout[52]: b'\xe4\xba\xba\xe7\x94\x9f\xe8\x8b\xa6\xe7\x9f\xad\xef\xbc\x8c\xe6\x88\x91\xe7\x94\xa8python'in[53]: c = s.encode('gb18030')in[54]: cout[54]: b'\xc8\xcb\xc9\xfa\xbf\xe0\xb6\xcc\xa3\xac\xce\xd2\xd3\xc3python'in[55]: b.decode('utf-8')out[55]: '人生苦短,我用python'in[56]: c.decode('gb18030')out[56]: '人生苦短,我用python'in[57]: c.decode('utf-8')traceback (most recent call last): exec(code_obj, self.user_global_ns, self.user_ns) file , line 1, in c.decode('utf-8')unicodedecodeerror: 'utf-8' codec can't decode byte 0xc8 in position 0: invalid continuation bytein[58]: b.decode('gb18030')out[58]: '浜虹敓鑻︾煭锛屾垜鐢≒ython'
我们可以看到用不同的编码方式解析出来的字符和字节的方式是完全不同,如果编码和解码用了不同的编码方式,就会产生乱码,甚至转换失败。因为每种编码方式包含的字节种类数目不同,如上例中的\xc8就超出了utf-8的最大字符。
三、应用
举个最简单的例子,我要爬取一个网页的内容,现在来爬取用百度搜索python时返回的页面,百度用的是utf-8编码格式,如果不对返回结果解码,那它就是一个超级长的字节串。而进行正确解码后就可以显示一个正常的html页面。
import urllib.requesturl = http://www.baidu.com/s?ie=utf-8&wd=pythonpage = urllib.request.urlopen(url)mybytes = page.read()encoding = utf-8print(mybytes.decode(encoding))page.close()
以上就是本文的全部内容,希望对大家学习python程序设计有所帮助。
该用户其它信息

VIP推荐

免费发布信息,免费发布B2B信息网站平台 - 三六零分类信息网 沪ICP备09012988号-2
企业名录 Product