您好,欢迎来到三六零分类信息网!老站,搜索引擎当天收录,欢迎发信息
免费发信息

utf-8是什么编码?

2024/4/19 15:31:25发布7次查看
utf-8是针对unicode的一种可变长度字符编码;它可以用来表示unicode标准中的任何字符,而且其编码中的第一个字节仍与ascii相容,使得原来处理ascii字符的软件无须或只进行少部份修改后,便可继续使用。
utf-8(8位元,universal character set/unicode transformation format)是针对unicode的一种可变长度字符编码。它可以用来表示unicode标准中的任何字符,而且其编码中的第一个字节仍与ascii相容,使得原来处理ascii字符的软件无须或只进行少部份修改后,便可继续使用。因此,它逐渐成为电子邮件、网页及其他存储或传送文字的应用中,优先采用的编码。
基本特征
ucs字符u+0000到u+007f(ascii)被编码为字节0×00到0x7f(asciⅱ兼容)。这意味着只包含7位ascil字符的文件在asciⅱ和utf-8两种编码方式下是一样的。
所有大于0x007f的ucs字符被编码为一个有多个字节的串,每个字节都有标记位集。因此,ascil字节(0x00-0x7f)不可能作为任何其他字符的一部分。表示非ascil字符的多字节串的第一个字节总是在0xc0到0xfd的范围里,并指出这个字符包含多少个字节。多字节串的其余字节都在0x80到0xbf范围里。这使得重新同步非常容易,并使编码无国界,且很少受丢失字节的影响。
utf-8编码字符理论上可以最多到6个字节长,然而16位bmp字符最多只用到3字节长,bigendian ucs-4字节串的排列顺序是预定的,字节0xfe和oxff在utf-8编码中从未用到。
编码字节数
utf-8使用1~4字节为每个字符编码:
·一个us-ascil字符只需1字节编码(unicode范围由u+0000~u+007f)。
·带有变音符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文等字母则需要2字节编码(unicode范围由u+0080~u+07ff)。
·其他语言的字符(包括中日韩文字、东南亚文字、中东文字等)包含了大部分常用字,使用3字节编码。
·其他极少使用的语言字符使用4字节编码。
utf-8编码规则:
如果只有一个字节则其最高二进制位为0;如果是多字节,其第一个字节从最高位开始,连续的二进制位值为1的个数决定了其编码的字节数,其余各字节均以10开头。
以上就是utf-8是什么编码?的详细内容。
该用户其它信息

VIP推荐

免费发布信息,免费发布B2B信息网站平台 - 三六零分类信息网 沪ICP备09012988号-2
企业名录