网站运营
位置:首页>> 网站运营>> 常用字符集编码的概要特性(3)

常用字符集编码的概要特性(3)

作者:charset 来源:charset.cn 发布时间:2007-10-12 20:46:00 

标签:字符,编码,Unicode,BIG5,UTF-8,GBK,GB2312

UTF-8

UTF-8是UCS字符集的另一种编码方式,UTF-16的每个单元是两个字节(16位),而UTF-8的每个单元是一个字节(8位)。UTF-16中用一个或两个双字节表示一个字符,UTF-8中用一个或几个单字节表示一个字符。

可以认为UTF-8编码是根据一定规律从UCS-2转换得到的,从UCS-2到UTF-8之间有以下转换关系:

UCS-2UTF-8
U+0000 - U+007F0xxxxxxx
U+0080 - U+07FF110xxxxx 10xxxxxx
U+0800 - U+FFFF1110xxxx 10xxxxxx 10xxxxxx

例如“啊”字的UCS-2编码是0x554A,对应的二进制是0101 0101 0100 1010,转成UTF-8编码之后的二进制是1110 0101 10 010101 10 001010,对应的十六进制是0xE5958A。

UCS-4也是一种UCS字符集的编码方式,是使用4个字节的等宽编码,可以用UCS-4来表示BMP之外的辅助面字符。UCS-2中每两个字节前再加上0x0000就得到了BMP字符的UCS-4编码。从UCS-4到UTF-8也存在转换关系,根据这种转换关系,UTF-8最多可以使用六个字节来编码UCS-4。

根据UTF-8的生成规律和UCS字符集的特性,可以看到UTF-8具有的特性:

  1. UTF-8完全和ASCII兼容,也就是说ASCII对应的字符在UTF-8中和ASCII编码完全一致。范围在0x00-0x7F之内的字符一定是ASCII字符,不可能是其他字符的一部分。GBK和Big5都存在的缺陷在UTF-8中是不存在的。

  2. 大于U+007F的UCS字符,在UTF-8编码中至少是两个字节。

  3. UTF-8中的每个字符编码的首字节总在0x00-0xFD之间(不考虑UCS-4支持的情况,首字节在0x00-0xEF之间)。根据首字节就可以判断之后连续几个字节。

  4. 非首字节的其他字节都在0x80-0xBF之间;0xFE和0xFF在UTF-8中没有被用到。

  5. GBK编码中的汉字字符都在UCS-2中的范围都在U+0800 - U+FFFF之间,所以每个GBK编码中的汉字字符的UTF-8编码都是3个字节。但GBK中包含的其他字符的UTF-8编码就不一定是3个字节了,如GBK中的俄文字符。

在UTF-8的编码的传输过程中即使丢掉一个字节,根据编码规律也很容易定位丢掉的位置,不会影响到其他字符。在其他双字节编码中,一旦损失一个字节,就会影响到此字节之后的所有字符。从这点可以看出UTF-8编码非常适合作为传输编码。

原文链接:http://www.charset.cn/blog/2007/04/18/chaset-special-1/

0
投稿

猜你喜欢

  • Linux启动后出现boot:提示时,使用一个特殊的命令,如linuxsingle或linux 1,就能进入单用户模式(Single-Use
  • 在网页挂马历史中,图片挂马是非常“古老”的。为什么古老的挂马技术到现在还在大量被使用?为什么它能肆无忌惮?我们又该怎么防范它?身为一名安全工
  • 央视网络变身国家网络电视台、各地方电视台大举进军网络视频、搜索引擎百度巨资成立奇艺网……,2010年的网络视频产业迎来了“象群”,尽管他们跑
  • IResearch艾瑞咨询根据Service Excellence Research Group发布的2008年美国在线厂商对网站各项功能的
  • 一、将磁盘分区转换成NTFS格式当黑客开始对你的网络发起攻击的时候,他们首先会检查是否存在一般的安全漏洞,然后才会考虑难度更加高一点的突破安
  • DEDE评论效果: 修改后的效果: 修改步骤一、5.5版本(5.6版本请往下看)1、修改/plus/feedback_a
  • 核心提示:冷门行业网站站长的该如何坚守,这些年坚持在冷门行业维护小网站的经历,让我有了如下感悟。1、爱好、兴趣是做好一个冷门行业网站的原动力
  • 一年一度的圣诞节又到了,asp之家为大家选了一些圣诞节的手机祝福短信,大家可以挑选一些发送给你的亲朋好友,给他们送上一个圣诞节的祝福!圣诞乐
  • 拨号服务器的维护和管理是关乎服务器端和客户端、涉及软件与硬件的较繁杂的工作。它要求管理员多实践,且善于归纳和总结,只有这样,才能形成一套自已
  • 在用TCP/IP协议族架设的网络中,每一个节点都有一个唯一的IP地址,用来作为它们唯一的标志。然而,如果让使用者来记住这些毫无记忆规律的IP
  • 这篇文章是写给新人的,我也是11月才加入淘宝客的,把我的一点心得写下来,高手看了不要见笑!以前做GG广告,做的很累,于是这边加入淘宝客的大军
  • 现在,很多人都拥有自己的电脑,并且通过固定的IP连接到互联网。于是,他们开始在自己的电脑上架设服务器。在自己的电脑上架设服务器,无论你使用L
  •  应用程序事件为:HTTP 筛选器 DLL ISAPI_Rewrite.dll 加载失败。数据是错误。解决方法:第一步 为ISAP
  • 一、目的本地写好一个Flask应用,用Docker封装,上传至自己的服务器,完成部署。流程图:二、实验环境本地:Windows10 1909
  • 在忙活了一段时间后,网站建成了,接下来作为一个新站站长的你首先想到要做的可能就是让自己的网站早点被搜索引擎收录,早点让访问者通过搜索引擎找到
  • 阻止隐形杀手入侵 随着计算机及网络应用的扩展,电脑信息安全所面临的危险和已造成的损失也在成倍地增长,特别是各种黑客的增多,一些个人用户也时常
  • WordPress 2.5的原生相册功能其实很好用的,我觉得现在已经无必要再去找一款专门的相册程序,对于一般的blogger而言。相册在后台
  • 我们期待您能通过提供优质的内容和服务来服务于用户和整个互联网。与此同时,您或许经常听到来自互联网界的关于链接问题的讨论,人们各持己见,争论不
  • 本文章来总结一下关于apache伪静态与iis伪静态区别介绍,主要讲到了一些规则的问题与配置区别,以后大家就可以直接在iis伪静态转换apa
  • seo优化技术公式 每接触一样新的知识时,我们都得先去了解它,要是连最基本的定义都不知道,那也就没有必要去学习它了。我们学习seo,那么首先
手机版 网站运营 asp之家 www.aspxhome.com