字符集

http://www.cnblogs.com/skynet/archive/2011/05/03/2035105.html

计算机中储存的信息都是用二进制数表示的；而我们在屏幕上看到的英文、汉字等字符是二进制数转换之后的结果。通俗的说，按照何种规则将字符存储在计算机中，如'a'用什么表示，称为"编码"；反之，将存储在计算机中的二进制数解析显示出来，称为"解码"，如同密码学中的加密和解密。在解码过程中，如果使用了错误的解码规则，则导致'a'解析成'b'或者乱码。

字符集（Charset）：是一个系统支持的所有抽象字符的集合。字符是各种文字和符号的总称，包括各国家文字、标点符号、图形符号、数字等。

字符编码（Character Encoding）：是一套法则，使用该法则能够对自然语言的字符的一个集合（如字母表或音节表），与其他东西的一个集合（如号码或电脉冲）进行配对。即在符号集合与数字系统之间建立对应关系，它是信息处理的一项基本技术。通常人们用符号集合（一般情况下就是文字）来表达信息。而以计算机为基础的信息处理系统则是利用元件（硬件）不同状态的组合来存储和处理信息的。元件不同状态的组合能代表数字系统的数字，因此字符编码就是将符号转换为计算机可以接受的数字系统的数，称为数字代码。

UNIOCDE是一种字符集 UTF-8是基于UNICODE实现的一种编码方式

ASCII字符集

ASCII字符集：主要包括控制字符（回车键、退格、换行键等）；可显示字符（英文大小写字符、阿拉伯数字和西文符号）。

ASCII（American Standard Code for Information Interchange，美国信息交换标准代码）是基于拉丁字母的一套电脑编码系统。它是现今最通用的单字节编码系统，并等同于国际标准ISO/IEC 646。

扩展版本EASCII则可以勉强显示其他西欧语言。扩展ASCII 字符是从128 到255（0x80-0xff）的字符。扩展ASCII不再是国际标准。

GB*字符集

GB_2312 字符集是目前最常用的汉字编码标准，windows 95/98/2000 中使用的 GBK字符集就包含了GB2312，或者说和GB2312 兼容，GB_2312 字符集包含了 6763个的简体汉字，和682 个标准中文符号。在这个标准中，每个汉字用2个字节来表示，每个字节的ascii码为 161-254 (16 进制A1 - FE)。

GBK编码，是在GB2312-80标准基础上的内码扩展规范，使用了双字节编码方案，其编码范围从8140至FEFE（剔除xx7F），共23940个码位，共收录了21003个汉字，完全兼容GB2312-80标准，支持国际标准ISO/IEC10646-1和国家标准GB13000-1中的全部中日韩汉字，并包含了BIG5编码中的所有汉字。GBK编码方案于1995年10月制定， 1995年12月正式发布。 GBK是采用单双字节变长编码，英文使用单字节编码，完全兼容ASCII字符编码，中文部分采用双字节编码。

gb18030编码是在gbk编码基础上的扩充，因为汉字更多，仅仅使用两位编码已经不能容纳要求的汉字，所以采用了2\4位混和的办法，可以支持更多的汉字,支持中国国内少数民族的文字。并且保留了原有的gbk 2字节编码兼容GB2312和gbk编码的文件。大概容纳55657个编码(包含特殊字符)。

UNICODE字符集

Unicode（统一码、万国码、单一码）是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发，1994年正式公布。 Unicode 编码系统，可分为编码方式和实现方式两个层次。

Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。目前的Unicode字符分为17组编排，0x0000 至 0x1FFFF，每组称为平面（Plane），而每平面拥有65536个码位，共1114112个。然而目前只用了少数平面。

UTF-8、UTF-16、UTF-32都是将数字转换到程序数据的编码方案。

UTF是“Unicode Transformation Format”的缩写，可以翻译成Unicode字符集转换格式，即怎样将Unicode定义的数字转换成程序数据。通用字符集（Universal Character Set，UCS）是由ISO制定的ISO 10646（或称ISO/IEC 10646）标准所定义的标准字符集。

UTF-8编码

unicode在很长一段时间内无法推广，直到互联网的出现，为解决unicode如何在网络上传输的问题，于是面向传输的众多 UTF（UCS Transfer Format）标准出现了，顾名思义，UTF-8就是每次8个位传输数据，而UTF-16就是每次16个位。UTF-8就是在互联网上使用最广的一种unicode的实现方式，这是为传输而设计的编码，并使编码无国界，这样就可以显示全世界上所有文化的字符了。

UTF-8最大的一个特点，就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度，当字符在ASCII 码的范围时，就用一个字节表示，保留了ASCII字符一个字节的编码做为它的一部分，注意的是unicode一个中文字符占2个字节，而UTF-8一个中文字符占3个字节）。从unicode到uft-8并不是直接的对应，而是要过一些算法和规则来转换。

UTF-8的特点是对不同范围的字符使用不同长度的编码。对于0x00-0x7F之间的字符，UTF-8编码与ASCII编码完全相同。UTF-8编码的最大长度是6个字节。从上表可以看出，6字节模板有31个x，即可以容纳31位二进制数字。Unicode的最大码位0x7FFFFFFF也只有31位。

以下是Unicode和UTF-8之间的转换关系表:

U-00000000 - U-0000007F:   0xxxxxxx
U-00000080 - U-000007FF:   110xxxxx   10xxxxxx
U-00000800 - U-0000FFFF:   1110xxxx   10xxxxxx   10xxxxxx
U-00010000 - U-001FFFFF:   11110xxx   10xxxxxx   10xxxxxx   10xxxxxx
U-00200000 - U-03FFFFFF:   111110xx   10xxxxxx   10xxxxxx   10xxxxxx   10xxxxxx
U-04000000 - U-7FFFFFFF:   1111110x   10xxxxxx   10xxxxxx   10xxxxxx   10xxxxxx   10xxxxxx

左边是十六进制表示，右边是二进制表示方式。

UTF-16

UTF-16编码以16位无符号整数为单位。

UTF-32

UTF-32 UTF-32编码以32位无符号整数为单位。Unicode的UTF-32编码就是其对应的32位无符号整数。

UTF8编码实验

......
char ch ;
while( ch = fgetc(fp) ) != EOF)
{
    printf("%d ",ch);
}
......

使用记事本将GBK编码的"888我爱你中国"另存为UTF-8编码的文件结果是如下

-17 -69 -65 56 56 56 -26 -120 -111 -25 -120 -79 -28 -67 -96 -28 -72 -83 -27 -101 -67

使用记事本默认存储的是ASCII码(GB*编码)，如果另存为UTF-8编码就会默认的存储BOM。

UTF8编码带BOM和不带BOM BOM——Byte Order Mark，就是字节序标记

所以如果文件带BOM的话首行的前三个字节的二进制的整数值就是 -17、-69、-65对应的十六进制表示就是EF BB BF

所以，建议在设计到文字编码的时候使用UE编辑器(很强大的哦)。