简介

在计算机中字符通常并不是保存为图像，每个字符都是使用一个编码来表示的，而每个字符究竟使用哪个编码代表，要取决于使用哪个字符集(charset)。

多字节字符集

在最初的时候，Internet上只有一种字符集——ANSI的ASCII字符集，它使用7 bits来表示一个字符，总共表示128个字符，其中包括了英文字母、数字、标点符号等常用字符。之后，又进行扩展，使用8 bits表示一个字符，可以表示256个字符，主要在原来的7 bits字符集的基础上加入了一些特殊符号。后来，由于各国语言的加入，ASCII已经不能满足信息交流的需要，为了能够表示其它国家的文字，各国在 ASCII的基础上制定了自己的字符集，这些从ANSI标准派生的字符集被习惯的统称为ANSI字符集，它们正式的名称应该是MBCS(Multi-Byte Chactacter System，即多字节字符系统)。这些派生字符集的特点是以ASCII 127 bits为基础，兼容ASCII 127，他们使用大于128的编码作为一个Leading Byte，紧跟在Leading Byte后的第二（甚至第三）个字符与 Leading Byte一起作为实际的编码。这样的字符集有很多，我们常见的GB-2312就是其中之一。

Unicode字符集

Unicode的学名是”Universal Multiple-Octet Coded Character Set”，简称为UCS。UCS可以看作是”Unicode Character Set”的缩写。 UCS只是规定如何编码，并没有规定如何传输、保存这个编码。UTF是“UCS Transformation Format”的缩写。

Unicode字符集有多种编码形式，它固定使用16 bits（两个字节、一个字）来表示一个字符，共可以表示65536个字符。将世界上几乎所有语言的常用字符收录其中，方便了信息交流。标准的Unicode称为UTF-16。后来为了双字节的Unicode能够在现存的处理单字节的系统上正确传输，出现了UTF-8(注意UTF-8是编码，它属于Unicode字符集)，使用类似MBCS的方式对Unicode进行编码。UTF-8以字节为编码单元，没有字节序的问题。UTF-16以两个字节为编码单元。

UTF-16包括三种：UTF-16，UTF-16BE(Big Endian)，UTF-16LE(Little Endian)，UTF-16需要通过在文件开头以名为BOM(Byte Order Mark)的字符来表明文件是Big Endian还是Little Endian。 Unicode规范中推荐的标记字节顺序的方法是BOM(Byte Order Mark)。在UCS编码中有一个叫做”ZERO WIDTH NO-BREAK SPACE”的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符”ZERO WIDTH NO-BREAK SPACE”。这样如果接收者收到FEFF，就表明这个字节流是Big-Endian的；如果收到FFFE，就表明这个字节流是Little-Endian的。因此字符”ZERO WIDTH NO-BREAK SPACE”又被称作BOM。

UTF-8不需要BOM来表明字节顺序，但可以用BOM来表明编码方式。字符”ZERO WIDTH NO-BREAK SPACE”的UTF-8编码是EF BB BF ,所以如果接收者收到以EF BB BF开头的字节流，就知道这是UTF-8编码了。

Windows 采用 BOM 来标记文本文件的形式进行编码

　L是用来标志一个字符(串)为宽字符(串)，当你在VS2005以上版本的IDE工作时，可以选择工作于这两种不同的编码方式下，而在Unicode方式下，则要对字符(串)常量前添加L来告诉编译器它是宽字符。MS为我们定义了好几个相关的宏： _T（定义于tchar.h）、_TEXT（同样定义于tchar.h）。

TEXT():如果定义了Unicode，标识字符为Unicode;否则，为ANSI字符集。

为什么要使用 Unicode

引用《Windows核心编程》中的描述，开发应用程序的时候，强烈建议你使用Unicode字符和字符串，理由如下

Unicode使程序的本地化变得更容易；
使用Unicode，只需发布一个二进制（.exe或DLL）文件，即可支持所有语言；
Unicode代码执行速度更快，占用内存更少，提升了应用程序的效率。自从Windows2K开始，Win的系统内核开始完全支持并完全应用Unicode编写，所有ANSI字符在进入底层前，都会被相应的API转换成Unicode。所以，如果你一开始就使用Unicode，则可以减少转换的用时和RAM开销；
使用Unicode，你的应用程序能轻松调用所有不废弃（推荐）使用（nondeprecated）的Windows函数，因为一些Windows函数提供了只能处理Unicode字符和字符串的版本;
使用Unicode，你的代码很容易与COM集成（后者要求使用Unicode字符和字符串）；
使用Unicode，你的代码很容易与.NET Framework集成（后者要要求使用Unicode字符和字符串）；
使用Unicode，能保证你的代码能够轻松操纵你自己的资源（其中的字符串总是Unicode的）；
世界上大多数程序用的字符集都是Unicode，因为Unicode有利于程序国际化和标准化。

常见问题

强烈推荐，所有的字符编码都采用Unicode，而非为了暂时的方便采用了多字节字符集。

1. cannot convert parameter XX from ‘const char [1]’ to ‘LPCTSTR’

解决方法：parameter XX 将代码中原来用”……”的地方，改为用_T(“……”)

2. cannot convert from ‘char [11]’ to ‘LPCWS’

解决方法：数据类型改为CString，去掉[ ] , 原来用”……”的地方，改为用_T(“……”),例如:

char title[]= {"Open Image"};改为CString title= _T("Open Image");

3. cannot convert parameter 1 from ‘CString’ to ‘const char *’

解决方法：

src = cvLoadImage(filePath);

改为

src = cvLoadImage(CW2A((LPCTSTR)filePath));

wchar_t 与 char类型间的转换

#include<iostream>  
#include<Windows.h>
using namespace std;  
class CUser  
{  
public:  
    CUser();  
    virtual ~CUser();  
    char* WcharToChar(wchar_t* wc);//宽字节转单字节   
    wchar_t* CharToWchar(char* c); //单字节转宽字节   
    void Release();//释放资源   
private:  
    char* m_char;  
    wchar_t* m_wchar;  
};  
/////////////////////////////////////////////////////////////////////////////////////   
/*字符类型        wchar_t     char 
/*获取字符长度    wcslen()    strlen() 
/*连接两个字符串  wcscat()    strcpy() 
/*复制字符串      wcscpy()    strcpy() 
/*比较两个字符串  wcscmp()    strcmp() 
////////////////////////////////////////////////////////////////////////////////////   
CUser::CUser():m_char(NULL),m_wchar(NULL)  
{  
}  
CUser::~CUser()  
{  
    Release();  
}  

//宽字节转单字节   
char* CUser::WcharToChar(wchar_t* wc)  
{  
    Release();  
    int len= WideCharToMultiByte(CP_ACP,0,wc,wcslen(wc),NULL,0,NULL,NULL);  
    m_char=new char[len+1];  
    WideCharToMultiByte(CP_ACP,0,wc,wcslen(wc),m_char,len,NULL,NULL);  
    m_char[len]='\0';  
    return m_char;  
}  

//单字节转宽字节   
wchar_t* CUser::CharToWchar(char* c)  
{  
    Release();  
    int len = MultiByteToWideChar(CP_ACP,0,c,strlen(c),NULL,0);  
    m_wchar=new wchar_t[len+1];  
    MultiByteToWideChar(CP_ACP,0,c,strlen(c),m_wchar,len);  
    m_wchar[len]='\0';  
    return m_wchar;  
}  

//释放资源   
void CUser::Release()  
{  
    if(m_char)  
    {  
        delete m_char;  
        m_char=NULL;  
    }  
    if(m_wchar)  
    {  
        delete m_wchar;  
        m_wchar=NULL;  
    }  
} 

跨平台 Qt 用法

可以采用QString提供的多种方法，轻松的完成单字节转宽字节。例如：

QString test_str("This is a test!");
wchar_t* w_test_str = test_str.toWStdString().c_str();

庆庆的随笔

Unicode 与多字节字符集的区别与转换

简介