Unicode字符集的问题,太乱了,头晕了,请高人指点! ( 积分: 46 )

  • 主题发起人 主题发起人 ynduanlian
  • 开始时间 开始时间
Y

ynduanlian

Unregistered / Unconfirmed
GUEST, unregistred user!
Delphi的帮助中说:
Windows and Linux both support single-byte and multibyte character sets as well as Unicode. In the Unicode character set, each character is represented by two bytes.Thus a Unicode string is a sequence not of inividual bytes but of two-byte words.
------- 这么说Unicode是两个字节表示一个字符了,但是我在网上又查到:
UTF-8:Unicode编码的一种。Unicode用一些基本的保留字符制定了三套编码方式,它们分别UTF-8,UTF-16和UTF-32。在UTF-8中,字符是以8位序列来编码的,用一个或几个字节来表示一个字符。这种方式的最大好处,是UTF-8保留了ASCII字符的编码做为它的一部分。UTF-8俗称“万国码”,可以同屏显示多语种,一个汉字占用3字节。为了做到国际化,网页应尽可能采用UTF-8编码。

现在Unicode又变成了一个或3个字节!

怎么这么乱啊?
 
unicode是一个统称,下面又分几个子集,UTF-8也是unicode的一个子集。
 
不是统称和子集的关系吧,如果是统称和子集,那么子集应当完全服从父集的规则,或者说说是统称和子集关系不太恰当吧?
 
这么说吧,utf-8 是实现unicode的编码方式之一。unicode允许多种编码方式来实现。
具体可以看看这篇文章:
http://www.linuxforum.net/books/UTF-8-Unicode.html
 
接受答案了.
 
后退
顶部