GB2312、UTF-8、BIG5这些编码名词是指中文内码吗? ( 积分: 20 )

  • 主题发起人 主题发起人 ynduanlian
  • 开始时间 开始时间
Y

ynduanlian

Unregistered / Unconfirmed
GUEST, unregistred user!
那么我的一个TXT文件在简体中文Win2k中究竟存的是哪一种编码,当我把一个HTML网页分别设为以上几种编码时,在我的中文操作系统中又存的是什么编码?
 
这个问题我也不太明白。

不过你可以用 Notepad++ 输入同样的一些字,分别保存成 ANSI, UTF-8 ,你再用二进制看看有什么不一样
 
UTF 文件开头好像是 ef bb bf (固定?)
一个中文用三个字节
 
成天见这写,也没弄明白过!
 
http://www.51zhan.com 最好的网址站
http://www.51zhan.com 最好的网址站
http://www.51zhan.com 最好的网址站
 
是的!是字符的数字编码! 可以相互转换!
 
我操,这个世界没有天理了~~~~~ MD,老虎不发威,当我是病猫, 先骂人的倒有理了 我可是从来不主动得罪人的 谁要是欺负人,那就不客气了 明天把这个工具开个源,叫大家都来用用 请问你们有什么拿的出手的?自己写的东西? 说出来叫大爷我长长见识? 别不会是一群耍嘴皮子的废物吧? 需要的请关注我的 blog http://hi.baidu.com/earthsearch
 
Unicode的问题,我觉得好乱啊。


Delphi的帮助中说:
Windows and Linux both support single-byte and multibyte character sets as well as Unicode. In the Unicode character set, each character is represented by two bytes.Thus a Unicode string is a sequence not of inividual bytes but of two-byte words.
------- 这么说Unicode是两个字节表示一个字符了,但是我在网上又查到:
UTF-8:Unicode编码的一种。Unicode用一些基本的保留字符制定了三套编码方式,它们分别UTF-8,UTF-16和UTF-32。在UTF-8中,字符是以8位序列来编码的,用一个或几个字节来表示一个字符。这种方式的最大好处,是UTF-8保留了ASCII字符的编码做为它的一部分。UTF-8俗称“万国码”,可以同屏显示多语种,一个汉字占用3字节。为了做到国际化,网页应尽可能采用UTF-8编码。
现在Unicode又变成了一个或3个字节!
怎么这么乱啊?


难道说Unicode和UTF-8不是父类和子类的关系?!
 
后退
顶部