一、字符集
1)字符與字節(jié)(Character)
字符是各種文字和符號(hào)的總稱(chēng),包括亂碼;一個(gè)字符對(duì)應(yīng)1~n個(gè)字節(jié),一字節(jié)對(duì)應(yīng)8位,每位用0或1表示。
2)字符集(Character Set)
字符集是多個(gè)字符的集合,每個(gè)字符集包含的字符個(gè)數(shù)不同,常見(jiàn)字符集名稱(chēng):ASCII字符集、GB2312字符集、Unicode字符集等。
3)字符集編碼(Character Encoding)
字符集編碼就是將符號(hào)轉(zhuǎn)換為計(jì)算機(jī)可讀的二進(jìn)制,解碼就是把二進(jìn)制轉(zhuǎn)換為人類(lèi)可讀的符號(hào)。
字符集大多對(duì)應(yīng)一種編碼方式(例如GBK對(duì)應(yīng)GBK編碼),但Unicode編碼有多種,包括UTF-8、UTF-16、UTF-32和UTF-7。
目前網(wǎng)頁(yè)用的最多的就是“UTF-8”,UTF-8使用一至四個(gè)字節(jié)為每個(gè)字符編碼,是ASCII的一個(gè)超集,所以現(xiàn)存的ASCII文本不需要轉(zhuǎn)換