一、字符集
1)字符與字節(jié)(Character)
字符是各種文字和符號的總稱,包括亂碼;一個字符對應(yīng)1~n個字節(jié),一字節(jié)對應(yīng)8位,每位用0或1表示。
2)字符集(Character Set)
字符集是多個字符的集合,每個字符集包含的字符個數(shù)不同,常見字符集名稱:ASCII字符集、GB2312字符集、Unicode字符集等。
3)字符集編碼(Character Encoding)
字符集編碼就是將符號轉(zhuǎn)換為計算機(jī)可讀的二進(jìn)制,解碼就是把二進(jìn)制轉(zhuǎn)換為人類可讀的符號。
字符集大多對應(yīng)一種編碼方式(例如GBK對應(yīng)GBK編碼),但Unicode編碼有多種,包括UTF-8、UTF-16、UTF-32和UTF-7。
目前網(wǎng)頁用的最多的就是“UTF-8”,UTF-8使用一至四個字節(jié)為每個字符編碼,是ASCII的一個超集,所以現(xiàn)存的ASCII文本不需要轉(zhuǎn)換