unicode編碼(Unicode編碼)

時間：2024-12-22 22:46:04 閱讀：1

Unicode編碼

以上我們先容了中文和西歐的字符與編碼，但天下上另有很多其他國度的字符，每個國度的種種盤算機廠商都對本人常用的字符舉行編碼，在編碼的時分基本忽略了其他國度的字符和編碼，乃至忽略了同一國度的其他盤算機廠商，如此形成的后果就是，顯現了太多的編碼，且互相不兼容。
天下上一切的字符能不克不及一致編碼呢？可以，這就是Unicode。

Unicode做了一件事，就是給天下上一切字符都分派了一個唯一的數字編號，這個編號范圍從0x000000～0x10FFFF，包含110多萬。但大局部常用字符都在0x0000～0xFFFF之間，即65536個數字之內。每個字符都有一個Unicode編號，這個編號尋常寫成十六進制，在前方加U+。大局部中文的編號范圍為U+4E00～U+9FFF，比如，“馬”的Unicode是U+9A6C。

簡便了解，Unicode主要做了這么一件事，就是給一切字符分派了唯一數字編號。它并沒有劃定這個編號怎樣對應到二進制表現，這是與外表先容的其他編碼不同的，其他編碼都既劃定了能表現哪些字符，又劃定了每個字符對應的二進制是什么，而Unicode本身只劃定了每個字符的數字編號是幾多。
那編號怎樣對應到二進制表現呢？有多種方案，主要有UTF-32、UTF-16和UTF-8。

1.UTF-32
這個最簡便，就是字符編號的整數二進制情勢，4個字節。
但有個細節，就是字節的分列排序，假如第一個字節是整數二進制中的最高位，最初一個字節是整數二進制中的最低位，那這種字節序就叫“大端”（Big Endian，BE），不然，就叫“小端”（Little Endian，LE）。對應的編碼辦法分散是UTF-32BE和UTF-32LE。
可以看出，每個字符都用4個字節表現，十分糜費空間，實踐接納的也比力少。

2.UTF-16
UTF-16使用變長字節表現：
1）關于編號在U+0000～U+FFFF的字符（常用字符集），直接用兩個字節表現。必要分析的是，U+D800～U+DBFF的編號但是是沒有界說的。

2）字符值在U+10000～U+10FFFF的字符（也叫做增補字符集），必要用4個字節表現。前兩個字節叫高署理項，范圍是U+D800～U+DBFF；后兩個字節叫低署理項，范圍是U+DC00～U+DFFF。數字編號和這個二進制表現之間有一個轉換算法，本書就不先容了。
區分是兩個字節照舊4個字節表現一個字符就看前兩個字節的編號范圍，假如是U+D800～U+DBFF，就是4個字節，不然就是兩個字節。
UTF-16也有和UTF-32一樣的字節序成績，假如高位存放在前方就叫大端（BE），編碼就叫UTF-16BE，不然就叫小端，編碼就叫UTF-16LE。
UTF-16常用于體系內里編碼，UTF-16比UTF-32節流了很多空間，但是任何一個字符都最少必要兩個字節表現，關于美國和西歐國度而言，照舊很糜費的。

3.UTF-8
UTF-8使用變長字節表現，每個字符使用的字節個數與其Unicode編號的輕重有關，編號小的使用的字節就少，編號大的使用的字節就多，使用的字節個數為1～4不等。
具體來說，各個Unicode編號范圍對應的二進制格式如表2-6所示。
表2-6　UTF-8編碼的編號范圍與對應的二進制格式

表2-6中的x表現可以用的二進制位，而每個字節開頭的1或0是安穩的。
小于128的，編碼與ASCII碼一樣，最高位為0。其他編號的第一個字節有特別涵義，最高位有幾個一連的1就表現用幾個字節表現，而其他字節都以10開頭。
關于一個Unicode編號，具體怎樣編碼呢？起首將其看作整數，轉化為二進制情勢（去掉高位的0），然后將二進制位從右向左依次填入對應的二進制格式x中，填完后，假如對應的二進制格式另有沒填的x，則設為0。

我們來看個例子，“馬”的Unicode編號是0x9A6C，整數編號是39532，其對應的UTF-8二進制格式是：
1110xxxx 10xxxxxx 10xxxxxx
整數編號39532的二進制格式是：
1001 101001 101100
將這個二進制位從右到左依次填入二進制格式中，后果就是其UTF-8編碼：
11101001 10101001 10101100
十六進制表現為0xE9A9AC。
和UTF-32/UTF-16不同，UTF-8是兼容ASCII的，對大局部中文而言，一此中筆墨符必要用三個字節表現。

4.Unicode編碼小結
Unicode給天下上一切字符都劃定了一個一致的編號，編號范圍到達110多萬，但大局部字符都在65536以內。Unicode本身沒有劃定怎樣把這個編號對應到二進制情勢。
UTF-32/UTF-16/UTF-8都在做一件事，就是把Unicode編號對應到二進制情勢，其對應辦法不同罷了。UTF-32使用4個字節，UTF-16大局部是兩個字節，少局部是4個字節，它們都不兼容ASCII編碼，都有字節排序的成績。UTF-8使用1～4個字節表現，兼容ASCII編碼，英筆墨符使用1個字節，中筆墨符大多用3個字節。

想要了解更多Java基本知識，可以點擊批評區鏈接和小編一同硯習java吧，此視頻教程為初學者而著，零基本入門篇！給同硯們帶來全新的Java300集課程啦!java零基本小白自學Java必備優質教程_手把手圖解學習Java，讓學習成為一種享用_嗶哩嗶哩_bilibili

原文鏈接：http://www.freetextsend.comhttp://www.freetextsend.com/qingganjiaoliu/56814.html

上一篇：cucci官方網站(GUCCI將在天貓開兩家官方旗艦店，疫情加速奢侈品品牌數字化)

下一篇：返回列表

欧美日韩国产一区二区三区不卡,欧洲一区二区三区精品,日韩一区不卡,成人国产二区

unicode編碼(Unicode編碼)

Unicode編碼