这些Java教程是针对JDK 8编写的。本页面中描述的示例和实践不利用后续版本中引入的改进,并可能使用已不再可用的技术。
有关Java SE 9及后续版本中更新的语言功能的摘要,请参阅Java语言变化。
有关所有JDK版本的新功能、增强功能以及已删除或不推荐使用的选项的信息,请参阅JDK发行说明。
字符是具有语义值的最小文本单位。
字符集是多个语言可能使用的字符集合。例如,拉丁字符集被英语和大多数欧洲语言使用,而希腊字符集仅被希腊语使用。
编码字符集是每个字符都被分配了唯一编号的字符集。
代码点是可以在编码字符集中使用的值。代码点是一个32位的int
数据类型,其中低21位表示有效的代码点值,而高11位为0。
Unicode 代码单元是一个16位的char
值。例如,想象一个包含字母"abc"和Deseret长I的String
,后者用两个char
值表示。该字符串包含四个字符,四个代码点,但是五个代码单元。
要在Unicode中表示一个字符,十六进制值前缀为U+。Unicode标准的有效代码点范围是U+0000到U+10FFFF,包括边界。拉丁字符A的代码点值为U+0041。代表欧元货币的字符€,其代码点值为U+20AC。Deseret字母表中的第一个字母长I的代码点值为U+10400。
下表显示了几个字符的代码点值:
字符 | Unicode代码点 | 字形 |
---|---|---|
拉丁A | U+0041 |
|
拉丁sharp S | U+00DF |
|
汉字东 | U+6771 |
|
Deseret长I | U+10400 |
|
如前所述,位于U+10000到U+10FFFF范围内的字符被称为补充字符。从U+0000到U+FFFF的字符集有时被称为基本多语言平面(BMP)。
更多术语可以在更多信息页面上列出的Unicode术语词汇表中找到。