路径：国际化
课程：文本处理
章节：Unicode

术语

字符是具有语义值的最小文本单位。

字符集是多个语言可能使用的字符集合。例如，拉丁字符集被英语和大多数欧洲语言使用，而希腊字符集仅被希腊语使用。

编码字符集是每个字符都被分配了唯一编号的字符集。

代码点是可以在编码字符集中使用的值。代码点是一个32位的int数据类型，其中低21位表示有效的代码点值，而高11位为0。

Unicode 代码单元是一个16位的char值。例如，想象一个包含字母"abc"和Deseret长I的String，后者用两个char值表示。该字符串包含四个字符，四个代码点，但是五个代码单元。

要在Unicode中表示一个字符，十六进制值前缀为U+。Unicode标准的有效代码点范围是U+0000到U+10FFFF，包括边界。拉丁字符A的代码点值为U+0041。代表欧元货币的字符€，其代码点值为U+20AC。Deseret字母表中的第一个字母长I的代码点值为U+10400。

下表显示了几个字符的代码点值：

如前所述，位于U+10000到U+10FFFF范围内的字符被称为补充字符。从U+0000到U+FFFF的字符集有时被称为基本多语言平面（BMP）。

更多术语可以在更多信息页面上列出的Unicode术语词汇表中找到。