文档

Java™ 教程
隐藏目录
术语
路径:国际化
课程:文本处理
章节:Unicode

术语

字符是具有语义值的最小文本单位。

字符集是多个语言可能使用的字符集合。例如,拉丁字符集被英语和大多数欧洲语言使用,而希腊字符集仅被希腊语使用。

编码字符集是每个字符都被分配了唯一编号的字符集。

代码点是可以在编码字符集中使用的值。代码点是一个32位的int数据类型,其中低21位表示有效的代码点值,而高11位为0。

Unicode 代码单元是一个16位的char值。例如,想象一个包含字母"abc"和Deseret长I的String,后者用两个char值表示。该字符串包含四个字符,四个代码点,但是五个代码单元。

要在Unicode中表示一个字符,十六进制值前缀为U+。Unicode标准的有效代码点范围是U+0000到U+10FFFF,包括边界。拉丁字符A的代码点值为U+0041。代表欧元货币的字符€,其代码点值为U+20AC。Deseret字母表中的第一个字母长I的代码点值为U+10400。

下表显示了几个字符的代码点值:

字符 Unicode代码点 字形
拉丁A U+0041
拉丁字符A
拉丁sharp S U+00DF
拉丁小写字母sharp S
汉字东 U+6771
汉字东、东方或东向
Deseret长I U+10400
Deseret大写字母长I

如前所述,位于U+10000到U+10FFFF范围内的字符被称为补充字符。从U+0000到U+FFFF的字符集有时被称为基本多语言平面(BMP)

更多术语可以在更多信息页面上列出的Unicode术语词汇表中找到。


上一页: Unicode
下一页: 代理字符作为补充字符