文档

Java™ 教程
隐藏目录
Unicode
路径: 国际化
课程: 处理文本

Unicode

Unicode是一个计算机行业标准,用于一致而独特地编码世界各地使用的书写语言中的字符。Unicode标准使用十六进制表示一个字符。例如,值0x0041表示拉丁字符A。Unicode标准最初使用16位编码字符,因为主要的计算机是16位PC。

在创建Java语言规范时,接受了Unicode标准,并将char原始类型定义为一个16位的数据类型,字符的十六进制范围从0x0000到0xFFFF。

由于16位编码只支持216(65,536)个字符,不足以定义全球使用的所有字符,Unicode标准被扩展到0x10FFFF,支持超过一百万个字符。Java编程语言中字符的定义不能从16位更改为32位,否则将导致数百万个Java应用程序无法正确运行。为了更正这个定义,开发了一种方案来处理无法用16位编码的字符。

值位于16位范围之外,从0x10000到0x10FFFF之间的字符被称为补充字符,并被定义为一对char值。

本课程包括以下章节:


上一页: 改进排序性能
下一页: 术语