为什么Java使用 修改了UTF-8 而不是标准的UTF-8用于对象序列化和JNI?
一种可能的解释是修改后的UTF-8不能嵌入空字符,因此可以使用以空终止字符串操作的函数。还有其他原因吗?
为什么Java使用 修改了UTF-8 而不是标准的UTF-8用于对象序列化和JNI?
一种可能的解释是修改后的UTF-8不能嵌入空字符,因此可以使用以空终止字符串操作的函数。还有其他原因吗?
处理增补字符(通过不处理它们)更快更简单。
Java代表 人物 为16位 char
s,但是unicode已经发展为包含超过64K个字符。因此,一些字符,即补充字符,必须以2编码 char
在Java中的s(代理对)。
严格的UTF-8要求编码器将代理对转换为字符,然后将字符编码为字节。解码器需要将补充字符拆分回代理对。
chars -> character -> bytes -> character -> chars
由于两端都是Java,我们可以采取一些快捷方式并直接编码 char
水平
char -> bytes -> char
编码器和解码器都不需要担心代理对。
我怀疑这是主要原因。在C盘中,不得不处理字符串可能包含嵌入式NUL会使事情复杂化。
有一个很好的描述修改UTF-8 in Unicode解释 - 页面306,但它没有解释 为什么 修改后的UTF-8已经确定。
Java自己的文档中还有一个非常详细的解释,说明如何最初将非BMP Unicode字符添加到Java: Java平台中的补充字符。但同样,没有解释 为什么 修改后的UTF-8已经确定。
我不认为你会找到一个 为什么 除非你直接询问Java的架构师。