java中判断字段真实长度(中文2个字符,英文1个字符)的方法
1 | public class StringLength { |
为什么用GBK字符集?
其实不止是gbk编码,GB2312、GB18030也是可以的,主要利用了,字符集用2个字节表示中文,1个字节表示英文、数字。
当然这不是万能的,不在字符集中的字符会不准确,例如:”嗀、兀、鎴、戝、枩、綘”,GB2312用1个字节表示
英文字母和中文汉字在不同字符集编码下的字节数
1 | import java.io.UnsupportedEncodingException; |
结果:1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19英文字母:A
字节数 : 1;编码:GB2312
字节数 : 1;编码:GBK
字节数 : 1;编码:GB18030
字节数 : 1;编码:ISO-8859-1
字节数 : 1;编码:UTF-8
字节数 : 4;编码:UTF-16
字节数 : 2;编码:UTF-16BE
字节数 : 2;编码:UTF-16LE
中文汉字:人
字节数 : 2;编码:GB2312
字节数 : 2;编码:GBK
字节数 : 2;编码:GB18030
字节数 : 1;编码:ISO-8859-1
字节数 : 3;编码:UTF-8
字节数 : 4;编码:UTF-16
字节数 : 2;编码:UTF-16BE
字节数 : 2;编码:UTF-16LE