谁有我的我老婆是学生会长长一二两季百度云资源不要压缩包

中国领先的IT技术网站
51CTO旗下网站
十分钟搞清字符集和字符编码
在介绍字符集之前,我们先了解下为什么要有字符集。我们在计算机屏幕上看到的是实体化的文字,而在计算机存储介质中存放的实际是二进制的比特流。那 么在这两者之间的转换规则就需要一个统一的标准,否则把我们的U盘插到老板的电脑上,文档就乱码了;小伙伴QQ上传过来的文件,在我们本地打开又乱码了。
作者:来源:| 11:00
什么是字符集
在介绍字符集之前,我们先了解下为什么要有字符集。我们在计算机屏幕上看到的是实体化的文字,而在计算机存储介质中存放的实际是二进制的比特流。那 么在这两者之间的转换规则就需要一个统一的标准,否则把我们的U盘插到老板的电脑上,文档就乱码了;小伙伴QQ上传过来的文件,在我们本地打开又乱码了。 于是为了实现转换标准,各种字符集标准就出现了。简单的说字符集就规定了某个文字对应的二进制数字存放方式(编码)和某串二进制数值代表了哪个文字(解 码)的转换关系。
那么为什么会有那么多字符集标准呢?这个问题实际非常容易回答。问问自己为什么我们的插头拿到英国就不能用了呢?为什么显示器同时有 DVI,VGA,HDMI,DP这么多接口呢?很多规范和标准在最初制定时并不会意识到这将会是以后全球普适的准则,或者处于组织本身利益就想从本质上区 别于现有标准。于是,就产生了那么多具有相同效果但又不相互兼容的标准了。
说了那么多我们来看一个实际例子,下面就是耪飧鲎衷诟髦直嗦胂碌氖坪投票嗦虢峁趺囱忻挥幸恢趾诺母芯酰
16进制编码
对应的二进制数据
什么是字符编码
字符集只是一个规则集合的名字,对应到真实生活中,字符集就是对某种语言的称呼。例如:英语,汉语,日语。对于一个字符集来说要正确编码转码一个字 符需要三个关键元素:字库表(character repertoire)、编码字符集(coded character
set)、字符编码(character encoding
form)。其中字库表是一个相当于所有可读或者可显示字符的数据库,字库表决定了整个字符集能够展现表示的所有字符的范围。编码字符集,即用一个编码值 code point来表示一个字符在字库中的位置。字符编码,将编码字符集和实际存储数值之间的转换关系。一般来说都会直接将code
point的值作为编码后的值直接存储。例如在ASCII中A在表中排第65位,而编码后A的数值是也即十进制的65的二进制转换结果。
看到这里,可能很多读者都会有和我当初一样的疑问:字库表和编码字符集看来是必不可少的,那既然字库表中的每一个字符都有一个自己的序号,直接把序号作为存储内容就好了。为什么还要多此一举通过字符编码把序号转换成另外一种存储格式呢?
其实原因也比较容易理解:统一字库表的目的是为了能够涵盖世界上所有的字符,但实际使用过程中会发现真正用的上的字符相对整个字库表来说比例非常 低。例如中文地区的程序几乎不会需要日语字符,而一些英语国家甚至简单的ASCII字库表就能满足基本需求。而如果把每个字符都用字库表中的序号来存储的 话,每个字符就需要3个字节(这里以Unicode字库为例),这样对于原本用仅占一个字符的ASCII编码的英语地区国家显然是一个额外成本(存储体积 是原来的三倍)。算的直接一些,同样一块硬盘,用ASCII可以存1500篇文章,而用3字节Unicode序号存储只能存500篇。于是就出现了 UTF-8这样的变长编码。在UTF-8编码中原本只需要一个字节的ASCII字符,仍然只占一个字节。而像中文及日语这样的复杂字符就需要2个到3个字 节来存储。
UTF-8和Unicode的关系
看完上面两个概念解释,那么解释UTF-8和Unicode的关系就比较简单了。Unicode就是上文中提到的编码字符集,而UTF-8就是字符 编码,即Unicode规则字库的一种实现形式。随着互联网的发展,对同一字库集的要求越来越迫切,Unicode标准也就自然而然的出现。它几乎涵盖了 各个国家语言可能出现的符号和文字,并将为他们编号。详见:。
Unicode的编号从0000开始一直到10FFFF共分为16个Plane,每个Plane中有65536个字符。而UTF-8则只实现了第一 个Plane,可见UTF-8虽然是一个当今接受度最广的字符集编码,但是它并没有涵盖整个Unicode的字库,这也造成了它在某些场景下对于特殊字符 的处理困难(下文会有提到)。
UTF-8编码简介
为了更好的理解后面的实际应用,我们这里简单的介绍下UTF-8的编码实现方法。即UTF-8的物理存储和Unicode序号的转换关系。
UTF-8编码为变长编码。最小编码单位(code unit)为一个字节。一个字节的前1-3个bit为描述性部分,后面为实际序号部分。
如果一个字节的第一位为0,那么代表当前字符为单字节字符,占用一个字节的空间。0之后的所有部分(7个bit)代表在Unicode中的序号。
如果一个字节以110开头,那么代表当前字符为双字节字符,占用2个字节的空间。110之后的所有部分(7个bit)代表在Unicode中的序号。且第二个字节以10开头
如果一个字节以1110开头,那么代表当前字符为三字节字符,占用2个字节的空间。110之后的所有部分(7个bit)代表在Unicode中的序号。且第二、第三个字节以10开头
如果一个字节以10开头,那么代表当前字节为多字节字符的第二个字节。10之后的所有部分(6个bit)代表在Unicode中的序号。
具体每个字节的特征可见下表,其中x代表序号部分,把各个字节中的所有x部分拼接在一起就组成了在Unicode字库中的序号
我们分别看三个从一个字节到三个字节的UTF-8编码例子:
在Unicode字库序号的十六进制
在Unicode字库序号的二进制
UTF-8编码后的二进制
UTF-8编码后的十六进制
细心的读者不难从以上的简单介绍中得出以下规律:
3个字节的UTF-8十六进制编码一定是以E开头的
2个字节的UTF-8十六进制编码一定是以C或D开头的
1个字节的UTF-8十六进制编码一定是以比8小的数字开头的
为什么会出现乱码
先科普下乱码的英文native说法是mojibake。
简单的说乱码的出现是因为:编码和解码时用了不同或者不兼容的字符集。对应到真实生活中,就好比是一个英国人为了表示祝福在纸上写了bless(编 码过程)。而一个法国人拿到了这张纸,由于在法语中bless表示受伤的意思,所以认为他想表达的是受伤(解码过程)。这个就是一个现实生活中的乱码情 况。在计算机科学中一样,一个用UTF-8编码后的字符,用GBK去解码。由于两个字符集的字库表不一样,同一个汉字在两个字符表的位置也不同,最终就会 出现乱码。
我们来看一个例子:假设我们用UTF-8编码存储很帕礁鲎郑嵊腥缦伦唬
UTF-8编码后的十六进制
于是我们得到了E5BE88E5B18C这么一串数值。而显示时我们用GBK解码进行展示,通过查表我们获得以下信息:
两个字节的十六进制数值
GBK解码后对应的字符
解码后我们就得到了寰灞这么一个错误的结果,更要命的是连字符个数都变了。
如何识别乱码的本来想要表达的文字
要从乱码字符中反解出原来的正确文字需要对各个字符集编码规则有较为深刻的掌握。但是原理很简单,这里用最常见的UTF-8被错误用GBK展示时的乱码为例,来说明具体反解和识别过程。
第1步 编码
假设我们在页面上看到寰灞这样的乱码,而又得知我们的浏览器当前使用GBK编码。那么第一步我们就能先通过GBK把乱码编码成二进制表达式。当然查表编码效率很低,我们也可以用以下SQL语句直接通过MySQL客户端做编码工作:
mysql&[localhost]&{msandbox}&&&select&hex(convert('寰灞'&using&gbk));&+&|&hex(convert('寰灞'&using&gbk))&|&+&|&E5BE88E5B18C&|&+&1&row&in&set&(0.01&sec)&
第2步 识别
现在我们得到了解码后的二进制字符串E5BE88E5B18C。然后我们将它按字节拆开。
Byte 1Byte 2Byte 3Byte 4Byte 5Byte 6
E5 BE 88 E5 B1 8C
然后套用之前UTF-8编码介绍章节中总结出的规律,就不难发现这6个字节的数据符合UTF-8编码规则。如果整个数据流都符合这个规则的话,我们就能大胆假设乱码之前的编码字符集是UTF-8
第3步 解码
然后我们就能拿着E5BE88E5B18C用UTF-8解码,查看乱码前的文字了。当然我们可以不查表直接通过SQL获得结果:
mysql&[localhost]&{msandbox}&((none))&&&select&convert(0xE5BE88E5B18C&using&utf8);&+&|&convert(0xE5BE88E5B18C&using&utf8)&|&+&|&很&|&+&1&row&in&set&(0.00&sec)&
常见问题处理之Emoji
所谓Emoji就是一种在Unicode位于\u1F601-\u1F64F区段的字符。这个显然超过了目前常用的UTF-8字符集的编码范围\u0000-\uFFFF。Emoji表情随着IOS的普及和微信的支持越来越常见。下面就是几个常见的Emoji:
那么Emoji字符表情会对我们平时的开发运维带来什么影响呢?最常见的问题就在于将他存入MySQL数据库的时候。一般来说MySQL数据库的默认字符集都会配置成UTF-8(三字节),而utf8mb4在5.5以后才被支持,也很少会有DBA主动将系统默认字符集改成utf8mb4。那么问题就来了,当我们把一个需要4字节UTF-8编码才能表示的字符存入数据库的时候就会报错:ERROR 1366: Incorrect string value: '\xF0\x9D\x8C\x86' for column 。
如果认真阅读了上面的解释,那么这个报错也就不难看懂了。我们试图将一串Bytes插入到一列中,而这串Bytes的第一个字节是\xF0意味着这是一个四字节的UTF-8编码。但是当MySQL表和列字符集配置为UTF-8的时候是无法存储这样的字符的,所以报了错。
那么遇到这种情况我们如何解决呢?有两种方式:升级MySQL到5.6或更高版本,并且将表字符集切换至utf8mb4。第二种方法就是在把内容存入到数据库之前做一次过滤,将Emoji字符替换成一段特殊的文字编码,然后再存入数据库中。之后从数据库获取或者前端展示时再将这段特殊文字编码转换成Emoji显示。第二种方法我们假设用-*-1F601-*-来替代4字节的Emoji,那么具体实现python代码可以参见Stackoverflow上的回答。【责任编辑: TEL:(010)】
大家都在看猜你喜欢
头条头条外电头条外电
24H热文一周话题本月最赞
讲师:0人学习过
讲师:5人学习过
讲师:0人学习过
精选博文论坛热帖下载排行
本书描述了Solaris 10和OpenSolaris内核中所有主要子系统的算法和数据结构,对第1版进行了大幅修订,加入了很多新的内容。全书从头到尾都采...
订阅51CTO邮刊乱码形成原因及消除方法大全 八_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
乱码形成原因及消除方法大全 八
上传于||文档简介
&&乱​码​形​成​原​因​及​消​除​方​法​大​全​ ​八​.​d​o​c​x
阅读已结束,如果下载本文需要使用2下载券
想免费下载本文?
定制HR最喜欢的简历
下载文档到电脑,查找使用更方便
还剩28页未读,继续阅读
定制HR最喜欢的简历
你可能喜欢温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!&&|&&
LOFTER精选
网易考拉推荐
用微信&&“扫一扫”
将文章分享到朋友圈。
用易信&&“扫一扫”
将文章分享到朋友圈。
&&&&&& p lic static void main(String[] args) throws Exception{
&&&&&&&&&&&&& String str = "aabcdef';
&&&&&&&&&&&&& String str = "ABC";
&&&&&&&&&&&&& int num = trimGBK(str.getBytes("GBK"),5);
&&&&&&&&&&&&& System.out.println(str.s string(0,num) );
&&&p lic static int& trimGBK(byte[] b,int n){
&&&&&&&&&&&&& int num = 0;
&&&&&&&&&&&&& boolean bChineseFirstHalf =
&&&&&&&&&&&&& for(int i=0;i&n;i++)
&&&&&&&&&&&&& {
&&&&&&&&&&&&&&&&&&&& if(b[i]&0 && !bChineseFirstHalf){
&&&&&&&&&&&&&&&&&&&&&&&&&&& bChineseFirstHalf = tr;
&&&&&&&&&&&&&&&&&&&& }else{
&&&&&&&&&&&&&&&&&&&&&&&&&&& num++;
&&&&&&&&&&&&&&&&&&&&&&&&&&& bChineseFirstHalf =&&&&&&&&&&&&&&&&&&&&&&&&&&
&&&&&&&&&&&&&&&&&&&& }
&&&&&&&&&&&&& }
&&&&&&&&&&&&&
}自己写的珍藏代码:&/**&&&&&&*&用getBytes(encoding):返回字符串的一个byte数组&&&&&&*&当b[0]为&63时,应该是转码错误&&&&&&*&A、不乱码的汉字字符串:&&&&&&*&1、encoding用GB2312时,每byte是负数;&&&&&&*&2、encoding用ISO8859_1时,b[i]全是63。&&&&&&*&B、乱码的汉字字符串:&&&&&&*&1、encoding用ISO8859_1时,每byte也是负数;&&&&&&*&2、encoding用GB2312时,b[i]大部分是63。&&&&&&*&C、英文字符串&&&&&&*&1、encoding用ISO8859_1和GB2312时,每byte都大于0;&&&&&&*&&p/&&&&&&&*&总结:给定一个字符串,用getBytes("
iso_nbsp>&&&&&*&1、如果b[i]有63,不用转码;&A-2&&&&&&*&2、如果b[i]全大于0,那么为英文字符串,不用转码;&B-1&&&&&&*&3、如果b[i]有小于0的,那么已经乱码,要转码。&C-1&&&&&&*/& String string = "啊"; &&
& & & &byte by[] = string.getBytes(); &
& & & &for(int i=0;i&by.i++)
System.out.println(by[i]);
& & & &try {
by = string.getBytes("utf8");
} catch (UnsupportedEncodingException e) {
e.printStackTrace();
&for(int i=0;i&by.i++)
&System.out.println(by[i]);
by = string.getBytes("gb2312");
} catch (UnsupportedEncodingException e) {
// TODO Auto-generated catch block
e.printStackTrace();
& & & &for(int i=0;i&by.i++)
System.out.println(by[i]);
& & & &try {
by = string.getBytes("iso-8859-1");
} catch (UnsupportedEncodingException e) {
// TODO Auto-generated catch block
e.printStackTrace();
& & & &for(int i=0;i&by.i++)
System.out.println(by[i]);输出结果:-80-95*-27-107-118*-80-95*63转了一篇挺好的文章:关于Java编码问题Java的编码问题挺烦的,以前总弄不清除,现在理了一下算是清晰一点。做个总结吧~编码问题的由来这个问题网上资料很多的,这里不多说了,推荐几篇吧。,,。说的还是比较清楚了。下面主要用程序说说。String是什么?以前一直不清楚Java编码转来转去转的是啥。原来是因为不知道String是啥。在Java里,一个String就是一串Unicode编码的字符串。也就是说,Java在整个处理过程中,字符都是以Unicode编码的。具体使用的是UTF-16也就是双字节的Unicode编码。这就解释了Java中为啥有个16bit的char类型。String就是由一个个char组成的。一个char中存的就是一个对应字符的Unicode编码。所以,Unicode在Java中成为一种“中间码”,因为他覆盖了基本上所有的字符。而其他编码的转换都可以通过他来完成。PS:话说回来,用双字节的话还是无法覆盖整个字符集的(因为有UTF-32),所以以前曾怀疑过char是否真是用来放Unicode字符的,只有16的话以后扩展怎么办?现在确定了,扩展问题目前不用考虑。。。转什么?怎么转?这里再说一个东西——byte。为啥说它?因为所有的转来转去都是在转它。为啥转它?因为他是字符编码的最小单位。一个byte 是8bit,所有编码方式都是由整数个byte组成的。所以,同一个String的不同编码方式可以理解为同一个字符的不同byte数组表示而已。所以,自然而然我们就可以看到这样的代码了:String S = “测试”s.getBytes(“utf8″);s.getBytes(“GB2312″);s.getBytes(“GBK”);通过这种方式就可以获得任何编码的byte数组。所以,在知道了一个byte[]数组,和它的编码方式的情况下,我们就能获得对应的String,所以有了下面的代码:byte[] b = *****;String s = new String(b, “utf8″);s = new String(b, “gb2312″);通过上面可以看出,从String可以获得任何编码的byte数组,但是从byte数组到String就要小心了,必须知道对应的编码方式才能进行。可以这么说,byte数组告诉了我们这个字符的内容,而编码方式告诉了我们如何去读这个byte数组才能获得我们需要的信息。什么时候转?一句话——有IO的时候。编码问题主要出现在文件读取,网络传输等,可以说只要有信息传递的地方都存在这个问题。而在Java中,所有信息的获取(发送)已经被抽象为“流”的概念,所以,这就解释了为什么Java的IO中又加入了Reader和Writer。就是为了能让上层直接面对你所需要的信息,即:字符(char);同时,提供统一的接口解决编码问题——想想看如果以上面String的形式来解决编码问题将会是一件多么可怕的事情~一个sample:p lic String dataReader(byte[] bytes, String charset) throws Exception {Reader reader = new InputStreamReader(new ByteArrayInputStream(bytes), charset);String result = “”while( (c = reader.read()) != -1) {result += (char)c;}reader.close();}p lic byte[] dateWriter(String val, String charset) throws Exception {ByteArrayOutputStream out = new ByteArrayOutputStream(1024);Writer writer = new OutputStreamWriter(out, charset);char[] chars = val.toCharArray();for (int i = 0; i & chars. i++) {char c = chars[i];writer.write(c);}writer.flush();writer.close();return out.toByteArray();}上面sample与前面的从String获取byte数组和从byte数组生成String功能是一样的。流的实现虽然复杂,但是因为流抽象,所以可以很容易的替换为其他数据来源(如文件,网络等),而不用更改相关的处理代码。为什么是“?”号编码转换出问题时,最常见的是一个“?”。原因是当出现Java不认识的编码时(即UTF-16不能编码),则对应为一个“\ffd”,对应“?”号。此时再转换为其他部分编码时,则为“3F”。神奇的“ISO-8859-1”其实并不神奇,只是有点特殊而已。此编码只针对单字节(一个byte)进行编码,所以编码具有还原性。即不论何种编码的byte数组,使用此编码编码后,再使用此编码解码,可以还原到原来的byte数组。这是其他编码方式所不具备的。package&com.suypower.chengyu.&&&&public&class&ByteTest&{&&&&&&&&/**&&&&&&*&byte&8&bits&-128&-&+&127&&&&&&*&1&bit&=&1&二进制数据&&&&&&*&1&byte&=&8&bit&&&&&&*&1&字母&=&1&byte&=&8&bit(位)&&&&&&*&1&汉字&=&2&byte&=&16&bit&&&&&&*/&&&&&&public&static&void&main(String[]&args)&{&&&&&&&&&&//&TODO&Auto-generated&method&stub&&&&&&&&&&byte&b1&=&127;&&&&&&&&&&byte&b2&=&-128;&&&&&&&&&&byte&b3&=&'a';&&&&&&&&&&byte&b4&=&'A';&//&一个字母&=&1&byte&=&8&bit&&//&&&&&&byte&b5&='aa';&&这就错了&&//&&&&&&byte&b6&='中';&这就错了&一个汉字&2个字节&16bit&&&&&&&&&&short&s1&=&'啊';&//&一个汉字&2个字节&16bit&short&是&16&bit位的&&//&&&&&&short&s2&=&'汉字';&&//&2个汉字&4个字节&32&bit&int&是32&bit的&&//&&&&&&int&i1&=&'汉字';&&但是&int&是数字类型的&,&char&是&16&bit的&=&2&byte&=&一个汉字&&&&&&&&&&char&c1&=&'汗';&&//&&&&&&byte&转换&string&&&&&&&&&&String&string&=&"中文";&&&&&&&&&&byte&by[]&=&string.getBytes();&&&&&&&&&&String&str&=&new&String(by);&&&&&&&&&&System.out.println("str="+str);&&&&&&}&&&&}&&==================================================================================&&&&[Java-原创]&bit、byte、位、字节、汉字、字符&&bit、byte、位、字节、汉字的关系&&&&&&&&&&&&&&1&bit&&&&&=&1&&二进制数据&&&&&&&&&&1&byte&&=&8&&bit&&&&&&&&&&1&字母&=&1&&byte&=&8&bit&&&&&&&&&&1&汉字&=&2&&byte&=&16&bit&&&&&&1.&bit:位&&&&&&一个二进制数据0或1,是1bit;&&&&2.&byte:字节&&&&&&存储空间的基本计量单位,如:MySQL中定义&VARCHAR(45)&&即是指&45个字节;&&&&&&1&byte&=&8&bit&&&&3.&一个英文字符占一个字节;&&&&&&1&字母&=&1&byte&=&8&bit&&&&4.&一个汉字占2个字节;&&&&&&1&汉字&=&2&byte&=&16&bit&&&&5.&标点符号&&&&&&A&.&&汉字输入状态下,默认为全角输入方式;&&&&&&B&.&&英文输入状态下,默认为半角输入方式;&&&&&&&&C&.&&全角输入方式下,标点符号占2字节;&&&&&&D&.&&半角输入方式下,标点符号占1字节;&&&&&&&&故:汉字输入状态下的字符,占2个字节&(但不排除,自己更改了默认设置);&&&&&&&&&&&&&&英文输入状态下的字符,占1个字节&(但不排除,自己更改了默认设置); &
阅读(9235)|
用微信&&“扫一扫”
将文章分享到朋友圈。
用易信&&“扫一扫”
将文章分享到朋友圈。
历史上的今天
loftPermalink:'',
id:'fks_',
blogTitle:'如何判断字符串中是否有中文',
blogAbstract:'我发现,凡事任何事情,都要留个心,否则的话,就是看完了,也会忘记,我以前看了个笔试题,当时就是涉及到中文字符串的问题,结果,我就直接把人家的答案和总结拿来看了,也没去思考,结果,现在又碰到了这种问题,但是,我却忘得一干二净。
{elseif x.moveFrom=='iphone'}
{elseif x.moveFrom=='android'}
{elseif x.moveFrom=='mobile'}
${a.selfIntro|escape}{if great260}${suplement}{/if}
{list a as x}
推荐过这篇日志的人:
{list a as x}
{if !!b&&b.length>0}
他们还推荐了:
{list b as y}
转载记录:
{list d as x}
{list a as x}
{list a as x}
{list a as x}
{list a as x}
{if x_index>4}{break}{/if}
${fn2(x.publishTime,'yyyy-MM-dd HH:mm:ss')}
{list a as x}
{if !!(blogDetail.preBlogPermalink)}
{if !!(blogDetail.nextBlogPermalink)}
{list a as x}
{if defined('newslist')&&newslist.length>0}
{list newslist as x}
{if x_index>7}{break}{/if}
{list a as x}
{var first_option =}
{list x.voteDetailList as voteToOption}
{if voteToOption==1}
{if first_option==false},{/if}&&“${b[voteToOption_index]}”&&
{if (x.role!="-1") },“我是${c[x.role]}”&&{/if}
&&&&&&&&${fn1(x.voteTime)}
{if x.userName==''}{/if}
网易公司版权所有&&
{list x.l as y}
{if defined('wl')}
{list wl as x}{/list}

我要回帖

更多关于 我老婆是学生会长第二 的文章

 

随机推荐