jsp乱码解决方案大全.doc_三一办公31ppt.com

资源描述

《jsp乱码解决方案大全.doc》由会员分享，可在线阅读，更多相关《jsp乱码解决方案大全.doc（30页珍藏版）》请在三一办公上搜索。

1、一、JSP页面显示乱码下面的显示页面(display.jsp)就出现乱码：JSP的中文处理对不同的WEB服务器和不同的JDK版本，处理结果就不一样。原因：服务器使用的编码方式不同和浏览器对不同的字符显示结果不同而导致的。解决办法：在JSP页面中指定编码方式(gb2312),即在页面的第一行加上：，就可以消除乱码了。完整页面如下：JSP的中文处理二、表单提交中文时出现乱码下面是一个提交页面(submit.jsp)，代码如下：JSP的中文处理下面是处理页面(process.jsp)代码：JSP的中文处理如果submit.jsp提交英文字符能正确显示，如果提交中文时就会出现乱码。原因：浏览器默认使用

2、UTF-8编码方式来发送请求，而UTF- 8和GB2312编码方式表示字符时不一样，这样就出现了不能识别字符。解决办法:通过request.seCharacterEncoding (gb2312)对请求进行统一编码，就实现了中文的正常显示。修改后的process.jsp代码如下：JSP的中文处理三、数据库连接出现乱码只要涉及中文的地方全部是乱码，解决办法：在数据库的数据库URL中加上useUnicode=true&characterEncoding=GBK 就OK了。四、数据库的显示乱码在mysql4.1.0中,varchar类型，text类型就会出现中文乱码，对于varchar类型把它设为b

3、inary属性就可以解决中文问题，对于text类型就要用一个编码转换类来处理，实现如下：public class Convert /* 把ISO-8859-1码转换成GB2312*/public static String ISOtoGB(String iso)String gb;tryif(iso.equals() | iso = null)return ;elseiso = iso.trim();gb = new String(iso.getBytes(ISO-8859-1),GB2312);return gb;catch(Exception e)System.err.print(编码转换

4、错误：+e.getMessage();return ;把它编译成class，就可以调用Convert类的静态方法ISOtoGB()来转换编码。如果你还有什么不懂之处：我给大家推荐一个好的JSP-JAVA网站：总结：1. 在jsp中如果指定了，那么在改jsp中所有构造的String（不是引用），如果沒有指定编码，那么这些String的编码是A的。从request的得到的String如果沒有指定request的编码的话，他是iso-8859-1的从别的地方得到的String是使用原來初始的编码的，比如从数据库得到String,如果数据库的编码是B,那么该String的编码是B而不是A的，也不是

5、系统默认的。此时，如果要输出的String的编码不是A,那么，很可能显示乱码的，所以首先要将String正確转化为编码A的String,然后输出。2. 在jsp中沒有指定，那么相当于指定了3 Servelte中如果执行了像 response.setContentType(text/html;charset=A);説明将response的字符输出流编码设置为A,所有要输出的String的编码要转化为A的，否則会得到乱码的。 Servelet中从request得到的String的编码和jsp中一样的，但是在servlet java文件中构造的String是使用的系统默认的编码的。在servelt

6、中从外部得到的String 是使用原来的编码的，比如从编码为B的数据库得到的数据是编码为B的,不是A,也不是系统默认的编码。 /转载：JSP中文乱码问题解决方法小结在使用JSP的过程中，最使人头疼的一个问题就是中文乱码问题，以下是我在软件开发中遇到的乱码问题以及解决方法。 1、JSP页面乱码这种乱码的原因是应为没有在页面里指定使用的字符集编码，解决方法：只要在页面开始地方用下面代码指定字符集编码即可， 2、数据库乱码这种乱码会使你插入数据库的中文变成乱码，或者读出显示时也是乱码，解决方法如下：在数据库连接字符串中加入编码字符集 String Url=jdbc:mysql:/localho

7、st/digitgulf?user=root&password=root&useUnicode=true&characterEncoding=GB2312; 并在页面中使用如下代码： response.setContentType(text/html;charset=gb2312); request.setCharacterEncoding(gb2312); 3、中文作为参数传递乱码当我们把一段中文字符作为参数传递个另一页面时，也会出现乱码情况，解决方法如下：在参数传递时对参数编码，比如 RearshRes.jsp?keywords= + .URLEncoder.encode(keywor

8、ds) 然后在接收参数页面使用如下语句接收 keywords=new String(request.getParameter(keywords).getBytes(8859_1); 4、JSP页面乱码加这句 /JSP/JDBC MySQL乱码问题作者：佚名来源：本站整理发布时间：2005-7-1 12:24:30綠起：JSP的request 默认为ISO8859_1，所以在处理中文的时候，要显示中文的话，必须转成GBK的，如下String str=new String(request.getParameter(name).getBytes(ISO8859-1),GBK); out.prin

9、tln(str); 这样就可以显示中文了MYSQL操作时的中文问题：这个要看MySQL的默认编码了，一般不调整的话为latin1其实和ISO8859_1一样，所以操作的时候要处理和他一致，不然就会乱码的1.插入中文：String sql2=INSERT INTO test (name) VALUES(+request.getParameter(name)+); stmt.executeUpdate(sql2);不用编码就可以插入了2.显示插入的中文：因为存入的是latin，所以显示的时候就要GBK一下String x=new String(rs.getString(title).getByte

10、s(ISO8859_1),GBK);out.println(x);3.设定存储编码：当然在MySQL为latin1编码时，也可以存的时候用GBK了Connection con=DriverManager.getConnection(jdbc:mysql:/localhost:3306/jsp?useUnicode=true&characterEncoding=GBK,root,); str1=中文; String sql2=INSERT INTO test (name) VALUES(+str1+);这样也可以很成功的插入了，呵呵/JSP/Servlet 中的汉字编码问题（作者：张建芳，转自I

11、BM DeveloperWorks 中国网站2001年04月18日 15:08）网上就 JSP/Servlet 中 DBCS 字符编码问题有许多优秀的文章和讨论，本文对它们作一些整理，并结合 IBM WebSphere Application Server 3.5（WAS）的解决方法作一些说明，希望它不是多余的。 1.问题的起源每个国家（或区域）都规定了计算机信息交换用的字符编码集，如美国的 ASCII，中国的 GB2312-80，日本的 JIS 等，作为该国家/区域内信息处理的基础，有着统一编码的重要作用。字符编码集按长度分为 SBCS（单字节字符集），DBCS（双字节字符集）两大类。早期

12、的软件（尤其是操作系统），为了解决本地字符信息的计算机处理，出现了各种本地化版本（L10N），为了区分，引进了 LANG，Codepage 等概念。但是由于各个本地字符集代码范围重叠，相互间信息交换困难；软件各个本地化版本独立维护成本较高。因此有必要将本地化工作中的共性抽取出来，作一致处理，将特别的本地化处理内容降低到最少。这也就是所谓的国际化（I18N）。各种语言信息被进一步规范为 Locale 信息。处理的底层字符集变成了几乎包含了所有字形的 Unicode。现在大部分具有国际化特征的软件核心字符处理都是以 Unicode 为基础的，在软件运行时根据当时的 Locale/Lang/Cod

13、epage 设置确定相应的本地字符编码设置，并依此处理本地字符。在处理过程中需要实现 Unicode 和本地字符集的相互转换，甚或以 Unicode 为中间的两个不同本地字符集的相互转换。这种方式在网络环境下被进一步延伸，任何网络两端的字符信息也需要根据字符集的设置转换成可接受的内容。 Java 语言内部是用 Unicode 表示字符的，遵守 Unicode V2.0。Java 程序无论是从/往文件系统以字符流读/写文件，还是往 URL 连接写 HTML 信息，或从 URL 连接读取参数值，都会有字符编码的转换。这样做虽然增加了编程的复杂度，容易引起混淆，但却是符合国际化的思想的。从理论上来

14、说，这些根据字符集设置而进行的字符转换不应该产生太多问题。而事实是由于应用程序的实际运行环境不同，Unicode 和各个本地字符集的补充、完善，以及系统或应用程序实现的不规范，转码时出现的问题时时困扰着程序员和用户。 2.GB2312-80，GBK，GB18030-2000 汉字字符集其实解决 JAVA 程序中的汉字编码问题的方法往往很简单，但理解其背后的原因，定位问题，还需要了解现有的汉字编码和编码转换。 GB2312-80 是在国内计算机汉字信息技术发展初始阶段制定的，其中包含了大部分常用的一、二级汉字，和 9 区的符号。该字符集是几乎所有的中文系统和国际化的软件都支持的中文字符集，这也

15、是最基本的中文字符集。其编码范围是高位0xa10xfe，低位也是 0xa1-0xfe；汉字从 0xb0a1 开始，结束于 0xf7fe； GBK 是 GB2312-80 的扩展，是向上兼容的。它包含了 20902 个汉字，其编码范围是 0x8140-0xfefe，剔除高位 0x80 的字位。其所有字符都可以一对一映射到 Unicode 2.0，也就是说 JAVA 实际上提供了 GBK 字符集的支持。这是现阶段 Windows 和其它一些中文操作系统的缺省字符集，但并不是所有的国际化软件都支持该字符集，感觉是他们并不完全知道 GBK 是怎么回事。值得注意的是它不是国家标准，而只是规范。随着 GB

16、18030-2000国标的发布，它将在不久的将来完成它的历史使命。 GB18030-2000(GBK2K) 在 GBK 的基础上进一步扩展了汉字，增加了藏、蒙等少数民族的字形。GBK2K 从根本上解决了字位不够，字形不足的问题。它有几个特点：它并没有确定所有的字形，只是规定了编码范围，留待以后扩充。编码是变长的，其二字节部分与 GBK 兼容；四字节部分是扩充的字形、字位，其编码范围是首字节 0x81-0xfe、二字节0x30-0x39、三字节 0x81-0xfe、四字节0x30-0x39。它的推广是分阶段的，首先要求实现的是能够完全映射到 Unicode 3.0 标准的所有字形。它是国

17、家标准，是强制性的。现在还没有任何一个操作系统或软件实现了 GBK2K 的支持，这是现阶段和将来汉化的工作内容。 3.JSP/Servlet 汉字编码问题及在 WAS 中的解决办法 3.1 常见的 encoding 问题的现象网上常出现的 JSP/Servlet encoding 问题一般都表现在 browser 或应用程序端，如: 浏览器中看到的 Jsp/Servlet 页面中的汉字怎么都成了 ? ? 浏览器中看到的 Servlet 页面中的汉字怎么都成了乱码？ JAVA 应用程序界面中的汉字怎么都成了方块？ Jsp/Servlet 页面无法显示 GBK 汉字。 Jsp/Servlet

18、不能接收 form 提交的汉字。 JSP/Servlet 数据库读写无法获得正确的内容。隐藏在这些问题后面的是各种错误的字符转换和处理（除第3个外，是因为 Java font 设置错误引起的）。解决类似的字符 encoding 问题，需要了解 Jsp/Servlet 的运行过程，检查可能出现问题的各个点。 3.2 JSP/Servlet web 编程时的 encoding 问题运行于Java 应用服务器的 JSP/Servlet 为 Browser 提供 HTML 内容，其过程如下图所示：其中有字符编码转换的地方有： a.JSP 编译。Java 应用服务器将根据 JVM 的 file.e

19、ncoding 值读取 JSP 源文件，并转换为内部字符编码进行 JSP 编译，生成 JAVA 源文件，根据 file.encoding 值写回文件系统。如果当前系统语言支持 GBK，那么这时候不会出现 encoding 问题。如果是英文的系统，如 LANG 是 en_US 的 Linux, AIX 或 Solaris，则要将 JVM 的 file.encoding 值置成 GBK 。系统语言如果是 GB2312，则根据需要，确定要不要设置 file.encoding，将 file.encoding 设为 GBK 可以解决潜在的 GBK 字符乱码问题。 b.Java 需要被编译为 .class

20、才能在 JVM 中执行，这个过程存在与a.同样的 file.encoding 问题。从这里开始 servlet 和 jsp 的运行就类似了，只不过 Servlet 的编译不是自动进行的。 c.Servlet 需要将 HTML 页面内容转换为 browser 可接受的 encoding 内容发送出去。依赖于各 JAVA App Server 的实现方式，有的将查询 Browser 的 accept-charset 和 accept-language 参数或以其它猜的方式确定 encoding 值，有的则不管。因此 constant-encoding 也许是最好的解决方法。对于中文网页，可在 J

21、SP 或 Servlet 中设置 contentType=text/html; charset=GB2312；如果页面中有GBK字符，则设置为contentType=text/html; charset=GBK，由于IE 和 Netscape对GBK的支持程度不一样，作这种设置时需要测试一下。因为16位 JAVA char在网络传送时高8位会被丢弃，也为了确保Servlet页面中的汉字（包括内嵌的和servlet运行过程中得到的）是期望的内码，可以用 PrintWriter ut=res.getWriter() 取代 ServletOutputStream ut=res.getOutputS

22、tream(), PrinterWriter 将根据contentType中指定的charset作转换(ContentType需在此之前指定！);也可以用OutputStreamWriter封装 ServletOutputStream 类并用write(String)输出汉字字符串。对于 JSP，JAVA Application Server 应当能够确保在这个阶段将嵌入的汉字正确传送出去。 d.这是 URL 字符 encoding 问题。如果通过 get/post 方式从 browser 返回的值中包含汉字信息， servlet 将无法得到正确的值。SUN的 J2SDK 中，HttpUti

23、ls.parseName 在解析参数时根本没有考虑 browser 的语言设置，而是将得到的值按 byte 方式解析。这是网上讨论得最多的 encoding 问题。因为这是设计缺陷，只能以 bin 方式重新解析得到的字符串；或者以 hack HttpUtils 类的方式解决。参考文章 2、3 均有介绍，不过最好将其中的中文 encoding GB2312、 CP1381 都改为 GBK，否则遇到 GBK 汉字时，还是会有问题。 Servlet API 2.3 提供一个新的函数 HttpServeletRequest.setCharacterEncoding 用于在调用 request.getP

24、arameter(“param_name”) 前指定应用程序希望的 encoding，这将有助于彻底解决这个问题。 WebSphere Application Server 对标准的 Servlet API 2.x 作了扩展，提供较好的多语言支持。上述c,d情况，WAS 都要查询 Browser 的语言设置，在缺省状况下zh、zh-cn 等均被映射为 JAVA encoding CP1381（注意：CP1381 只是等同于 GB2312 的一个 codepage，没有 GBK 支持）。这样做我想是因为无法确认 Browser 运行的操作系统是支持GB2312, 还是 GBK，所以取其小。但是实

25、际的应用系统还是要求页面中出现 GBK 汉字，最著名的是朱总理名字中的“?”(rong2 ，0xe946，u9555)，所以有时还是需要将 Encoding/Charset 指定为 GBK。当然 WAS 中变更缺省的 encoding 没有上面说的那么麻烦，针对 a,b，参考文章 5 ），在 Application Server 的命令行参数中指定 -Dfile.encoding=GBK 即可；针对 d，在 Application Server 的命令行参数中指定-Ddefault.client.encoding=GBK。如果指定了-Ddefault.client.encoding=GBK，

26、那么c情况下可以不再指定charset。 3.3 数据库读写时的 encoding 问题 JSP/Servlet 编程中经常出现 encoding 问题的另一个地方是读写数据库中的数据。流行的关系数据库系统都支持数据库 encoding，也就是说在创建数据库时可以指定它自己的字符集设置，数据库的数据以指定的编码形式存储。当应用程序访问数据时，在入口和出口处都会有 encoding 转换。对于中文数据，应当保证数据的完整性。GB2312，GBK，UTF-8 等都是可选的数据库 encoding；如果选择 ISO8859-1(8-bit SBCS)，那么应用程序在写数据之前须将 16Bit 的一

27、个汉字或 Unicode 拆分成两个 8-bit 的字符，读数据之后则需将两个字节合并起来，同时还有判别其中的 SBCS 字符。没有充分利用数据库 encoding 的作用，反而增加了编程的复杂度，ISO8859-1不是推荐的数据库 encoding。JSP/Servlet编程时，可以先用数据库管理系统提供的功能检查其中的中文数据是否正确。然后应当注意的是读出来的数据的 encoding，JAVA 程序中一般得到的是 Unicode。写数据时则相反。 3.4 定位问题时常用的技巧定位中文encoding问题通常采用最笨的也是最有效的办法在你认为有嫌疑的程序处理后打印字符串的内码。通过打印字

28、符串的内码，你可以发现什么时候中文字符被转换成Unicode，什么时候Unicode被转回中文内码，什么时候一个中文字成了两个 Unicode 字符，什么时候中文字符串被转成了一串问号，什么时候中文字符串的高位被截掉了取用合适的样本字符串也有助于区分问题的类型。如：”aa啊aa?aa” 等中英相间、GB、GBK特征字符均有的字符串。一般来说，英文字符无论怎么转换或处理，都不会失真（如果遇到了，可以尝试着增加连续的英文字母长度）。 4.结束语其实 JSP/Servlet 的中文encoding 并没有想像的那么复杂，虽然定位和解决问题没有定规，各种运行环境也各不尽然，但后面的原理是一样的。了

29、解字符集的知识是解决字符问题的基础。不过，随着中文字符集的变化，不仅仅是 java 编程，中文信息处理中的问题还是会存在一段时间的。 5.参考文章 1) Character Problem Review 2) Java 编程技术中汉字问题的分析及解决 3) NLS Characters in WebSphere: SBCS/DBCS display on same page 4) GB18030 5) Setting language encoding in web applications: Websphere applications Server 作者简介张建芳，软件工程师，毕业于北京

30、理工大学计算机应用学院，有多年中文本地化经验。您可通过 jfzhang 与他联系。 / 关于jsp乱码问题的解决。1 最基本的乱码问题。这个乱码问题是最简单的乱码问题。一般新会出现。就是页面编码不一致导致的乱码。中文问题我是个好人三个地方的编码。第一个地方的编码格式为jsp文件的存储格式。Eclipse会根据这个编码格式保存文件。并编译jsp文件，包括里面的汉字。第二处编码为解码格式。因为存为UTF-8的文件被解码为iso8859-1，这样如有中文肯定出乱码。也就是必须一致。而第二处所在的这一行，可以没有。缺省也是使用iso8859-1的编码格式。所以如果没有这一行的话，“我是个好人”也会

31、出现乱码。必须一致才可以。第三处编码为控制浏览器的解码方式。如果前面的解码都一致并且无误的话，这个编码格式没有关系。有的网页出现乱码，就是因为浏览器不能确定使用哪种编码格式。因为页面有时候会嵌入页面，导致浏览器混淆了编码格式。出现了乱码。2 表单使用Post方式提交后接收到的乱码问题这个问题也是一个常见的问题。这个乱码也是tomcat的内部编码格式iso8859-1在捣乱，也就是说post提交时，如果没有设置提交的编码格式，则会以iso8859-1方式进行提交，接受的jsp却以utf-8的方式接受。导致乱码。既然这样的原因，下面有几种解决方式，并比较。A 接受参数时进行编码转换String

32、str = new String(request.getParameter(something).getBytes(ISO-8859-1),utf-8) ；这样的话，每一个参数都必须这样进行转码。很麻烦。但确实可以拿到汉字。B 在请求页面上开始处，执行请求的编码代码， request.setCharacterEncoding(UTF-8)，把提交内容的字符集设为UTF8。这样的话，接受此参数的页面就不必在转码了。直接使用String str = request.getParameter(something)；即可得到汉字参数。但每页都需要执行这句话。这个方法也就对post提交的有效果，对于g

33、et提交和上传文件时的enctype=multipart/form-data是无效的。稍后下面单独对这个两个的乱码情况再进行说明。C 为了避免每页都要写request.setCharacterEncoding(UTF-8)，建议使用过滤器对所有jsp 进行编码处理。这个网上有很多例子。请大家自己查阅。3 表单get提交方式的乱码处理方式。如果使用get方式提交中文，接受参数的页面也会出现乱码，这个乱码的原因也是tomcat的内部编码格式iso8859-1导致。Tomcat会以get的缺省编码方式iso8859-1对汉字进行编码，编码后追加到url，导致接受页面得到的参数为乱码/、。解决办法：A

34、使用上例中的第一种方式，对接受到的字符进行解码，再转码。B Get走的是url提交，而在进入url之前已经进行了iso8859-1的编码处理。要想影响这个编码则需要在server.xml的Connector节点增加useBodyEncodingForURI=true 属性配置，即可控制tomcat对get方式的汉字编码方式，上面这个属性控制get提交也是用request.setCharacterEncoding(UTF-8)所设置的编码格式进行编码。所以自动编码为utf-8，接受页面正常接受就可以了。但我认为真正的编码过程是，tomcat又要根据里面所设置的URIEncoding=”UTF-

35、8”再进行一次编码，但是由于已经编码为utf-8，再编码也不会有变化了。如果是从url获取编码，接受页面则是根据URIEncoding=”UTF-8”来进行解码的。4 上传文件时的乱码解决上传文件时，form表单设置的都是enctype=multipart/form-data。这种方式以流方式提交文件。如果使用apach的上传组件，会发现有很多乱码想象。这是因为apach的先期commons-fileupload.jar有bug，取出汉字后进行解码，因为这种方式提交，编码又自动使用的是tomcat缺省编码格式iso-8859-1。但出现的乱码问题是：句号，逗号，等特殊符号变成了乱码，汉字如

36、果数量为奇数，则会出现乱码，偶数则解析正常。解决方式：下载commons-fileupload-1.1.1.jar 这个版本的jar已经解决了这些bug。但是取出内容时仍然需要对取出的字符进行从iso8859-1到utf-8转码。已经能得到正常所有汉字以及字符。5 Java代码关于url请求，接受参数的乱码url的编码格式，取决于上面所说的URIEncoding=”UTF-8”。如果设定了这个编码格式，则意味着所有到url的汉字参数，都必须进行编码才可以。否则得到的汉字参数值都是乱码，例如一个链接 Response.sendDerect（“/a.jsp?name=张大维”）；而在a.js

37、p里面直接使用String name）；得到的就是乱码。因为规定了必须是utf-8才可以，所以，这个转向应该这样写： Response.sendDerect（“/a.jsp?name=URLEncode.encode(“张大维”,”utf-8”)；才可以。如果不设置这个参数URIEncoding=”UTF-8”，会怎么样呢? 不设置则就使用了缺省的编码格式iso8859-1。问题又出来了，第一就是参数值的个数如果是奇数个数，则就可以正常解析，如果使偶数个数，得到最后字符就是乱码。还有就是如果最后一个字符如果是英文，则就能正常解析，但中文的标点符号仍出现乱码。权宜之计，如果您的参数中没有中文标点符号，则可以在参数值最后加一个英文符号来解决乱码问题，得到参数后再去掉这个最后面的符号。也可以凑或使用。6 脚本代码关于url请求，接受到的参数乱码脚本中也会进行页面转向的控制，也会涉及到附带参数，并在接受页面解析这

展开阅读全文