红俊's profile蝈蝈俊的共享空间PhotosBlogListsMore Tools Help

Blog


    June 25

    UTF-8 BOM导致的无法正常模拟Http请求

    本文概述

    StreamWriter 在产生UTF-8编码的内容时候,会在产生的这个UTF-8内容中增加BOM的信息,而这个BOM的信息,会干扰我们在一些情况的使用。
    本文描述的情况,就是这种干扰让我们无法正常工作的一种情况。

     

    何为BOM?

    BOM(Byte Order Mark),BOM签名。
    BOM的内容就可以表示unicode文件是何种编码。BOM签名的意思就是告诉编辑器当前文件采用何种编码,方便编辑器识别。

    对于UTF-8 , BOM 信息为 EF BB BF。 我们如果在Google搜索 UTF-8 BOM 就会搜索到很多文章, BOM 在不少情况下,都会给我们添乱子。

     

    下面是我碰到这个问题的描述

    我碰到这个问题的场景:在书写一段模拟HTTP Post 请求的时候, 代码如下,但是却无法模拟Post请求:

    private void do2()
     {
         string url = "http://localhost:39749/Default.aspx";
    


         string indata = "__VIEWSTATE=%2FwEPDwUKMTQ2OTkzNDMyMWRkyGd";
          indata += "iqWjBKr5rIKmHzSdD9AaojKw%3D&Button1=Button&__EVENTVALIDATION=%";
          indata += "2FwEWAgLohfrVDQKM54rGBu49QLoa7JmG9cEfUpTccMrUmJfD";
         HttpWebRequest req = (HttpWebRequest)WebRequest.Create(url);
         req.ContentType = "application/x-www-form-urlencoded";
         req.Method = "Post";
    
    
         Stream myRequestStream = req.GetRequestStream();
         StreamWriter myStreamWriter = new StreamWriter(myRequestStream, Encoding.UTF8);
         myStreamWriter.Write(indata);
         myStreamWriter.Close();
         myRequestStream.Close();
         myStreamWriter.Dispose();
         myRequestStream.Dispose();
    
    
         HttpWebResponse res = (HttpWebResponse)req.GetResponse();
         StreamReader reader = new StreamReader(res.GetResponseStream(), Encoding.UTF8);
         string info = reader.ReadToEnd();
         reader.Close();
         res.Close();
         reader.Dispose();
         MessageBox.Show(info);
     }

    而文中中间的代码修改成下面代码则可以成功模拟。

    byte[] bytes = System.Text.Encoding.UTF8.GetBytes(indata);
    req.ContentLength = bytes.Length;
    Stream myRequestStream = req.GetRequestStream();
    myRequestStream.Write(bytes, 0, bytes.Length);
    myRequestStream.Close();

    为何会这样呢?分析原因,竟然是 UTF-8 BOM 在作怪。

    StreamWriter 在产生UTF-8编码的内容时候,会在产生的这个UTF-8内容中增加BOM的信息, 这样他发送的Post信息就比正常多了三个字节  EF BB BF。 就是因为这三个字节导致服务器端无法处理正常的Post请求。

     

    解决方法:

    1、自己重写UTF-8类,参看 http://www.19870202.com/?tid=381  。在调用的时候用这个自己写的类。
    重写代码:
    public class UTF8EncodingNoPreamble : System.Text.UTF8Encoding
    {
            public override byte[] GetPreamble()
            {
                return new byte[0];
            }
    }

    2、不要用 StreamWriter ,参看我上面的替代方案。

     

    参考资料:

    System.IO.StreamWriter写UTF-8文件不写BOM
    http://www.19870202.com/?tid=381

    UTF-8, UTF-16, UTF-32 & BOM
    http://unicode.org/faq/utf_bom.html#BOM

    utf-8 保存文件的 bom 问题
    http://www.uuzone.com/blog/tom/101761.htm

    June 06

    WEB Service 传递信息时候,会把 /r/n 变成 /n

    我们在使用WEB Service时,需要注意的一点是,传递过程中会丢失一些字符,比较典型的是 /r/n 中 /r 回车字符会被丢弃。这是XML规范所导致的问题。XML规范关于这部分的描述如下:

    2.11 行尾处理
    为编辑的方便起见,存储XML已析实体的计算机文件经常用行来组织。通常这些行用回车符(#xD)和换行符(#xA)的一些组合来分隔。

    为了使应用的工作简单化,对于一个外部已析实体或内部已析实体的常量实体值中包含的任何两字符常量序列"#xD#xA"或单独的常量#xD,XML处理器都应换成#xA传递给应用。(这可以通过在进行语法分析前将所有行分隔符规范成#xA而方便地实现。)

    \r   回车(跑到最前面)  
    \n  换行(下一行)  

    参考资料:

    WebServices eat \r in \r\n
    http://vidmar.net/weblog/archive/2005/04/03/1203.aspx

    XML规范对此相关的解释
    http://www.w3.org/TR/2004/REC-xml-20040204/#sec-line-ends
    中文版的介绍看下面地址:
    http://xml.coverpages.org/xml10-chinese.html#sec-line-ends

    \r\n和\r
    http://topic.csdn.net/t/20060317/09/4620216.html