前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【C# 代码小知识】画蛇添足的编码前缀

【C# 代码小知识】画蛇添足的编码前缀

作者头像
丹枫无迹
发布2020-02-18 18:17:26
4470
发布2020-02-18 18:17:26
举报
文章被收录于专栏:学无止境

我们都知道,文件有不同的编码,例如我们常用的中文编码有:UTF8、GK2312 等。

Windows 操作系统中,新建的文件会在起始部分加入几个字符的前缀,来识别编码。

例如,新建文本文件,写入单词 Hello,另存为 UTF8。Hello 占 5 个字节,但文本大小却是 8 个字节。(win7 系统下还是这样的,win10 已经去掉了编码前缀,所以 win10 下文件大小依然是 5 个字节。看来微软自己也改变了。)

我们用 StreamWriter 来生成文件。

代码语言:javascript
复制
using (StreamWriter sw = new StreamWriter("a.txt"))
{
    sw.Write("Hello");  // 5 字节
}

using (StreamWriter sw = new StreamWriter("b.txt", false, Encoding.UTF8))
{
    sw.Write("Hello");  // 8 字节
}

诡异的事情发生了,StreamWriter 的默认编码是 UTF8,都是用的 UTF8 编码,怎么文件的大小会不一样呢?

UTF8Encoding 有两个私有属性:emitUTF8IdentifierisThrowException,初始化时由构造函数传入。

  • emitUTF8Identifier 表示是否添加编码前缀
  • isThrowException 表示遇到编码错误时是否报错

由此可见,是否添加编码前缀,是可以控制的。

EncodingUTF8 定义如下,添加编码前缀。

代码语言:javascript
复制
public static Encoding UTF8 {
    get {
        if (utf8Encoding == null) utf8Encoding = new UTF8Encoding(true);
        return utf8Encoding;
    }
}

StreamWriter 中使用的默认编码,emitUTF8Identifier=false

代码语言:javascript
复制
internal static Encoding UTF8NoBOM {
    get { 
        if (_UTF8NoBOM == null) {
            UTF8Encoding noBOM = new UTF8Encoding(false, true);
            _UTF8NoBOM = noBOM;
        }
        return _UTF8NoBOM;
    }
}

这就是开头的代码中两个文件大小不一样的原因了。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020-02-10 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档