Unicode conversion to String leaves leading Byte order mark(Unicode转换为字符串会留下前导字节顺序标记)
问题描述
在.NET 3.5 C#应用程序中,我正在将Unicode编码的字节数组转换为字符串。
字节数组如下:
{255, 254, 85, 0, 83, 0, 69, 0}
使用Encoding.Unicode.GetString(var)
,我将字节数组转换为字符串,它返回:
{65279 '', 85 'U', 83 'S' , 69 'E'}
前导字符65279
似乎是Zero Width No-Break Space,它在Unicode编码中用作字节顺序标记,它的出现在我的应用程序的其余部分中造成了问题。
目前我使用的解决方法是var.Trim(new char[]{'uFEFF','u200B'});
,工作正常。
GetString
不应该注意删除字节顺序标记吗?或者我在转换字节数组时做错了什么?
推荐答案
否,GetString()
不应删除物料清单。BOM实际上是一个完全有效的Unicode字符(之所以选择它,是因为如果它出现在Unicode文件的中间,例如,如果该文件是多个Unicode文件串联的结果,则它不会影响呈现的文本),并且必须与byte[]
中的所有其他字符一起进行解码。
StreamReader
。请注意,只有当您不禁用该行为时,它才会执行此操作。
GetString()
要做的就是解释实际的编码字符,并将它们转换为它们表示的文本(当然,在C#中,字符串在内部存储为UTF16,所以当原始数据已经在UTF16:)中时,几乎不需要进行转换。
这篇关于Unicode转换为字符串会留下前导字节顺序标记的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持编程学习网!
本文标题为:Unicode转换为字符串会留下前导字节顺序标记


- 良好实践:如何重用 .csproj 和 .sln 文件来为 CI 创建 2022-01-01
- WebMatrix WebSecurity PasswordSalt 2022-01-01
- C# 中多线程网络服务器的模式 2022-01-01
- 输入按键事件处理程序 2022-01-01
- 如何用自己压缩一个 IEnumerable 2022-01-01
- C#MongoDB使用Builders查找派生对象 2022-09-04
- Web Api 中的 Swagger .netcore 3.1,使用 swagger UI 设置日期时间格式 2022-01-01
- MoreLinq maxBy vs LINQ max + where 2022-01-01
- 带有服务/守护程序应用程序的 Microsoft Graph CSharp SDK 和 OneDrive for Business - 配额方面返回 null 2022-01-01
- 在哪里可以找到使用中的C#/XML文档注释的好例子? 2022-01-01