Getting the actual length of a UTF-8 encoded std::string?(获取 UTF-8 编码的 std::string 的实际长度?)
问题描述
我的 std::string 显然是 utf-8 编码的,str.length() 返回了错误的结果.
my std::string is utf-8 encoded so obviously, str.length() returns the wrong result.
我找到了此信息,但我不确定如何使用它来执行此操作:
I found this information but I'm not sure how I can use it to do this:
以下字节序列是用来表示一个字符.这顺序是使用取决于字符的 UCS 代码编号:
The following byte sequences are used to represent a character. The sequence to be used depends on the UCS code number of the character:
0x00000000 - 0x0000007F:
0xxxxxxx
0x00000080 - 0x000007FF:
110xxxxx 10xxxxxx
0x00000800 - 0x0000FFFF:
1110xxxx 10xxxxxx 10xxxxxx
0x00010000 - 0x001FFFFF:
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
如何找到 UTF-8 编码的 std::string 的实际长度?谢谢
How can I find the actual length of a UTF-8 encoded std::string? Thanks
推荐答案
计算所有首字节(与 10xxxxxx 不匹配的字节).
Count all first-bytes (the ones that don't match 10xxxxxx).
int len = 0;
while (*s) len += (*s++ & 0xc0) != 0x80;
这篇关于获取 UTF-8 编码的 std::string 的实际长度?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持编程学习网!
本文标题为:获取 UTF-8 编码的 std::string 的实际长度?


- GDB 不显示函数名 2022-01-01
- DoEvents 等效于 C++? 2021-01-01
- XML Schema 到 C++ 类 2022-01-01
- OpenGL 对象的 RAII 包装器 2021-01-01
- 哪个更快:if (bool) 或 if(int)? 2022-01-01
- 将函数的返回值分配给引用 C++? 2022-01-01
- 将 hdc 内容复制到位图 2022-09-04
- 从父 CMakeLists.txt 覆盖 CMake 中的默认选项(...)值 2021-01-01
- 使用 __stdcall & 调用 DLLVS2013 中的 GetProcAddress() 2021-01-01
- 如何提取 __VA_ARGS__? 2022-01-01