C+11中字符串文字的Unicode编码
char a = '\x30'; // character, no semantics
wchar_t b = L'\xFFEF'; // wide character, no semantics
char16_t c = u'\u00F6'; // 16-bit, assumed UTF16?
char32_t d = U'\U0010FFFF'; // 32-bit, assumed UCS-4
和字符串文字:
char A[] = "Hello\x0A"; // byte string, "narrow encoding"
wchar_t B[] = L"Hell\xF6\x0A"; // wide string, impl-def'd encoding
char16_t C[] = u"Hell\u00F6"; // (1)
char32_t D[] = U"Hell\U000000F6\U0010FFFF"; // (2)
auto E[] = u8"\u00F6\U0010FFFF"; // (3)
问题是:\x/\u/\U字符引用可与所有字符串类型自由组合?是否所有字符串类型都是固定宽度的,即数组包含的元素与文字中显示的元素相同,或者\x/\u/\U引用被扩展成一个可变的字节数?做u""和u8""字符串具有编码语义,例如,我可以说char16_t x[] = u"\U0010FFFF",而非BMP码点被编码成两个单元的UTF 16序列?也同样适用于u8?在(1)中,我可以用\u?最后,是否有任何编码字符串函数(即它们是字符感知的,并且可以检测无效的字节序列)?
这是一个开放的问题,但我想尽可能完整地了解新的C+11的新UTF编码和类型工具。
蝴蝶刀刀
人到中年有点甜
相关分类