首页
/
每日頭條
/
科技
/
c語言中長字符串用什麼定義
c語言中長字符串用什麼定義
更新时间:2025-12-31 15:43:52

c語言中長字符串用什麼定義?目前互聯網應用中,例如大部分網站都已經使用 UTF-8 編碼,而 C 标準庫裡面,例如filesystem庫裡面關于文件路徑等,也是和 UTF-8 編碼相關,因此 C 标準也要優化對 UTF-8 編碼的支持,下面我們就來說一說關于c語言中長字符串用什麼定義?我們一起去了解并探讨一下這個問題吧!

c語言中長字符串用什麼定義(C20新特性)1

c語言中長字符串用什麼定義

新增 char8_t 類型表示 UTF-8 字符串

目前互聯網應用中,例如大部分網站都已經使用 UTF-8 編碼,而 C 标準庫裡面,例如filesystem庫裡面關于文件路徑等,也是和 UTF-8 編碼相關,因此 C 标準也要優化對 UTF-8 編碼的支持。

雖然在 C 11 中,已經增加了 UTF-8 字符串常量(u8"\xe4\xb8\xad\xe6\x96\x87"),但一直是使用 char * 作為類型。這樣導緻的問題,就是一個 char * 類型變量,可能是 UTF-8 編碼,也可能是多字節編碼(例如 GBK),因此為了區分不同的編碼類型,可能需要通過不同的函數名重載,或者模闆 traits 等技巧來進行區分。

因此在 C 20 中,将 UTF-8 字符串作為一種單獨的類型,增加了新的 char8_t 類型來進行描述。各種與字符串相關的模闆都增加 char8_t 相關的特化,例如 std 的字符串包裝類,就增加了 std::u8string 類型(std::basic_string<char8_t>)。

這個修改會造成不兼容,原來合法的代碼,可能會變得不合法,原來為了處理 UTF-8 字符串而特化成 char * 類型的模闆,需要改為特化 char8_t * 類型。

const auto * s1 = u8"text"; // <1> s1的類型,C 17 推導成const char *,C 20 推導成const char8_t * const char * s2 = u8"text"; // <2> C 17 正确,C 20 變成不正确 const char8_t * s3 = u8"text"; // <3> C 17 不正确(沒有char8_t類型),C 20 正确 template<typename T> int is_char8( const T * ) { return 0; } template<> int is_char8<char>( const char * ) { return 1; } std::cout << is_char8( s3 ) << std::endl; // <4> C 17 輸出1,C 20 輸出0 template<typename T> int is_char8_new( const T * ) { return 0; } template<> int is_char8_new<char8_t>( const char8_t * ) { return 1; } // <5> C 17 不支持 std::cout << is_char8_new( s3 ) << std::endl; // <6> C 20 輸出1 std::string s4 = u8"text"; // <7> C 17 正确,C 20 變成不正确 std::u8string s5 = u8"text"; // <8> C 17 不正确(沒有std::u8string類型),C 20 正确 std::filesystem::path p1; std::string s6 = p1.u8string(); // <9> C 17 正确,C 20 變成不正确 std::u8string s7 = p1.u8string(); // <10> C 17 不正确(沒有std::u8string類型),C 20 正确

明确 char16_t 和 char32_t 表示 UTF-16 和 UTF-32 字符串

之前的 C 标準新增 char16_t 和 char32_t 類型的時候,隻是說他們應該使用 UTF-16 和 UTF-32 的編碼格式,但标準裡面沒有明确進行這樣要求。

因此在 C 20 中,新增的 char8_t 類型明确要求是 UTF-8 字符串,同時将原來的 char16_t 和 char32_t 類型,也改為明确要求是 UTF-16 和 UTF-32 字符串。

明确不在 ISO 10646(Unicode編碼标準)中的字符的處理

之前的 C 标準,新增了字符串常量中的Unicode字符表達方式(\unnnn和\Unnnnnnnn),例如 \U0001f34 、 \uD83C\uDF4C 等,但對于不在 ISO 10646(Unicode編碼标準)中的字符的處理,則沒有明确說明。

因此在 C 20 中,明确要求Unicode字符表達方式(\unnnn和\Unnnnnnnn)中,如果有不在ISO 10646(Unicode編碼标準)中的字符,那麼這個代碼是不合法的。

【往期回顧】

C 20 新特性(9):指針和數組相關的兩個改進

C 20 新特性(8):range形式的for語句改進

,
Comments
Welcome to tft每日頭條 comments! Please keep conversations courteous and on-topic. To fosterproductive and respectful conversations, you may see comments from our Community Managers.
Sign up to post
Sort by
Show More Comments
推荐阅读
美的變頻空調電路原理
美的變頻空調電路原理
美的變頻空調電路原理?美的KFR-32GW/BPY型變頻空調器室内機電氣系統,與普通型空調器室内機電氣系統基本相同,工作原理也大同小異,它們的區别主要集中在室外機部分讓我們來看看該變頻空調器的室内機電氣系統圖片可點擊放大看,我來為大家科普一...
2025-12-31
電腦為何自動關機
電腦為何自動關機
我們公司的電腦是很老的那種,依稀記得應該有九幾年買的,也有零幾年買的吧,内存還有256M和128M的,硬盤隻有40G和80G,當我知道的時候,我都驚呼了,還有這麼老的電腦,還用來辦公,更甚至還一直用到現在!硬件遠遠更不上軟件了,電腦時不時就...
2025-12-31
我的世界附魔瓶如何附魔
我的世界附魔瓶如何附魔
Mc我的世界,是一個充滿自由與魔法的世界,雖然從名字中看不太出來魔法的感覺,但是有了自由之後,幾乎什麼都可以做到了。我們可以選擇各種模式,比如生存模式、創造模式和極限模式,每種都有自己的特色,不過一般剛來到mc的玩家都會選擇生存模式,來挑戰...
2025-12-31
什麼是斷電延時型的時間繼電器
什麼是斷電延時型的時間繼電器
時間繼電器屬于繼電器的一種,目前在生活中應用十分廣泛。繼電器百科定義是一種電控制器件,通俗來說就是開關在條件滿足的情況下關閉或者開啟。繼電器實際上是用較小的電流去控制較大電流的一種自動開關。在電路中起着自動調節、安全保護、轉換電路等作用。根...
2025-12-31
長途汽車掃碼購票程序
長途汽車掃碼購票程序
長途汽車掃碼購票程序?17日,記者從豫州行購票平台了解到,為減少疫情傳播風險,确保健康出行,目前,河南已啟用“健康碼前置核驗”購票系統,充分利用大數據實現“精密智控”防疫,這也是河南在全國率先實現線上購票自動核驗健康碼服務功能,下面我們就來...
2025-12-31
Copyright 2023-2025 - www.tftnews.com All Rights Reserved