首页
/
每日頭條
/
科技
/
c語言中長字符串用什麼定義
c語言中長字符串用什麼定義
更新时间:2025-11-08 21:09:34

c語言中長字符串用什麼定義?目前互聯網應用中,例如大部分網站都已經使用 UTF-8 編碼,而 C 标準庫裡面,例如filesystem庫裡面關于文件路徑等,也是和 UTF-8 編碼相關,因此 C 标準也要優化對 UTF-8 編碼的支持,下面我們就來說一說關于c語言中長字符串用什麼定義?我們一起去了解并探讨一下這個問題吧!

c語言中長字符串用什麼定義(C20新特性)1

c語言中長字符串用什麼定義

新增 char8_t 類型表示 UTF-8 字符串

目前互聯網應用中,例如大部分網站都已經使用 UTF-8 編碼,而 C 标準庫裡面,例如filesystem庫裡面關于文件路徑等,也是和 UTF-8 編碼相關,因此 C 标準也要優化對 UTF-8 編碼的支持。

雖然在 C 11 中,已經增加了 UTF-8 字符串常量(u8"\xe4\xb8\xad\xe6\x96\x87"),但一直是使用 char * 作為類型。這樣導緻的問題,就是一個 char * 類型變量,可能是 UTF-8 編碼,也可能是多字節編碼(例如 GBK),因此為了區分不同的編碼類型,可能需要通過不同的函數名重載,或者模闆 traits 等技巧來進行區分。

因此在 C 20 中,将 UTF-8 字符串作為一種單獨的類型,增加了新的 char8_t 類型來進行描述。各種與字符串相關的模闆都增加 char8_t 相關的特化,例如 std 的字符串包裝類,就增加了 std::u8string 類型(std::basic_string<char8_t>)。

這個修改會造成不兼容,原來合法的代碼,可能會變得不合法,原來為了處理 UTF-8 字符串而特化成 char * 類型的模闆,需要改為特化 char8_t * 類型。

const auto * s1 = u8"text"; // <1> s1的類型,C 17 推導成const char *,C 20 推導成const char8_t * const char * s2 = u8"text"; // <2> C 17 正确,C 20 變成不正确 const char8_t * s3 = u8"text"; // <3> C 17 不正确(沒有char8_t類型),C 20 正确 template<typename T> int is_char8( const T * ) { return 0; } template<> int is_char8<char>( const char * ) { return 1; } std::cout << is_char8( s3 ) << std::endl; // <4> C 17 輸出1,C 20 輸出0 template<typename T> int is_char8_new( const T * ) { return 0; } template<> int is_char8_new<char8_t>( const char8_t * ) { return 1; } // <5> C 17 不支持 std::cout << is_char8_new( s3 ) << std::endl; // <6> C 20 輸出1 std::string s4 = u8"text"; // <7> C 17 正确,C 20 變成不正确 std::u8string s5 = u8"text"; // <8> C 17 不正确(沒有std::u8string類型),C 20 正确 std::filesystem::path p1; std::string s6 = p1.u8string(); // <9> C 17 正确,C 20 變成不正确 std::u8string s7 = p1.u8string(); // <10> C 17 不正确(沒有std::u8string類型),C 20 正确

明确 char16_t 和 char32_t 表示 UTF-16 和 UTF-32 字符串

之前的 C 标準新增 char16_t 和 char32_t 類型的時候,隻是說他們應該使用 UTF-16 和 UTF-32 的編碼格式,但标準裡面沒有明确進行這樣要求。

因此在 C 20 中,新增的 char8_t 類型明确要求是 UTF-8 字符串,同時将原來的 char16_t 和 char32_t 類型,也改為明确要求是 UTF-16 和 UTF-32 字符串。

明确不在 ISO 10646(Unicode編碼标準)中的字符的處理

之前的 C 标準,新增了字符串常量中的Unicode字符表達方式(\unnnn和\Unnnnnnnn),例如 \U0001f34 、 \uD83C\uDF4C 等,但對于不在 ISO 10646(Unicode編碼标準)中的字符的處理,則沒有明确說明。

因此在 C 20 中,明确要求Unicode字符表達方式(\unnnn和\Unnnnnnnn)中,如果有不在ISO 10646(Unicode編碼标準)中的字符,那麼這個代碼是不合法的。

【往期回顧】

C 20 新特性(9):指針和數組相關的兩個改進

C 20 新特性(8):range形式的for語句改進

,
Comments
Welcome to tft每日頭條 comments! Please keep conversations courteous and on-topic. To fosterproductive and respectful conversations, you may see comments from our Community Managers.
Sign up to post
Sort by
Show More Comments
推荐阅读
海南省高考報考查詢系統
海南省高考報考查詢系統
新海南客戶端、南海網、南國都市報7月30日消息(記者黃婷實習生陳星妃)海南省高考填報志願和錄取工作正在分批進行中,考生們快速、準确、全面了解高招信息,對科學填報志願、順利被理想院校錄取至關重要。為了方便廣大高考生,近日,新海南客戶端“高考查...
2025-11-08
怎麼把蘋果手機鈴聲同步到itunes
怎麼把蘋果手機鈴聲同步到itunes
怎麼把蘋果手機鈴聲同步到itunes?選擇要做鈴聲的歌曲,單擊“打開”,今天小編就來聊一聊關于怎麼把蘋果手機鈴聲同步到itunes?接下來我們就一起去研究一下吧!怎麼把蘋果手機鈴聲同步到itunes選擇要做鈴聲的歌曲,單擊“打開”歌曲會出現...
2025-11-08
那些消失的手機品牌淘汰的原因
那些消失的手機品牌淘汰的原因
科技日新月異,十幾年前還是諾基亞的天下,那時候的手機除了老年人用的黑白屏、簡單彩色屏,然後就是号稱半智能的手機了。十幾年後的今天,諾基亞早已經退居二線,取而代之的是以蘋果為代表的全智能手機。智能手機市場根據最新的數據顯示,在華為遭遇芯片制裁...
2025-11-08
格洛納斯北鬥系統
格洛納斯北鬥系統
如今,我們在出行中離不開導航,導航給我們生活帶來了很大方便,讓出行更加暢通。然而,這都是全球衛星定位系統的功勞,在這一方面,美國走在了世界前列,用20多年的時間研制出了衛星導航定位系統——GPS,随後,俄羅斯研制出了格洛納斯,中國自行研制出...
2025-11-08
微信提現支付有優惠
微信提現支付有優惠
摘要:微信發布公告稱3月1日起微信支付取消轉賬收費,但提現收費。南方日報記者就此事咨詢多家銀行互聯網金融部人士,均表示沒有向微信和支付寶收取“提現”手續費,但雙方合作中的确會産生其他成本費用,如快捷支付等。微信提現收費引發熱議。新華社發微信...
2025-11-08
Copyright 2023-2025 - www.tftnews.com All Rights Reserved