首页
/
每日頭條
/
科技
/
c語言中長字符串用什麼定義
c語言中長字符串用什麼定義
更新时间:2026-02-13 13:01:01

c語言中長字符串用什麼定義?目前互聯網應用中,例如大部分網站都已經使用 UTF-8 編碼,而 C 标準庫裡面,例如filesystem庫裡面關于文件路徑等,也是和 UTF-8 編碼相關,因此 C 标準也要優化對 UTF-8 編碼的支持,下面我們就來說一說關于c語言中長字符串用什麼定義?我們一起去了解并探讨一下這個問題吧!

c語言中長字符串用什麼定義(C20新特性)1

c語言中長字符串用什麼定義

新增 char8_t 類型表示 UTF-8 字符串

目前互聯網應用中,例如大部分網站都已經使用 UTF-8 編碼,而 C 标準庫裡面,例如filesystem庫裡面關于文件路徑等,也是和 UTF-8 編碼相關,因此 C 标準也要優化對 UTF-8 編碼的支持。

雖然在 C 11 中,已經增加了 UTF-8 字符串常量(u8"\xe4\xb8\xad\xe6\x96\x87"),但一直是使用 char * 作為類型。這樣導緻的問題,就是一個 char * 類型變量,可能是 UTF-8 編碼,也可能是多字節編碼(例如 GBK),因此為了區分不同的編碼類型,可能需要通過不同的函數名重載,或者模闆 traits 等技巧來進行區分。

因此在 C 20 中,将 UTF-8 字符串作為一種單獨的類型,增加了新的 char8_t 類型來進行描述。各種與字符串相關的模闆都增加 char8_t 相關的特化,例如 std 的字符串包裝類,就增加了 std::u8string 類型(std::basic_string<char8_t>)。

這個修改會造成不兼容,原來合法的代碼,可能會變得不合法,原來為了處理 UTF-8 字符串而特化成 char * 類型的模闆,需要改為特化 char8_t * 類型。

const auto * s1 = u8"text"; // <1> s1的類型,C 17 推導成const char *,C 20 推導成const char8_t * const char * s2 = u8"text"; // <2> C 17 正确,C 20 變成不正确 const char8_t * s3 = u8"text"; // <3> C 17 不正确(沒有char8_t類型),C 20 正确 template<typename T> int is_char8( const T * ) { return 0; } template<> int is_char8<char>( const char * ) { return 1; } std::cout << is_char8( s3 ) << std::endl; // <4> C 17 輸出1,C 20 輸出0 template<typename T> int is_char8_new( const T * ) { return 0; } template<> int is_char8_new<char8_t>( const char8_t * ) { return 1; } // <5> C 17 不支持 std::cout << is_char8_new( s3 ) << std::endl; // <6> C 20 輸出1 std::string s4 = u8"text"; // <7> C 17 正确,C 20 變成不正确 std::u8string s5 = u8"text"; // <8> C 17 不正确(沒有std::u8string類型),C 20 正确 std::filesystem::path p1; std::string s6 = p1.u8string(); // <9> C 17 正确,C 20 變成不正确 std::u8string s7 = p1.u8string(); // <10> C 17 不正确(沒有std::u8string類型),C 20 正确

明确 char16_t 和 char32_t 表示 UTF-16 和 UTF-32 字符串

之前的 C 标準新增 char16_t 和 char32_t 類型的時候,隻是說他們應該使用 UTF-16 和 UTF-32 的編碼格式,但标準裡面沒有明确進行這樣要求。

因此在 C 20 中,新增的 char8_t 類型明确要求是 UTF-8 字符串,同時将原來的 char16_t 和 char32_t 類型,也改為明确要求是 UTF-16 和 UTF-32 字符串。

明确不在 ISO 10646(Unicode編碼标準)中的字符的處理

之前的 C 标準,新增了字符串常量中的Unicode字符表達方式(\unnnn和\Unnnnnnnn),例如 \U0001f34 、 \uD83C\uDF4C 等,但對于不在 ISO 10646(Unicode編碼标準)中的字符的處理,則沒有明确說明。

因此在 C 20 中,明确要求Unicode字符表達方式(\unnnn和\Unnnnnnnn)中,如果有不在ISO 10646(Unicode編碼标準)中的字符,那麼這個代碼是不合法的。

【往期回顧】

C 20 新特性(9):指針和數組相關的兩個改進

C 20 新特性(8):range形式的for語句改進

,
Comments
Welcome to tft每日頭條 comments! Please keep conversations courteous and on-topic. To fosterproductive and respectful conversations, you may see comments from our Community Managers.
Sign up to post
Sort by
Show More Comments
推荐阅读
微信文件傳輸助手會自動壓縮
微信文件傳輸助手會自動壓縮
微信文件傳輸助手會自動壓縮?了解更多熱門資訊、玩機技巧、數碼評測、科普深扒,點擊右上角關注我們,我來為大家講解一下關于微信文件傳輸助手會自動壓縮?跟着小編一起來看一看吧!微信文件傳輸助手會自動壓縮了解更多熱門資訊、玩機技巧、數碼評測、科普深...
2026-02-13
進入pe如何修複硬盤
進入pe如何修複硬盤
硬盤是計算機最重要的組成部分之一,如果硬盤出現壞道,就會導緻系統出現各種各樣的症狀。那該如何解決或預防此類問題的發生呢?接下來就來為大家介紹如何使用pe系統工具解決這一難題。電腦硬盤是計算機的最主要的存儲設備。沒有硬盤,計算機連系統都無法安...
2026-02-13
穿越火線極速版卡武器
穿越火線極速版卡武器
穿越火線極速版卡武器?CF作為一個曾經火遍大江南北的遊戲,在國内也是屬于FPS類遊戲的領軍人物,即使現如今吃雞守望先鋒遊戲的出現,穿越火線還是在國内FPS類遊戲中占有着非常高的地位,下面我們就來聊聊關于穿越火線極速版卡武器?接下來我們就一起...
2026-02-13
一分鐘看懂數據分析
一分鐘看懂數據分析
在這個各行各業都需要做數據分析寫數據分析報告的時代,學不會數分遲早被淘汰。今天給大家分享一個求了很久大佬才給的數據分析知識地圖,一起學起來吧!數據分析項目流程:問題界定——問題拆分——指标确定——數據收集——數據清洗——數據分析——趨勢預測...
2026-02-13
單機ocr文字識别軟件
單機ocr文字識别軟件
我們的日常工作中,總是和「文字處理」脫不了幹系。無論是登記填表還是制作PPT,無論是創作文案還是報告分析,「碼字」是多少免不了的。然而,當你想從印刷信息中獲取文字時,往往有種「不爽感」,例如:一份紙質合同一份打印出的報告一頁宣傳紙一本書中的...
2026-02-13
Copyright 2023-2026 - www.tftnews.com All Rights Reserved