首页
/
每日頭條
/
生活
/
為什麼高級語言的可移植性比較高
為什麼高級語言的可移植性比較高
更新时间:2024-10-21 00:20:43

為什麼高級語言的可移植性比較高(漢語才是世界上最高級的語言)1

最近小艾無聊刷小破站的時候,

刷到一個很有意思的視頻。

視頻提到,

你應該感到驕傲,

因為你已經掌握了人類最高級的語言:中文

這一論點,

是可以通過數學證明的。

信息熵

就是佐證這一論證的工具。

為什麼高級語言的可移植性比較高(漢語才是世界上最高級的語言)2

從信息論的角度來看,

中文的高級體現在信息熵高

也就是說,

中文傳遞信息的效率高

即能用最簡潔的語言實現信息的傳遞,

在同樣的文字長度下,

傳達的信息量也更豐富。

那麼,信息熵到底是什麼?

它是如何來印證這一說法的呢。

小艾搜集了一部分相關資料,

大家一起來了解一下吧。

Entropy / 信息熵

為什麼高級語言的可移植性比較高(漢語才是世界上最高級的語言)3

所謂信息熵,其實是數學上一個很抽象的概念,我們不妨把它理解成某種特定信息的出現概率

在日常生活中,人們很難精确表述文字中信息量的多少。直到1948年,香農提出了“信息熵”的概念,才解決了對信息的量化度量問題。

香農借鑒了熱力學的概念,把信息中排除了冗餘後的平均信息量稱為“信息熵”,并給出了計算信息熵的數學表達式。即

為什麼高級語言的可移植性比較高(漢語才是世界上最高級的語言)4

其中,x表示随機變量,指代任何随機發生的事情,與之相對應的是所有可能輸出的集合,定義為符号集,随機變量的輸出用χ表示。P(x)表示對應的概率。變量的不确定性越大,熵也就越大,得到确定答案需要問的問題越多,也就是所謂的信息量越大。

舉個例子,你做一道判斷題,但是不知道答案,隻能靠猜,這時候就有了信息熵。當我們把這道判斷題改為選擇題的時候,“√”與“×”的二選一過程就會變成在“a、b、c、d”四項選擇中判斷正确答案,不确定性增大,此時這道題的信息熵也相應變大了。

Language / 計算語言信息熵的意義

為什麼高級語言的可移植性比較高(漢語才是世界上最高級的語言)5

從信息傳播的角度來看,信息熵可以表示信息的價值。以此為标杆,我們就有了一個衡量信息價值高低的标準,也有利于做出關于知識流通問題的更多推論。

語言文字,是人類最重要的交際工具和信息載體,是人類文化的重要組成部分。從科學研究角度來看,語言的信息熵研究有着非常現實的意義。

信息熵的根本作用之一是,去除訊息中的冗餘,使得其體積變小,并且保證傳輸到接收者一方後,沒有損失或近似沒有損失。如果能準确地計算出語言的信息熵,就可以得到此種語言的信息壓縮下界。

Chinese / 最接近信息熵界限的語言

為什麼高級語言的可移植性比較高(漢語才是世界上最高級的語言)6

對于語言信息熵的計算,其實方式很簡單,隻需要帶入公式就可以了。但關鍵問題在于,人們無法準确地知道一個語言中特定文字的出現概率,甚至有時難以統計某種語言中究竟有多少種字符。因此,信息論科學家隻能通過各種手段來估計各個語言的信息熵。

在計量過程中,他們發現中文不論是文字部首還是音節,信息熵都遠遠超過了英語

在我國文字研究所1989年出版的《現代漢語定量分析》中,漢字的熵被估算為9.6比特,而其他聯合國工作語言的熵分别是法語3.98比特,西班牙語4.01比特,英語4.03比特,俄語4.35比特。

2002年,哈佛大學的Frederi等人通過三次不同算法和文本的對比試驗,壓縮不同版本的聖經,同樣得出了中文是壓縮效率最低的語言,或者說是最接近信息熵界限的語言這一結論。而完美的語言,是應當達到信息壓縮下界的

為什麼高級語言的可移植性比較高(漢語才是世界上最高級的語言)7

采用PPM算法,中文壓縮效率明顯低于其他文字

為什麼高級語言的可移植性比較高(漢語才是世界上最高級的語言)8

采用BZIP2壓縮算法,同樣得出了中文壓縮效率低的結論

為什麼高級語言的可移植性比較高(漢語才是世界上最高級的語言)9

采用不同文本對譯文進行語言擴展,中文依然是壓縮效率最低的語言

雖然這幾個實驗不甚完美,也有部分漏洞,但卻無一例外得出了相似的結果。因此即便存在缺陷,這樣的實驗依然有着很強的指導意義

當然,這裡的熵隻是一個參考值,因為信息熵很難得到一個準确的值。如果采用更大的文獻庫,如用文言文,會比現代漢語更加簡潔,得出的數值自然也會産生變動。加上語言的信息熵研究已經發展多年,會涉及更多不同維度,這一數值更加難以精準确定。

Reason / 為何漢語信息熵如此之高

為什麼高級語言的可移植性比較高(漢語才是世界上最高級的語言)10

漢字之所以信息熵高,信息量大,是因為漢語有很多特點,可以減少額外文字的出現和使用

例如,漢語語法簡單,語法時态的使用,會消耗額外的文字,增加冗餘;漢語中多音字的存在,使得同樣的字詞可以有多個意思,如何消除不确定性,則需要通過聯系上下文。此外,中國由字組詞的擴展方式,讓很多文字可以重複使用,以此來減少新文字的出現。

更值得一提的是,在漢字發展的曆史長河中,每個字詞背後都有相應的來源典故,它們是曆史的積澱,蘊含着豐富的文化内涵,這是英語等文字所無法實現和比拟的。

同樣的長度,漢語可以傳達出更多有用的信息。那麼,說漢字因為信息熵高,所以信息量大,也是沒有什麼問題的。

或者我們也可以這樣理解,漢字因為信息熵高,所以接收者在看到單個漢字時,不能确定它要表達的意思,對它的不确定性高,那麼,還能說的可能性很多,(未來可以接收的)信息量大。

想想看,美國人學習了2萬單詞,他能享受的信息還是有限的。中國人學習三四千漢字,就可以享受幾乎全部信息。學少而知多,這大概就是漢語“最高級”強有力的證明吧。

為什麼高級語言的可移植性比較高(漢語才是世界上最高級的語言)11

不僅如此,漢語和西方語言對比,還有一個很有意思的特點。那就是西方語言是“一維的”和“密碼式的”語言,這導緻他們的思維直線式,語言抽象而費解,更傾向于關注中心物體而忽略背景,看問題深刻卻片面。而漢語是“二維的”和“形象的”語言,每個漢字都是一幅畫,不僅容易理解,獲得信息的速度也更快。二維思維還使得中國人看問題重場景,看事物全面、透徹且會變通,能夠将複雜問題簡單化。

有資料表明:說漢語比說英語能更多地使用右腦(天才腦)。這又是一個先天因素,說明中國人比西方人有着更多的優勢。至于能否充分利用這種優勢,實現超越,那就需要後天的努力和培養了。

,
Comments
Welcome to tft每日頭條 comments! Please keep conversations courteous and on-topic. To fosterproductive and respectful conversations, you may see comments from our Community Managers.
Sign up to post
Sort by
Show More Comments
推荐阅读
蘇泊爾最新款壓力鍋112kpa
蘇泊爾最新款壓力鍋112kpa
如今,市面各品牌的電壓力鍋可真不少,可是作為廚房小白的您真的會選嗎?要知道如果選不好,不僅僅做不出各種美食,還有可能因為不會用而造成多種不便。那麼電壓鍋有什麼合适的推薦嗎?答案當然有。最近,知名家電品牌蘇泊爾上新了一款料理快鍋,不知道大家是...
2024-10-21
瀾瀾和蔡文姬高清美圖
瀾瀾和蔡文姬高清美圖
,
2024-10-21
龍珠裡面最能吃的五個人
龍珠裡面最能吃的五個人
感謝邀請,龍珠當中不少人的食量都是特别驚人的。像悟空,貝吉塔等賽亞人的食量更是可以說是用無底洞來形容,他們完全是可以一個人一頓吃掉上百人份的食物的,都是當之無愧的大胃王。現在大胃王的節目也比賽都是十分的引人注目的,而要是悟空他們去參與大胃王...
2024-10-21
調劑複試和一志願複試内容區别
調劑複試和一志願複試内容區别
大家好,我是事兒姐,點擊上方“關注”,每天為你分享考研最新資訊和幹貨。有很多小夥伴認為調劑複試和一志願複試是一樣的,部分院校确實如此,也有部分院校并非如此。比如有的學校一志願複試有筆試,但是調劑複試沒有筆試;再比如有的院校調劑考生的複試成績...
2024-10-21
如何保留應屆畢業生身份去找工作
如何保留應屆畢業生身份去找工作
六月太空晴朗,畢業鐘聲敲響;不舍可愛的同窗,難忘尊敬的師長,作别熟悉面龐。邁向成功殿堂,踏着前進的曙光,迎接明日的輝煌。又是一年畢業季,許多應屆生因為沒有經驗,在競争工作崗位上顯得沒有優勢。曾經的天之驕子,也會感到彷徨。許多應屆生羨慕那些有...
2024-10-21
Copyright 2023-2024 - www.tftnews.com All Rights Reserved