大數定律有什麼講究?大數定律就像一根繩索,用整體的确定性約束着局部的随機性,随着數據的增加把頻率這個口袋越勒越緊,我來為大家科普一下關于大數定律有什麼講究?以下内容希望對你有幫助!
大數定律有什麼講究
大數定律就像一根繩索,用整體的确定性約束着局部的随機性,随着數據的增加把頻率這個口袋越勒越緊。
概率論解決問題的核心思路:把局部的随機性轉化為整體上的确定性。
要實現這個轉化,靠的是什麼呢?當然就是“概率”。當一件事的概率确定了,它在整體上發生的可能性就确定了。
我們是如何度量概率的呢?
簡單來說,常用的度量概率的方法有三種——定義法、頻率法、叠代法。其中頻率法背後對應的是大數定律,叠代法對應的是貝葉斯定律。
本文主要讨論像“黃金一樣貴重”的大數定律。
頻率法,就是利用頻率度量概率。
頻率法認為,在有足夠多的數據的情況下,随機事件發生的頻率會無限接近它真實的概率。
頻率:一個随機事件出現的次數除以整體事件的次數,得到的值就是這個随機事件發生的頻率。
比如,很多人認為飛機是一種危險的交通工具,到底有多危險呢?衡量飛機的危險性,最直接的方法就是計算失事率嘛。我們用過去這麼多年飛機失事的次數,除以飛機總的飛行次數,得出的就是飛機失事的頻率。頻率法認為,這個飛機失事的頻率,就是未來飛機失事的概率。
在頻率法的眼中,概率是可以靠随機事件發生的頻率來計算出的。也就是說,頻率法理解這個世界的底層邏輯是,一個随機事件的發生,是存在一個真實的、客觀的概率的。
在這裡要區分一下頻率法與歸納法:
歸納法隻是經驗層面的,不可靠。
歸納法目的不是追求可靠性。
歸納法解決的主要問題之一是執果索因,為認識規律做鋪墊,推出一般性猜想或假說,然後再運用演繹對其進行修正和補充,直至最後得到物理學的普遍性結論。
數學是邏輯抽象層面的東西,就像現實中不存在沒有寬度的線,沒有厚度的面。
頻率法的基礎是大數定律,
大數定律也是因為數學上證明了,才能是絕對正确。
第一個對頻率和概率這個關系進行證明的,是雅各布·伯努利,一個十七世紀的瑞士數學家,也是那個時代最有才華的數學家之一。
雅各布·伯努利,他花了20年的時間,證明了這個“不言自明”或者說“顯而易見”的結論:随着試驗數據不斷累積,頻率和概率的差距會越來越小。
隻要重複的試驗或者觀測的數據足夠多,随機事件發生的頻率就會無限接近它的概率。這就是我們現在常說的“大數定律”。
證明過程我們就不講了,你需要知道的是:正因為在數學上證明了大數定律,我們才從根本上确認了用頻率度量概率是合理的。換句話說,頻率法是确定靠譜的。
再深入一點,大數定律也證明了:在相同環境、重複試驗的條件下,用曆史數據預測未來是可行的,也是合理的。這就是統計學的根基,也是很多使用統計學方法進行研究的學科的根基。
所以你看,大數定律是不是很重要?當年雅各布也意識到自己的證明很重要,所以将它稱之為“黃金定理”。
事實上,大數定律是一個數學上“無限”的概念,類似于“無窮大”“無窮小”,是永遠也無法觸達的。在現實中,無限,真的做不到。
所以,為了讓這麼有用的大數定律在現實中真正發揮作用,必須做一些限制條件,讓需要重複的次數,或者采集的數據量變成有限的。
于是,數學家專門設置了兩個概念:一個叫“精度誤差”,另一個叫“置信度”。這兩個都是統計學的概念,不展開。
整體的确定性來對抗局部的随機性
雅各布花20年時間證明了大數定律。其實準确地說,他證明的是“弱大數定律”。
什麼是弱大數定律呢?就是說,試驗的數量越多,頻率接近真實概率的可能性越大。注意,這裡說的是“可能性”。也就是說,弱大數定律隻證明了,随着數據的增加,頻率接近概率的可能性越來越大,而不是100%的一定接近。這在數學上有個專業的名詞,叫“依概率收斂”。
弱大數定律是一個偉大的證明。雅各布的偉大之處就在于,他找到了對抗局部随機性的辦法,用頻率構建起了确定的整體概率。通過他的證明我們知道,不管局部怎麼随機,整體概率穩定的可能性是非常大的。
但整體概率穩定的可能性很大和一定穩定,還是有些差别的。隻有一定、100%的穩定,才是真正的确定性。
一個世紀前,蘇聯數學家、概率論的先驅柯爾莫哥洛夫(Kolmogorov)在雅各布的基礎上,做出了更加嚴密的證明,也就是“強大數定律”。
他通過計算證明,随着數據越來越多,頻率接近概率不僅是可能性越來越大,而是幾乎一定。也就是說,随着數據越來越多,頻率最終一定會接近真實概率。
到此為止,我們先用弱大數定律找到了整體,又用強大數定律确定了整體一定是穩定的。大數定律又被稱為“黃金定理”,它讓我們真正能用整體的确定性來對抗局部的随機性。
現實中的頻率都是局部頻率
有了整體的确定性,我們就能用大數定律搞定這個世界了嗎?
很遺憾,不是的。
因為大數定律起作用有個限制條件,隻有在數據無限的情況下,随機事件發生的頻率才等于它的概率。但上一講說了,無限是個數學概念,現實中哪有什麼無限呢?
無論我扔多少次硬币,都是有限次數的;無論我記錄了多少次飛行的數據,都是有限次數的;無論我記錄了一個球員多少場比賽投籃的命中情況,都是有限次數的。準确地說,現實中所有的事情都是有限的。我們記錄的所有頻率,都隻是局部頻率。
問題是,隻有數據量足夠多的時候,局部頻率才會接近真實概率。當數據量很少的時候,一件事發生的頻率可能和它的真實概率相差很大。
舉個例子吧。英國和法國曾經共同研制了一款超音速客機,叫“協和式客機”,1976年投入使用,從巴黎飛到紐約隻需要3小時20分鐘,比普通民航客機節省超過一半的時間。
協和式客機不僅擁有當時最高級别的安全設計,還有當時最高級别的安全保障,所以在長達24年的飛行中,它沒有發生過一起緻死事故,一度被認為是世界最安全的飛機。直到2000年7月25日,協和式客機出現了一次墜機事故。
截止那個時候,協和式客機總共飛行了八萬多次,因為這次墜機事故,它的緻死事故率立即從24年來的0上升到了八萬分之一,也就是每百萬次飛行失事12次。而作為對比,波音737的飛行超過一億次,它的緻死事故率隻有百萬分之0.4,隻有協和式客機的1/30。
這是協和式客機唯一一次重大事故。但因為這次事故,它一下子從世界上最安全的飛機變成了最危險的。僅僅三年之後,協和式客機就停飛了。
你說波音737真的比協和式客機安全30倍嗎?
不一定。因為協和式客機的飛行數據太少了,隻有區區八萬次,它出事故的頻率和真實的事故率之間,可能有很大的誤差。
而這個誤差到底有多大呢?那次失事是意外,還是飛機的設計真的有缺陷?八萬分之一的緻死事故率到底比真實概率大,還是比真實概率小?這些我們都無法知道,因為沒辦法讓協和式飛機再飛一億次了。
我們隻知道,當數據有限的時候,局部頻率和整體概率之間是有誤差的。
隻有随着數據量的增加,局部頻率才會越來越接近于整體概率。
大數定律就像一根繩索,用整體的确定性約束着局部的随機性,随着數據的增加把頻率這個口袋越勒越緊。
整體不需要對局部進行補償
這種整體對局部的約束作用,是怎麼進行的呢?
很多人會有一種樸素的想法,叫作“補償思維”。舉個例子,當硬币連續抛了10次都是正面朝上後,很多人就認為,下一次反面朝上的概率肯定得更高一些。因為隻有這樣才能補償不平衡的狀況,要不然怎麼保證最終硬币正面朝上的概率還是50%呢?
看起來很合理,但我要告訴你的是,這種思維是錯的。整體不需要通過補償來對局部産生作用,大數定律并不通過補償來實現。
還是剛才的例子,假如抛硬币前10次都是正面,那想讓正面朝上的概率穩定在50%,後面是不是得抛出更多的反面來補償呢?不需要。
比如,我們再抛1000次,假設500次正面,500次反面,沒有補償吧?現在正面的頻率是多少呢?510除以1010,下降成了50.50%了。抛10000次,假設5000次朝上,5000次朝下,還是沒有補償,這時候正面朝上的頻率,就變成了50.05%,非常接近于50%了。
打個比方,把一勺糖放在一杯水裡,你會覺得很甜,可是放到大海裡呢?海水的味道幾乎不會有任何改變。我們并沒有把糖從大海裡取出來,糖仍然在,隻是大海裡的水太多了,一勺糖對它的影響就被削弱,小到可以忽略不計了。就像網上被大家吐槽的,五塊錢的瑪莎拉蒂跑車的優惠券,優惠五塊錢,對買瑪莎拉蒂跑車沒影響呀。
明白了吧?大數定律不會對已經發生的情況進行補償,而是利用大量的正常數據,削弱那部分異常數據的影響。正常數據越多,異常數據的影響就越小,直到小到可以忽略不計。
整體通過均值回歸對局部起作用
可問題是,我們怎麼保證未來一定有大量的正常數據呢?換句話說,整體的确定性到底是如何保證的呢?
這就要涉及到另一個詞——均值回歸。
均值回歸的意思是說,如果一個數據和它的正常狀态偏差很大,那麼它向正常狀态回歸的概率就會變大。現實中,均值回歸的例子很多。比如,身高特别高的人,孩子往往不如他高;連續幾年超高收益率的基金經理,後幾年往往神奇不在……怎麼理解這種現象呢?
其實,均值回歸更準确的叫法應該是“趨均值回歸”,趨向均值的方向回歸。所以它産生作用的對象,是那些特殊的、異常的、極端的數據。這些異常的狀态是沒法長期持續的,所以回歸正常值的概率會變大。不過,至于是比正常值稍微高一些,還是稍微低一些,都有可能,完全是随機的。
比如,一個同學正常的數學水平是80分,這次超水平發揮考了100分,下一場考試,他大概率考不到100分,但可能考90分,可能考80分,也可能考70分。這些都比100分正常,都更接近他的真實水平,所以都是均值回歸。而不是說上次考100分,這次隻能考60分、50分來補償上次的高分。
再比如,卡尼曼在《思考快與慢》裡說到了一個例子:當卡尼曼在給以色列經驗豐富的飛行軍官培訓的時候說道,對良好行為的嘉獎比對錯誤行為的批評更有效的原則時,有軍官表示很不屑,挑釁道:“我覺得批評更容易讓士兵取得進步,根據我這麼多年的經驗,凡事表現差的士兵被我批評後,你看他下次一定表現的更好;而凡事表現好被我誇獎的士兵,他下一次一定表現的差。”卡尼曼那一刻産生了頓悟:其實無論是批評還是表揚,都會是這種現象,因為你不可能永遠表現優異,也不可能永遠表現很差,你下一次更大可能會往正常水平靠近一點點,這叫做“回歸均值現象”。
現在有些家長覺得自己的孩子必須一直成績分數很高,這都是不切實際的幻想。其實我們人發展的規律總是“波浪式”的,你隻需要保證它的趨勢線朝上即可,再加上耐心,該來的總會來,即使最終還是沒來,你也不枉此生,這個升級,進化的過程本生就很美好。
總之,大數定律不需要補償,而是通過均值回歸,通過産生大量的正常數據,削弱之前異常數據的影響。
明白了這個道理,再去審視我們的生活,很多現象就好理解了。比如我們經常會說一些俗語,運氣不好的時候,會說“三十年河東,三十年河西”;打牌或者玩遊戲連着輸的時候,會說“否極泰來”。怎麼理解這些話呢?
嚴格地說,都有一定的道理,但又都不全對。
為什麼說有一定的道理呢?因為它們蘊含了樸素的概率思維,知道在大多數情況下,不正常的狀态難以持續。正常情況下,誰的運氣也不可能一直壞嘛。
為什麼說它們不全對呢?因為不管是“三十年河東,三十年河西”,還是“否極泰來”,背後都蘊含着剛才我們說的補償思維,認為三十年河東後,之後三十年一定河西;“否極”後一定會“泰來”,一定有好運氣。
而我們現在知道,大數定律不需要通過補償來實現。極度的壞運氣過後不一定就有好運氣,而是通過均值回歸,讓運氣回到不那麼壞的正常狀态。所以更準确的說法應該是,“否極”後,可能“泰來”,也可能是回到運氣不好不壞的狀态,都有可能。
備注:本文部分内容引自劉嘉丨概率論。
,