大數定律有什麼講究-tft每日頭條

大數定律有什麼講究?大數定律就像一根繩索，用整體的确定性約束着局部的随機性，随着數據的增加把頻率這個口袋越勒越緊，我來為大家科普一下關于大數定律有什麼講究?以下内容希望對你有幫助!

大數定律有什麼講究

大數定律就像一根繩索，用整體的确定性約束着局部的随機性，随着數據的增加把頻率這個口袋越勒越緊。

概率論解決問題的核心思路：把局部的随機性轉化為整體上的确定性。

要實現這個轉化，靠的是什麼呢？當然就是“概率”。當一件事的概率确定了，它在整體上發生的可能性就确定了。

我們是如何度量概率的呢？

簡單來說，常用的度量概率的方法有三種——定義法、頻率法、叠代法。其中頻率法背後對應的是大數定律，叠代法對應的是貝葉斯定律。

本文主要讨論像“黃金一樣貴重”的大數定律。

頻率法，就是利用頻率度量概率。

頻率法認為，在有足夠多的數據的情況下，随機事件發生的頻率會無限接近它真實的概率。

頻率：一個随機事件出現的次數除以整體事件的次數，得到的值就是這個随機事件發生的頻率。

比如，很多人認為飛機是一種危險的交通工具，到底有多危險呢？衡量飛機的危險性，最直接的方法就是計算失事率嘛。我們用過去這麼多年飛機失事的次數，除以飛機總的飛行次數，得出的就是飛機失事的頻率。頻率法認為，這個飛機失事的頻率，就是未來飛機失事的概率。

在頻率法的眼中，概率是可以靠随機事件發生的頻率來計算出的。也就是說，頻率法理解這個世界的底層邏輯是，一個随機事件的發生，是存在一個真實的、客觀的概率的。

在這裡要區分一下頻率法與歸納法：

歸納法隻是經驗層面的，不可靠。

歸納法目的不是追求可靠性。

歸納法解決的主要問題之一是執果索因，為認識規律做鋪墊，推出一般性猜想或假說，然後再運用演繹對其進行修正和補充，直至最後得到物理學的普遍性結論。

數學是邏輯抽象層面的東西，就像現實中不存在沒有寬度的線，沒有厚度的面。

頻率法的基礎是大數定律，

大數定律也是因為數學上證明了，才能是絕對正确。

第一個對頻率和概率這個關系進行證明的，是雅各布·伯努利，一個十七世紀的瑞士數學家，也是那個時代最有才華的數學家之一。

雅各布·伯努利，他花了20年的時間，證明了這個“不言自明”或者說“顯而易見”的結論：随着試驗數據不斷累積，頻率和概率的差距會越來越小。

隻要重複的試驗或者觀測的數據足夠多，随機事件發生的頻率就會無限接近它的概率。這就是我們現在常說的“大數定律”。

證明過程我們就不講了，你需要知道的是：正因為在數學上證明了大數定律，我們才從根本上确認了用頻率度量概率是合理的。換句話說，頻率法是确定靠譜的。

再深入一點，大數定律也證明了：在相同環境、重複試驗的條件下，用曆史數據預測未來是可行的，也是合理的。這就是統計學的根基，也是很多使用統計學方法進行研究的學科的根基。

所以你看，大數定律是不是很重要？當年雅各布也意識到自己的證明很重要，所以将它稱之為“黃金定理”。

事實上，大數定律是一個數學上“無限”的概念，類似于“無窮大”“無窮小”，是永遠也無法觸達的。在現實中，無限，真的做不到。

所以，為了讓這麼有用的大數定律在現實中真正發揮作用，必須做一些限制條件，讓需要重複的次數，或者采集的數據量變成有限的。

于是，數學家專門設置了兩個概念：一個叫“精度誤差”，另一個叫“置信度”。這兩個都是統計學的概念，不展開。

整體的确定性來對抗局部的随機性

雅各布花20年時間證明了大數定律。其實準确地說，他證明的是“弱大數定律”。

什麼是弱大數定律呢？就是說，試驗的數量越多，頻率接近真實概率的可能性越大。注意，這裡說的是“可能性”。也就是說，弱大數定律隻證明了，随着數據的增加，頻率接近概率的可能性越來越大，而不是100%的一定接近。這在數學上有個專業的名詞，叫“依概率收斂”。

弱大數定律是一個偉大的證明。雅各布的偉大之處就在于，他找到了對抗局部随機性的辦法，用頻率構建起了确定的整體概率。通過他的證明我們知道，不管局部怎麼随機，整體概率穩定的可能性是非常大的。

但整體概率穩定的可能性很大和一定穩定，還是有些差别的。隻有一定、100%的穩定，才是真正的确定性。

一個世紀前，蘇聯數學家、概率論的先驅柯爾莫哥洛夫(Kolmogorov)在雅各布的基礎上，做出了更加嚴密的證明，也就是“強大數定律”。

他通過計算證明，随着數據越來越多，頻率接近概率不僅是可能性越來越大，而是幾乎一定。也就是說，随着數據越來越多，頻率最終一定會接近真實概率。

到此為止，我們先用弱大數定律找到了整體，又用強大數定律确定了整體一定是穩定的。大數定律又被稱為“黃金定理”，它讓我們真正能用整體的确定性來對抗局部的随機性。

現實中的頻率都是局部頻率

有了整體的确定性，我們就能用大數定律搞定這個世界了嗎？

很遺憾，不是的。

因為大數定律起作用有個限制條件，隻有在數據無限的情況下，随機事件發生的頻率才等于它的概率。但上一講說了，無限是個數學概念，現實中哪有什麼無限呢？

無論我扔多少次硬币，都是有限次數的；無論我記錄了多少次飛行的數據，都是有限次數的；無論我記錄了一個球員多少場比賽投籃的命中情況，都是有限次數的。準确地說，現實中所有的事情都是有限的。我們記錄的所有頻率，都隻是局部頻率。

問題是，隻有數據量足夠多的時候，局部頻率才會接近真實概率。當數據量很少的時候，一件事發生的頻率可能和它的真實概率相差很大。

舉個例子吧。英國和法國曾經共同研制了一款超音速客機，叫“協和式客機”，1976年投入使用，從巴黎飛到紐約隻需要3小時20分鐘，比普通民航客機節省超過一半的時間。

協和式客機不僅擁有當時最高級别的安全設計，還有當時最高級别的安全保障，所以在長達24年的飛行中，它沒有發生過一起緻死事故，一度被認為是世界最安全的飛機。直到2000年7月25日，協和式客機出現了一次墜機事故。

截止那個時候，協和式客機總共飛行了八萬多次，因為這次墜機事故，它的緻死事故率立即從24年來的0上升到了八萬分之一，也就是每百萬次飛行失事12次。而作為對比，波音737的飛行超過一億次，它的緻死事故率隻有百萬分之0.4，隻有協和式客機的1/30。

這是協和式客機唯一一次重大事故。但因為這次事故，它一下子從世界上最安全的飛機變成了最危險的。僅僅三年之後，協和式客機就停飛了。

你說波音737真的比協和式客機安全30倍嗎？

不一定。因為協和式客機的飛行數據太少了，隻有區區八萬次，它出事故的頻率和真實的事故率之間，可能有很大的誤差。

而這個誤差到底有多大呢？那次失事是意外，還是飛機的設計真的有缺陷？八萬分之一的緻死事故率到底比真實概率大，還是比真實概率小？這些我們都無法知道，因為沒辦法讓協和式飛機再飛一億次了。

我們隻知道，當數據有限的時候，局部頻率和整體概率之間是有誤差的。

隻有随着數據量的增加，局部頻率才會越來越接近于整體概率。

大數定律就像一根繩索，用整體的确定性約束着局部的随機性，随着數據的增加把頻率這個口袋越勒越緊。

整體不需要對局部進行補償

這種整體對局部的約束作用，是怎麼進行的呢？

很多人會有一種樸素的想法，叫作“補償思維”。舉個例子，當硬币連續抛了10次都是正面朝上後，很多人就認為，下一次反面朝上的概率肯定得更高一些。因為隻有這樣才能補償不平衡的狀況，要不然怎麼保證最終硬币正面朝上的概率還是50%呢？

看起來很合理，但我要告訴你的是，這種思維是錯的。整體不需要通過補償來對局部産生作用，大數定律并不通過補償來實現。

還是剛才的例子，假如抛硬币前10次都是正面，那想讓正面朝上的概率穩定在50%，後面是不是得抛出更多的反面來補償呢？不需要。

比如，我們再抛1000次，假設500次正面，500次反面，沒有補償吧？現在正面的頻率是多少呢？510除以1010，下降成了50.50%了。抛10000次，假設5000次朝上，5000次朝下，還是沒有補償，這時候正面朝上的頻率，就變成了50.05%，非常接近于50%了。

打個比方，把一勺糖放在一杯水裡，你會覺得很甜，可是放到大海裡呢？海水的味道幾乎不會有任何改變。我們并沒有把糖從大海裡取出來，糖仍然在，隻是大海裡的水太多了，一勺糖對它的影響就被削弱，小到可以忽略不計了。就像網上被大家吐槽的，五塊錢的瑪莎拉蒂跑車的優惠券，優惠五塊錢，對買瑪莎拉蒂跑車沒影響呀。

明白了吧？大數定律不會對已經發生的情況進行補償，而是利用大量的正常數據，削弱那部分異常數據的影響。正常數據越多，異常數據的影響就越小，直到小到可以忽略不計。

整體通過均值回歸對局部起作用

可問題是，我們怎麼保證未來一定有大量的正常數據呢？換句話說，整體的确定性到底是如何保證的呢？

這就要涉及到另一個詞——均值回歸。

均值回歸的意思是說，如果一個數據和它的正常狀态偏差很大，那麼它向正常狀态回歸的概率就會變大。現實中，均值回歸的例子很多。比如，身高特别高的人，孩子往往不如他高；連續幾年超高收益率的基金經理，後幾年往往神奇不在……怎麼理解這種現象呢？

其實，均值回歸更準确的叫法應該是“趨均值回歸”，趨向均值的方向回歸。所以它産生作用的對象，是那些特殊的、異常的、極端的數據。這些異常的狀态是沒法長期持續的，所以回歸正常值的概率會變大。不過，至于是比正常值稍微高一些，還是稍微低一些，都有可能，完全是随機的。

比如，一個同學正常的數學水平是80分，這次超水平發揮考了100分，下一場考試，他大概率考不到100分，但可能考90分，可能考80分，也可能考70分。這些都比100分正常，都更接近他的真實水平，所以都是均值回歸。而不是說上次考100分，這次隻能考60分、50分來補償上次的高分。

再比如，卡尼曼在《思考快與慢》裡說到了一個例子：當卡尼曼在給以色列經驗豐富的飛行軍官培訓的時候說道，對良好行為的嘉獎比對錯誤行為的批評更有效的原則時，有軍官表示很不屑，挑釁道：“我覺得批評更容易讓士兵取得進步，根據我這麼多年的經驗，凡事表現差的士兵被我批評後，你看他下次一定表現的更好；而凡事表現好被我誇獎的士兵，他下一次一定表現的差。”卡尼曼那一刻産生了頓悟：其實無論是批評還是表揚，都會是這種現象，因為你不可能永遠表現優異，也不可能永遠表現很差，你下一次更大可能會往正常水平靠近一點點，這叫做“回歸均值現象”。

現在有些家長覺得自己的孩子必須一直成績分數很高，這都是不切實際的幻想。其實我們人發展的規律總是“波浪式”的，你隻需要保證它的趨勢線朝上即可，再加上耐心，該來的總會來，即使最終還是沒來，你也不枉此生，這個升級，進化的過程本生就很美好。

總之，大數定律不需要補償，而是通過均值回歸，通過産生大量的正常數據，削弱之前異常數據的影響。

明白了這個道理，再去審視我們的生活，很多現象就好理解了。比如我們經常會說一些俗語，運氣不好的時候，會說“三十年河東，三十年河西”；打牌或者玩遊戲連着輸的時候，會說“否極泰來”。怎麼理解這些話呢？

嚴格地說，都有一定的道理，但又都不全對。

為什麼說有一定的道理呢？因為它們蘊含了樸素的概率思維，知道在大多數情況下，不正常的狀态難以持續。正常情況下，誰的運氣也不可能一直壞嘛。

為什麼說它們不全對呢？因為不管是“三十年河東，三十年河西”，還是“否極泰來”，背後都蘊含着剛才我們說的補償思維，認為三十年河東後，之後三十年一定河西；“否極”後一定會“泰來”，一定有好運氣。

而我們現在知道，大數定律不需要通過補償來實現。極度的壞運氣過後不一定就有好運氣，而是通過均值回歸，讓運氣回到不那麼壞的正常狀态。所以更準确的說法應該是，“否極”後，可能“泰來”，也可能是回到運氣不好不壞的狀态，都有可能。

備注：本文部分内容引自劉嘉丨概率論。