統計學、機率

 
notion image
 
參考資料
 

 

基礎知識

變異數 (variance)

  1. 用來測量分布的離散程度。
  1. 變異數是各資料點到平均值的距離平方的平均值。
  1. 如果分布中,所有資料點數值都相同,則變異數為0。如果一半的資料值為4、另一半為10,則平均每個資料點與平均值的距離為3,變異數等於9
 

標準差 (standard deviation)

  1. 標準差 = 變異數的平方根
 

大數定律 (Law of large numbers)

  1. 同一件事做很多次,總體平均收益會接近期望值
  1. 在一個無限遊戲中,永遠要選數學期望高的選項,即使這個選項未必能為你帶來成功
  1. 使個體的不確定性被轉化為群體的確定性
  1. 頂尖的專業投資人之所以頂尖,是因為他獨有的投資原則的數學期望比其他人高,同時他對大數定律的信仰比別人強
 
Example:詐騙電話
  1. 會受騙的人不多,所以單一 一次詐騙的成功率不高
  1. 但只要嘗試夠多次,排除掉「不容易被騙的人」,找出「容易被騙的人」,用力騙一次,把錢騙到手
 

 

條件機率 貝氏定理 (Conditionl Probability)

 
Intro
  • PA|B)
  • 「『事件A』在『事件B發生的條件下』發生的機率」
 
notion image
notion image
 

範例:檢驗準確率、實際有服用興奮劑的機率

事件描述:
  • A: 運動員有服用興奮劑的事件
  • B: 檢驗結果為陽性的事件
  • ~B: 檢驗結果為陰性
 
  • P(A) = 2%, 運動員有服用興奮劑的 機率
  • P(B|A) = 95%
    • 檢驗測試的正確率 = 95%
    • = 實際上有服用興奮劑的情況下,測試結果為陽性的機率
    • = 實際上沒有服用興奮劑的情況下,檢驗結果為陰性的機率
  • P(A|B),即「在測試結果為陽性的情況下,實際上有服用興奮劑的機率」
 
notion image
有 19+49 = 68 人被檢測為陽性
 
檢驗結果為陽性,且實際上有服用興奮劑的機率 = P(A|B) = 19 / 68 = 28%
 
解讀:
  1. 如果某人的檢測呈陽性,這人真正服用興奮劑的可能性只有19/68 = 28%——其他72%的陽性檢測是假指控。雖然藥物檢測可以宣稱「95%準確」,但檢測呈陽性的大多數人事實上是未服用者
  1. 這種明顯的矛盾在現實生活中會造成問題:因為運動員沒有通過藥物檢測,便遭人隨意指責
 
notion image
根據貝氏定理,P(B) = (0.02 * 0.95) / 0.28 = 6.8%
P(B) = 測試結果為陽性的機率 = 6.8%
 
注意:
  • P(B|A) = 檢驗測試的正確率 = 有服用興奮劑,且檢測呈陽性的機率 = 95%
  • P(A|B) = 檢驗結果為陽性,且實際上有服用興奮劑的機率 = 28%
 
notion image
 

應用貝氏定理 在工作、創業

  1. 貝氏定理可以:
    1. 「使用領域知識、新獲得的資料證據 」,來不斷「更新你現有的認知」,「綜合所有資訊」去描述世界的狀態
    2. 隨著你不斷更新「搜集新的資料」,貝氏統計不會決定你的預測結果,反而是「更新你的認知」,知道「這個預測結果的 未知風險 有多大」
    3. 我們並非總是能拿到很多樣本作為參考,貝氏統計在你搜集到少少資料點的時候,就幫你清楚量化估計的「不確定性」有多大,讓你有個標準可以決定「該不該採用這項估計做決策」。貝氏統計的參數估計分佈讓你知道你還有多少「不知道」。
  1. 結論:「正確的事情,重複做」
    1. 用貝氏定理不斷復盤、改進自己的流程,從而總結出那些「會帶來成功機率大的事情」,也就是「正確的事情」
    2. 然後透過重複做這些正確的事情,在每一輪競爭中戰勝競爭對手,獲得下一輪融資,最終贏得巨大成功。  
    3.  
 
 

常態分佈 Normal Distribution

背景:常態分佈 v.s. 長尾分佈

  1. 社會上的許多現象,例如銷售資料或投票總數這類加總資料,都可以看成 隨機事件的總和,呈現 常態分佈
    1. 例:由常態分布可以得知,身高不會有極端差異,因此飛機設計師不用為三公尺高的人設計伸腳空間
    2. 例:防止抗爭發生最主要取決於安撫極端份子,而非降低不滿意的平均程度
  1. 另一種分布:長尾分佈
    1. 地震規模、戰爭死亡人數和書籍銷售量,這些事件大部分發生的數值都很小,但有時候會突然出現龐大數字。
    2. 例:加州人每年都會歷經超過一萬次地震,除非緊盯著茉莉花瓣是否抖動,不然不太可能會發現有地震。但有時也會有地殼板塊劇烈運動,造成高速公路斷裂和大樓坍塌的巨型地震。
  1. 瞭解系統產生的結果是 常態分佈長尾分佈,十分重要
    1. 因為我們想知道電力網會不會有大規模停電危機,或是金融市場會不會造成超級貧富差距。利用分布知識,我們可以預測洪水是否將漫出堤壩、達美航空238班機準時抵達鹽湖城的機率,以及交通運輸中心成本超出預算一倍的機率。
 

常態分佈 基礎

 

中央極限定理

  1. 20 個以上的 獨立隨機變數 的平均值會近似於常態分佈
  1. 前提:
    1. 所有隨機變數之間是獨立的
    2. 變異數的大小有限
    3. 沒有任何小群組的變數貢獻了大部分的變異數

常態分布

  1. 平均值正負一個標準差之間包含 68% 的資料點、兩個標準差包含 95%、三個標準差包含 99%
    1. notion image
  1. 任何大小的結果或事件都有機率發生,雖然大數值事件的發生機率極低──距離平均值五個標準差的事件,只有兩百萬分之一的發生機率

常態分佈的應用

群體裡的個數愈多,則平均標準差會愈小

  1. 所以:在愈小的群體,愈容易看到極好 or 極壞 的事件
  1. 例:
    1. 住在小城市,要不是非常安全、要不就非常危險
    2. 人口較少的國家,肥胖和癌症發生的機率特別高
notion image
 

顯著性檢定

  1. 如果觀測到的實際平均值落在假設平均值的兩個標準差之外,社會科學家就會認定這個假設是錯的
    1. notion image
 

六個標準差方法 (Six sigma Method)

  1. 利用常態分佈提供品質管制的相關資訊
  1. 假設:產品誤差在 6 個標準差之內都算合格
notion image
 
參考筆記:
 

對數常態分佈 - Intro

  1. 若利用中央極限定理,則需要將獨立的隨機變數加總或平均,來得到常態分布。
  1. 如果隨機變數使用加法以外的方式互動,或者並非獨立,產生的分布就幾乎都不是常態分布。
  1. 如果獨立隨機變數 相乘 產生的隨機變數為 對數常態分布 (而非常態分布)
  1. 對數常態分布只能包含正數、同時擁有長尾型態,代表可能出現更多的大數值事件,而小數值事件發生的機率則比常態分布還多
  1. 對數常態分布的長尾,長度取決於隨機變數的變異數相乘結果。如果變異數很小,尾巴就會很短;如果變異數很大,尾巴就會非常長。理由就如同上一段提到的,一系列大數值相乘,會產生非常巨大的數值
notion image
 

常見的 對數常態分佈範例:

  1. 英國農莊大小
  1. 地球礦物集中度
  1. 從感染疾病到出現症狀的時間
  1. 許多國家的收入分布也很接近對數常態分布,但是很多國家的長尾端有太多高收入人群,導致偏離了對數常態分布。
 
範例:公司用不同方式對員工加薪,導致薪水數字呈現不同種類的分佈
notion image
 
 
 

 

長尾分佈 (Long-tailed Distribution)

長尾分佈 - Intro

 
  1. 非獨立事件、且通常為 “正回饋” 的數據極端大數值 的事件
  1. 回饋交互作用,會造成長尾分佈
    1. 世界上各種 國家/公司/人群 之間的相互連結和回饋持續增加,我們會看到愈來愈多呈現長尾分佈的事情
    2. 且其 “尾部” 會拉得更長
    3. 這代表:
      1. 不公平的事情其極端值得不公平程度會擴大
  1. ”大數值事件“ 通常只佔少數
    1. 大部分地震的規模都很大地震的雖然發生機率小,但一但發生時可能就會很嚴重
  1. 常態分布 vs 長尾分布
    1. 常態分布 中,幾乎看不到大數值事件。
    2. 長尾分布 中,雖然大數值事件也很少發生,但發生頻率已足夠得到關注,且我們必須為這些事件做好準備。就算是發生機率僅有百萬分之一的事件,也很值得注意
 

長尾分佈 - 範例:

  1. 一個國家中各個城市人口的數量
    1. 當大城市人口增加的同時,新建的公共設施和工作機會將吸引更多人遷入 (相較於其他較小的城市)
  1. 書籍銷售量、影片下載次數、學術論文引用次數
    1. 當有人購買《哈利波特》小說時,基於口碑,會讓其他人的購買機率增加
  1. 森林大火、水災、地震嚴重的程度
    1. 當一棵樹著火時,火勢會延燒到鄰近樹木
  1. 當醫生 vs 當 startup 企業家
    1. 假設當醫生的薪水:
      1. 呈現常態分佈
      2. 平均值較高
    2. 假設當 startup 企業家的薪水:
      1. 呈現長尾分佈
      2. 冪率分佈的指數絕對值 = 3
    3. “一個人可以嘗試新工作的次數” 決定了 “他能找到的工作的薪水有多高”
      1. 假設 A 是醫生,B 是 startup 企業家。A 持續換工作但持續當醫生,B 持續換工作但持續當醫生 startup 企業家,B 能獲得的薪水可能比 A 高
  1. 人去陌生的某國家,選擇中午午餐要吃什麼
    1. 如果只是短暫待幾天
      1. 人會傾向選擇 “網路上好評較多的餐廳” or “知名的連鎖餐廳”
    2. 如果是長住一陣子 (代表人需要吃很多次午餐,有很多次 “選擇餐廳” 的機會)
      1. 人會願意 嘗試許多不同型態的餐廳
  1. 物種滅絕
  1. 網路連結數目
  1. 戰爭傷亡人數
 

<6> 長尾分佈 - 偏好依附模型 (Preferential Attachment Model)

Intro
  1. 認為實體的成長率相當於實體的占比
    1. “單獨個人的行動” 會提高其他人做相同行動的機率
    2. 符合馬太效應:大者恆大、贏家通吃

可用來解釋這些情境:

  1. 各個城市人口分布 (當城市人口增加時,新建的公共設施和工作機會將吸引更多人遷入)
  1. 書籍銷量 (當有人購買《哈利波特》小說時,基於口碑,會讓其他人的購買機率增加,且很多人是看書店銷售排行榜來買書)
  1. 音樂下載量
  1. 大學大一新鮮人,選擇加入社團:
    1. 加入 「人數多的社團」的機率 高於 加入「人數少的社團」
    2. 選擇「加入現有社團」的機率 高於「自己去建立新的社團」
 

<7> 長尾分佈 - 自我組織臨界模型 (Self-Organized Criticality Model)

Intro
  1. 森林會自然而然會達到臨界密度
    1. 因為如果密度較低,火災規模較小,則森林密度會逐漸增加
    2. 如果森林密度超過某個臨界值,則星星之火就可以燎原
  1. 巨觀變數值會在事件發生時 (沙堆崩塌或森林大火),迅速減少。
    1. 其他相仿的自我組織臨界模型(可以解釋太陽閃焰、地震和交通阻塞分布),也有類似的特徵
  1. 雖然「在事件發生時,造成原本不斷增加的巨觀層級變數值瞬間下降」是自我組織模型的必要條件
    1. 自我組織臨界狀態必定會發生變數值瞬間下降,但發生變數值瞬間下降並不代表一定是到達了自我組織臨界狀態
    2. 平衡系統也有這些特性,湖中的水隨時都在流進流出,但因為水流量十分平穩,湖水面的變化非常緩慢。自我組織達到臨界狀態的重要假設為:壓力慢慢增加時,就像水流入湖中般十分平穩,可是達到臨界狀態時,壓力會急遽下降,並且可能發生大數值事件

可用來解釋這些情境:

  1. 交通阻塞
  1. 戰爭的死亡人數
  1. 地震、火災、雪崩的規模

冪律分布 (Power-law Distribution)

  1. 事件發生機率和事件大小的負指數成正比
    1. 冪律分布中,事件數值愈大,發生機率愈低,事件數值和發生機率呈現負相關。
    2. 在冪律分布中,小數值事件的發生機率比大數值事件高出許多。
      1. notion image
  1. 並不是所有長尾的分布都是 冪律分布
    1. 例如:對數常態分布,就不是冪律分布
    2. 在雙對數坐標上繪製分布,可以簡單檢測分布是否為冪律分布
      1. 雙對數坐標圖將 事件大小 和 機率 都轉換為對數值,並將冪律分布轉換為一條直線
      2. 在雙對數坐標上的分布若為直線,就能證明是冪律分布
      3. 而如果直線逐漸下彎,則符合對數常態分布或指數分布(exponential distribution)
      4. 對數常態分布的曲線下彎率,取決於構成分布的變數的變異量。
      5. 如果增加對數常態分布的變異數,則尾巴會加長,讓雙對數坐標上的曲線更接近直線。
      6. notion image
  1. 冪律分布的指數大小,決定了大數值事件的發生機率。
    1. 指數等於 1
      1. 例如:大小數值為100的事件,發生機率正比於1/100
        1. notion image
    2. 如果指數絕對值為2或以下,冪律分布會缺乏定義良好的平均值。從指數絕對值1.5的冪律分布中抽出資料,平均值並不會收斂,而會不受限制的增加──如圖6.1左側,曲線往上竄升的情況
    3. 指數等於2 的冪律分布 稱為 齊夫分布(Zipf distribution
      1. notion image
      2. 事件發生機率與事件大小的平方成反比。
      3. 例如:大小數值為100的事件,發生機率正比於1/10000
    4. 假如指數增加到3,
      1. notion image
      2. 例如:大小數值為100的事件,發生機率則正比於1/1000000
 

齊夫分佈(Zipf distribution)

Intro
  1. 指數等於2 的冪律分布,稱為 齊夫分布(Zipf distribution
  1. 在齊夫分布中,事件排名 乘以 發生機率,會等於常數,這項規則稱為齊夫定律(Zipf's Law)。
 

齊夫分佈 範例

  1. 英文單字
    1. 最常見的英文單字the,出現機率約為7%
    2. 次常見的單字of,出現機率約為3.5%。
      1. 請注意,排名 “2” 乘以出現機率 “3.5%” 等於7%
  1. 如果災難事件發生機率呈現冪律分布、且指數接近2,則政府必須保留大量預備金,隨時準備支應災難支出。畢竟未雨綢繆,有備無患。如果政府決定維持大量預備金,則在還沒有發生大災難時,就不應隨意花費這筆資金或任意減稅
  1. 包含美國在內,許多國家的城市人口數目分布,近似於齊夫定律。
    1. 若使用美國2016年城市人口資料進行驗證,會發現每個城市排名乘以人口數,會接近八百萬
      1. notion image
 
 

統計謬誤

基本比率謬誤(Base Rate Fallacy)

範例:Google的搜索引擎市場有多大,究竟要怎麼定義?
notion image
notion image
 
 

辛普森悖論(Simpson's paradox)

問題到底出在哪裡?出在分群組原則上。某些特定的分群組原則確實有可能導致「在總評中弱勢的一方在分組比較中反而占優勢」這種情況的出現。
 

倖存者偏見(Survivorship Bias)

notion image
所有成功的企業家都是商業世界的倖存者,只學習這些倖存者是不可能得出正確結論的。要想找到真正的成功祕訣,你應該在全部樣本中抽樣統計,去採訪一下那些創業失敗的人。當你這樣做了之後,你可能會發現,他們也挺堅持的,只是堅持的事情不對。