統計學、機率

參考資料

多模型思維：天才的32個思考策略-momo購物網

多模型思維：天才的32個思考策略 - momo 購物網

https://www.momoshop.com.tw/goods/GoodsDetail.jsp?i_code=8613657

底層邏輯2：帶你升級思考，挖掘數字裡蘊含的商業寶藏-momo購物網

底層邏輯2：帶你升級思考，挖掘數字裡蘊含的商業寶藏 - momo 購物網

https://www.momoshop.com.tw/goods/GoodsDetail.jsp?i_code=11884056

基礎知識變異數 (variance)標準差 (standard deviation)大數定律 (Law of large numbers)條件機率貝氏定理 (Conditionl Probability)範例：檢驗準確率、實際有服用興奮劑的機率應用貝氏定理在工作、創業常態分佈 Normal Distribution 統計謬誤基本比率謬誤（Base Rate Fallacy）辛普森悖論（Simpson's paradox）倖存者偏見（Survivorship Bias）

基礎知識

變異數 (variance)

用來測量分布的離散程度。

變異數是各資料點到平均值的距離平方的平均值。

如果分布中，所有資料點數值都相同，則變異數為0。如果一半的資料值為4、另一半為10，則平均每個資料點與平均值的距離為3，變異數等於9

標準差 (standard deviation)

標準差 = 變異數的平方根

大數定律 (Law of large numbers)

同一件事做很多次，總體平均收益會接近期望值

在一個無限遊戲中，永遠要選數學期望高的選項，即使這個選項未必能為你帶來成功

使個體的不確定性被轉化為群體的確定性

頂尖的專業投資人之所以頂尖，是因為他獨有的投資原則的數學期望比其他人高，同時他對大數定律的信仰比別人強

Example：詐騙電話

會受騙的人不多，所以單一一次詐騙的成功率不高

但只要嘗試夠多次，排除掉「不容易被騙的人」，找出「容易被騙的人」，用力騙一次，把錢騙到手

條件機率貝氏定理 (Conditionl Probability)

Intro

P（A|B)

「『事件A』在『事件B發生的條件下』發生的機率」

範例：檢驗準確率、實際有服用興奮劑的機率

事件描述：

A: 運動員有服用興奮劑的事件

B: 檢驗結果為陽性的事件

~B: 檢驗結果為陰性

P(A) = 2%，運動員有服用興奮劑的機率

P(B|A) = 95%

檢驗測試的正確率 = 95%
= 實際上有服用興奮劑的情況下，測試結果為陽性的機率
= 實際上沒有服用興奮劑的情況下，檢驗結果為陰性的機率

P(A|B)，即「在測試結果為陽性的情況下，實際上有服用興奮劑的機率」

有 19+49 = 68 人被檢測為陽性

檢驗結果為陽性，且實際上有服用興奮劑的機率 = P(A|B) = 19 / 68 = 28%

解讀：

如果某人的檢測呈陽性，這人真正服用興奮劑的可能性只有19/68 = 28%——其他72%的陽性檢測是假指控。雖然藥物檢測可以宣稱「95%準確」，但檢測呈陽性的大多數人事實上是未服用者

這種明顯的矛盾在現實生活中會造成問題：因為運動員沒有通過藥物檢測，便遭人隨意指責

根據貝氏定理，P(B) = (0.02 * 0.95) / 0.28 = 6.8%

P(B) = 測試結果為陽性的機率 = 6.8%

注意：

P(B|A) = 檢驗測試的正確率 = 有服用興奮劑，且檢測呈陽性的機率 = 95%

P(A|B) = 檢驗結果為陽性，且實際上有服用興奮劑的機率 = 28%

應用貝氏定理在工作、創業

貝氏定理可以：

「使用領域知識、新獲得的資料證據」，來不斷「更新你現有的認知」，「綜合所有資訊」去描述世界的狀態
隨著你不斷更新「搜集新的資料」，貝氏統計不會決定你的預測結果，反而是「更新你的認知」，知道「這個預測結果的未知風險有多大」
我們並非總是能拿到很多樣本作為參考，貝氏統計在你搜集到少少資料點的時候，就幫你清楚量化估計的「不確定性」有多大，讓你有個標準可以決定「該不該採用這項估計做決策」。貝氏統計的參數估計分佈讓你知道你還有多少「不知道」。

結論：「正確的事情，重複做」

用貝氏定理不斷復盤、改進自己的流程，從而總結出那些「會帶來成功機率大的事情」，也就是「正確的事情」
然後透過重複做這些正確的事情，在每一輪競爭中戰勝競爭對手，獲得下一輪融資，最終贏得巨大成功。

為何要用貝氏統計？讓決策持續進化的灰階思考 • 好豪筆記

貝氏統計並不只是特定的數學公式、而是一套分析框架，這套框架幫助你在模型加入個人觀點、讓統計模型隨著新的資料取得不斷進化、並且量化你對決策究竟有多麽「不確定」。這則筆記不談艱澀數學公式，將概念性地告訴你為何值得學會應用貝氏統計來進行分析。

https://haosquare.com/why-bayeisan-statistics/

《統計的藝術》：提供了從經驗中找答案的正式機制，這就是「貝氏定理」的關鍵貢獻 - The News Lens 關鍵評論網

本書對於統計學及其廣泛的應用作了深入解讀，讀這本書，你會對統計學產生興趣，知道統計學在做什麼，以及如何應用到實際問題上，還有統計學這門學問的美妙精髓與限制，這些將是讀者珍貴的收穫。

https://www.thenewslens.com/article/155789

常態分佈 Normal Distribution

背景：常態分佈 v.s. 長尾分佈

社會上的許多現象，例如銷售資料或投票總數這類加總資料，都可以看成隨機事件的總和，呈現常態分佈。

例：由常態分布可以得知，身高不會有極端差異，因此飛機設計師不用為三公尺高的人設計伸腳空間
例：防止抗爭發生最主要取決於安撫極端份子，而非降低不滿意的平均程度

另一種分布：長尾分佈

地震規模、戰爭死亡人數和書籍銷售量，這些事件大部分發生的數值都很小，但有時候會突然出現龐大數字。
例：加州人每年都會歷經超過一萬次地震，除非緊盯著茉莉花瓣是否抖動，不然不太可能會發現有地震。但有時也會有地殼板塊劇烈運動，造成高速公路斷裂和大樓坍塌的巨型地震。

瞭解系統產生的結果是常態分佈或長尾分佈，十分重要

因為我們想知道電力網會不會有大規模停電危機，或是金融市場會不會造成超級貧富差距。利用分布知識，我們可以預測洪水是否將漫出堤壩、達美航空238班機準時抵達鹽湖城的機率，以及交通運輸中心成本超出預算一倍的機率。

常態分佈基礎

中央極限定理

20 個以上的獨立隨機變數的平均值會近似於常態分佈

前提：

所有隨機變數之間是獨立的
變異數的大小有限
沒有任何小群組的變數貢獻了大部分的變異數

常態分布：

平均值正負一個標準差之間包含 68% 的資料點、兩個標準差包含 95%、三個標準差包含 99%

任何大小的結果或事件都有機率發生，雖然大數值事件的發生機率極低──距離平均值五個標準差的事件，只有兩百萬分之一的發生機率

常態分佈的應用

群體裡的個數愈多，則平均標準差會愈小

所以：在愈小的群體，愈容易看到極好 or 極壞的事件

例：

住在小城市，要不是非常安全、要不就非常危險
人口較少的國家，肥胖和癌症發生的機率特別高

顯著性檢定

如果觀測到的實際平均值落在假設平均值的兩個標準差之外，社會科學家就會認定這個假設是錯的

六個標準差方法 (Six sigma Method)

利用常態分佈提供品質管制的相關資訊

假設：產品誤差在 6 個標準差之內都算合格

參考筆記：

大部分管理工作都是在 ”縮小差異性“

對數常態分佈 - Intro

若利用中央極限定理，則需要將獨立的隨機變數加總或平均，來得到常態分布。

如果隨機變數使用加法以外的方式互動，或者並非獨立，產生的分布就幾乎都不是常態分布。

如果獨立隨機變數相乘產生的隨機變數為對數常態分布 (而非常態分布)

對數常態分布只能包含正數、同時擁有長尾型態，代表可能出現更多的大數值事件，而小數值事件發生的機率則比常態分布還多

對數常態分布的長尾，長度取決於隨機變數的變異數相乘結果。如果變異數很小，尾巴就會很短；如果變異數很大，尾巴就會非常長。理由就如同上一段提到的，一系列大數值相乘，會產生非常巨大的數值

常見的對數常態分佈範例：

英國農莊大小

地球礦物集中度

從感染疾病到出現症狀的時間

許多國家的收入分布也很接近對數常態分布，但是很多國家的長尾端有太多高收入人群，導致偏離了對數常態分布。

範例：公司用不同方式對員工加薪，導致薪水數字呈現不同種類的分佈

長尾分佈 (Long-tailed Distribution)

長尾分佈 - Intro

非獨立事件、且通常為 “正回饋” 的數據，有極端大數值的事件

回饋和交互作用，會造成長尾分佈

世界上各種國家/公司/人群之間的相互連結和回饋持續增加，我們會看到愈來愈多呈現長尾分佈的事情
且其 “尾部” 會拉得更長
這代表：

不公平的事情其極端值得不公平程度會擴大

”大數值事件“ 通常只佔少數

大部分地震的規模都很大地震的雖然發生機率小，但一但發生時可能就會很嚴重

常態分布 vs 長尾分布

在常態分布中，幾乎看不到大數值事件。
在長尾分布中，雖然大數值事件也很少發生，但發生頻率已足夠得到關注，且我們必須為這些事件做好準備。就算是發生機率僅有百萬分之一的事件，也很值得注意

長尾分佈 - 範例：

一個國家中各個城市人口的數量

當大城市人口增加的同時，新建的公共設施和工作機會將吸引更多人遷入 (相較於其他較小的城市)

書籍銷售量、影片下載次數、學術論文引用次數

當有人購買《哈利波特》小說時，基於口碑，會讓其他人的購買機率增加

森林大火、水災、地震嚴重的程度

當一棵樹著火時，火勢會延燒到鄰近樹木

當醫生 vs 當 startup 企業家

假設當醫生的薪水：

呈現常態分佈
平均值較高

假設當 startup 企業家的薪水：

呈現長尾分佈
冪率分佈的指數絕對值 = 3

“一個人可以嘗試新工作的次數” 決定了 “他能找到的工作的薪水有多高”

假設 A 是醫生，B 是 startup 企業家。A 持續換工作但持續當醫生，B 持續換工作但持續當醫生 startup 企業家，B 能獲得的薪水可能比 A 高

人去陌生的某國家，選擇中午午餐要吃什麼

如果只是短暫待幾天

人會傾向選擇 “網路上好評較多的餐廳” or “知名的連鎖餐廳”

如果是長住一陣子 (代表人需要吃很多次午餐，有很多次 “選擇餐廳” 的機會)

人會願意嘗試許多不同型態的餐廳

物種滅絕

網路連結數目

戰爭傷亡人數

<6> 長尾分佈 - 偏好依附模型 (Preferential Attachment Model)

Intro

認為實體的成長率相當於實體的占比

“單獨個人的行動” 會提高其他人做相同行動的機率
符合馬太效應：大者恆大、贏家通吃

可用來解釋這些情境：

各個城市人口分布 (當城市人口增加時，新建的公共設施和工作機會將吸引更多人遷入)

書籍銷量 (當有人購買《哈利波特》小說時，基於口碑，會讓其他人的購買機率增加，且很多人是看書店銷售排行榜來買書)

音樂下載量

大學大一新鮮人，選擇加入社團：

加入「人數多的社團」的機率高於加入「人數少的社團」
選擇「加入現有社團」的機率高於「自己去建立新的社團」

<7> 長尾分佈 - 自我組織臨界模型 (Self-Organized Criticality Model)

Intro

森林會自然而然會達到臨界密度，

因為如果密度較低，火災規模較小，則森林密度會逐漸增加
如果森林密度超過某個臨界值，則星星之火就可以燎原

巨觀變數值會在事件發生時 (沙堆崩塌或森林大火)，迅速減少。

其他相仿的自我組織臨界模型（可以解釋太陽閃焰、地震和交通阻塞分布），也有類似的特徵

雖然「在事件發生時，造成原本不斷增加的巨觀層級變數值瞬間下降」是自我組織模型的必要條件

自我組織臨界狀態必定會發生變數值瞬間下降，但發生變數值瞬間下降並不代表一定是到達了自我組織臨界狀態
平衡系統也有這些特性，湖中的水隨時都在流進流出，但因為水流量十分平穩，湖水面的變化非常緩慢。自我組織達到臨界狀態的重要假設為：壓力慢慢增加時，就像水流入湖中般十分平穩，可是達到臨界狀態時，壓力會急遽下降，並且可能發生大數值事件

可用來解釋這些情境：

交通阻塞

戰爭的死亡人數

地震、火災、雪崩的規模

冪律分布 (Power-law Distribution)

事件發生機率和事件大小的負指數成正比。

冪律分布中，事件數值愈大，發生機率愈低，事件數值和發生機率呈現負相關。
在冪律分布中，小數值事件的發生機率比大數值事件高出許多。

並不是所有長尾的分布都是冪律分布

例如：對數常態分布，就不是冪律分布
在雙對數坐標上繪製分布，可以簡單檢測分布是否為冪律分布

雙對數坐標圖將事件大小和機率都轉換為對數值，並將冪律分布轉換為一條直線
在雙對數坐標上的分布若為直線，就能證明是冪律分布
而如果直線逐漸下彎，則符合對數常態分布或指數分布（exponential distribution）
對數常態分布的曲線下彎率，取決於構成分布的變數的變異量。
如果增加對數常態分布的變異數，則尾巴會加長，讓雙對數坐標上的曲線更接近直線。

冪律分布的指數大小，決定了大數值事件的發生機率。

指數等於 1

例如：大小數值為100的事件，發生機率正比於1/100

如果指數絕對值為2或以下，冪律分布會缺乏定義良好的平均值。從指數絕對值1.5的冪律分布中抽出資料，平均值並不會收斂，而會不受限制的增加──如圖6.1左側，曲線往上竄升的情況
指數等於2 的冪律分布稱為齊夫分布（Zipf distribution）

事件發生機率與事件大小的平方成反比。
例如：大小數值為100的事件，發生機率正比於1/10000

假如指數增加到3，

例如：大小數值為100的事件，發生機率則正比於1/1000000

齊夫分佈（Zipf distribution）

Intro

指數等於2 的冪律分布，稱為齊夫分布（Zipf distribution）

在齊夫分布中，事件排名乘以發生機率，會等於常數，這項規則稱為齊夫定律（Zipf's Law）。

齊夫分佈範例

英文單字

最常見的英文單字the，出現機率約為7%
次常見的單字of，出現機率約為3.5%。

請注意，排名 “2” 乘以出現機率 “3.5%” 等於7%

如果災難事件發生機率呈現冪律分布、且指數接近2，則政府必須保留大量預備金，隨時準備支應災難支出。畢竟未雨綢繆，有備無患。如果政府決定維持大量預備金，則在還沒有發生大災難時，就不應隨意花費這筆資金或任意減稅

包含美國在內，許多國家的城市人口數目分布，近似於齊夫定律。

若使用美國2016年城市人口資料進行驗證，會發現每個城市排名乘以人口數，會接近八百萬

統計謬誤

基本比率謬誤（Base Rate Fallacy）

範例：Google的搜索引擎市場有多大，究竟要怎麼定義？

辛普森悖論（Simpson's paradox）

問題到底出在哪裡？出在分群組原則上。某些特定的分群組原則確實有可能導致「在總評中弱勢的一方在分組比較中反而占優勢」這種情況的出現。

倖存者偏見（Survivorship Bias）

所有成功的企業家都是商業世界的倖存者，只學習這些倖存者是不可能得出正確結論的。要想找到真正的成功祕訣，你應該在全部樣本中抽樣統計，去採訪一下那些創業失敗的人。當你這樣做了之後，你可能會發現，他們也挺堅持的，只是堅持的事情不對。

統計學、機率

基礎知識

變異數 (variance)

標準差 (standard deviation)

大數定律 (Law of large numbers)

條件機率 貝氏定理 (Conditionl Probability)

範例：檢驗準確率、實際有服用興奮劑的機率

應用貝氏定理 在工作、創業

常態分佈 Normal Distribution

背景：常態分佈 v.s. 長尾分佈

常態分佈 基礎

中央極限定理

常態分布 ：

常態分佈的應用

群體裡的個數愈多，則平均標準差會愈小

顯著性檢定

六個標準差方法 (Six sigma Method)

對數常態分佈 - Intro

常見的 對數常態分佈範例：

長尾分佈 (Long-tailed Distribution)

長尾分佈 - Intro

長尾分佈 - 範例：

<6> 長尾分佈 - 偏好依附模型 (Preferential Attachment Model)

可用來解釋這些情境：

<7> 長尾分佈 - 自我組織臨界模型 (Self-Organized Criticality Model)

可用來解釋這些情境：

冪律分布 (Power-law Distribution)

齊夫分佈（Zipf distribution）

齊夫分佈 範例

統計謬誤

基本比率謬誤（Base Rate Fallacy）

辛普森悖論（Simpson's paradox）

倖存者偏見（Survivorship Bias）

條件機率貝氏定理 (Conditionl Probability)

應用貝氏定理在工作、創業

常態分佈基礎

常態分布：

常見的對數常態分佈範例：

齊夫分佈範例