貝葉斯定理公式 貝葉斯統計學 (參見英文 :Bayesian statistics )係統計學 其中一個學派,特徵係建基於貝葉斯概率 。簡單講,呢套諗法將機會率 [ 註 1] 理解為 相信事件會發生嘅程度 。之所以相信某件事件會發生,可以係基於先前知識,譬如係之前做過嘅實驗 ,甚至可以係純粹基於個人信念 。
貝葉斯統計學嘅一個重點,在於更新自身嘅信念:用日常用語講,貝葉斯統計學嘅重心係思考點樣按照觀察到嘅數據 ,係噉更新自己對邊啲事件較大機會發生 嘅信念,並且深入探討呢種更新過程之中要計嘅數。技術化啲講,貝葉斯統計學會將未知嘅參數 當成隨機變數 ,俾返個先驗分佈 ,反映自身對參數嘅初步假設。收集到新數據後,研究者 就會運用貝葉斯定理 ,更新先驗分佈計出後驗分佈 ,從而改變對參數嘅判斷[ 1] 。
响廿一世紀初,貝葉斯統計學有一定影響力,可以用嚟預測足球 等體育競賽 嘅賽果同埋協助決策 ,或者做醫療 診斷 同評估風險 。呢套統計學喺數據科學 、人工智能 、經濟學 同心理學 等咁多唔同領域嗰度都有應用價值。
頻率派學者:而家掟硬幣,假如個硬幣冇出千,掟若干次應該約莫一半次數出公一半次數出字。 喺廿一世紀初,統計學家 討論親貝葉斯統計學,通常都會攞佢嚟同頻率學派推論 [ 2] 對比[ 3] 。頻率學派推論嘅基礎係頻率學派概率 。根據呢套諗法,某件事件發生嘅概率 係指緊件事嘅長期相對頻率 ,精確啲定義 即係講緊假如將某場實驗 重複無限咁多次,件事嘅概率係指緊佢發生嘅次數嘅比例 嘅極限 [ 4] ,用式表達就係[ 5]
P ( A ) = lim n → ∞ f n ( A ) n {\displaystyle P(A)=\lim _{n\to \infty }{\frac {f_{n}(A)}{n}}} 當中:
譬如依家掟銀仔 ,假設個銀仔冇出千,出公出字機率一樣咁大都係 50%,而噉講意思係話假想個銀仔掟無限次,即係 n 趨近無限大,而出公 嘅次數會佔咗一半咁多。頻率學派受到唔少學者 批評,例如詬病佢處理唔到極罕有事件[ 註 2] 而且由頻率派思維衍生出嚟嘅假說檢定 法,亦引起咗p-hack 等嘅問題[ 6] 。
相比之下,貝葉斯概率 嘅睇法就好唔同。貝葉斯概率以貝葉斯定理 [ 7] 為基礎,貝葉斯定理本身好簡單,公式係:
P ( A | B ) = P ( B | A ) ⋅ P ( A ) P ( B ) {\displaystyle P(A|B)={\frac {P(B|A)\cdot P(A)}{P(B)}}} 呢條式意思係,P ( A | B ) {\displaystyle P(A|B)} (條件概率 :已知 B 發生咗,A 發生嘅概率)呢個後驗概率 ,等如P ( B | A ) {\displaystyle P(B|A)} 乘以P ( A ) {\displaystyle P(A)} ,再將乘出嘅數除以P ( B ) {\displaystyle P(B)} 。貝葉斯定理喺概率論 上受到廣泛嘅使用,但係貝葉斯概率學派就對呢條定理有特定嘅詮釋:根據貝葉斯概率嘅睇法[ 8] [ 9] ,
用日常用語講,貝葉斯概率就係教人點樣係噉更新自己嘅信念 :做研究 嘅人,會持有某啲背景知識(先驗概率)然後不斷去搵新證據嚟去更改自己對唔同事件發生嘅概率有幾高(後驗概率)嘅認知同信念,跟住一路重複[ 註 3] 。舉具體例子:假想依家出咗隻新藥,研究者原本估計隻藥五成機會有效,即係話先驗概率P ( A ) {\displaystyle P(A)} 係[ 註 4]
P ( 隻 藥 有 效 ) = 0.5 {\displaystyle P({\text{ 隻 藥 有 效 }}{\text{ }})=0.5} 為咗測試佢哋個諗法,佢哋就郁手做一輪臨床試驗 ,發現病人食咗藥之後康復嘅比率高過預期(新證據 B),於是佢哋就用貝葉斯定理嚟思考呢啲數值:
P ( 觀 察 結 果 ∣ 隻 藥 有 效 ) {\displaystyle P({\text{ 觀 察 結 果 }}\mid {\text{ 隻 藥 有 效 }}{\text{ }})} (概似函數)P ( 觀 察 結 果 ) {\displaystyle P({\text{ 觀 察 結 果 }}{\text{ }})} ,從而計出P ( 藥 有 效 ∣ 觀 察 結 果 ) {\displaystyle P({\text{ 藥 有 效 }}\mid {\text{ 觀 察 結 果 }}{\text{ }})} 即係話佢哋可以睇住搵到嘅證據,得知自己想檢驗嗰個假說係真嘅機率有幾高[ 11] 。
模型嘅圖例:呢幅圖表示緊一個伯努利分佈 ,當中打橫軸係可能數值 ,打戙軸係機會率 ;p ≠ (1-p),呢個伯努利分佈可能係模擬緊擲一個出咗千嘅銀仔。 用貝葉斯嗰套做法嚟做統計推論 ,起始點係先驗概率 。研究緊嘅現象可以想像成數學模型 ,而一個噉嘅數學模型會有若干個參數,表達變數與變數之間嘅關係。參數嘅具體數值不確定 ,不過研究者事先會對「參數數值大致係幾多」有某啲假設或者知識(先驗概率)。喺古典(頻率派)嗰套推論之中,研究者認為模型嘅「真實」參數係固定不變嘅,問題只在於統計師能夠以幾高準確度去估計呢啲參數嘅值[ 註 5] 。
統計模型 係一啲用嚟描述數據點樣產生出嚟嘅數學模型 。呢啲模型通常會包含若干個參數 ,而呢啲參數可以根據實際情況作調整。舉個例子,想像依家研究擲銀仔 ,擲銀仔有兩個可能情況,公 或者字 ,而呢個過程可以用伯努利分佈 嚟表示,其概率質量函數 f {\displaystyle f} 係[ 12] :
f ( k ; p ) = { p if k = 1 , q = 1 − p if k = 0. {\displaystyle f(k;p)={\begin{cases}p&{\text{if }}k=1,\\q=1-p&{\text{if }}k=0.\end{cases}}} 呢個模型模擬緊手上嘅現象,將現象用數學方式表達出嚟。呢個模型中只有一個參數p {\displaystyle p} ,代表公 (或者字 )出現嘅概率。喺現實世界,絕大部分嘅模型,都只能夠做到近似產生數據嘅過程,亦未必可以包含晒所有會影響結果嘅因素。貝葉斯推論嘅一個特點,就係可以為模型嘅參數賦予概率,將呢啲參數當成隨機變數 ,遇到新數據就用返貝葉斯定理嚟更新對「啲參數嘅值係乜」嘅信念。
有研究者噉講[ 8] :p 18 :
貝葉斯模型唔鼓勵人盲目噉依賴預設嘅分析結果[ 註 6] ,反而強調喺分析之前,研究者應該為每一個模型參數預先設定自己嘅信念(先驗分佈)並且預先思考效應大細 要幾大或者幾細先算係合理同有意義。
用貝葉斯式嘅方法建立統計模型,流程可以分為以下幾個主要步驟:
定義模型:首先,統計師要決定用邊一種統計模型去描述數據。要設定模型有邊啲變數同參數。 設定先驗:要為每個模型參數指定一個先驗分佈 ,反映睇到數據之前對參數嘅信念。例如,如果統計師覺得某個效應應該接近 0[ 註 7] 就可以用一個以 0 為中心嘅常態分佈 。 嘗試將模型fit1 落數據:呢個步驟通常要用到電腦 演算法 。可以睇睇蒙地卡羅方法 。 睇吓個模型係咪收斂 [ 註 8] 到,結果穩定冇再亂跳。 檢查個模型嘅適合度 ,係咪能夠充分解釋數據嘅規律。 用貝葉斯派嘅方式建立統計模型,分析師要事先指定佢哋心目中嘅先驗概率,而呢點係貝葉斯派建模同頻率派建模最重要嘅分別[ 13] 。先驗分佈 可以按「資訊性 」嘅強弱嚟分類:統計師可以將先驗分佈設做均勻分佈 ,代表每個可能性都一樣咁有可能,呢種先驗做到「等數據自己講嘢」;同時統計師又可能對個參數本身有知識或者預期,例如根據過往實驗或者理論推斷,用一個較集中嘅先驗分佈去表達,例如過去嘅研究已知某藥物嘅成功率係 70% 左右,就可以用集中喺 0.7 附近嘅分佈,提升分析嘅穩定性[ 註 9] [ 14] 。
呢幅圖描繪一個二維 嘅聯合分佈 ,顏色愈趨向紅色 就機率愈高,愈趨向藍色 就機率愈低。呢種分佈有助分析地理學 等領域成日要處理嘅空間 數據-想像兩條軸所代表嘅變數,係空間中嘅X 軸 同Y 軸 ,兩者都係某啲空間特性嘅函數 。噉嘅分佈都可以用貝葉斯統計嘅方法研究。 呢幅圖描繪一個
二維 嘅
聯合分佈 ,顏色愈趨向
紅色 就機率愈高,愈趨向
藍色 就機率愈低。呢種分佈有助分析
地理學 等領域成日要處理嘅
空間 數據-想像兩條軸所代表嘅變數,係空間中嘅
X 軸 同
Y 軸 ,兩者都係某啲空間特性嘅
函數 。噉嘅分佈都可以用貝葉斯統計嘅方法研究。
呢幅圖顯示三個平均值 唔同、標準差 一樣嘅常態分佈 (虛線)加埋一齊,形成一個混合物分佈 (實線)。好似噉嘅混合物分佈,可以用嚟模擬多個唔同源頭嘅數據結合得出嘅結果。 頻率派嘅統計學會用假說檢定 方法,評估手上嘅假說 係咪應該接受。貝葉斯統計學都有相似嘅做法,會講到貝葉斯因素 (英文簡稱 BF),用呢個數值代替p 值 嚟決定手上個假說係唔係應該接受。貝葉斯因素比較兩個假說(叫 H0 , H1 -可以睇睇虛無假說 同備擇假說 )睇吓數據支持邊一個多啲。貝葉斯因素定義如下[ 15] :
B F 1 , 0 = P ( data ∣ H 1 ) P ( data ∣ H 0 ) {\displaystyle \mathrm {BF} _{1,0}={\frac {P({\text{data}}\mid H_{1})}{P({\text{data}}\mid H_{0})}}} 即係比較邊個假說比較大機會出到手上嘅數據。如果B F 1 , 0 > 1 {\displaystyle \mathrm {BF} _{1,0}>1} ,代表數據比較支持H 1 {\displaystyle H_{1}} 而假如B F 1 , 0 < 1 {\displaystyle \mathrm {BF} _{1,0}<1} ,數據就比較支持H 0 {\displaystyle H_{0}} 。亦有啲統計學家主張,可以根據貝葉斯因素嘅大細嚟衡量證據 強度,譬如以下嘅方案:
呢種方法被指係比較靈活,能夠反映數據支持假說嘅程度。不過,唔係個個統計學家都接受所謂嘅「貝葉斯假說檢定」,例如有部份統計學家就覺得呢種分法夾硬嚟,係勉強將強弱嘅標籤加諸於數值之上[ 註 10] 。
貝葉斯統計學可以用嚟預測體育競賽嘅賽果。想像預咗嚟緊某兩隊將會打比賽:分析者用先前嘅數據,揀一個先驗分佈,估計 λ(每隊入波數嘅平均)嘅數值;分析者用最近嗰幾場比賽嘅得分數據,估計每隊嘅 λ 嘅後驗分佈[ 註 11] ;用呢個後驗分佈,估計每隊會入到幾多次波,並且計估計嘅分數差距,從而計出每隊贏嘅機會率。諸如足球 同籃球 等球類運動 嘅比賽結果,都可以用呢種方法預測[ 16] 。
貝葉斯統計學仲可以用嚟幫手製作 網上遊戲 。例如微軟 開發嘅TrueSkill 演算法 就用咗貝葉斯統計學概念。廿一世紀初嘅網上遊戲,往往有必要評估玩家 嘅技術有幾高,例如搵對局配對 嗰陣搵實力相近嘅對手、建立排行榜 、甚至用嚟訓練 電腦對手嘅人工智能 ,而 TrueSkill 演算法正正係用嚟做呢樣工作嘅,喺呢個系統之下,每位玩家嘅技術水平 或者實力 會想像成一個常態分佈 ,包括平均值 μ 同埋標準差 σ 兩個參數,當中後者反映電腦心目中對手上嗰位玩家嘅實力水平有幾多嘅不確定性 [ 註 12] ,每場對局可以有若干位玩家,會明確噉分輸贏,每打完一場,TrueSkill 都會
攞住原先嘅實力分佈做先驗; 輸贏會模擬成係取決於(例如)每一隊嘅成員嘅個別實力嘅總和; 觀察到嘅賽果就係證據; 用貝葉斯推論,同每位 玩家估計佢嘅後驗實力分佈; 如是者,個系統就會係噉更新佢心目中每位玩家嘅實力水平,最後計出每位「真正」嘅實力[ 17] 。
認知科學 上有所謂嘅貝葉斯腦學說 ,將人腦 嘅學習 能力想像成貝葉斯統計學噉嘅思考方式。假想有兩件事件,A {\displaystyle A} 同B {\displaystyle B} ,P ( A ) {\displaystyle P(A)} 係A {\displaystyle A} 發生嘅機會率 ,P ( B ) {\displaystyle P(B)} 係B {\displaystyle B} 發生嘅機會率,根據貝葉斯定理 P ( A | B ) {\displaystyle P(A|B)} (已知B {\displaystyle B} 發生咗,A {\displaystyle A} 發生嘅條件概率 )可以用以下條式計[ 18] :
P ( A | B ) = P ( B | A ) P ( A ) P ( B ) {\displaystyle P(A|B)={\frac {P(B|A)\,P(A)}{P(B)}}} 例如想像一個實驗:隻動物經歷 10 次受痛楚嘅事件(P ( A ) {\displaystyle P(A)} ),而喺某幾次事件當中佢有嘗試避開個痛楚(B {\displaystyle B} ),喺某幾次入面佢冇(B ′ {\displaystyle B'} )但次次都一樣遭受痛楚;佢個腦計咗之後會發現,自己行動咗跟住受痛楚嘅機率(A {\displaystyle A} givenB {\displaystyle B} )同自己唔行動而受痛楚嘅機率(A {\displaystyle A} givenB ′ {\displaystyle B'} )相約,
P ( A | B ) = P ( A | B ′ ) {\displaystyle P(A|B)=P(A|B')} -即係「我作唔作出行動結果都係會受痛楚」嘅知識,令佢進入失助 嘅狀態[ 19] 。
(英文) Downey, A. (2021).Think Bayes (PDF). " O'Reilly Media, Inc.",網上嘅開源教科書講貝葉斯概率,講解嗰陣用咗好多Python 程式碼。(英文) Fornacon-Wood, I., Mistry, H., Johnson-Hart, C., Faivre-Finn, C., O'Connor, J. P., & Price, G. J. (2022). Understanding the differences between Bayesian and frequentist statistics.International journal of radiation oncology, biology, physics , 112(5), 1076-1082.(英文) Ribeiro, G. G., Da Costa, L. C., Ferreira, P. H., & do Nascimento, D. C. (2025).A Bayesian approach to predict performance in football: a case study .Frontiers in Sports and Active Living , 7, 1486928↑ 又有叫概率 。 ↑ 極罕有事件:例如係百年一遇嘅大災難。呢啲事件因為少見,所以好少可喺數據集 中出現,跟頻率學派嗰套嘅話,呢啲事件嘅機率喺實用上就無法準確判斷。 ↑ 亦可以睇睇科學方法 講嘅嘢。 ↑ 理論上,佢哋可以對隻藥極有信心,將隻藥有效 嘅機率設為 1。事實係,先驗概率嘅設定喺貝葉斯統計學上係大問題。 ↑ 而且响頻率派嘅思考中,用概率嚟描述只發生一次嘅事係冇意義嘅。 ↑ 依賴預設嘅分析結果 :可以睇返頻率派嗰套。↑ 可能佢係睇勻前人做嘅研究,而前人搵到嘅結果係噉。 ↑ 英文叫converge ;用嚟做統計嘅軟件 成日會出現呢隻詞語。 ↑ 稍微有資訊性嘅 prior 被指能夠減低「高估效應值 嘅大細」嘅風險。 ↑ 亦可以參考統計學家對p 值假說檢定嘅批評,例如呢啲檢定法成日出現一種情況,p 值係 .049 就接受,p 值係 .051 就唔接受-好多統計學家都覺得噉係夾硬嚟。 ↑ 好似呢種情況,要估計某段時間內某事件會發生幾多次,可以用泊淞分佈 。 ↑ 唔似得Elo 系統噉,將實力想像成一個點估計。 ↑ de Finetti, Bruno (2017).Theory of Probability: A critical introductory treatment . Chichester: John Wiley & Sons Ltd. ↑ 英文 :frequentist ↑ Cox, R.T. (1946). "Probability, Frequency, and Reasonable Expectation".American Journal of Physics . 14 (1): 1-10. ↑ 英文 :limit ↑ Kaplan, D. (2014).Bayesian Statistics for the Social Sciences . Methodology in the Social Sciences. Guilford Publications. p. 4. ↑ Head ML, Holman L, Lanfear R, Kahn AT, Jennions MD (2015) The Extent and Consequences of P-Hacking in Science.PLoS Biol 13(3): e1002106.https://doi.org/10.1371/journal.pbio.1002106 ,呢篇文嘅作者睇啲期刊文章p 值嘅分佈,靠呢種做法嚟檢驗 p-hack 嘅情況有幾普遍——簡化講,如果啲研究者 p-hack,理應會令到接近 0.05 嘅p 值出現得異常咁密。 ↑ 英文 :Bayes' theorem ↑8.0 8.1 Dora, J., McCabe, C. J., van Lissa, C. J., Witkiewitz, K., & King, K. M. (2024).A tutorial on analyzing ecological momentary assessment data in psychological research with Bayesian (generalized) mixed-effects models .Advances in methods and practices in psychological science , 7(1), 25152459241235875,呢篇文講貝葉斯式嘅混合模型 ,講到:"The primary distinction between frequentist and Bayesian statistics is a different definition of probability... The Bayesian definition of probability, by contrast, reflects the degree of belief or confidence in a particular event." ↑ Downey, A. (2021).Think Bayes (PDF). " O'Reilly Media, Inc.",1.5 diachronic interpretation ↑ 英文 :likelihood function ↑ Gelman, Andrew; Carlin, John B.; Stern, Hal S.; Dunson, David B.; Vehtari, Aki; Rubin, Donald B. (2013).Bayesian Data Analysis (Third ed.). Chapman and Hall/CRC. ↑ Bertsekas, Dimitri P. (2002).Introduction to Probability . Tsitsiklis, John N., Τσιτσικλής, Γιάννης Ν. Belmont, Mass.: Athena Scientific. ↑ Dora, J., McCabe, C. J., van Lissa, C. J., Witkiewitz, K., & King, K. M. (2024). A tutorial on analyzing ecological momentary assessment data in psychological research with Bayesian (generalized) mixed-effects models.Advances in methods and practices in psychological science , 7(1), 25152459241235875. "Defining priors is the biggest practical difference between a frequentist and a Bayesian analysis." ↑ Gelman, A., Jakulin, A., Pittau, M. G., & Su, Y.-S. (2008). A weakly informative default prior distribution for logistic and other regression models.The Annals of Applied Statistics , 2(4), 1360–1383. ↑ Downey, A. (2021).Think Bayes (PDF). " O'Reilly Media, Inc.",11.0 hypothesis testing ↑ Downey, A. (2021).Think Bayes (PDF). " O'Reilly Media, Inc.",Ch. 7 prediction ↑ Herbrich, Ralf; Minka, Tom; Graepel, Thore (2007), Schölkopf, B.; Platt, J. C.; Hoffman, T. (eds.), "TrueSkill™ : A Bayesian Skill Rating System " (PDF),Advances in Neural Information Processing Systems 19 , MIT Press, pp. 569-576. ↑ The Bayesian Brain Hypothesis 互聯網檔案館 嘅歸檔 ,歸檔日期2020年3月28號,..Towards Data Science .↑ Lieder, F., Goodman, N. D., & Huys, Q. J. (2013). Learned helplessness and generalization. InProceedings of the annual meeting of the cognitive science society (Vol. 35, No. 35). ↑ Downey, A. (2021).Think Bayes (PDF). " O'Reilly Media, Inc.",10.5 underflow ,亦有提到對數 概念可以用嚟應付呢種問題。 ↑ Lee, S. Y. (2022). Gibbs sampler and coordinate ascent variational inference: A set-theoretical review.Communications in Statistics-Theory and Methods , 51(6), 1549-1568. ↑ Downey, A. (2021).Think Bayes (PDF). " O'Reilly Media, Inc.",10.8 嗰度噉講:"We don't really care about the likelihood of seeing the exact dataset we saw. Especially for continuous variables, we care about the likelihood of seeing any dataset like the one we saw. For example, ... we don't care about which particular trains were seen, only the number of trains and the maximum of the serial numbers."