充分統計量(參見英文:sufficient statistic )係統計量一種。攞住某個統計模型同埋其參數,假如話某個統計量係充分嘅,意思即係話冇任何其他由樣本度計到出嚟嘅統計量能夠為參數數值係乜提供額外資訊,簡單講就係指該統計量能夠獨力提供有關模型參數嘅數值嘅可能資訊[1][2]。
統計量只係取決於樣本數據,唔涉及任何未知嘅總體參數。假如某統計量嘅值,通常會接近某未知總體參數 θ,噉 T 就謂之 θ 嘅估計量,例如假想統計師要估計全澳門所有小六學生嘅平均身高(未知參數 θ),佢哋做隨機抽樣,抽咗 100 個澳門嘅小六學生返嚟,樣本為
佢哋嘅樣本平均值 為
呢個 就算係一個統計量,用嚟估計 θ。
理論上,統計師可以建立無限咁多個估計量,但研究統計學嘅人,又會想搵出邊啲統計量先係最有用、最能夠充分利用樣本入便嘅資訊嘅。
粗略噉講,如果某統計師已經知道充分統計量 T 嘅值係幾多,佢估計未知參數 θ 嗰陣嘅表現,唔會差過知道晒原始樣本 嘅統計師。換句話說,T 已經有齊晒樣本入便所有同 θ 相關嘅有用資訊。
如果話 T 係對於 θ 充分嘅統計量,即係話,喺已知 T 嘅數值嘅情況下,隨機樣本 嘅條件分佈,唔會再取決於 θ[4]。
舉例說明,設阿明同阿偉兩位統計師。阿明知道晒成個樣本,每個樣本個案嘅數值係乜,而阿偉就只係知道充分統計量 T 嘅值,而 T = t。根據充分統計量嘅數學定義,拃樣本數值隨 T 嘅條件分佈,唔會受 θ 嘅值影響,阿偉唔洗知道 θ 都能夠得知呢個分佈係咩樣,所以佢可以用部電腦 gen 返個隨機樣本,係跟呢個條件分佈嘅。由於佢個 gen 出嚟嘅隨機樣本同真正抽嘅隨機樣本,概率分佈相同,所以阿偉能夠用佢 gen 出嚟嘅樣本,計出阿明攞住一個完整樣本計到嘅嘢,而且阿偉嘅表現[註 1]平均嚟講唔會差過阿明—最後呢句,係充分統計量個粗略定義[3]。
若果統計量 T 對參數 θ 嚟講係充分統計量,仲可以進一步思考佢係咪最小充分統計量[註 2]:若果 T 可以表達成任何其他充分統計量嘅函數,噉佢就謂之最小充分統計量。任何其他充分統計量都可以變成佢,就表示佢做到將數據壓縮到極致[5]。
呢節要加長。 |
因式分解定理[註 3]可以用嚟判定一個統計量係咪充分統計量。簡單講,假如某組觀察值嘅聯合概率密度或質量函數,可以拆開做一個只依賴統計量同參數嘅部分,再乘埋一個同參數冇關嘅部分,噉嘅話個統計量就係充分嘅[6]。