看了评论后更新前排提示:
我没想审判谁,也没想吊打谁。我从不认为“平均差全面碾压标准差”。
这个帖子主要是针对bangumi条目右侧的条形图服务的,是希望讨论展示哪种统计数据供人查看会更好,不是讨论哪种统计量更适合做复杂的统计分析..我的观点是平均差的计算结果比标准差更直观,尽管它的数学性质很糟糕。
=========
【标准差】样本个体与均值的绝对差值的平方的均值的开方
【平均差】样本个体与均值的绝对差值的均值
换句话说平均差就是所有评分与均分的平均偏差。
=========
平均差优势是理解直观,对人而言计算简单,稳定性好(标准差会因离群点太远而被无限放大,不过这在评分情景下不是啥问题)。
标准差的优势是数学性质好,对计算机而言计算简单,求导简单,且对远点的偏差惩罚更重因而易于估算最优参数。
平均差的计算结果会比标准差小一点:二者理论差距约1.25倍,实验差距约1.6倍。(数据来源见下方参考文章)
我认为在只需要简单统计的情况下标准差的优势并不明显。
而且据说大多数人都把标准差误解成了平均差。
我比较了几个条目,感觉除了数值小了一点外没啥大的区别..但平均差比标准差容易理解,更符合直觉,也许用平均差来指示离散程度会更好。
=========
另外可以参见
这篇批评标准差的文章,我上面的部分观点来自这篇文章,它的大意也是标准差对计算友好但对人不友好。(本链接是我在知乎回答里发现的。那个回答本身有点扯我就不贴链接了。)
=========
2021-12-18 更新一篇谈这个的论文,也是在知乎上找到的..原本以为要收费,后来才发现一个不需要收费的PDF链接:
REVISITING A 90-YEAR-OLD DEBATE: THE ADVANTAGES OF THE MEAN DEVIATION里面提到几个关键点:
1. 误差传播:
- 平方的操作让我们对数据点产生扭曲的看法。标准差普遍比平均差要大。
- 微小的误差本应只造成微小的错误,但只要存在0.2%的错误样本就能让平均差的结果优于标准差。而生活中充满了误差。
- 标准差的优势只有在样本总量固定时才能体现出来,而实际情况是样本总量常常是不固定的。
2. 不受概率分布模型限制:
- 标准差的优势还依赖于正态分布
- Fisher当时使用的比较方式不公平,这也导致标准差显得更好。
- 在平均分布上重新进行实验会发现平均差有不亚于标准差的有效性。
- 在正态分布上,只有完美的正态分布才能让标准差更优。而现实生活中基本不存在完美的正态分布,而且现实生活中的分布是长尾(long-tailed)的,有更多极端值(我:而且bangumi的评分也满足这一点,想想1分的数量),标准差的平方计算(相比于加法计算)会导致这种极端值的影响被放得更大。
- 虽然这种放大因为删除离群点的惯例而没有造成很大影响,但好的科学应该珍视那些在理论分析和实际观察之间显示出有趣鸿沟的结果,而不是忽视威胁我们基本原则的结果。极端值是各种自然和社会现象中的重要事件,包括城市增长、收入分配、地震、交通堵塞、太阳耀斑和雪崩,我们不应该把它删除。
3. 相关技术 (平均差也跟一些简单统计方法有关联)
- 比如segregation index(隔离指数?)。该指数与一些更成熟的指数如 dissimilarity index (相异指数?)和 isolation index (孤立指数?)相关。其优势是容易理解,而且不会因数字大小成比例变化而受到影响。
- (这段看不太懂是想说什么..瞎总结了一下)可以使用平均差作为归一化的一种手段。在社会研究中,比较不同数据的差异时,要保证统计数据成比例,以防得出误导性结论。一个简单方法是数据之间求差后看其在总数的占比。例如,在比较特定考试分数的男女孩人数时,可以用女孩得分减男孩得分,再除以总得分:设男孩分数为b,女孩分数为g,则“成就差距”可定义为(g-b)/(g+b)。这做法与其他统计量相似,包括segregation index。然而,如果数据没有明确的零点的话(比如股价指数),求差后最好除以这些数的变化范围,相当于自动求占比。这时候就可以用使用平均差来表示其变化范围,作为除法的分母。
4. 简单
- 早期计算时代,求一个数的平方根比求一堆数的绝对值简单。
- 新研究者难以直观理解标准差的含义。求差平方平均开方后得到的数解释起来很奇怪。
- 鉴于平均差与标准差做的事情相同,建议用更简单的平均差替代标准差。
- 社会科学中,大多数研究人员只希望在他们的研究结果中提供一个关于离散性的汇总统计,而并不希望计算分析任何数据。对于这些人以及大多数的消费者来说,标准差的代数优势并不重要,而使用平均差则更为“民主”。
=========
顺带列举一下统计学中其他的集中趋势和离散趋势的指标(其实中文维基很混乱,建议看英文维基..)
【集中趋势】
算数平均数 中位数 众数
几何平均数 调和平均数 加权平均数
截尾平均数(truncated mean)- 忽略特定比例或特定数值之外的极端值后所得的平均数。例如四分平均数
中程数(midrange) - 又称全距中值 最大值与最小值的算数平均数
中枢纽(midhinge) - 第一四分位数与第三四分位数的算数平均数
三均值(trimean) - 考虑三个四分位数的加权平均数
极端值调整平均数(winsorized mean) - 以最接近的观测值取代特定比例的极端值后取得的算数平均数
【离散趋势】
方差 标准差 四分位差(四分位距) 极差(全距)
平均差 绝对差中位数 间隔关系 变异系数(离散系数) 四分位离散系数 基尼系数 熵
还有个异众比率