Movatterモバイル変換


[0]ホーム

URL:


Bangumi 番组计划
登录注册

评分与排名讨论会 »讨论
【探讨】使用「平均差」代替「标准差」指示评分离散程度(更新一篇论文,终于整理完了)


#1 - 2021-12-17 11:19
Cedar(。´-д-)
看了评论后更新前排提示:
我没想审判谁,也没想吊打谁。我从不认为“平均差全面碾压标准差”。
这个帖子主要是针对bangumi条目右侧的条形图服务的,是希望讨论展示哪种统计数据供人查看会更好,不是讨论哪种统计量更适合做复杂的统计分析..我的观点是平均差的计算结果比标准差更直观,尽管它的数学性质很糟糕。

=========

【标准差】样本个体与均值的绝对差值的平方的均值的开方
【平均差】样本个体与均值的绝对差值的均值
换句话说平均差就是所有评分与均分的平均偏差。

=========

平均差优势是理解直观,对人而言计算简单,稳定性好(标准差会因离群点太远而被无限放大,不过这在评分情景下不是啥问题)。
标准差的优势是数学性质好,对计算机而言计算简单,求导简单,且对远点的偏差惩罚更重因而易于估算最优参数。
平均差的计算结果会比标准差小一点:二者理论差距约1.25倍,实验差距约1.6倍。(数据来源见下方参考文章)
我认为在只需要简单统计的情况下标准差的优势并不明显。
而且据说大多数人都把标准差误解成了平均差。

我比较了几个条目,感觉除了数值小了一点外没啥大的区别..但平均差比标准差容易理解,更符合直觉,也许用平均差来指示离散程度会更好。

=========

另外可以参见这篇批评标准差的文章,我上面的部分观点来自这篇文章,它的大意也是标准差对计算友好但对人不友好。(本链接是我在知乎回答里发现的。那个回答本身有点扯我就不贴链接了。)

=========

2021-12-18 更新一篇谈这个的论文,也是在知乎上找到的..原本以为要收费,后来才发现一个不需要收费的PDF链接:REVISITING A 90-YEAR-OLD DEBATE: THE ADVANTAGES OF THE MEAN DEVIATION
里面提到几个关键点:
1. 误差传播:
- 平方的操作让我们对数据点产生扭曲的看法。标准差普遍比平均差要大。
- 微小的误差本应只造成微小的错误,但只要存在0.2%的错误样本就能让平均差的结果优于标准差。而生活中充满了误差。
- 标准差的优势只有在样本总量固定时才能体现出来,而实际情况是样本总量常常是不固定的。
2. 不受概率分布模型限制:
- 标准差的优势还依赖于正态分布
- Fisher当时使用的比较方式不公平,这也导致标准差显得更好。
- 在平均分布上重新进行实验会发现平均差有不亚于标准差的有效性。
- 在正态分布上,只有完美的正态分布才能让标准差更优。而现实生活中基本不存在完美的正态分布,而且现实生活中的分布是长尾(long-tailed)的,有更多极端值(我:而且bangumi的评分也满足这一点,想想1分的数量),标准差的平方计算(相比于加法计算)会导致这种极端值的影响被放得更大。
- 虽然这种放大因为删除离群点的惯例而没有造成很大影响,但好的科学应该珍视那些在理论分析和实际观察之间显示出有趣鸿沟的结果,而不是忽视威胁我们基本原则的结果。极端值是各种自然和社会现象中的重要事件,包括城市增长、收入分配、地震、交通堵塞、太阳耀斑和雪崩,我们不应该把它删除。
3. 相关技术 (平均差也跟一些简单统计方法有关联)
- 比如segregation index(隔离指数?)。该指数与一些更成熟的指数如 dissimilarity index (相异指数?)和 isolation index (孤立指数?)相关。其优势是容易理解,而且不会因数字大小成比例变化而受到影响。
- (这段看不太懂是想说什么..瞎总结了一下)可以使用平均差作为归一化的一种手段。在社会研究中,比较不同数据的差异时,要保证统计数据成比例,以防得出误导性结论。一个简单方法是数据之间求差后看其在总数的占比。例如,在比较特定考试分数的男女孩人数时,可以用女孩得分减男孩得分,再除以总得分:设男孩分数为b,女孩分数为g,则“成就差距”可定义为(g-b)/(g+b)。这做法与其他统计量相似,包括segregation index。然而,如果数据没有明确的零点的话(比如股价指数),求差后最好除以这些数的变化范围,相当于自动求占比。这时候就可以用使用平均差来表示其变化范围,作为除法的分母。
4. 简单
- 早期计算时代,求一个数的平方根比求一堆数的绝对值简单。
- 新研究者难以直观理解标准差的含义。求差平方平均开方后得到的数解释起来很奇怪。
- 鉴于平均差与标准差做的事情相同,建议用更简单的平均差替代标准差。
- 社会科学中,大多数研究人员只希望在他们的研究结果中提供一个关于离散性的汇总统计,而并不希望计算分析任何数据。对于这些人以及大多数的消费者来说,标准差的代数优势并不重要,而使用平均差则更为“民主”。

=========

顺带列举一下统计学中其他的集中趋势离散趋势的指标(其实中文维基很混乱,建议看英文维基..)

【集中趋势】
算数平均数 中位数 众数
几何平均数 调和平均数 加权平均数
截尾平均数(truncated mean)- 忽略特定比例或特定数值之外的极端值后所得的平均数。例如四分平均数
中程数(midrange) - 又称全距中值 最大值与最小值的算数平均数
中枢纽(midhinge) - 第一四分位数与第三四分位数的算数平均数
三均值(trimean) - 考虑三个四分位数的加权平均数
极端值调整平均数(winsorized mean) - 以最接近的观测值取代特定比例的极端值后取得的算数平均数

【离散趋势】
方差 标准差 四分位差(四分位距) 极差(全距)
平均差 绝对差中位数 间隔关系 变异系数(离散系数) 四分位离散系数 基尼系数 熵
还有个异众比率
#2 - 2021-12-17 14:43
红炉点雪(此账号已停用)
问题重点在于汉字描述的边界划定吧,标准差平均差倒是没什么…
#2-1 - 2021-12-17 15:23
Cedar
我自然是反对添加汉字描述的..根本没有实际意义..
尤其是类似迷糊餐厅飞翔的魔女这种标准差只差不到0.01的边界情况,添加汉字描述只会干扰判断。

打算以后有空写个新组件,去掉这种没意义的文字描述,增加更多统计数据,然后稍微把排版弄漂亮点..但是现在找不到好的统计指标..
目前只找到了个平均差,我觉得这个比标准差好理解得多
#2-2 - 2021-12-17 16:01
oakpeter
删除了回复
#2-3 - 2021-12-17 17:56
幻度
Cedar 说: 我自然是反对添加汉字描述的..根本没有实际意义..
尤其是类似迷糊餐厅和飞翔的魔女这种标准差只差不到0.01的边界情况,添加汉字描述只会干扰判断。

打算以后有空写个新组件,去掉这种没意义的描述,增加...
支持重写组件,另外不考虑把科学排名也加上吗?
#2-4 - 2021-12-17 18:42
Cedar
幻度 说: 支持重写组件,另外不考虑把科学排名也加上吗?
(bgm38)还在新建文件夹的状态呢..其实排名大概也没法用来计算统计量,也许单独写个组件会更好..真要加科学排名的话我还要研究研究怎么加..(bgm38)(bgm38)
#3 - 2021-12-17 15:13
烈之斩(V1046-R MAHORO)
直接贴个答案的链接吧,https://www.edge.org/response-detail/25401 你的链接是个汇总页面,有几十篇回复。。
#3-1 - 2021-12-17 15:18
Cedar
啊,贴错了,不好意思..已改
#4 - 2021-12-17 16:27
Nightwing(SHAFT系動畫小組 →https://bgm.tv/group/shaft)
日常审判 Pearson(bgm37)
#5 - 2021-12-17 16:39
Retorm
找了好多解释,并没有看到一个能一锤敲定在评分上的优劣的解释(lz给的那个edge上的解释甚至感觉很扯淡(bgm38))。。。不过不论评分,标准差/方差相比平均绝对误差在数学性质上的优势实在太大,尤其是可导并且能和欧氏距离扯上关系,一堆统计量都能互相导出。。。
既然是一个各个条目之间横向对比的,标准差的L2范数(欧氏距离)在数值上比平均绝对误差L1(曼哈顿距离)小一点(虽然标准差看起来更大,那是因为标准差是对总欧氏距离乘n^(-1/2)放缩而平均绝对误差是n^(-1)),离群点在数值上的影响大一点并无所谓(事实上要看你怎么定义这个影响,按理说用欧氏距离的话,并不存在什么权重更大的说法),但你因此能获得的统计上的方便是真实存在的(bgm38)。。。
数学贼烂,敬请指正(bgm38)
另外可以看看这个
https://stats.stackexchange.com/ ... e-in-standard-devia
#5-1 - 2021-12-17 18:38
Cedar
(我的数学也贼烂..)你理解错了,我主楼没想「一锤敲定在评分上的优劣」,我只是列举了两种统计量的区别。你这个链接里讲的东西我在主楼里基本都提到了(除了统计量之间的关联之外)。标准差在统计计算上的优势当然很大。问题在于很难用非数学语言描述标准差数值的“意义”(差的平方的均值开根号算出来的到底是什么?),也就不好跟直觉联系起来。而平均差就很容易描述:它就是与平均数的平均差值。
所以,标准差需要跟其他条目相比较才能建立起“分歧大”或者“分歧小”的直观感受:「这作标准差达到了1.9,观众对它的评价确实比标准差只有0.9的作品的评价更两极分化」。而平均差本身就能建立起某种直观的感受:「这个条目的评分浮动大,因为跟均分相比,大家给分的上下浮动值平均达到了1.4分。而另一部作品的平均上下浮动只有0.7分」
如果你想利用统计量做统计分析,那当然优先使用数学性质更好的标准差,然而如果你只是想把数据展示给别人,我觉得使用平均差更直观。所以如果我写组件的话会选择展示平均差。标准差也不会被抛弃,只是我觉得可以把它放在详细数据里。
#5-2 - 2021-12-17 19:43
红炉点雪
Cedar 说: (我的数学也不怎么好..)你理解错了,我主楼没想「一锤敲定在评分上的优劣」,我只是列举了两种统计量的区别。你这个链接里讲的东西我在主楼里基本都提到了(除了统计量之间的关联之外)。标准差在统计计算上的优...
而平均差本身就能建立起某种直观的感受:「这个条目的评分浮动大,因为跟均分相比,大家给分的上下浮动值平均达到了1.4分。而另一部作品的平均上下浮动只有0.7分」
其实我用标准差也能有这种直观感受
#5-3 - 2021-12-17 20:04
Cedar
红炉点雪 说: 而平均差本身就能建立起某种直观的感受:「这个条目的评分浮动大,因为跟均分相比,大家给分的上下浮动值平均达到了1.4分。而另一部作品的平均上下浮动只有0.7分」其实我用标准差也能有这种直观感受
那你能解释一下0.9和和1.9的含义么..
你确定自己不是把这两个数值简单理解成了偏差值的均值?(这样理解的话反而更接近平均差的定义)

也许我把那句话的后半句删了会更好..不做比较应该更容易发现区别:
「这个条目的评分浮动大,因为跟均分相比,大家给分的上下浮动值平均达到了1.4分。」
#6 - 2021-12-17 18:01
Killy(香草可乐才是真正的可乐)
让人来看的话没什么区别
#6-1 - 2021-12-17 18:55
Cedar
整体数值会小一点..
比如楼上链接里的迷糊餐厅会从 0.9966 降到 0.7814
飞翔的魔女会从 1.0049 降到 0.7911
(二者差值稍微变大了约 0.0014,基本没区别)

DitF会从 1.9519 降到 1.4293
但是 1.4293 这个数就感觉容易理解一点..
意思大概就是【所有人给DitF打分时上下浮动的均值是 1.43 分左右】
#6-2 - 2021-12-17 19:23
Killy
删除了回复
#6-3 - 2021-12-17 19:28
Cedar
删除了回复
#6-4 - 2021-12-17 19:30
Killy
Cedar 说: 为什么..听不太懂.. 那该怎么理解..
因为强调了±1.43这两个具体的点,给我的感觉就像是数据会在这两个点附近聚集(bgm38)
#6-5 - 2021-12-17 19:33
Retorm
Cedar 说: 整体数值会小一点..
比如楼上链接里的迷糊餐厅会从 0.9966 降到 0.7814
飞翔的魔女会从 1.0049 降到 0.7911
(二者差值稍微变大了约 0.0014,基本没区别)

DitF会...
其实评分还有一个特点就是它的分布是近正态分布的,虽然这个浮动均值1.43看起来合理,但在正态分布之下,更多的样本接近于均值,如果你不想考虑太多的极端值,反而是对大多数样本的误判。他最大的问题是只能给一个均值,而无法告诉你实际分布的情况,可能对于均匀分布比较好一点。
而标准差在正态分布里提供了很好的性质,就是3sigma原则(其实你想要任意常数倍标准差都行),比如ditf标准差1.9,可以近似于[4,8]的区间内分数近似占65%(事实上是82%),[2,10]近似95%(实际96%),更不要说你还可以用标准差做假设检验之类的。
大概意思就是,虽然直觉上平均绝对误差好想,但是多少会提供一种误导
#6-6 - 2021-12-17 19:58
Cedar
Killy 说: 因为强调了±1.43这两个具体的点,给我的感觉就像是数据会在这两个点附近聚集
只是打分的浮动范围的均值而已..不是具体的点(bgm38)
这个说法本身也不严谨,就是直观感受而已(bgm38)
不过打分集中在这两个位置确实能算出完全相同的值(bgm38)
#6-7 - 2021-12-17 20:01
Cedar
Retorm 说: 其实评分还有一个特点就是它的分布是近正态分布的,虽然这个浮动均值1.43看起来合理,但在正态分布之下,更多的样本接近于均值,如果你不想考虑太多的极端值,反而是对大多数样本的误判。他最大的问题是只能给一...
(bgm38)这个..就,你平常看完番过来评分后会用组件算出来的标准差做假设检验么..又有多少人会在意大部分人打分的区间具体在哪个范围呢..更不要说算个3sigma出来做一番分析了..(3sigma可能都超过评分范围了..)大多数人听到差值平方均值开方之后就晕了..
何况这个打分人数区间,我以前恰好写了一个组件来计算..我想你评论里的数据也是通过这个组件计算出来的吧..(其实我写了这个组件后自己反而没怎么用过b38)就算不借助这个组件,我们看条形图也能有个大致感受了,为何要通过标准差来估算呢..况且你给的例子(理论65%,实际82%)其实估算得并不准确..而且DitF的条状图的尾巴翘起来了,1分数量不少,感觉也不太服从正态分布了..
确实平均差无法告诉你实际分布情况,但这也不能说是误导吧,何况我们有直方图啊,实际分布我们本来就知道啊..在这种情况下,算个平均差给个直观感受就可以了,不需要它做更多的事情..
真的想做统计分析假设检验,那拿着直方图按自己的想法算自己想要的统计量就可以啦
#7 - 2021-12-17 19:25
先生(太初有道,道与神同在,道就是神……道成了肉身)
标准差(方差)数学性质比较好(bgm38)
#7-1 - 2021-12-17 19:29
Cedar
但是拿来展示的话,感觉不好理解它的意义..可以看我#5-1的回复
#7-2 - 2021-12-17 19:32
先生
Cedar 说: 但是拿来展示的话,感觉不好理解它的意义..可以看我#5-1的回复
其实我就从来没理解过方差的意义(bgm38)
#7-3 - 2021-12-17 20:05
Cedar
先生 说: 其实我就从来没理解过方差的意义
其实我也一直不太理解(bgm38)
#8 - 2021-12-17 20:35
风涯
实际上对于一个特定的分布而言,平均差和标准差只会相差一个确定的倍数(bgm38)我觉得这个替换意义不是很大
#8-1 - 2021-12-17 20:38
[已注销]
“固定两个非零的数,他们只会相差一个确定的倍数。”
#8-2 - 2021-12-17 21:00
风涯
肥肥不注销了 说: “固定两个非零的数,他们只会相差一个确定的倍数。”
我不太明白你的意思,给定分布后,比如说正态分布,一组样本的平均差和标准差的期望相差根号下2/π倍,这两个统计量在某种意义上是等价的
#8-3 - 2021-12-17 21:03
[已注销]
风涯 说: 我不太明白你的意思,给定分布后,比如说正态分布,一组样本的平均差和标准差的期望相差根号下2/π倍,这两个统计量在某种意义上是等价的
你想说的恐怕是“某些特定的一族分布”而不是“一个分布”?
#8-4 - 2021-12-17 21:08
风涯
肥肥不注销了 说: 你想说的恐怕是“某些特定的一族分布”而不是“一个分布”?
为你的严谨点赞(bgm38)
#8-5 - 2021-12-17 21:22
Cedar
风涯 说: 我不太明白你的意思,给定分布后,比如说正态分布,一组样本的平均差和标准差的期望相差根号下2/π倍,这两个统计量在某种意义上是等价的
我主楼提到了这个呀,主楼链接里也提到
We often use STD in equations but really end up reconverting it within the process into MAD (say in finance, for option pricing). In the Gaussian world, STD is about ~1.25 time MAD, that is, the square root of (Pi/2). But we adjust with stochastic volatility where STD is often as high as 1.6 times MAD.
总之不完全是等价的..加上倍率也会影响理解..何况这个倍率本身也要满足同分布假设..
#9 - 2021-12-17 20:38
[已注销]
人和人的直观不能一概而论。。
#9-1 - 2021-12-17 20:40
Cedar
那标准差到底该怎么直观理解,指条路吧(bgm38)
#9-2 - 2021-12-17 21:04
[已注销]
Cedar 说: 那标准差到底该怎么直观理解,指条路吧
我想说的是,假如不允许讨论“具体”的性质的话,你主张的平均差也不比标准差直观多少啊……
#9-3 - 2021-12-17 21:17
Cedar
肥肥不注销了 说: 我想说的是,假如不允许讨论“具体”的性质的话,你主张的平均差也不比标准差直观多少啊……
什么叫“具体”的性质呢..
单从定义上看,【距离的均值】无论如何也比【距离的平方的均值的开方】要直观多了吧..如果想知道一组数的分散程度,那求出距离再求平均的做法,几乎符合所有人的直觉..这真的跟平方均值开方差不多一样直观吗..
#10 - 2021-12-17 22:41
雪の宿❄️
标准差才是通常意义下的(欧式)距离,简单一点说是勾股定理(在高维甚至无穷维空间中),高级一点说就是内积诱导的范数(bgm38)
但我对两者在“指示评分离散程度”下的区别没有特别的想法
#10-1 - 2021-12-17 22:48
Cedar
一开始我用的是“绝对差值”,后来才改成“距离”的..真要用勾股定理的话那要开方吧,那作差平方再开方,其实就是绝对值了呀 喔..说的是样本点的L2距离..
实在不行我还是改回去..反正算式都是一样的..主要是我觉得“距离”这个词比较亲民..
#10-2 - 2021-12-17 22:56
雪の宿❄️
Cedar 说: 一开始我用的是“绝对差值”,后来才改成“距离”的..真要用勾股定理的话那要开方吧,那作差平方再开方,其实就是绝对值了呀
我说的距离是在样本空间上,n个打分用户就是n维空间,所以是坐标差值的平方相加再开方,而你说的距离是把样本空间投影到每个坐标轴进行绝对差值计算然后相加
#10-3 - 2021-12-17 22:59
雪の宿❄️
Cedar 说: 一开始我用的是“绝对差值”,后来才改成“距离”的..真要用勾股定理的话那要开方吧,那作差平方再开方,其实就是绝对值了呀 喔..说的是样本点的L2距离..
实在不行我还是改回去..反正算式都是一样的.....
我打字太慢了(bgm38)
#11 - 2021-12-17 23:05
雪の宿❄️
其实我觉得如果不考虑每个用户自己的评分分布,只对距离进行统一调整的话,再怎么搞都不会完美
比如把每个用户的评分分布先进行某种标准化,然后再对一个作品计算平均分和标准差
虽然不太类似,但是科学排名yyds(bgm38)
#11-1 - 2021-12-17 23:50
Cedar
主要还是希望找一个更直观的统计量出来..标准差因为有平方和开方,所以我觉得不是很直观..
但是现在看来平均差好像也没有特别好..?主要还是比较亲民..
#12 - 2021-12-18 03:44
c933103(請注意UID)

不如索性像某小說網站那樣,計算平均值前先去除掉極端值
#12-1 - 2021-12-18 10:06
Cedar
截尾平均数我也在考虑中!
#13 - 2021-12-18 05:53
Clippers
干脆两个都给出来,一键切换显示(bgm38)
#13-1 - 2021-12-18 10:02
Cedar
我确实是这么想的!
#14 - 2021-12-22 23:30
dhzy
纯粹衡量离散程度的话还是用熵吧,不受具体数值影响
#14-1 - 2021-12-23 00:38
Cedar
主要是,熵值本身不好理解呀
我推荐平均差的主要原因还是,它就是差距的平均值,理解起来很直观
/ 返回评分与排名讨论会小组
© 2008-2025 Bangumi (a.k.a.Chobits), some rights reserved | r545
注册时我很沉默

[8]ページ先頭

©2009-2025 Movatter.jp