热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
社会科学预测平台刚刚被分析,以了解研究人员在预测研究效应大小方面的能力。
他们做得不好🧵
研究人员通常高估他们的效应会有多大!

当你比较研究人员的预测(b)和他们的发现(a)时,预测的结果显然远大于实际情况。
而下面的图表可能会过于夸大预测的准确性,因为相关性虽然相当可观,但并不令人信服,仅为0.453。

作为对该结果的限定,相对而言,RCT结果的误估较少,而非RCT结果的误估较多。
但有趣的是,绝对程度是相同的。

影响预测准确性的因素有哪些?
最强大的因素是群体智慧:群体的表现优于个体,结果显著!
此外,学者的表现优于非学者,付费预测小组成员的表现优于非小组成员,而信心的影响是非线性的糟糕!

自信的人通常在整体上准确性较低。但将缺乏自信的人与中位数的人进行比较时,二者之间没有差异。只有在高自信的情况下,这种模式才会显现出来。

原因在于,高度自信的预测会产生更大的效应量,出于某种原因。

更有趣的是,人与人之间的信心与较低的准确性相关,而个人内部的信心与较高的准确性相关。
也就是说,当你观察人们随时间的变化时,他们更有信心的预测往往是更好的预测!

许多其他因素在预测准确性方面发挥了小但显著的作用,我绝对推荐大家去阅读这篇论文以了解更多。
但我建议大家从中得出的结论是,总的来说,人们在预测科学方面仍然不是很好。
从某种意义上说,这是一件好事。
如果一切都能被完美预测,我们根本就不需要进行研究。
从另一个角度来看,这是一件坏事,主要是因为具体情况。也就是说,研究人员过于自信,似乎对结果过于夸大。
从另一个角度来看,这确实是一个非常有信息量的事情,支持了我在其他地方提出的观点
例如,在文献中,关于过多的 p 值恰好处于显著性边缘的辩护中,听到的一个论点是研究人员 "预测" 了这一点
不是真的!
这个论点是,研究人员进行了功效分析——这需要选择一些希望是现实的效应大小——因此他们的结果预计是刚好显著的。
但实际上并不是。
如果你的功效为80%,那么大多数的p值都来自显著性阈值。

没有人能预测 p 值会在哪里,除非对治疗效果、方差等有更精确的了解,而这些知识是不可获得的。
但人们却在为不可能的事情辩护,研究人员对治疗的预测不佳支持了这一观点。
2.82K
热门
排行
收藏
