Платформа предсказаний в социальных науках только что была проанализирована, чтобы понять, насколько хорошо исследователи предсказывают размеры эффектов исследований. Они не справляются с этой задачей🧵 Исследователи регулярно переоценивают, насколько великими окажутся их эффекты!
Когда вы сравниваете то, что предсказывают исследователи (b), и то, что они находят (a), предсказания просто намного больше, чем реальность на местах. И этот график ниже может преувеличивать точность предсказаний, поскольку корреляция значительная, но не внушающая доверия 0.453.
В качестве уточнения этого результата, для результатов RCT относительно меньше недооценки, а для результатов, не относящихся к RCT, относительно больше. Но, что интересно, абсолютная степень одинакова.
Какие факторы изменили точность прогнозирования? Самым мощным фактором была мудрость толпы: группы людей превосходили индивидуумов, решительно! Кроме того, академики обошли неакадемиков, платные участники прогнозирования обошли неплатных, а уверенность была нелинейно плохой!
Уверенные в себе люди, безусловно, менее точны в общем. Но если сравнить неуверенных с теми, кто находится на медиане, разницы нет. Именно когда речь идет о высокой уверенности, появляется этот паттерн.
Причина в том, что высоко уверенные прогнозы имеют большие размеры эффекта, по какой-то причине.
Более интересно, что уверенность между людьми связана с более низкой точностью, а уверенность внутри одного человека связана с более высокой точностью. То есть, когда вы смотрите на людей с течением времени, их более уверенные прогнозы оказываются более точными!
Много других факторов сыграли небольшую, но заметную роль в точности предсказаний, и я определенно рекомендую прочитать статью, чтобы узнать больше. Но что я рекомендую вынести из этого, так это то, что в целом люди все еще не очень хороши в предсказании науки.
В некотором смысле это хорошо. Если бы всё можно было идеально предсказать, нам не нужно было бы проводить исследования с самого начала. С другой стороны, это плохо, в значительной степени из-за специфики. А именно, исследователи слишком уверены в себе и, похоже, чрезмерно раздувают результаты.
С другой стороны, это действительно информативная вещь, которая поддерживает аргументы, которые я приводил в других местах Например, один из аргументов, который слышен в защиту чрезмерного количества p-значений в литературе, находящихся прямо на грани значимости, заключается в том, что исследователи "предсказали", что Это неправда!
Аргумент заключается в том, что исследователи провели анализ мощности — который требует выбора, надеюсь, реалистичного размера эффекта — и, следовательно, их результаты ожидаются как едва значимые. Но это не так. Если у вас 80% мощности, большинство ваших p-значений находятся на границе значимости.
Никто не может предсказать, где будет p-значение, без более точной информации о эффектах лечения, дисперсии и так далее, и эта информация недоступна. Но люди защищают невозможное, и тот факт, что исследователи плохо предсказывают результаты лечения, поддерживает эту идею.
2,84K