Ами сега! В края на краищата няма „криза на възпроизводимост“ в психологическата наука

Когато имате изследователски проект - Open Science Collaboration (OSC) - който включва 270 учени, работещи върху пробивна наука, бихте се надявали те да получат някои от основите правилни. Подобно на проектирането на рандомизирано проучване, което е методологично обосновано и може да издържи на вниманието на техните връстници.

Но новаторската статия, публикувана през август 2015 г. от 44 изследователи, „Оценка на възпроизводимостта на психологическата наука“ (Nosek et al., 2015), изглежда е имала някои значителни недостатъци. Нова статия предполага, че всъщност все пак няма „криза на възпроизводимост“ в психологията.

Четирима изследователи от Харвардския университет и Университета на Вирджиния (Gilbert et al., 2016) публикуваха своите открития в Наука (техният уебсайт за репликации на психология хоства всички данни и материали). Те вярват, че са открили три основни статистически грешки в първоначалното проучване, които поставят под сериозен въпрос неговите открития. Новите изследователи твърдят: „Всъщност доказателствата са в съответствие с обратното заключение - че възпроизводимостта на психологическата наука е доста висока и всъщност статистически не се различава от 100%.“

Ами сега.

Оригиналното проучване (Nosek et al., 2015) се опитва да възпроизведе откритията от 100 експеримента, докладвани в статии, публикувани през 2008 г. в три високопоставени списания по психология. Първата критика на изследването е, че това не е рандомизиран подбор на психологически изследвания. Вместо това, групата Nosek ограничи избора си на проучвания само до три списания, представляващи нищожните две дисциплини на психологията, като пропусна основни области като психологията на развитието и клиничната психология. Тогава Nosek et al. са използвали сложен набор от произволни правила и критерии, които всъщност са дисквалифицирали над 77 процента от изследванията от трите списания, които са изследвали.

Изследванията, които започват с пристрастна извадка, непременно ще имат проблеми. Като не започват с рандомизирана извадка, изследователите вече са помогнали да се поставят основите за техните разочароващи констатации.

Нека (Значително) променим изследванията, които репликираме

Дори по-лошо от това да започнем с пристрастна, нерандомизирана извадка е как изследователите действително провеждат репликациите. Първо, изследователите поканиха „конкретни екипи да възпроизведат конкретни изследвания или те позволиха на екипите да изберат изследванията, които желаят да повторят“. Вместо да назначават на случаен принцип изследователи за проучвания, те позволяват на изследователите да избират - внасяйки пристрастия на всеки изследовател, за да изберат евентуално проучвания, които според тях са най-малко вероятни.

Новите проучвания понякога се различават значително от старите изследвания, които се опитват да възпроизведат. Ето само един (от най-малко дузина) примери за това как репликираното проучване е довело до значителни усложнения:

В друго проучване белите студенти от Станфордския университет са гледали видео на четирима други студенти от Станфорд, които обсъждат политиките за прием в техния университет (Crosby, Monin и Richardson, 2008). Трима от дискусантите бяха бели, а един беше черен. По време на дискусията един от белите студенти направи обидни коментари за утвърдителни действия и изследователите установиха, че наблюдателите поглеждат значително по-дълго към черния студент, когато вярват, че може да чуе коментарите на останалите, отколкото когато не може. Въпреки че участниците в проучването за репликация бяха студенти от Университета в Амстердам, те гледаха същия видеоклип на студенти от Станфорд, които говорят (на английски!) За политиките за прием на Станфорд.

Могат ли студентите в един университет в Амстердам наистина да разберат какво утвърдително действие в Америка дори е имало предвид значителните културни различия между американското и амстердамското общество? Учудващо е, че изследователите, които проведоха репликацията, заявиха, че изследванията са „практически идентични“ (и естествено, те са пристрастни да го кажат, тъй като е техен проучване). И все пак първоначалните изследователи, признавайки значителните културни различия в двете популации, не одобриха новото репликационно проучване.

Гилбърт и колегите му откриват този проблем не само в едно, но и в много от репликационните проучвания. Изглежда странно, че Nosek et al. чувствах, че този вид несъответствия няма да повлияят на качеството на изследването (или „вярност“, както изследователите го наричат). И все пак очевидно това са значителни качествени разлики, които със сигурност биха повлияли на възпроизводимостта на изследването.

Имаме нужда от повече мощност!

Изследването може да стои или да падне върху неговия дизайн. И ключова част от дизайна на изследователското проучване е неговата мощност. Изследването на репликацията използва дизайн, който вероятно е обречен да се провали от самото начало. Дизайните с ниска мощност не могат да вземат размери на ефекта, които проучванията с по-висока мощност могат. Избирайки да се възползват от дизайн с ниска мощност, Nosek и колегите на практика осигуриха своите отрицателни констатации, преди да съберат една точка от данни.

Носек и колегите изтъкнаха няколко аргумента за избора на дизайн, които Gilbert et al. свален един по един в техния отговор. Заключението на Гилбърт и неговите колеги?

В обобщение, нито един от аргументите, направени [от изследователите на репликацията] не оспорва факта, че авторите на [новото проучване] са използвали дизайн с ниска мощност и че (както показват нашите анализи на данните от ML2014) това вероятно е довело до брутен подценяване на истинската степен на репликация в техните данни.

Други изследователи по психология са провели подобен експеримент с репликация още през 2014 г. (Klein et al., 2014). Използвайки мощен дизайн, те откриха, че повечето проучвания по психология, които са изследвали, са се възпроизвели - 11 от 13 експеримента са повторени. За да тестват въздействието на дизайна на Nosek et al., Gilbert et al. изчислява се, че степента на възпроизвеждане на изследването през 2014 г. ще спадне от 85 процента на 34 процента. Значителна и показателна разлика.

И така, какво всъщност знаем за възпроизводимостта на психологическата наука?

Повече, отколкото предполагахме. Предвид критиката на Gilbert et al. И мрачната реакция от първоначалните изследователи, изглежда по-вероятно Nosek et al. проучването беше критично опорочено.

Изглежда, че психологическата наука е по-възпроизводима, отколкото си мислехме - добри новини както за науката, така и за психологията.

Препратки

Гилбърт, Д., Кинг, Г., Петигрю, С. и Уилсън, Т. (2016). Коментар на „Оценка на възпроизводимостта на психологическата наука“. Наука, 351, 1037a-1037b.

Gilbert et al. (2016). Отговор на отговора на техническия ни коментар относно „Оценка на възпроизводимостта на психологическата наука“.

Klein, RA, Ratliff, M Vianello, RB Adams Jr, Š Bahník, MJ Bernstein, et al. (2014). Изследване на вариациите в репликацията: Проект за репликация „Много лаборатории“. Социална психология, 45, 142-152

Nosek и сътр. & Отворено научно сътрудничество. (2015). Оценка на възпроизводимостта на психологическата наука. Наука, 349. DOI: 10.1126 / science.aac4716

Nosek и сътр. (2016). Отговор на коментар „Оценка на възпроизводимостта на психологическата наука“. Наука, 351, 1037. DOI: 10.1126 / science.aad9163

!-- GDPR -->