Replicabilidad, oh, ¿dónde te escondes?

La revista Science publicaba recientemente un informe cuyos resultados no pueden dejar indiferentes a los interesados por este blog. Producto de un gran proyecto sobre la replicabilidad de estudios empíricos en la psicología, el informe concluye que

[tras] realizar 100 replicaciones de estudios experimentales y correlacionales publicados en tres revistas de psicología utilizando diseños de replicación con alto poder estadístico y los materiales originales siempre que fuera posible […] el 97% de los estudios originales tenía resultados estadísticamente significativos (P<.05). El 36% de las replicaciones tenía resultados estadísticamente significativos

De manera aún más concluyente los resultados del macro-proyecto de replicación experimental encontraron que sólo un 47% de los efectos cuantitativos (“effect sizes”) de los estudios originales se hallaban dentro del intervalo de confianza al 95% del efecto cuantitativo de la correspondiente replicación.

El problema de la replicabilidad y calidad de la investigación en ciencias conductuales es complejo y no corresponde abordarlo aquí en sólo unas líneas, aunque es evidente que los incentivos no están del todo bien alineados y se da algún que otro dilema de acción colectiva en cuestiones como la publicación de resultados negativos en revistas (los editores de revistas no desean por lo general publicar resultados negativos y los esfuerzos para paliar el desequilibrio que esto crea son todavía tímidos). Aún así y para los que todavía no ha llegado el evangelio de la llamada nueva estadística, los resultados de este informe dan la razón a los que desde hace décadas venían alertando del coste del culto a la significatividad estadística y la falta de previsión en la potencia estadística en el diseño de los estudios conductuales. En este último caso, paradójicamente un empleo sistemático de diseños experimentales con baja sensibilidad y propicios a los falsos negativos, unido al problema del bajo valor que se concede a la publicación de resultados negativos, puede tener como consecuencia un aumento de publicaciones de estudios con efectos cuantitativos (effect sizes) que están inflados. Algo así parece haber sido el caso en la batería de estudios escogidos para su replicabilidad en el proyecto cuyos resultados publicaba recientemente la revista Science.
La ciencia conductual y la psicología en particular lleva varios años revolucionada o, por lo menos, en proceso de amplia reforma metodológica en toda una serie de detalles que aspiran a hacer que estas tasas de no replicabilidad bajen y dejemos de gastar tiempo y recursos siguiendo hipótesis que en realidad se basan en datos poco fiables.
La filosofía experimental, al haberse unido al carro de los métodos estadísticos y experimentales, con no siempre demasiada maestría de los mismos, es también no menos susceptible de haber cometido los mismos errores.
Una página sobre algunas replicaciones en filosofía experimental puede hallarse en el sitio web de la universidad de Yale.

Replications in experimental philosophy

En fin que, como siempre, es deseable separar la paja del grano en los resultados científicos y cooperar más (mucho más) en mejorar el rendimiento de la cosecha. Puesto que los incentivos individuales (de los investigadores y los editores de revistas) no coinciden siempre con la mayor cooperación, se requieren más apoyos institucionales, como el del mencionado macro-proyecto de replicación, para seguir avanzando en ese sentido.

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: