Una razón por la cual algunos estudios científicos pueden estar equivocados

Hay un crisis de replicabilidad en ciencia: los "falsos positivos" no identificados son penetrando incluso nuestras principales revistas de investigación.

Un falso positivo es un reclamo de que existe un efecto cuando en realidad no es así. Nadie sabe qué proporción de artículos publicados contienen resultados tan incorrectos o exagerados, pero hay signos de que la proporción no es pequeña.

El epidemiólogo John Ioannidis dio la mejor explicación para este fenómeno en un artículo famoso en 2005, provocadoramente titulado "Por qué la mayoría de los resultados de investigación publicados son falsos". Una de las razones por las que Ioannidis dio por tantos resultados falsos ha llegado a llamarse "p hacking ", que surge de la presión que sienten los investigadores para lograr significación estadística.

¿Qué es significación estadística?

Para sacar conclusiones de los datos, los investigadores generalmente confían en prueba de significancia. En términos simples, esto significa calcular el "p valor ", que es la probabilidad de resultados como los nuestros si realmente no hay ningún efecto. Si el p el valor es suficientemente pequeño, el resultado se declara estadísticamente significativo.

Tradicionalmente, un p valor de menos de .05 es el criterio de significancia. Si informas un p<.05, es probable que los lectores crean que ha encontrado un efecto real. Quizás, sin embargo, en realidad no haya ningún efecto y haya informado un falso positivo.


gráfico de suscripción interior


Muchas revistas solo publicarán estudios que puedan informar uno o más efectos estadísticamente significativos. Los estudiantes de posgrado aprenden rápidamente que lograr lo mítico p

Esta presión para lograr pp piratería.

El atractivo de p la piratería

Para ilustrar p pirateo, he aquí un ejemplo hipotético.

Bruce ha completado recientemente un doctorado y ha obtenido una beca de prestigio para unirse a uno de los mejores equipos de investigación en su campo. Su primer experimento no funciona bien, pero Bruce refina rápidamente los procedimientos y ejecuta un segundo estudio. Esto parece más prometedor, pero todavía no da una p valor de menos de .05.

Convencido de que tiene algo, Bruce reúne más datos. Decide dejar caer algunos de los resultados, que se veían claramente fuera de lugar.

Luego se da cuenta de que una de sus medidas da una imagen más clara, por lo que se centra en eso. Unos pocos ajustes más y Bruce finalmente identifica un efecto ligeramente sorprendente pero realmente interesante que logra p

Bruce intentó con todas sus fuerzas encontrar el efecto que él sabía estaba al acecho en algún lado. Él también estaba sintiendo la presión de golpear p

Solo hay una trampa: en realidad no hubo ningún efecto. A pesar del resultado estadísticamente significativo, Bruce ha publicado un falso positivo.

Bruce sintió que estaba usando su visión científica para revelar el efecto de acecho ya que dio varios pasos después de comenzar su estudio:

  • Él recolectó más datos.
  • Dejó caer algunos datos que parecían aberrantes.
  • Dejó caer algunas de sus medidas y se centró en las más prometedoras.
  • Analizó los datos de forma un poco diferente e hizo algunos ajustes adicionales.

El problema es que todas estas elecciones se hicieron después de viendo los datos. Es posible que Bruce, inconscientemente, haya estado picoteando, seleccionando y retocando hasta obtener el escurridizo pp

Los estadísticos tienen un dicho: si torturas los datos lo suficiente, lo confesarán. Las opciones y los ajustes realizados después de ver los datos son prácticas de investigación cuestionables. Usar estos, deliberadamente o no, para lograr el resultado estadístico correcto es p la piratería, que es una razón importante por la que los resultados publicados y estadísticamente significativos pueden ser falsos positivos.

¿Qué proporción de resultados publicados son incorrectos?

Esta es una buena pregunta, y una diabólicamente difícil. Nadie sabe la respuesta, que probablemente sea diferente en diferentes campos de investigación.

En 2015 se publicó un gran e impresionante esfuerzo por responder la pregunta sobre la psicología social y cognitiva. Dirigido por Brian Nosek y sus colegas del Center for Open Science, el Proyecto de replicabilidad: Psicología (RP: P) Los grupos de investigación 100 de todo el mundo realizaron una cuidadosa réplica de uno de los resultados publicados de 100. En general, aproximadamente 40 se replica bastante bien, mientras que en los casos de 60, los estudios de replicación obtuvieron efectos menores o mucho menores.

Los estudios de replicación 100 RP: P informaron efectos que fueron, en promedio, solo la mitad del tamaño de los efectos informados por los estudios originales. Las repeticiones cuidadosamente realizadas probablemente dan estimaciones más precisas que las posibles p hackeó los estudios originales, por lo que podríamos concluir que los estudios originales sobreestimaron los efectos verdaderos, en promedio, un factor de dos. ¡Eso es alarmante!

Como evitar p la piratería

La mejor manera de evitar p la piratería es evitar hacer selecciones o ajustes después de ver los datos. En otras palabras, evite las prácticas de investigación cuestionables. En la mayoría de los casos, la mejor manera de hacerlo es usar preinscripción.

El preinscripción requiere que prepare de antemano un plan de investigación detallado, que incluya el análisis estadístico que se aplicará a los datos. Luego, preinscribe el plan, con el sello de fecha, en el Open Science Framework o algún otro registro en línea.

Entonces llevar a cabo el estudio, analizar los datos de acuerdo con el plan e informar los resultados, sean los que sean. Los lectores pueden verificar el plan preinscrito y, por lo tanto, estar seguros de que el análisis se especificó de antemano, y no p hackeado La preinscripción es una nueva idea desafiante para muchos investigadores, pero es probable que sea el camino del futuro.

Estimación en lugar de p valores

La tentación de p hackear es una de las grandes desventajas de confiar en p valores. Otra es que el pes como decir que existe un efecto o no.

Pero el mundo no es blanco y negro. Para reconocer los numerosos tonos de gris, es mucho mejor usar estimación más bien que p valores. El objetivo de la estimación es estimar el tamaño de un efecto, que puede ser pequeño o grande, cero o incluso negativo. En términos de estimación, un resultado positivo falso es una estimación que es mayor o mucho mayor que el valor verdadero de un efecto.

Tomemos un estudio hipotético sobre el impacto de la terapia. El estudio podría, por ejemplo, estimar que la terapia da, en promedio, una disminución de la ansiedad en el punto 7. Supongamos que calculamos a partir de nuestros datos intervalo de confianza - un rango de incertidumbre a cada lado de nuestra mejor estimación - de [4, 10]. Esto nos dice que nuestra estimación de 7 está, muy probablemente, dentro de los puntos 3 en la escala de ansiedad del efecto verdadero, es decir, la verdadera cantidad media de beneficio de la terapia.

En otras palabras, el intervalo de confianza indica qué tan precisa es nuestra estimación. Conocer tal estimación y su intervalo de confianza es mucho más informativo que cualquier otro p .

Me refiero a la estimación como una de las "nuevas estadísticas". Las técnicas en sí mismas no son nuevas, pero usarlas como la principal forma de sacar conclusiones de los datos sería, para muchos investigadores, nuevo y un gran paso adelante. También ayudaría a evitar las distorsiones causadas por p seco.

Sobre el Autor

Geoff Cumming, Profesor Emérito, La Trobe University

Este artículo se publicó originalmente el La conversación. Leer el articulo original.

Libros relacionados:

at InnerSelf Market y Amazon