top of page
Search

Datos biológicos y la distribución Normal

Updated: Nov 24, 2019

¿Por qué mis datos no se ajustan a una distribución Normal?


Casi todos los que hemos realizado alguna vez análisis de datos en estudios biológicos, biomédicos o ambientales, hemos pasado por el asunto de la distribución normal de los datos. Es frecuente decir: «mis datos no se ajustan a una distribución normal, ¿qué hago?», y bajo ese contexto, muchos llegamos a cuestionar si los datos son correctos, si fueron bien generados; asumiendo directamente que debían ser normales, como si tal cosa fuese la regla en la naturaleza. Bajo esta extraña situación, dejamos de aplicar pruebas estadísticas paramétrica (p. ej. la prueba t, ANOVA) ya que, como se señala en todos los libros de estadística, estas pruebas asumen como condición que los datos se ajusten a una distribución normal. Acá me detengo para advertirles que no es necesario entrar en pánico, los datos no deben ajustarse a una distribución normal, son los residuales de sus datos los que deben cumplir tal condición. Empecemos por aclarar la lógica de esta afirmación. Imaginemos dos muestras de 30 elementos cada una, que provienen de poblaciones con distribución normal, con igual varianza pero diferente promedio. Creemos estos vectores de datos usando el lenguaje de programación estadística R, específicamente la función rnorm para generar los datos y hist para graficar y verificar la forma de la distribución.

Note que ambas figuras no necesariamente reflejan la forma perfecta de una distribución normal, no obstante, provienen de una normal! Ahora bien, este no es el punto, el punto es evaluar, como en la vida real, que provengan de una distribución normal. Lo primero que haciamos era usar un software estadístico y pedir un qqplot o aplicar una prueba estadística como Shapiro-Wilk. Hagamos eso y verifiquemos el resultado, usemos shapiro.test. Recuerden que la hipótesis nula es que: los datos se ajustan a una distribución normal.

Como pueden ver, la prueba acaba de sugerir que la probabilidad de que los datos se ajusten a una distribución normal es sumamente baja, por lo que si aplicamos como criterio de rechazo el α = 0.05, debemos rechazar la hipótesis nula. Este es, sin duda alguna, un gran error de inferencia estadística, y esto es lo que la gran mayoría de los usuarios de estadística hacen! Teniendo como consecuencia el descartar el uso de pruebas paramétricas tan robustas como ANOVA, para aplicar pruebas de baja potencia como Kruskal-Wallis.

Grafiquemos las funciones de densidad para la distribución simultánea de m1 y m2 y así entender el ¿extraño? resultado de la prueba estadística. Hagamos esto con ggplot2:

Evidentemente la distribución de los 60 datos no es normal, cada muestra tiene promedios diferentes, por ello se ve la doble moda en la figura. Entonces, cabe preguntar ¿porqué las pruebas estadísticas exigen tal cosa? Pues, las pruebas estadísticas lo que requieren es que los residuales se ajusten a una distribución normal, no los datos!!

Veamos el ajuste a la distribución normal luego de extraer el efecto del promedio. Primero generemos un modelo lineal con la función lm, luego extraigamos los residuales y grafiquemos:


Ahora sí parece una distribución normal, al menos parece simétrica. Podemos ahora formalmente probar el ajuste usando la prueba de shapiro.test y evaluar.


Efectivamente, la prueba confirma que los residuales provienen de poblaciones con ajuste a una distribución normal. Esto es muy importate destacarlo, ya que la mayoría de las personas que nos piden asesoría tienen gran preocupación por la distribución de los datos. Nuestro mensaje es que la condición de satisfacción de ajuste a una distribución normal no está bien desarrollada en la mayoría de los textos de estadística, y lamentablemente, distorcionada en l amayoría de los cursos de bioestadística.

En un próximo post indicaremos la relevancia de esta condición de ajuste; así como alternativas a situaciones con residuales alejados de una distribución normal, principalmente destacaremos el uso de la estadística computacionalmente intensiva.








bottom of page