Pruebas de normalidad estadística: una guía para comprender y aplicar las pruebas

  • En términos de estadísticas descriptivas, uno mide una bondad de ajuste de un modelo normal a los datos: si el ajuste es pobre, los datos no están bien modelados en ese sentido por una distribución normal, sin juzgar sobre ninguna variable subyacente.
  • En las estadísticas bayesianas, uno no «prueba la normalidad» per se, sino que calcula la probabilidad de que los datos provengan de una distribución normal con parámetros dados μ, σ (para todos μ, σ), y compara eso con la probabilidad de que los datos Provienen de otras distribuciones en consideración, más simplemente utilizando un factor Bayes (dando la probabilidad relativa de ver los datos dados diferentes modelos), o más finamente una distribución previa en posibles modelos y parámetros y calcular una distribución posterior dadas las probabilidades calculadas.

Se utiliza una prueba de normalidad para determinar si los datos de la muestra se han extraído de una población normalmente distribuida (dentro de alguna tolerancia). Varias pruebas estadísticas, como la prueba t de Student y el ANOVA unidireccional y bidireccional, requieren una población de muestras normalmente distribuida.

Un enfoque informal para probar la normalidad es comparar un histograma de los datos de la muestra con una curva de probabilidad normal. La distribución empírica de los datos (el histograma) debe tener forma de campana y parecerse a la distribución normal. Esto podría ser difícil ver si la muestra es pequeña. En este caso, uno podría proceder regresando los datos contra los cuantiles de una distribución normal con la misma media y varianza que la muestra. La falta de ajuste a la línea de regresión sugiere una desviación de la normalidad (ver Anderson Darling Coeficiente y Minitab).

Una herramienta gráfica para evaluar la normalidad es el gráfico de probabilidad normal, un gráfico cuantil quantile (gráfico QQ) de los datos estandarizados contra la distribución normal estándar. Aquí la correlación entre los datos de la muestra y los cuantiles normales (una medida de la bondad del ajuste) mide qué tan bien los datos se modelan mediante una distribución normal. Para los datos normales, los puntos trazados en la gráfica QQ deben caer aproximadamente en una línea recta, lo que indica una alta correlación positiva. Estas parcelas son fáciles de interpretar y también tienen el beneficio de que los valores atípicos se identifican fácilmente.

Prueba simple de fondo de la muestra toma la muestra máxima y mínima y calcula su puntaje Z, o más correctamente estadístico T
(Número de desviaciones estándar de muestra que una muestra está por encima o por debajo de la media de la muestra), y la compara con la regla 68–95–99.7:
Si uno tiene un evento 3σ (correctamente, un evento 3S) y sustancialmente menos de 300 muestras, o un evento 4S y sustancialmente menos de 15,000 muestras, entonces una distribución normal subestimará la magnitud máxima de las desviaciones en los datos de la muestra.

¿Qué pruebas de normalidad existen?

En esta parte, pasamos por siete pruebas de normalidad bien conocidas en R. La siguiente es la lista de estas pruebas.

  • Prueba de Shapiro-Wilk
  • Prueba de jarque-bera
  • Prueba de Anderson-Darling
  • Prueba de cramer-von Mises
  • Prueba de Lilliefors (Kolmogorov-Smirnov)
  • Prueba de chi-cuadrado de Pearson
  • Prueba de Shapiro-Francia

Utilizamos la función Shapiro.test () para verificar la normalidad de los datos con la prueba Shapiro-Wilk.

Según el resultado de la prueba de Shapiro-Wilk, no hay evidencia suficiente para rechazar la hipótesis nula (Ho: los datos se distribuyen normalmente) ya que el valor p (0.4595) es mayor que el alfa (0.05). Por lo tanto, podemos concluir que los datos se distribuyen normalmente.

La prueba de Jarque-Bera sugiere que no hay evidencia suficiente para rechazar la hipótesis nula (Ho: los datos se distribuyen normalmente) ya que el valor p (0.8344) es mayor que el alfa (0.05). Por lo tanto, podemos concluir que los datos se distribuyen normalmente.

Para usar la prueba de Anderson-Darling para evaluar la normalidad en R, aplicamos la función Ad.Test () disponible en el paquete Nortest (Gross y Ligges, 2015).

Según la prueba de Anderson-Darling, no hay evidencia suficiente para rechazar la hipótesis nula (Ho: los datos se distribuyen normalmente) ya que el valor p (0.3352) es mayor que el alfa (0.05). Por lo tanto, podemos concluir que los datos se distribuyen normalmente.

Los investigadores pueden usar la prueba de Mises Cramer-Von para evaluar la normalidad de los datos con la función CVM.Test () disponible en el paquete Nortest (Gross y Ligges, 2015).

¿Cuándo usar Shapiro y Kolmogorov?

Se da una explicación técnicamente correcta en esta página de Wikipedia. Sin embargo, una explicación más simple, pero no técnicamente correcta es esta: la prueba Shapiro-Wilk primero cuantifica la similitud entre las distribuciones observadas y normales como un solo número: superpone una curva normal sobre la distribución observada como se muestra a continuación. Luego calcula qué porcentaje de nuestra muestra se superpone con él: un porcentaje de similitud.

Finalmente, la prueba de Shapiro-Wilk calcula la probabilidad de encontrar esto observado, o un porcentaje de similitud menor. Lo hace bajo el supuesto de que la distribución de la población es exactamente normal: la hipótesis nula.

La hipótesis nula para la prueba de Shapiro-Wilk es que una variable se distribuye normalmente en alguna población.
Una forma diferente de decir lo mismo es que los valores de una variable son una muestra aleatoria simple de una distribución normal. Como regla general, nosotros
Rechaze la hipótesis nula si p <0.05. Entonces, en este caso, concluimos que nuestra variable no se distribuye normalmente. ¿Por qué? Bueno, P es básicamente la probabilidad de encontrar nuestros datos si la hipótesis nula es cierta. Si esta probabilidad es (muy) pequeña, pero encontramos nuestros datos de todos modos, entonces la hipótesis nula probablemente fue incorrecta.

Una muestra de n = 236 personas completó una serie de tartas de velocidad. Sus tiempos de reacción están en SpeedTasks.sav, parcialmente que se muestra a continuación. Solo usaremos las primeras cinco pruebas en las variables R01 a R05.

Le recomiendo que siempre inspeccione a fondo todas las variables que le gustaría analizar. Dado que nuestros tiempos de reacción en milisegundos son variables cuantitativas, ejecutaremos algunos histogramas rápidos sobre ellos. Prefiero hacerlo de la sintaxis corta a continuación. Más fácil -pero los métodos más lentos se cubren en la creación de histogramas en SPSS.

¿Cómo se comprueba la normalidad en estadistica?

Muchas técnicas estadísticas (regresión, ANOVA, pruebas t, etc.) se basan en el supuesto de que los datos normalmente se distribuyen.
Para estas técnicas, es una buena práctica examinar los datos para
Confirme que la suposición de normalidad es sostenible.

Quizás, la forma más fácil de probar la normalidad es examinar varias estadísticas descriptivas comunes. Esto es lo que
buscar:

  • Tendencia central. los
    media y el
    mediana son medidas de resumen utilizadas
    Para describir la tendencia central, el valor más «típico» en un conjunto de valores. Con un normal
    Distribución, la media es igual a la mediana.
  • Oblicuidad. La asimetría es una medida de la asimetría de una distribución de probabilidad.
    Si las observaciones se distribuyen igualmente alrededor de la media, el valor de asimetría es cero; De lo contrario, la asimetría
    El valor es positivo o negativo. Como regla general, la asimetría entre -2 y +2 es consistente con
    una distribución normal.
  • Curtosis. La curtosis es una medida de si las observaciones se agrupan alrededor del
    media de la distribución o en las colas de la distribución. La distribución normal tiene un
    Valor de curtosis de cero. Como regla general, la curtosis entre -2 y +2 es consistente con una normalidad
    distribución.

Juntas, estas medidas descriptivas proporcionan una base útil para juzgar si un conjunto de datos satisface
la suposición de normalidad.

Para ver cómo calcular estadísticas descriptivas en Excel, considere el siguiente conjunto de datos:

Luego, en el cuadro de diálogo Estadísticas descriptivas, ingrese el rango de entrada,
y haga clic en la casilla de verificación de estadísticas de resumen. El cuadro de diálogo, con entradas, debe verse así:

Y finalmente, para mostrar estadísticas de resumen, haga clic en el botón Aceptar en el cuadro de diálogo Estadísticas descriptivas.
Entre otras salidas, debería ver lo siguiente:

La media es casi igual a la mediana. Y tanto la asimetría como la curtosis están entre -2 y +2.

¿Cómo se comprueba la normalidad de los datos?

Lleva mucho tiempo encontrar serpientes de cascabel y estrago nervioso para medirlas (por razones obvias). Un científico encuentra al azar 12 serpientes del área central de Pensilvania y mide su longitud. Se obtienen las siguientes doce mediciones en pulgadas:

Usando los datos anteriores, encuentre un intervalo de confianza del 90% para la longitud media de las serpientes de cascabel en el área central de Pensilvania.

Piense en qué condiciones necesita verificar. El tamaño de la muestra es solo 12. El escenario no nos da una indicación de que las longitudes siguen una distribución normal. Por lo tanto, hagamos un gráfico de probabilidad normal para verificar si la suposición de que los datos provienen de una distribución normal son válidos.

  • Ingrese las 12 medidas en una columna (nombre logre longitud para este ejemplo) o cargue el archivo Snakes.txt.
  • Escriba o cargue los datos en la primera columna en Minitab.
  • Elija Gráfico de gráfico> Probabilidad

Aquí está el gráfico de probabilidad normal para los datos de serpiente de cascabel. ¿Qué concluye sobre si pueden provenir de una distribución normal?

Dado que todos los puntos caen dentro de los límites de confianza, es razonable sugerir que los datos provienen de una distribución normal.

Ahora, podemos proceder a encontrar el 90% de intervalo T para la longitud media de las serpientes de cascabel en el área central de Pensilvania, ya que aunque el tamaño de la muestra es inferior a 30, la gráfica de normalidad muestra que los datos pueden provenir de una distribución normal.

  • Ingrese las 12 medidas en una columna (nombre logre longitud para este ejemplo) o cargue el archivo Snakes.txt.
  • Escriba o cargue los datos en la primera columna en Minitab.
  • Elija Gráfico de gráfico> Probabilidad
  • Ingrese las 12 medidas en una columna (nómbrelo longitud para este ejemplo)
  • ¿Cómo realizar una prueba de normalidad?

    Elija STAT> Estadísticas básicas> Prueba de normalidad. Los resultados de la prueba indican si debe rechazar o no rechazar la hipótesis nula de que los datos provienen de una población normalmente distribuida. Puede hacer una prueba de normalidad y producir un gráfico de probabilidad normal en el mismo análisis. La prueba de normalidad y la trama de probabilidad suelen ser las mejores herramientas para juzgar la normalidad.

    Los siguientes son tipos de pruebas de normalidad que puede usar para evaluar la normalidad.

    Prueba de Anderson-Darling
    Esta prueba compara el ECDF (función de distribución acumulativa empírica) de sus datos de muestra con la distribución esperada si los datos eran normales. Si la diferencia observada es adecuadamente grande, rechazará la hipótesis nula de la normalidad de la población.
    Prueba de normalidad de Ryan-Joiner
    Esta prueba evalúa la normalidad calculando la correlación entre sus datos y las puntuaciones normales de sus datos. Si el coeficiente de correlación está cerca de 1, es probable que la población sea normal. La estadística de Ryan-Joiner evalúa la fuerza de esta correlación; Si es menor que el valor crítico apropiado, rechazará la hipótesis nula de la normalidad de la población. Esta prueba es similar a la prueba de normalidad de Shapiro-Wilk.
    Prueba de normalidad de Kolmogorov-Smirnov
    Esta prueba compara el ECDF (función de distribución acumulativa empírica) de sus datos de muestra con la distribución esperada si los datos eran normales. Si esta diferencia observada es adecuadamente grande, la prueba rechazará la hipótesis nula de la normalidad de la población. Si el valor p de esta prueba es menor que el α elegido, puede rechazar su hipótesis nula y concluir que la población no es normal.

    ¿Qué es la normalidad de los datos en estadistica?

    La normalidad es un concepto clave de estadísticas que se deriva del concepto de distribución normal o «curva de campana». Los datos que poseen normalidad son de naturaleza siempre presente, lo que ciertamente es útil para los científicos y otros investigadores, ya que la normalidad nos permite realizar muchos tipos de análisis estadísticos que no podríamos realizar sin él. Los estudiantes deben recordar verificar un conjunto de datos para su normalidad antes de realizar un análisis que se basa en datos distribuidos normalmente.

    El término «normalidad» en realidad deriva de un concepto estadístico más básico: la distribución normal. La distribución normal describe la «forma» de una población como en la de una curva de campana. Es decir, cuando traza las estadísticas a lo largo de un eje horizontal para esa variable particular, el tiempo, por ejemplo, con el eje vertical que representa la probabilidad de observar ese valor en el eje horizontal, un conjunto de datos con una distribución normal tendrá una forma Como una montaña simétrica: en lo alto del medio y se inclina gradualmente hacia la izquierda y la derecha. Se dice que los datos que siguen dicha distribución poseen normalidad.

    La normalidad existe en toda la naturaleza. Muchas variables, desde la cantidad de ketchup, la persona promedio se aprieta en su perro caliente hasta la vida útil promedio de una computadora portátil, posee normalidad. Lo que esto significa es que es probable que estas variables caigan alrededor del valor medio, conocido como media o mediana, de la distribución normal, pero también es tan probable que caigan hacia la izquierda o la derecha de ese valor medio. Por ejemplo, la distribución normal puede describir el tiempo de la gestación humana. Aunque tenemos la costumbre de decir que el embarazo dura nueve meses, no siempre dura exactamente nueve meses. De hecho, la duración del embarazo de una mujer probablemente difiere en varios días de la de otro, con algunos más cortos y otros más.

    La normalidad es un concepto importante en estadísticas, y no solo porque su definición nos permite conocer la distribución de los datos. Según los estadísticos Robert Witte y John Witte, autores del libro de texto «estadísticas», muchas teorías estadísticas avanzadas confían en los datos observados que poseen normalidad. Por ejemplo, una prueba t, que permite a los estadísticos y otros investigadores verificar la probabilidad de si dos variables provienen de diferentes distribuciones, requiere que los datos con los que está trabajando poseen normalidad. Si no, no puede aplicar la prueba t, lo que dificulta mucho el análisis estadístico.

    Comprender la normalidad es una cosa; Determinar si un conjunto de datos posee normalidad es otra. Los estadísticos a menudo hacen todo lo posible para verificar si sus datos poseen normalidad. Usando los rasgos de la distribución normal, puede verificar un conjunto de datos para ver la normalidad de muchas maneras diferentes. Las formas más fáciles incluyen trazar los datos y observar si los datos parecen ajustarse a una forma de curva de campana o verificar el sesgo de un conjunto de datos, lo que puede decirle a un investigador si los datos son simétricos: la normalidad requiere simetría. En el lado más duro están las pruebas estadísticas rigurosas que pueden decir a los estadísticos dentro de un cierto grado de certeza si un conjunto de datos posee normalidad. No importa de qué manera use, garantizar la normalidad antes de realizar un análisis puede salvaguardar la idoneidad de sus métodos.

    ¿Qué significa que los datos siguen una distribución normal?

    La distribución normal también se conoce como distribución gaussiana o de Gauss. Muchos grupos siguen este tipo de patrón. Por eso se usa ampliamente en negocios, estadísticas y en organismos gubernamentales como la FDA:

    • Alturas de personas.
    • Errores de medición.
    • Presión arterial.
    • Puntos en una prueba.
    • IQ puntuaciones.
    • Salarios.

    Entendamos el concepto con la ayuda del siguiente ejemplo:

    La curva de distribución normal se observa en algunas de las pruebas competitivas como el SAT, UPSC, JEE-Advanced y Gre, etc. Aquí la distribución normal indicó que la mayor parte de los estudiantes obtendrá las marcas promedio (grado = c), mientras que más pequeña El número de estudiantes obtendrá las calificaciones (B o D), y un número menor de estudiantes obtendrá una calificación A F o A.

    Todos estos tipos de inferencias se toman de la fórmula empírica de la distribución normal, que discutiremos más adelante en este artículo.

    Hay varias razones por las cuales la distribución normal es crucial en las estadísticas. Algunos de ellos son los siguientes:

    1. La prueba de hipótesis estadística supone que los datos siguen una distribución normal.

    2. La regresión lineal y no lineal supone que el residual sigue la distribución normal.

    3. Además, el teorema del límite central establece que a medida que aumenta el tamaño de la muestra, la distribución de la media sigue la distribución normal independientemente de la distribución de la variable original

    4. Además de esto, la mayoría de los programas de software estadístico también admiten algunas de las funciones de probabilidad para la distribución normal.

    ¿Cómo redactar la prueba de normalidad?

    Estas pruebas ocupan un lugar importante en las estadísticas. De hecho, muchas pruebas suponen que la normalidad de las distribuciones es aplicable. Estrictamente de términos, es esencial verificar la normalidad antes de usar las pruebas. Sin embargo, muchas pruebas son lo suficientemente robustas como para ser utilizables, incluso si las distribuciones difieren de la distribución normal.

    Un artículo en el Journal of Statistical Modeling and Analytics en 2011 concluye que Shapiro-Wilk tiene el mejor poder para un nivel determinado de importancia, seguido de cerca por Anderson-Darling, comparando Shapiro-Wilk, Kolmogorov-Smnnov, Lilliefors y Anderson Tests- Querida.

    Las pruebas en los momentos tienen una hipótesis más débil, no verifique si la función de distribución es normal, pero si los momentos (coeficientes de asimetría y curiosidad) de la distribución desconocida son idénticos a los de una distribución normal:
    H0: g1 = 0 y g2 = 3 { splatyle h_ {0}: g_ {1} = 0 { mbox {e}} g_ {2} = 3 ,}

    Tenga en cuenta que esto no es suficiente para caracterizar una ley normal (problema de momento).

    No se recomienda su uso debido a su falta de poder y a la necesidad de dividir las distribuciones en clases.

    Una aplicación de pruebas normales se refiere a los residuos de un modelo de regresión lineal. Si normalmente no se distribuyen, los residuos no se pueden usar en las pruebas Z o en cualquier otra prueba, siempre que involucren hipótesis normales (por ejemplo, la prueba t, la prueba de Fisher o la prueba χ²). Si los residuos no se distribuyen normalmente, significa que la variable dependiente, o al menos una variable explicativa, podría tener una función de distribución incorrecta; También pueden faltar variables importantes. Una o más correcciones de estos errores clásicos pueden producir residuos que siguen una distribución normal.

    Artículos Relacionados:

    Más posts relacionados:

    Deja una respuesta

    Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *