ANOVA: ¿Qué es y cómo se usa en estadística?

En esta sección, presentamos la tabla de análisis de varianza. Recuerde que queremos examinar la variación entre el grupo y la variación del grupo dentro del uso de una prueba F

(F = dfrac { text {entre la varianza de grupo}} { text {dentro de la varianza de grupo}} )

Sin embargo, para comprender lo que está haciendo una prueba F, necesitamos comprender lo que queremos decir con «entre la varianza grupal» y «dentro de la varianza del grupo».

Estos términos deberían recordarle el material del curso temprano sobre la variabilidad. Introducimos la variabilidad en relación con la desviación de cada observación de la media. Esta idea es cierta al mirar ANOVA. Entre la variabilidad del grupo está la desviación de cada media del grupo de la media general. Dentro de la variabilidad del grupo está la desviación de la observación de la media del grupo de esa observación. Al igual que con la varianza de cálculo y la desviación estándar, trabajamos con estos puntajes de desviación como términos cuadrados.

En ANOVA, la variabilidad del grupo entre y dentro del grupo se presenta como «sumas de cuadrados» en la tabla ANOVA:

Suma de cuadrados para el tratamiento o la suma grupal de cuadrados

( text {sst} = sum_ {i = 1}^t n_i ( bar {y} _ {i.}- bar {y} _ {..})^2 )

Suma de cuadrados por error o la suma de cuadrados dentro del grupo

( text {sse} = sum_ {i, j} (y_ {ij}- bar {y} _ {i.})^2 )

Suma total de cuadrados

( text {tss} = sum_ {i, j} (y_ {ij}- bar {y} _ {..})^2 )

Se puede derivar que ( text {tss} = text {sst} + text {sse} ).

Podemos configurar la tabla ANOVA para ayudarnos a encontrar la estadística F. Pase la bombilla para obtener más información sobre ese elemento.

¿Cómo se hace la tabla ANOVA?

Todas nuestras fuentes de variabilidad encajan de manera significativa e interpretable como vimos anteriormente, y la forma más fácil de hacerlo es organizarlas en una mesa. La tabla ANOVA, que se muestra en la Tabla ( PageIndex {1} ), es cómo calculamos nuestra estadística de prueba.

Tabla ( pageIndex {1} ): tabla ANOVA

La primera columna de la tabla ANOVA, etiquetada como «fuente», indica cuáles de nuestras fuentes de variabilidad estamos utilizando: entre grupos, dentro de grupos o total. La segunda columna, etiquetada como «SS», contiene nuestros valores para las sumas de cuadrados que aprendimos a calcular anteriormente. Como se señaló anteriormente, calcularlos a mano lleva demasiado tiempo, por lo que las fórmulas no se presentan en la tabla ( PageIndex {1} ). Sin embargo, recuerde que el total es la suma de los otros dos, en caso de que solo se le dan dos valores (SS ) y que necesita calcular el tercero.

La siguiente columna, etiquetada » (df )», es nuestros grados de libertad. Al igual que con las sumas de cuadrados, hay una (df ) diferente para cada grupo, y las fórmulas se presentan en la tabla. Observe que los grados totales de libertad, (N – 1 ), es el mismo que era para nuestra variación regular. Esto coincide con la formulación (SS_T ) para indicar nuevamente que simplemente estamos tomando nuestro término de varianza familiar y la divulgamos en fuentes de diferencia. Recuerde también que el capital (n ) en los cálculos (df ) se refiere al tamaño general de la muestra, no un tamaño de muestra de grupo específico. Observe que la fila total para los grados de libertad, al igual que para las sumas de cuadrados, es solo el medio y dentro de las filas agregadas. Si toma las porciones (n – k + k – 1 ), entonces las porciones » ( – k )» y » ( + k )» se cancelarán, y se queda con (n – 1 ). Esta es una forma conveniente de verificar rápidamente sus cálculos.

¿Cómo se interpreta una tabla ANOVA?

ANOVA significa análisis de varianza. Ronald Fisher fundó ANOVA en el año 1918. El análisis de la varianza de nombre se derivó en función del enfoque en el que el método utiliza la varianza para determinar las medias, ya sean diferentes o iguales.

Es un método estadístico utilizado para probar las diferencias entre dos o más medias. Se utiliza para probar diferencias generales en lugar de diferencias específicas entre las medias. Evalúa la importancia de uno o más factores al comparar las medias variables de respuesta en diferentes niveles de factores.

La hipótesis nula establece que todas las medias de población son iguales. La hipótesis alternativa demuestra que al menos una media de la población es diferente.

Proporciona una forma de probar varias hipótesis nulas al mismo tiempo.

La razón para realizar esto es ver si existe alguna diferencia entre los grupos en alguna variable. Hoy los investigadores están utilizando ANOVA de muchas maneras. El uso de esto depende totalmente del diseño de la investigación.

Puede usar una prueba t para comparar dos muestras, pero cuando hay más de dos muestras para compararlo, es el mejor método que se utilizará.

Los valores esperados de los errores son cero
Las variaciones de todos los errores son iguales entre sí
Los errores son independientes
Normalmente se distribuyen

Los siguientes son los diferentes tipos explicados en detalle:

Una forma se usa para verificar si hay alguna diferencia significativa entre las medias de tres o más grupos no relacionados. Prueba principalmente la hipótesis nula.

¿Cómo saber si un factor es significativo?

Estoy trabajando con un modelo de factor dado del formulario
$$ y = b x + epsilon $$
Donde $ x $ es un vector aleatorio en $ r^m $, $ b $ es una matriz de factores $ n veces m $ m $, $ y $ es un vector aleatorio en $ r^n $ (con $ n gg M $) y $ epsilon $ es un vector de innovaciones de cero media, independientemente de $ x $. Para simplificar, las innovaciones normalmente se distribuyen e independientes por pares. Mi pregunta es relativamente simple de afirmar: ¿cómo puedo probar si un factor es significativo, en el mismo sentido en el que un predictor es significativo en la regresión lineal?

Aclaración: tal vez debería haber enfatizado que estoy trabajando con un modelo dado, y tengo que evaluar el valor predictivo de cada factor del modelo. En otros términos, ¿hay una manera simple de evaluar si eliminar un factor de un modelo daría como resultado una pérdida de poder predictivo, sin comparar dos modelos diferentes con y sin el factor? En el último caso, hay una gran cantidad de literatura sobre la selección del modelo, basada en ML, GMM, etc. (la invariancia rotacional de los modelos de factores no juega un papel esencial, por cierto).

La respuesta corta es: hay algo que puedes hacer, pero no estoy seguro de cuán significativo será.

La respuesta larga: daré la respuesta larga para un modelo simple donde solo tenemos un factor latente desconocido. La idea se traslada al caso más general, aunque con más complicaciones. Se deduce de su modelo de factor que:

(Nota: Tenga en cuenta que en este modelo simplificado: $ x $ es un escalar, estamos tratando solo con un factor).

ANOVA: ¿Qué es y cómo se usa en estadística?

¿Cómo se hace la tabla ANOVA?

¿Cómo se interpreta una tabla ANOVA?

¿Cómo saber si un factor es significativo?

Más posts relacionados:

Unidad de observación estadística: ¿Qué es y cómo se usa?

Aprende a elegir el muestreo adecuado para tu investigación: guía de muestreo en estadística inferencial

Deja una respuesta Cancelar la respuesta