¿Qué es un análisis de varianza y cómo se puede utilizar para optimizar su sitio web?

El análisis de varianza (ANOVA) es una herramienta para comparar las medias de varias poblaciones, basadas en muestras aleatorias e independientes de cada población. Proporciona una prueba estadística para determinar si las medias de población son iguales o no (es decir, provienen de la misma distribución). ANOVA es una prueba paramétrica que supone una distribución normal de valores (hipótesis nula).

La prueba F es una clase de prueba estadística que calcula la relación entre las variaciones. La prueba F se usa con ANOVA para medir la relación entre las variaciones explicadas e inexplicables.

Se deben satisfacer tres supuestos con la prueba F ANOVA: las muestras son independientes, de una población normalmente distribuida y las desviaciones estándar de los grupos son iguales (homoscedasticidad). Permite la medida de la dependencia lineal entre dos variables. En Johnson y Syinovec (2002) se realiza una selección de características basada en ANOVA y PCA para clasificar la mezcla de combustible para aviones. En Yakub et al. (2016), se utiliza una selección de características basada en ANOVA de una manera para clasificar los datos de microarrays. La principal ventaja de la prueba F ANOVA es su cálculo e interpretación directos. El factor limitante es que su aplicabilidad solo es válida con los supuestos específicos.

El análisis de varianza (ANOVA) se utilizó para examinar la importancia estadística del modelo cuadrático no lineal desarrollado. Los resultados de ANOVA que se muestran en la Tabla 21.6 para el modelo cuadrático sugerido indicaron que los factores del modelo son muy significativos. El alto valor F (46) con un valor de probabilidad bajo implica que el modelo de regresión es estadísticamente significativo. El coeficiente de correlación predicho (pred. R2 = 0.9527) también está en buen acuerdo con el coeficiente de correlación ajustado (adj. R2 = 0.9611). El R2 más alto indica que las predicciones del modelo están muy cerca de los valores experimentales, que se confirma aún más en la gráfica de dispersión que se muestra en la figura 21.5. En general, el análisis ANOVA confirma la superioridad del modelo cuadrático de segundo orden desarrollado para pronosticar la degradación del bacalao (Oller, Malato y Sánchez-Pérez, 2011).

¿Cómo realizar un analisis de varianza ANOVA?

ANOVA es una prueba paramétrica. Por lo tanto, requiere que se cumplan varios requisitos:

  • Normalidad. Los datos en los grupos deben seguir una distribución normal.
  • Homogeneidad de las variaciones: los grupos deben tener variaciones aproximadamente iguales.
  • Los residuos siguen la contratación de cuadrados mínimos.
  • Hay al menos una categoría de variable independiente (factor).
  • La variable dependiente es continua.
  • Las observaciones son independientes.

Una pregunta que es legítima para hacer es la siguiente: ¿por qué debería usar ANOVA cuando puedo usar una serie de comparaciones entre cada grupo y cada uno de los otros? La respuesta no está simplemente vinculada al aburrimiento y la dificultad de tener que llevar a cabo una gran cantidad de pruebas (por ejemplo, para 4 factores que necesito llevar a cabo 6 pruebas t diferentes). El mayor problema es que la probabilidad de cometer un error de tipo I aumenta con una progresión exponencial. Sabemos que si elegimos un alfa «típico» de 0.05, solucionamos la probabilidad de incurrir en un error tipo I del 5%. Si llamamos a n el número de pruebas t que se llevarán a cabo, tendremos una probabilidad general de hacer errores tipo I iguales a:

¡Es decir, una probabilidad de error de tipo I del 26.5%! Claramente inaceptable… cuando queremos probar el promedio de 3 o más grupos, ANOVA ciertamente se prefiere en comparación con una serie de prueba t.

El tipo más fácil de prueba ANOVA es ANOVA a un factor. Este método es una generalización de la prueba t capaz de evaluar la diferencia entre más de dos medios grupales. Los datos se organizan en varios grupos sobre la base de una sola variable categórica (llamada variable de factor).

¿Cuándo usar ANOVA de una vía?

Actualmente estoy mirando el número de cruces de carreteras realizados por un taxones dentro de un área determinada. Esta área tiene diferentes tipos de carreteras. Road Type A ocupa la mayoría de las carreteras en el área y la carretera Tipo D tiene solo 1 carretera dentro del área. Entonces, si tuviera que mirar los cruces de carreteras totales por tipo de carretera, está sesgado (por ejemplo, 100 km para la carretera Tipo A frente a 1 km para el tipo de carretera D); Y debido a esto, quería tener en cuenta la longitud de los tipos de carreteras. Hasta ahora he dividido mis datos en dos maneras (el primero tenía sentido para mí inicialmente, pero luego comencé a adivinar esto) y obtengo resultados muy diferentes en R. He dado un breve ejemplo de mi configuración a continuación para cada método:

Supongo que si hay una interacción entre la longitud de la carretera y el tipo de carretera, debería obtener el mismo resultado que la prueba de Chi Square, pero no lo soy. Por favor, perdona mi ingenua comprensión de las estadísticas. Simplemente quiero responder a la pregunta: ¿Hay alguna diferencia entre el número de cruces de carreteras a través de los tipos de carreteras (al tiempo que contabiliza el hecho de que hay más caminos en un tipo en comparación con otro)?

Los supuestos ANOVA habituales incluyen una varianza constante (entre otras cosas). Esta suposición generalmente no se cumplirá con datos de recuento con una media variable. Además, con los pequeños recuentos esperados, tendrá una distribución discreta muy sesgada que no estará cerca de lo normal.

Se debe realizar una prueba de chi cuadrado en recuentos, no con recuentos escalados: la varianza será incorrecta si lo escala así.

Para ajustar para una variable de exposición (como la longitud de la carretera), no se divide, utiliza un desplazamiento (de exposición log) con un enlace de registro en un GLM. Esto podría ser razonable con un Poisson o una respuesta binomial negativa, por ejemplo.

¿Qué se necesita para usar ANOVA?

  • Debe haber k muestras aleatorias, una de cada una de K poblaciones o un experimento aleatorizado con K tratamientos.
  • Las muestras K deben ser independientes entre sí; Es decir, los sujetos en un grupo no pueden estar relacionados de ninguna manera con los sujetos en un segundo grupo.
  • Las poblaciones deben distribuirse normalmente.
  • Las poblaciones deben tener la misma varianza; es decir, cada grupo de tratamiento tiene varianza de población σ2.

Afortunadamente, el procedimiento es robusto, por lo que las pequeñas variaciones de estos criterios están bien. En particular, una buena regla general es que mientras la mayor variación no sea más del doble de la más pequeña, podemos suponer que el punto #4 anterior ha sido satisfecho. Si no, hay otras pruebas que se pueden realizar, pero están más allá del alcance de este curso.

Problema: Refiriéndose al ejemplo anterior, ¿parece que las condiciones se cumplen para realizar ANOVA unidireccional?

Solución: Para responder a esto, consideremos las gráficas de la caja que nos proporcionaron:

De acuerdo, la información es un poco imprecisa aquí, pero tenemos 3 muestras que son independientes (3 secciones diferentes). Según los gráficos de caja, los puntajes parecen estar normalmente distribuidos, aunque sin un histograma que es difícil de saber con precisión. Y la desviación estándar más grande de 10.1 no es más del doble de la más pequeña de 8.7.

Entonces, sí, parece que las condiciones se han cumplido y que se podrían realizar ANOVA unidireccional.

Paso 3: Calcule la estadística de prueba (usando StatCrunch).

¿Qué tipo de distribución se utiliza para análisis de varianza?

Un uso más importante de la distribución F es analizar la varianza para ver si tres o más muestras provienen de poblaciones con medios iguales. Esta es una prueba estadística importante, no tanto porque se usa con frecuencia, sino porque es un puente entre estadísticas univariadas y estadísticas multivariadas y porque la estrategia que utiliza es una que se usa en muchas pruebas y procedimientos multivariados.

Esto parece malo: probaremos una hipótesis sobre los medios analizando la varianza. No está mal, sino más bien una idea realmente inteligente que algún estadístico tenía hace años. Esta idea, analizar la variación para descubrir las diferencias en las medias, es la base de gran parte de las estadísticas multivariadas utilizadas por los investigadores de hoy. Las ideas detrás de ANOVA se utilizan cuando buscamos relaciones entre dos o más variables, la gran razón por la que usamos estadísticas multivariadas.

Pruebas para ver si tres o más muestras provienen de poblaciones con la misma media a menudo puede ser una especie de ejercicio multivariado. Si las tres muestras provienen de tres fábricas diferentes o estaban sujetas a diferentes tratamientos, estamos viendo efectivamente si hay una diferencia en los resultados debido a diferentes fábricas o tratamientos: ¿existe una relación entre fábrica (o tratamiento) y el resultado?

Piense en tres muestras. Se han recolectado un grupo de X, y por alguna buena razón (que no sea su valor X) se pueden dividir en tres grupos. Tiene algunas X del grupo (muestra) 1, algunas del grupo (muestra) 2 y otras del grupo (muestra) 3. Si las muestras se combinaron, podría calcular una gran media y una varianza total en torno a esa gran media. También puede encontrar la varianza media y (muestra) dentro de cada uno de los grupos. Finalmente, puede tomar las tres medias de muestra y encontrar la varianza entre ellas. ANOVA se basa en el análisis de dónde proviene la varianza total. Si eligió una x, la fuente de su varianza, su distancia de la gran media, tendría dos partes: (1) qué tan lejos está de la media de su muestra y (2) hasta qué punto su media de la muestra está de la Gran medio. Si las tres muestras realmente provienen de poblaciones con diferentes medios, entonces para la mayoría de las X, la distancia entre la media de la muestra y la gran media probablemente será mayor que la distancia entre la media X y su grupo. Cuando estas distancias se juntan y se convierten en variaciones, puede ver que si las medias de la población son diferentes, es probable que la varianza entre las medias de muestra sea mayor que la varianza dentro de las muestras.

¿Qué distribución se utiliza en el análisis de varianza?

Comprender y caracterizar la variación en las muestras es una parte importante de las estadísticas. La variación se puede medir con varias estadísticas diferentes. El rango es la diferencia entre los valores más grandes y más pequeños en una distribución, y se calcula en R con el rango (). Debido a que el rango tiende a aumentar con el tamaño de la muestra, y debido a que es altamente sensible a los valores atípicos, a menudo no es una medida deseable de variación.

La varianza es una medida de variación mucho más útil. La varianza de una población es igual a la desviación cuadrada promedio de cada observación de la media de la población. Está simbolizado por un griego en minúscula cuadrado Sigma (σ2).

La media de la población es típicamente desconocida, por lo que la varianza de la muestra se calcula como la suma de las desviaciones cuadradas de cada observación de la media de la muestra, dividida por los grados de libertad. En este caso, existe una penalización por usar la media de la muestra como una estimación de la media de la población. La varianza de la muestra se simboliza por un S-cuadrado Square (S2) romano para muestras.

En R, la varianza de la muestra se calcula con la función var (). En aquellos casos raros en los que necesita una varianza de la población, use la media de la población para calcular la varianza de la muestra y multiplique el resultado por (N-1)/N; Tenga en cuenta que a medida que el tamaño de la muestra se vuelve muy grande, la varianza de la muestra converge en la varianza de la población.

Debido a que la varianza es la desviación cuadrada promedio de la media, las unidades de varianza son el cuadrado de las mediciones originales. Por ejemplo, si la longitud de las conchas se mide en milímetros, la varianza tiene unidades de mm2. Tomar la raíz cuadrada de varianza proporciona una desviación estándar, que por lo tanto tiene las mismas unidades que las mediciones originales, lo que hace que se entienda más fácilmente. En R, la desviación estándar de muestra se calcula con la función SD ().

¿Qué tipo de distribución presenta un análisis ANOVA?

El análisis de la varianza a una forma en general se usa cuando tiene una sola variable o factor independiente, y desea verificar si alguna variación o niveles diferentes de este factor tienen un efecto medible en una variable dependiente.

AUOVA A Way es aplicable solo en presencia de un solo factor y una sola variable dependiente. Al comparar los promedios de tres o más grupos, puede decirnos si al menos un par de la escuela secundaria presenta diferencias significativas, pero no puede identificar qué pareja es. Además, para trabajar, la variable dependiente debe distribuirse normalmente en cada uno de los grupos y que la variabilidad dentro del grupo es similar para todos los grupos.

El análisis de la varianza a una forma es un método estadístico para probar la hipótesis de nada (H0) según la cual los promedios de tres o más poblaciones serían los mismos, contra la hipótesis alternativa (HA) según la cual al menos un promedio lo haría sé diferente Usando la notación formal de las hipótesis estadísticas, para el medio K que escribimos:

$ H_a: mathrm {no mathrm {} all el medio son igual} $

Donde $ mu_i $ es el promedio del nivel del factor.

De acuerdo, pensarás, pero cuando alguna vez tengo que determinar si el promedio de la mayoría de las poblaciones son iguales o no. Un caso común es si sospecha que una cierta variable de proceso independiente puede afectar decisivamente los resultados de este proceso. Por ejemplo, puede tener dudas sobre cómo varios lotes productivos, operadores o materias primas están influenciadas en los resultados (por lo tanto, en las mediciones de calidad) de un proceso de producción.

Artículos Relacionados:

Más posts relacionados:

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *