ANOVA es una prueba de igualdad de varios medios. Nos permite comparar los medios para varios grupos, en una prueba de hipótesis. Puede sonar intimidante, pero ANOVA es simplemente una forma de analizar varios medios a la vez. Se basa en una comparación de la propagación de los datos dentro de cada uno de los grupos en comparación con la propagación de las medias de los grupos.
En una prueba de ANOVA, la hipótesis nula se expresa típicamente en palabras: [h_0: text {todas las medias son iguales.} ] La hipótesis alternativa se da como: [h_a: text {uno o más de los medios difiere de los otros.} ]
Si las medias difieren entre sí en comparación con la variabilidad en cada grupo, concluimos que las medias no son todas iguales. Si las medias no difieren en mucho (en comparación con la propagación de los datos en cada grupo), entonces no rechazamos la hipótesis de que todas las medias son iguales.
Usaremos el nivel de importancia, ( alpha ) y el valor (p )-tal como tenemos en las otras pruebas de hipótesis.
La estadística de prueba en ANOVA sigue una distribución (f )-. Esta es la primera vez que encontramos esta distribución. En pruebas anteriores, hemos utilizado las estadísticas de prueba (z ) y (t ). Para la prueba ANOVA, usamos la estadística (f )-.
Aquí hay un breve resumen de las características de la distribución (f )-:
- Está bien sesgado.
- Los valores de (f ) nunca son negativos.
- El valor (p )-para la prueba ANOVA es el área en la cola derecha. Nunca dividiremos el área en la cola.
¿Qué es la inferencia sobre la varianza de dos poblaciones ANOVA?
Anteriormente, hemos probado hipótesis sobre dos medios de población. Este capítulo examina los métodos para comparar más de dos medios. El análisis de varianza (ANOVA) es un método inferencial utilizado para probar la igualdad de tres o más medios de población.
Este método también se conoce como ANOVA de un solo factor porque usamos una sola propiedad o característica para clasificar las poblaciones. Esta característica a veces se conoce como tratamiento o factor.
Un tratamiento (o factor) es una propiedad, o característica, que nos permite distinguir las diferentes poblaciones entre sí.
Los objetos de ANOVA son (1) estimar las medias de tratamiento y las diferencias de las medias de tratamiento; (2) Prueba de hipótesis para la significación estadística de las comparaciones de las medias de tratamiento, donde el «tratamiento» o el «factor» es la característica que distingue a las poblaciones.
Por ejemplo, un biólogo podría comparar el efecto que pueden tener tres herbicidas diferentes en la producción de semillas de una especie invasiva en un entorno forestal. El biólogo querría estimar la producción media de semillas anuales bajo los tres tratamientos diferentes, al tiempo que se prueba para ver qué tratamiento resulta en la producción anual de semillas más baja. Las hipótesis nulas y alternativas son:
Sería tentador probar esta hipótesis nula H0: µ1 = µ2 = µ3 comparando la población significa dos a la vez. Si continuamos de esta manera, necesitaríamos probar tres pares diferentes de hipótesis:
Si usáramos un nivel de significancia del 5%, cada prueba tendría una probabilidad de un error de tipo I (rechazando la hipótesis nula cuando es verdadera) de α = 0.05. Cada prueba tendría una probabilidad del 95% de no rechazar correctamente la hipótesis nula. La probabilidad de que las tres pruebas no rechacen correctamente la hipótesis nula es 0.953 = 0.86. Hay una probabilidad de 1 – 0.953 = 0.14 (14%) de que al menos una prueba conduzca a un rechazo incorrecto de la hipótesis nula. Una probabilidad del 14% de un error tipo I es mucho mayor que el alfa deseado del 5% (recuerde: α es lo mismo que el error de tipo I). A medida que aumenta el número de poblaciones, también aumenta la probabilidad de cometer un error tipo I usando múltiples pruebas t. El análisis de varianza nos permite probar la hipótesis nula (todas las medias son iguales) contra la hipótesis alternativa (al menos una media es diferente) con un valor específico de α.
¿Qué es inferencia sobre la varianza de dos poblaciones ANOVA?
Hasta ahora, consideramos la inferencia para comparar dos proporciones e inferencia para comparar dos medios. En esta sección, presentaremos cómo comparar dos variaciones de población.
¿Por qué querríamos comparar dos variaciones de población? Hay muchas situaciones, como en los problemas de control de calidad, en las que puede elegir el proceso con menor variabilidad para una variable de interés.
Uno de los pasos esenciales de una prueba para comparar dos variaciones de población es verificar la suposición de variaciones iguales si desea usar las variaciones agrupadas. Muchas personas usan esta prueba como guía para ver si hay violaciones claras, al igual que usar la regla general.
Cuando presentamos inferencia por dos parámetros antes, comenzamos con la distribución de muestreo. No haremos esto aquí. Los detalles de esta prueba se dejan fuera. Simplemente presentaremos cómo usarlo.
Para comparar las variaciones de dos variables cuantitativas, las hipótesis de interés son:
Las dos últimas alternativas están determinadas por cómo organiza su relación de las dos estadísticas de muestra.
Confiaremos en Minitab para realizar esta prueba para nosotros. Minitab ofrece tres (3) métodos diferentes para probar variaciones iguales.
- La prueba F: esta prueba supone que las dos muestras provienen de poblaciones que normalmente se distribuyen.
- Prueba de Bonett: esto supone solo que las dos muestras son cuantitativas.
- Prueba de Levene: similar a Bonett en que la única suposición es que los datos son cuantitativos. Es mejor usar si una o ambas muestras están muy sesgadas, y sus dos tamaños de muestra tienen menos de 20 años.
¿Cómo interpretar los resultados de una ANOVA?
Esta es la tabla que muestra la salida del análisis ANOVA y si existe una diferencia estadísticamente significativa entre nuestros medios grupales. Podemos ver que el valor de significancia es 0.021 (es decir, p = .021), que está por debajo de 0.05. y, por lo tanto, hay una diferencia estadísticamente significativa en el tiempo medio para completar el problema de la hoja de cálculo entre los diferentes cursos tomados. Es genial saber esto, pero no sabemos cuál de los grupos específicos difería. Afortunadamente, podemos encontrar esto en la tabla de comparaciones múltiples que contiene los resultados de la prueba post hoc de Tukey.
Publicado con permiso por escrito de SPSS Statistics, IBM Corporation.
Desde los resultados hasta ahora, sabemos que hay diferencias estadísticamente significativas entre los grupos en su conjunto. La siguiente tabla, comparaciones múltiples, muestra qué grupos diferían entre sí. La prueba post hoc de Tukey es generalmente la prueba preferida para realizar pruebas post hoc en un ANOVA unidireccional, pero hay muchos otros. Podemos ver en la tabla a continuación que hay una diferencia estadísticamente significativa en el tiempo para completar el problema entre el grupo que tomó el curso principiante y el curso intermedio (p = 0.046), así como entre el curso principiante y el curso avanzado (P = 0.034). Sin embargo, no hubo diferencias entre los grupos que tomaron el curso intermedio y avanzado (P = 0.989).
También es posible ejecutar comparaciones entre grupos específicos que decidió que eran de interés antes de mirar sus resultados. Por ejemplo, es posible que haya expresado interés en conocer la diferencia en el tiempo de finalización entre los grupos de cursos para principiantes e intermedios. Este tipo de comparación a menudo se llama contraste planificado o un simple contraste personalizado. Sin embargo, no tiene que limitarse solo a la comparación entre dos puntos de tiempo. Es posible que haya tenido interés en comprender la diferencia en el tiempo de finalización entre el grupo de cursos para principiantes y el promedio de los grupos de cursos intermedios y avanzados. Esto se llama un contraste complejo. Todos estos tipos de contraste personalizado están disponibles en las estadísticas de SPSS. En nuestra guía mejorada le mostramos cómo ejecutar contrastes personalizados en estadísticas SPSS utilizando sintaxis (o a veces una combinación de la interfaz gráfica de usuario y la sintaxis) y cómo interpretar e informar los resultados. Además, también le mostramos cómo «engañar» las estadísticas de SPSS para aplicar un ajuste de Bonferroni para comparaciones múltiples que de otra manera no haría.
¿Cómo interpretar un análisis de varianza ANOVA?
El análisis de la varianza (ANOVA, del análisis de varianza en inglés) incluye una serie de pruebas estadísticas que se encuentran dentro del alcance de las estadísticas inferenciales. Descubra en este artículo cuando puede usar, qué prueba para elegir y cómo interpretar los resultados.
El ANOVA es una generalización de la prueba t. De hecho, ambas técnicas se utilizan para la comparación de los valores promedio. La diferencia es que:
- Test t le permite comparar solo dos grupos
- ANOVA le permite comparar cualquier cantidad de grupos
Por ejemplo, imagine que su objetivo es comparar el puntaje medio alcanzado con el examen estadístico entre aquellos que asistieron al curso en presencia y quién en línea. En este caso, solo hay dos grupos (asistiendo y asistiendo en línea). Por lo tanto, para la comparación de la escuela intermedia puede usar la prueba T o AVA de manera indiferente.
Imagine ahora querer profundizar el análisis, dividiendo al mismo campeón de estudiantes en tres grupos: aquellos que asistieron solo en presencia, aquellos que asistieron solo en línea y aquellos que asistieron un poco en línea y un poco en presencia. En este caso, para la comparación de la escuela intermedia, ya no puede usar la prueba t, pero necesariamente debe recurrir a ANCOVA.
El objetivo de ANNOVA es evaluar los efectos en una variable de interés (variable continua de empleado dependiente) de uno o más factores de control (variables independientes categóricas con dos o más formas).
¿Qué pasa si se rechaza la hipótesis nula en ANOVA?
Sé que la hipótesis nula utilizada por ANOVA es eso significa que en todos los grupos son las mismas y, si el valor p es pequeño, rechazamos la hipótesis nula, lo que significa que creemos que no todos los medios son los mismos (es decir, allí, allí, allí son grupos con diferentes medios).
Sin embargo, no está claro para mí si también asumimos dentro de la hipótesis nula que la desviación estándar en todos los grupos es la misma. ¿Qué pasa con los momentos más altos (como la asimetría y la curtosis), asumimos que son iguales? ¿Asumimos, dentro de la hipótesis nula, que las distribuciones de todos los grupos son las mismas? ¿Asumimos que las distribuciones son normales?
ANOVA asume que todas las distribuciones grupales en consideración son normales con la misma varianza. En consecuencia, la única forma en que pueden diferir es en sus medios.
Sin embargo, alude al hecho de que la prueba podría retomar otras diferencias, y si desea usar ANOVA para probar algo más, es común en las estadísticas usar una prueba sustituta. El mejor ejemplo que sé es la prueba U de Wilcoxon Mann-Whitney, que solo prueba la igualdad significativa bajo suposiciones estrictas, pero es una prueba decente de igualdad media (buen poder, no demasiados falsos positivos) incluso cuando esos supuestos no son el caso .
Puede hacer un estudio de simulación para ver qué tan bien ANOVA detecta las diferencias en, por ejemplo, la desviación estándar cuando las medias son todos iguales. Esperaría que tal prueba tenga un poder horrible apenas (si es que lo hace) por encima del nivel $ alpha $ de la prueba, lo que explicaría por qué usamos ANOVA para detectar diferencias medias, pero tal vez alguien podría escribir una simulación que me sorprenda .
¿Qué es la varianza de una población?
La fórmula de la varianza de la población es una medida por las distancias promedio de los datos de la población y se calcula al descubrir la media de la fórmula de la población y la varianza se calcula por la suma del cuadrado de las variables menos la media que se divide por una serie de observaciones en la población.
- Hacer una mesa. Tenga en cuenta que construir una tabla no es obligatoria, pero presentarla en un formato tabular facilitaría los cálculos. En la primera columna, escriba cada observación (x1, x2, x3,… ..xn).
- En la segunda columna, escriba la desviación de cada observación de la media (xi – µ).
- En la tercera columna, escriba el cuadrado de cada observación a partir de la media (xi – µ) 2. En otras palabras, cuadra cada uno de los números obtenidos en la columna 2.
- Posteriormente, necesitamos agregar los números obtenidos en la tercera columna. Encuentre la suma de las desviaciones al cuadrado y divida la suma así obtenida por el número de observaciones (n). Esto nos ayudará a obtener cuál es la varianza de la población.
Calcule la varianza de la población de las siguientes 5 observaciones: 50, 55, 45, 60, 40.
Use los siguientes datos para el cálculo de la varianza de la población.
Entonces, el cálculo de la varianza de la población σ2 se puede hacer de la siguiente manera
XYZ Ltd. es una pequeña empresa y consta de solo 6 empleados. El CEO cree que no debe haber una alta dispersión en los salarios de estos empleados. Para este propósito, quiere que calcules la varianza de estos salarios. Los salarios de estos empleados son los que están bajo. Calcule la varianza de población de los salarios para el CEO.
¿Cómo se obtiene la varianza de una población?
Paso 4: Divida el Paso 3 por el número de elementos. 118/5 da una varianza de población de 23.6.
Dado que las medidas de varianza de la población se propagan, σ2 para un conjunto de puntos idénticos es 0.
Si agrega una constante a cada punto de datos, el σ2 permanece sin cambios. Por ejemplo, suponga que estudia los años de nacimiento de las personas mayores en Nueva York y decide cambiar los calendarios del Gregorian Standard One a un calendario donde 1900 era el año 1, el σ2 permanecería igual.
La raíz cuadrada de la varianza de la población es la desviación estándar de la población, que representa la distancia promedio de la media.
La varianza de la población es un parámetro de la población y no depende de métodos de investigación o prácticas de muestreo.
La varianza de la muestra es una estimación de σ2, y es muy útil en situaciones en las que calcular la varianza de la población sería demasiado engorroso. Las únicas diferencias en la forma en que se calcula la varianza de la muestra es que se usa la media de la muestra, las desviaciones se resumen sobre la muestra y la suma se divide por N-1 (¿por qué usar N-1?). Al calcular la varianza de la muestra, N es el número de puntos de muestra (frente a N para el tamaño de la población en la fórmula anterior).
A diferencia de la varianza de la población, la varianza de la muestra es simplemente una estadística de la muestra. Depende de la metodología de investigación y de la muestra elegida. Una nueva muestra o un nuevo experimento probablemente le dará una varianza de muestra diferente, aunque si sus muestras son representativas, sus variaciones de muestra deberían ser buenas estimaciones de la varianza de la población y, por lo tanto, cercanas entre sí.
¿Cuándo utilizar la varianza poblacional?
La varianza de la población es la varianza de la población. Para calcular la varianza de la población, use la fórmula [ sigma^2 = frac {1} {n} sum limits_ {i = 1}^n (x_i- mu)^2 ] donde $ n $ es El tamaño de la población que consta de $ x_1, x_2, ldots x_n $ y $ mu $ es la media de la población.
Por lo general, solo tenemos una muestra, la varianza de la muestra es la varianza de esta muestra. Dada una muestra de datos de tamaño $ n $, la varianza de la muestra se calcula usando [s^2 = frac {1} {n-1} sum limits_ {i = 1}^n (x_i- bar { x})^2 text {.} ]
Asegúrese de saber cuándo hacer esta distinción. Para usar la varianza de la población, necesita todos los datos disponibles, mientras que para usar la varianza de muestra solo necesita una proporción de ella. Por ejemplo, si tomamos diez palabras al azar de esta página para calcular la varianza de su longitud, se necesitaría una varianza de muestra. Para encontrar la varianza de la población, se necesitaría la longitud de cada palabra en la página.
Para una variable aleatoria discreta $ x $, la varianza se puede resolver de la siguiente manera:
[ Mathrm {var} [x] = mathrm {e} [(x- mathrm {e} [x])^2] text {.} ]
Sin embargo, este cálculo puede llevar mucho tiempo, ya que implica calcular la diferencia entre cada elemento del espacio de muestra y la media (que es igual a $ mathrm {e} [x] $ y abreviada como $ mu $), cuadrados. Esta diferencia y luego encontrar el valor esperado de este nuevo conjunto de diferencias cuadradas.
La desviación estándar, a menudo denotada por $ Sigma $, es la raíz cuadrada positiva de la varianza. Los conjuntos de datos con una pequeña desviación estándar se agrupan estrechamente alrededor de la media, mientras que una desviación estándar más grande indica que los datos están más extendidos.
¿Qué es ANOVA en estadística inferencial?
Existen diferentes técnicas clasificadas según el modelo de análisis utilizado.
Las diferencias entre los diversos modelos dependen del número de variables y cualquier interacción:
- a una forma: proporciona solo una variable independiente
- Granja: proporciona dos o más variables independientes
- UNIVARIAT: proporciona una única variable dependiente
- Multivariado: proporciona dos o más variables dependientes
La hoja electrónica de Excel representa una herramienta extremadamente práctica para hacer diferentes tipos de análisis.
La elección de la herramienta más adecuada para sus necesidades depende de la cantidad de aplicaciones y muestras que tenga disponibles.
- a una forma: proporciona solo una variable independiente
- Granja: proporciona dos o más variables independientes
- UNIVARIAT: proporciona una única variable dependiente
- Multivariado: proporciona dos o más variables dependientes
Para profundizar la operación y la funcionalidad de la herramienta, recomendamos acceder a la página dedicada a las herramientas de análisis en el sitio web de Microsoft.
La prueba ANOVA es aplicable en diferentes contextos de trabajo, en el campo de la ecología, la psicología, las humanidades.
Una de las oportunidades de empleo dentro de las cuales se aplica ANOVA es identificable en el sector de las finanzas conductuales (asesoramiento financiero, análisis de mercado, diseño de soluciones tecnológicas para la gestión de ahorros).
La materia tiene como objetivo comprender el comportamiento de los agentes económicos, a través del conocimiento extrapolado de la investigación científica relacionada con la psicología cognitiva y la neurociencia. Behavioral Finance nació precisamente con el objetivo de analizar los mecanismos neurografía cognitivos que intervienen en los procesos de toma de decisiones; Actualmente es la única ciencia capaz de explicar las opciones de inversión a partir de componentes psicológicos y emocionales.
Artículos Relacionados:
- ¿Qué es la población en probabilidad y estadística?
- La función de todas las observaciones de una población es una función que se utiliza en estadística.
- Formula de poblacion y muestra: claves para el estudio de la poblacion
- Crecimiento y distribución de la población: población absoluta y población relativa
