Hemos cubierto bastante terreno. Revisemos el análisis de la tabla de varianza para el ejemplo sobre la mortalidad y la latitud del cáncer de piel (skincancer.txt).
- Los grados de libertad asociados con SSR siempre serán 1 para el modelo de regresión lineal simple. Los grados de libertad asociados con SSTO es N-1 = 49-1 = 48. Los grados de libertad asociados con SSE es N-2 = 49-2 = 47. y los grados de libertad se suman: 1 + 47 = 48.
Abordemos algunas columnas más de la tabla de análisis de varianza, a saber, la columna «Media cuadrada», MS con conexión y la columna estadística F, etiquetada como F.
Ya sabemos que el «error cuadrado medio (MSE)» se define como:
[Mse = frac { sum (y_i- hat {y} _i)^2} {n-2} = frac {sse} {n-2}. ]
Es decir, obtenemos el error cuadrado medio dividiendo la suma de error de los cuadrados por sus grados de libertad asociados N-2. Del mismo modo, obtenemos el «cuadrado medio de regresión (MSR)» dividiendo la suma de regresión de los cuadrados por sus grados de libertad 1:
[Msr = frac { sum ( hat {y} _i- bar {y})^2} {1} = frac {ssr} {1}. ]
Por supuesto, eso significa que la suma de regresión de los cuadrados (SSR) y el cuadrado medio de regresión (MSR) siempre son idénticos para el modelo de regresión lineal simple.
Ahora, ¿por qué nos importan los cuadrados malos? Porque sus valores esperados sugieren cómo probar la hipótesis nula H0: β1 = 0 contra la hipótesis alternativa HA: β1 ≠ 0.
Imagine tomar muchas, muchas muestras aleatorias de tamaño N de alguna población, y estimar la línea de regresión y determinar MSR y MSE para cada conjunto de datos obtenido. Se ha demostrado que el promedio (es decir, el valor esperado) de todos los MSRS que puede obtener iguales:
[E (msr) = sigma^2+ beta_ {1}^{2} sum_ {i = 1}^{n} (x_i- bar {x})^2 ]
¿Cómo se calcula el análisis de varianza?
A continuación se muestra el resumen extraído de ABC Ltd., que fabrica acero. Debe realizar un análisis de varianza material y de trabajo.
Fórmula de varianza de costo del material = Costo estándar – Costo real
Prashant Industries, una compañía bien renombre en la fabricación de cables de cobre, está preocupado por su rendimiento real debido a un incremento de gastos generales y le ha proporcionado los datos a continuación y le ha pedido que realice un análisis de gastos generales tanto para fijos como variables.
Silver Ltd ha estado tratando de analizar su problema relacionado con el rendimiento, ya que no puede analizar por qué el déficit con cumplir con sus ganancias estimadas en la calle, y tras la investigación inicial, descubrió que su ganancia operativa fluctúa año tras año. Por lo tanto, el conductor para el mismo era una ganancia bruta y, por lo tanto, decidió revisar sus problemas relacionados con la producción, si los hubiera. Debe realizar todo el análisis de varianza y asesorar a la gestión de Silver Ltd dónde se encuentra el problema.
Esta ha sido una guía para la fórmula de análisis de varianza. Aquí discutimos cómo calcular las 5 variaciones principales utilizando sus fórmulas junto con ejemplos y plantillas de Excel. Puede obtener más información sobre el financiamiento de los siguientes artículos –
¿Qué es y cómo se calcula la varianza?
La varianza siempre es positiva y solo se cancela si esencialmente solo hay un valor. Su raíz cuadrada define la desviación típica σ, de ahí la notación σ2 = v = v (x) = var (x) { displaystyle sigma ^{2} = v = mathbb {v} (x) = mathrm {var (X)}}.
La varianza es cuadrática e invariante por traducción. Se puede estimar utilizando una muestra y el promedio empírico o la esperanza si se lo conoce.
Dada una serie estadística de una variable real (x1, x2,…, xn), cuyo middlex¯ = 1n∑i = 1nxi { displayStyle { overline {x}} = { frac {1} {n}} sum _ {i = 1}^{n} x_ {i}},
La varianza es el promedio de los cuadrados de las diferencias a este promedio:
La varianza es un indicador de dispersión de valores, es decir, siempre es positiva, solo cancela para una serie estadística de la cual todos los términos tienen el mismo valor, es todo mayor ya que los valores se extienden, y invariante agregando una constante. Su cálculo puede parecer más complicado que el de otros indicadores de dispersión, como la brecha intercuartil o la desviación absoluta promedio, pero a diferencia de este último, es acumulativo: si reunimos la serie estadística K en una, la varianza global se puede calcular de La fuerza laboral ni, la varianza VI y el promedio x¯i { displaystyle { overline {x}} _ {i}} de cada serie inicial por la fórmula
donde n = ∑i = 1kni { displayStyle n = sum _ {i = 1}^{k} n_ {i}} es la fuerza de trabajo total y x¯ = 1n∑i = 1knix¯i { splawyle { overline {x}} = { frac {1} {n}} sum _ {i = 1}^{k} n_ {i} { overline {x}} _ {i}},
es el promedio general. En otras palabras, la varianza global es la suma de la varianza de los promedios y las variaciones promedio, incluso si este segundo componente a menudo se descuida.
¿Qué es el analisis de varianza ejemplo?
Las diferencias de países en escala, índice e inteligencia (IQ) se probaron en un MANOVA, con el país como variable independiente y estas puntuaciones de índice, escala e inteligencia como variables dependientes. La proporción de varianza explicada por el país (parcial η2) se utilizó como medida de tamaño de efecto. Los valores umbral de tamaños de efectos pequeños, medianos y grandes son 0.01, 0.06 y 0.12 (Cohen, 1992). Todos los puntajes se estandarizaron antes del análisis, lo que significa que la media global y la desviación estándar en todos los países se establecieron con un valor de 0 y 1. El propósito de la estandarización de la puntuación Z era hacer que los puntajes sean comparables en todas las pruebas y aliviar la interpretación . Las medias, las desviaciones estándar y los tamaños de efectos de las diferencias de países en las puntuaciones de escala estandarizada se presentan en la Tabla 7.5 y los puntajes de índice e inteligencia global en la Tabla 7.6. Se puede ver en la parte inferior de las Tablas 7.5 y 7.6 que todos los tamaños de los efectos, medidos por la proporción de varianza explicada por los países, son significativos, como podría esperarse dado el enorme tamaño de la muestra; Sin embargo, los hallazgos más destacados es su tamaño de efecto muy limitado. Algunos de los tamaños del efecto ni siquiera alcanzan el nivel umbral de 0.01, el marcador de un pequeño tamaño de efecto. No se encontraron tamaños de efecto medio o grandes. Los tamaños de efecto más grandes se encontraron para la subprueba de vocabulario y el índice correspondiente. Sin embargo, como se indicó anteriormente, las diferencias de país en las puntuaciones de vocabulario deben interpretarse con precaución, ya que estos puntajes no son completamente comparables en ninguna de las dos comparaciones hechas (comparando todos, en parte elementos no idénticos versus comparaciones de elementos idénticos, pero permiten las diferencias de lenguaje en el nivel de dificultad de los elementos idénticos). La principal conclusión global de nuestro análisis es que las diferencias de país en las puntuaciones de las pruebas cognitivas en estas muestras occidentales son pequeñas y, en muchos casos, insignificantes desde una perspectiva práctica; Por ejemplo, las diferencias globales de IQ representan menos del 1% de la varianza. Las diferencias individuales dentro de los países son mucho mayores que las diferencias de país. El patrón global en las diferencias de inteligencia se puede ver mejor en el índice de IQ (columna de extrema derecha de la Tabla 7.6). El único país con un puntaje algo más bajo que los otros países es Francia. La puntuación más baja se debe a un patrón sistemático de puntajes algo más bajos en la mayoría de las escalas y todos los índices. No está claro de dónde provienen estas diferencias. No es muy probable que las traducciones puedan desempeñar un papel importante, ya que los puntajes del otro grupo en el que se administró una versión francesa bastante similar, el grupo canadiense francés, estaba ligeramente por encima del promedio global. Los problemas de muestreo, como relativamente muchos inmigrantes con un conocimiento bastante pobre del idioma francés y probablemente una experiencia educativa inconsistente o interrumpida, podrían desempeñar un papel y merece una mayor investigación.
La literatura de inteligencia está repleta de ejemplos de grandes diferencias étnicas y de país en los puntajes (por ejemplo, Jensen, 1980; Lynn y Mikk, 2007). Estos hallazgos encajan en una larga y controvertida tradición sobre el contexto de tales diferencias. La controversia se centra en la pregunta de si estas diferencias de país están más enraizadas genética o ambientalmente. También hay una tercera posición en esta discusión según la cual la mayoría de los instrumentos para probar las diferencias de los países en la inteligencia muestran problemas metodológicos como el sesgo de elementos que reduce la comparabilidad de puntajes (Lubke, Dolan y Kelderman, 2001). Nuestro estudio también proporciona evidencia de la importancia de los instrumentos adecuados, además de los marcos de muestreo adecuados. Descubrimos que dentro del grupo de países occidentales que se estudiaron aquí, las diferencias en la inteligencia del país son muy pequeñas y no importantes desde una perspectiva práctica. Las principales razones de la discrepancia con mucha otra investigación podrían ser triples. Primero, todos los instrumentos se adaptaron cuidadosamente y los instrumentos estadounidenses originales se desarrollaron desde la perspectiva de que estos se traducirían en una etapa posterior, lo que reduce la probabilidad de sesgo en estos instrumentos (Hambleton, Merenda y Spielberger, 2005; Harkness, 2003) . Se evitaron detalles de las culturas en la etapa de desarrollo de la prueba temprana. Este enfoque se desvió de una investigación muy existente que a menudo se basa en la exportación de instrumentos occidentales a otros contextos sin mucha consideración para la aplicabilidad del instrumento en el nuevo contexto cultural. Los procedimientos psicométricos, como las técnicas de funcionamiento de elementos diferenciales, se utilizan para identificar elementos potencialmente problemáticos; Sin embargo, un enfoque que comienza desde los elementos que se desarrollaron desde la perspectiva de que estos se traducirían conceptualmente más avanzado y es menos probable que encuentre problemas con el ajuste diferencial de los elementos. En segundo lugar, nuestras muestras no fueron muestras de conveniencia sino muestras de probabilidad. En particular, la investigación que compara a los estudiantes convencionales e inmigrantes es susceptible a comparar grupos que difieren en las características de fondo. Por ejemplo, las comparaciones del desempeño educativo de los inmigrantes turcos con sus pares convencionales en los países occidentales -europeos muestran que una parte sustancial de la brecha de rendimiento de los estudiantes inmigrantes se debe al estatus socioeconómico más bajo de los estudiantes inmigrantes en comparación con los estudiantes convencionales (Arikan, Van, Van, Van, Van, Van, Van, Van, Van, Van, Van, Van, Van, Van, Van. De Vijver, y Yagmur, 2017). Entonces, cuando se trabaja con muestras de conveniencia, las diferencias culturales y socioeconómicas a menudo se confunden. En tercer lugar, muchas diferencias interculturales en los puntajes de las pruebas cognitivas comparan países con grandes distancias culturales, como los países occidentales y no occidentales. La variación cultural en nuestro estudio fue limitada; Por ejemplo, no se incluyeron países de bajos y medios ingresos en el presente estudio.
El análisis final implicó las correlaciones de los puntajes de las pruebas cognitivas (escalas, índices, inteligencia global) con indicadores sociales a nivel de país. Utilizamos tres indicadores que antes se identificaron como relacionados con el rendimiento de la prueba cognitiva (Brouwers, Van de Vijver y Van Hemert, 2009; Van de Vijver, 1997) y varias otras características psicológicas como el bienestar (por ejemplo, Diener, Oishi, y Tay, 2018; Georgas, Van de Vijver y Berry, 2004; King, Renó y Novo, 2014). El primero es el índice de desarrollo humano, que es un compuesto del nivel de desarrollo económico, la esperanza de vida y los años de escolarización (todo a nivel de país). El segundo es el producto interno bruto (per cápita). El tercero es el gasto educativo (per cápita), que se refiere al número de dólares gastados en educación (per cápita) en un país. Estos indicadores sociales son mutuamente excluyentes (de hecho, se puede esperar que se asocien positivamente), ya que todos están relacionados con el nivel de desarrollo económico.
Las correlaciones no fueron fuertes para ningún indicador, como se puede confirmar en la Tabla 7.7. En promedio, el índice de desarrollo humano mostró las correlaciones más fuertes, que fueron positivas como se podía esperar (se puede considerar que un índice de desarrollo humano más alto está relacionado con indicadores educativos como la disponibilidad de escolarización de alta calidad). Las correlaciones estaban más cerca de cero para los otros dos indicadores. Sin embargo, la conclusión principal es que no se encontraron relaciones sistemáticas y que las correlaciones eran muy débiles. De las 51 correlaciones calculadas, dos correlaciones fueron significativas (se encontró una correlación positiva de 0.60 entre el índice de desarrollo humano y el diseño de bloque, p <.05; lo mismo era cierto para el índice de razonamiento perceptivo). En general, la conclusión principal es que los indicadores sociales están más o menos no relacionados con los puntajes de inteligencia en la presente muestra. Cabe señalar que este hallazgo se refiere a los datos a nivel de país y no se refiere al papel de los indicadores dentro del país, como el estado socioeconómico, que se ha demostrado que está relacionado con la inteligencia. La combinación de traducción de prueba, marco de muestreo y variabilidad cultural limitada que se describió anteriormente probablemente podría explicar la ausencia de correlaciones sistemáticas.
¿Cómo se hace una tabla ANOVA?
1. Formular una hipótesis 2. Establezca un nivel de significancia 3. Calcule una estadística F 4. Use la estadística F para derivar un valor p 5. Compare el valor p y el nivel de significancia para decidir si rechazar o no el nulo o no hipótesis
Al igual que con casi todas las pruebas de significación estadística, ANOVA comienza con la formulación de una hipótesis nula y alternativa. Para este ejemplo, las hipótesis son las siguientes:
Hipótesis nula (H0): no hay diferencia en el precio promedio del vino entre los tres países; Son todos iguales. Hipótesis alternativa (H1): el precio promedio del vino no es el mismo entre los tres países.
Tenga en cuenta que esta es una prueba omnibus, lo que significa que si podemos rechazar la hipótesis nula, nos dirá que existe una diferencia estadísticamente significativa en algún lugar entre estos países, pero no nos dirá dónde está.
El nivel de significancia, o alfa, es la probabilidad de rechazar nuestra hipótesis nula cuando en realidad es cierto. En otros términos, es la probabilidad de cometer un error tipo I.
Por lo general, uno debería sopesar los costos de hacer un error tipo I frente a un error tipo II para determinar el mejor alfa para un experimento, pero para este ejemplo de juguete solo voy a usar el .05 estándar para nuestro valor α.
La estadística F es simplemente una relación de la varianza entre las medias de las muestras para la varianza dentro de las medias de muestra. Para esta prueba ANOVA, observaremos hasta qué punto el precio promedio del vino promedio de cada país del precio promedio general, y dividiendo eso por la variación en el precio que hay dentro de la distribución de muestras de cada país. La fórmula estadística F está debajo, lo que puede parecer complicada hasta que la descompongamos.
¿Qué estadístico de prueba se utiliza para el análisis de varianza?
ANOVA prueba si las medias de tres o más grupos independientes de datos continuos difieren significativamente con respecto a un solo factor (ANOVA unidireccional) o dos factores (ANOVA bidireccional). ANOVA también prueba si el efecto de un factor en la variable de respuesta depende del nivel de un segundo factor (interacción).
Un valor significativo de P implica una baja probabilidad de que los valores medios para todos los grupos sean iguales. Desde un punto de vista estadístico, decimos que la varianza entre los grupos es mayor que la varianza dentro de cada grupo. Tenga en cuenta que ANOVA no proporciona información sobre si los pares individuales de grupos difieren significativamente; Solo prueba una diferencia global general. Por ejemplo, al comparar cuatro grupos de datos, A, B, C y D, el hallazgo «P <.05, ANOVA" significa que hay menos del 5% de posibilidades de que la declaración "a = b = c = d" es verdad; Sin embargo, no dice nada sobre AB, CD o DA, y así sucesivamente. Una vez que los investigadores demuestran una diferencia global significativa (p <.05) utilizando ANOVA, pueden usar procedimientos de comparación múltiples (Bonferroni, Tukey, Newman-Keuls, Scheffe, Dunnett) para comparaciones de grupos individuales.
ANOVA producirá un valor artificialmente bajo si los grupos contienen pequeñas muestras (<5 observaciones por grupo o 20 en todos los grupos combinados) con distribuciones asimétricas; En cambio, se debe usar una prueba no paramétrica (Kruskal-Wallis ANOVA). También se prefiere una prueba no paramétrica si los grupos tienen una varianza desigual según lo determinado por la prueba ANF. Múltiples pruebas de parejas no pueden sustituir a ANOVA; El efecto es aumentar en gran medida las probabilidades de un resultado falso positivo (error tipo I).
¿Qué prueba el análisis de varianza?
En conclusión, los modelos simples de un período que se basan en el análisis de varianza media funcionan adecuadamente en los mercados emergentes que confirman una posible implicación de Eftekhari y Satchell (1995). Los resultados son sólidos para los costos de transacción y sugieren que estas estrategias simples podrían ser rentables. La dificultad es la medida en que la mayor participación de los inversores en todo el mundo ha cambiado la estructura estocástica de estos mercados y eliminó la oportunidad de inversión presente en los datos históricos.
Para ampliar el comentario anterior, parece ser el caso de que la estructura de riesgo de cartera ha cambiado. Aunque no informamos los resultados, encontramos que la correlación promedio entre los mercados emergentes ha aumentado en los últimos años, lo que sugiere que los factores comunes importan más que antes. El doble impacto de la inversión internacional y la integración financiera ha llevado a las características conjuntas del mercado que representan, quizás, un entorno de inversión menos interesante. Los nuevos mercados emergentes constituyentes pueden no tener las mismas características estadísticas que los originales en la misma etapa de su desarrollo. Polonia, Hungría y China pueden no ser estadísticamente equivalentes a Taiwán, Tailandia y Columbia en el punto en el que se unen a la oportunidad de inversión.
¿Por qué las reglas comerciales deberían basarse en nuestras carteras optimizadas conducen a buenos rendimientos ajustados al riesgo? Una razón es que la cartera de MO está construida para tener la relación de Sharpe máxima en un mundo de varianza media. Aunque nuestros retornos pueden parecer altamente no normales, se sabe que las condiciones para la validez del análisis de varianza media son más generales que solo la normalidad multivariada. Como se demostró en Chamberlain (1983), una condición necesaria y suficiente para la validez del análisis de MV es que los retornos aleatorios son una transformación lineal de un vector aleatorio distribuido esféricamente, ver Dempster (1969) para una definición. de una distribución esférica. Además, en ausencia de un activo sin riesgos, el análisis de varianza media es válido para un vector de n retornos si y solo los últimos (n-1) componentes se distribuyen esféricamente condicionados al primero, lo que puede tener una distribución arbitraria. Por lo tanto, es plausible que nuestra regla de mantener la cartera de Mo maximice la relación histórica de Sharpe; Ciertamente debería en un período por período.
Sin embargo, aunque hemos encontrado que la relación de afilado empírica de la regla que maximiza la relación de afilado de la sección transversal es de hecho máxima, la regla que minimiza la varianza de la sección transversal parece tener una gran varianza de series de tiempo. Se necesita más investigación para comprender qué tipo de proceso estocástico podría darnos tal resultado.
Nuestros resultados no están en conflicto con los de Harvey (1995). Harvey encuentra que los modelos de precios de activos basados en momentos incondicionales son inadecuados para los datos de los mercados emergentes. Hemos encontrado un rendimiento excesivo de las reglas comerciales basadas en momentos condicionales, de un período por delante.
¿Cuándo se utiliza la prueba ANOVA de Welch?
Suponga que la ingesta 1., pero esa ingesta es válida 2. En este caso procedemos con una sinosquestal omosquestal no paramétrica, más conocida como la prueba Kruskal-Wallis, que se ha discutido en esta publicación. Si esta prueba es significativa (es decir, si los promedios no son los mismos), es necesario proceder con pruebas post-hoc no paramétricas, que incluyen: prueba de prueba de prueba-behrens-pescador-nemeni-damolyi-wolfe-dunun (( Comparaciones múltiples no paramétricas) Recuerdo que para continuar con la prueba de Kruskal-Wallis, es necesario asumir la homogeneidad de las variaciones de los grupos K en el análisis.
Supongamos ahora que los datos son normales, pero que las variaciones no son homogéneas. En este caso, procedemos con una AUOVA ETEROSCHESTICAL: los enfoques son: -welch ANOVA unidireccional (disponible en R) -Brown-Forsythe (no disponible en R, pero presentes en SPSS)-James Primero y segundo- Procedimientos de pedido (no disponibles en R) Tablaré en breve sobre el primer método.
Si la prueba WELCH (por lo tanto, estamos bajo la ingesta de no homogeneidad de las variaciones) es significativa, debemos proceder con las pruebas post-hoc para comparaciones múltiples no homosquestales. Entre las pruebas bien conocidas hay: – Tamhane Prueba – Juegos -Howell Tests – Duncan Test que, sin embargo, no están disponibles en R (si no recuerdo mal, sin embargo, se implementan en SPSS).
Finalmente, puede suceder que los datos no sean normales y que las variaciones no son homogéneas. En este caso, procedemos con la prueba de Friedman, y con la prueba relativa post-hoc: prueba de Schaich y Hamerle, y prueba Conover.
Antes de continuar con los ejemplos, aquí hay una tabla resumida sobre la situación. Sin embargo, me gustaría hacer 3 aclaraciones: 1) Hay otras pruebas, así como las mencionadas y discutidas aquí; 2) Cada prueba ofrece considerar sus propias características que no se consideran aquí. Por ejemplo, la prueba de Friedman se recomienda más para un «ANOVA con medidas repetidas», mientras que aquí hablamos de violaciones de las contrataciones de la AUOVA clásica. No es un error, pero siempre es bueno referirse a la literatura específica de cada prueba; 3) A veces pueden suceder algunos errores. Así que siempre recomiendo verificar lo que se escribe aquí (¡antes de incurrir en «reproches» por los referentes estadísticos!). Si encuentra algunos errores, estaría agradecido si lo informa en los comentarios, para que pueda corregir todo.
Artículos Relacionados:
- ¿Qué es el análisis de varianza y cómo se puede aplicar a tu negocio?
- Guía paso a paso para realizar un análisis de varianza en Excel
- Ejemplos de análisis de varianza para comprender mejor este método de estadística
- ¿Qué es un análisis de varianza y cómo se puede utilizar para optimizar su sitio web?