Análisis de varianza de dos factores con varias muestras por grupo: Guía paso a paso

Departamento de Laboratorio Dental de Ciencia e Ingeniería, Colegio de Ciencias de la Salud y Departamento de Ciencias de la Salud Pública, Programa de Escuela de Graduados y Bk21+ en Ciencias de la Salud Pública, Universidad de Corea, Seúl, Corea.

Los valores medios obtenidos de diferentes grupos con diferentes condiciones se comparan con frecuencia en estudios clínicos. Por ejemplo, se pueden comparar dos fuerzas medias de enlace entre la superficie del diente y el cemento de resina utilizando la prueba t del estudiante paramétrico cuando los grupos independientes están sujetos a la comparación bajo los supuestos de distribución normal y variaciones iguales (o desviación estándar). En una condición de variaciones desiguales, podemos aplicar la prueba t de Welch como una adaptación de la prueba t. Como la naturaleza y la forma específica de las distribuciones están predeterminadas por la suposición, la prueba t compara solo las ubicaciones de la distribución representadas por medios, que es simple e intuitiva. El estadístico T es la relación de diferencia media y errores estándar de la diferencia media.

Incluso cuando se comparan más de dos grupos, algunos investigadores aplican erróneamente la prueba t mediante la implementación de múltiples pruebas t en múltiples pares de medios. Es inapropiado porque la repetición de las múltiples pruebas puede agregar repetidamente múltiples posibilidades de error, lo que puede dar como resultado un nivel de error α mayor que el nivel α preestablecido. Cuando intentamos comparar medios de tres grupos, A, B y C, utilizando la prueba t, necesitamos implementar 3 pruebas por pares, es decir, A VS B, A VS C y B VS C. De manera similar si las comparaciones se repiten k veces en un experimento y el nivel α 0.05 se estableció para cada comparación, se puede esperar una tasa de error total inaceptablemente aumentada de 1- (0.95) K para el procedimiento de comparación total en el experimento. Para una comparación de más de dos grupos significa que el análisis de varianza unidireccional (ANOVA) es el método apropiado en lugar de la prueba t. Como el ANOVA se basa en la misma suposición con la prueba t, el interés de ANOVA también está en las ubicaciones de las distribuciones representadas por medios. Entonces, ¿por qué el método compara varios medios el ‘análisis de varianza’, en lugar de ‘análisis de medios’ en sí mismos? Es porque la ubicación relativa de los varios medios de grupo puede identificarse más convenientemente por varianza entre los medios grupales que comparar muchos medios grupales directamente cuando el número de medias es grande.

El método ANOVA evalúa el tamaño relativo de varianza entre las medias de grupo (entre la varianza del grupo) en comparación con la varianza promedio dentro de los grupos (dentro de la varianza del grupo). La Figura 1 muestra dos casos comparativos que tienen ‘entre variaciones de grupo’ (la misma distancia entre tres medias de grupo) pero tienen diferentes ‘variaciones de grupo’. Cuando las variaciones entre grupos son las mismas, las diferencias medias entre los grupos parecen más distintas en las distribuciones con variaciones de grupo más pequeñas dentro del grupo (a) en comparación con aquellas con variaciones de grupo más grandes (B). Por lo tanto, la relación entre la varianza del grupo y la varianza del grupo es del principal interés en el ANOVA.

¿Qué es análisis de varianza de dos factores con varias muestras por grupo?

Pero, ¿por qué hablamos sobre el análisis de la varianza cuando, de hecho, las diferencias entre la escuela secundaria se analizan?

Cuando se comparan dos grupos, observan sus medios y desviación estándar. El promedio aritmético es un valor bien definido, con un pequeño margen de variación, excepto en presencia de valores atípicos. La varianza total de la variable (desviación estándar al cuadrado), por otro lado, es un valor más complejo porque se puede dividir en varianza dentro de los grupos, o con otros grupos y varianza entre los grupos, entre grupos.

El primero se debe a las diferencias dentro del grupo único, mientras que el segundo se refiere a las diferencias entre los grupos. Este último es el que estudia el ANOVA de prueba.

Puedes profundizar la descomposición de la varianza leyendo este artículo, en el que te he hablado de una manera más detallada.

Esta división de la varianza le permite comprender si la diferencia entre el medio de los grupos es causada por la variación entre los grupos o es el efecto de las diferencias entre las observaciones individuales y los promedios de cada grupo. En otras palabras, si la variabilidad interna para los grupos es relativamente alta en comparación con la variabilidad entre los grupos, entonces probablemente la diferencia entre los diferentes niveles del factor es solo el efecto de la variabilidad interna.

Más tarde te mostraré que la varianza y la varianza entre la varianza entran en juego en el cálculo de la prueba de Enova F.

Antes de explicar cómo calcular un ANOVA en una calle, enumere cuáles son los requisitos que deben cumplirse para realizar este tipo de análisis:

Se requiere la variable numérica analizada en los diversos grupos para tener una distribución normal, especialmente en el caso de pequeñas muestras.

¿Qué es la varianza de cada grupo de muestras?

La varianza de la muestra (S2) es una medida del grado en que se extienden los números en una lista. Si los números en una lista están cerca de los valores esperados, la varianza será pequeña. Si están lejos, la varianza será grande. La varianza de la muestra viene dada por la ecuación

Un cálculo de varianza de muestra es más poderoso cuando se usa para comparar dos conjuntos diferentes de datos, dicen las distribuciones de frecuencia de genotipo en la ciudad de Nueva York en comparación con las de Santa Fe, Nuevo México. Es más probable que una población que no está en el equilibrio de Hardy -Weinberg tiene una mayor variación en las frecuencias de genotipo que una que está en el equilibrio de Hardy -Weinberg. Las poblaciones lejos del equilibrio Hardy -Weinberg pueden tener un valor de varianza de muestra en los cientos.

La desviación estándar es el principal indicador de dispersión, siendo la raíz cuadrada de la varianza definida de la siguiente manera:

Y esto es lo que Excel regresa de forma predeterminada en la Tabla 13.3-2, ya que la varianza de la muestra es S2 = 0.0083% y S = 0.9120%.

y representa una medida de dispersión de medias de muestra alrededor de la media de la población. Esto se debe a que en teoría varias muestras se extraerían de la población, y luego se registraría la media obtenida de cada muestra. SE (x¯) = Sn dice que la propagación de los valores de x¯ aproximadamente μ es pequeña para un tamaño de muestra grande en comparación con un pequeño tamaño de muestra.

Mientras que hemos presentado estadísticas que describen las tendencias centrales de un conjunto de datos, también estamos interesados ​​en las que describen la propagación o la variabilidad de los valores de datos. Una estadística que podría usarse para este propósito sería una que mide el valor promedio de los cuadrados de las distancias entre los valores de datos y la media de la muestra. Esto se logra mediante la varianza de la muestra, que por razones técnicas divide la suma de los cuadrados de las diferencias en N – 1 en lugar de N, donde N es el tamaño del conjunto de datos.

¿Qué es la varianza de la muestra?

La principal diferencia entre la varianza de la población y la varianza de la muestra se refiere al cálculo de la varianza. La varianza se calcula en cinco fases. Se calcula el primer promedio, luego calculamos las desviaciones del promedio, y en tercer lugar, las desviaciones están en el cuadrado, cuarto se resumen las desviaciones al cuadrado y finalmente esta suma se divide por el número de elementos para los cuales se calcula la varianza Entonces varianza = σ (xi -x -) / n. Donde xi = oth. Número, x- = medios y n = número de elementos…

Ahora, cuando la varianza debe ser calculada por los datos sobre la población, N es igual al número de elementos. Por lo tanto, si la varianza de la presión arterial de todas las 1000 personas debe calcularse mediante datos sobre la presión arterial de todas las 1000 personas, entonces n = 1000. Sin embargo, cuando la varianza se calcula por el ejemplo, los datos 1 deben deducirse de n antes Divida la suma de las desviaciones cuadradas. Entonces, en el ejemplo anterior, si los datos de ejemplo tienen 100 elementos, el denominador sería 100 – 1 = 99.

Debido a esto, el valor de la varianza calculada por los datos de ejemplo es mayor que el valor que podría haberse descubierto utilizando datos de población. La lógica de hacer esto es compensar nuestra falta de información sobre los datos de la población. Es imposible descubrir la varianza de las alturas en los humanos, nuestra falta absoluta de información sobre las alturas de todos los seres humanos vivos, no habla del futuro. Aunque tomamos un ejemplo moderado, como los datos sobre la población de todos los hombres vivos en los Estados Unidos, es físicamente posible, pero el costo y el tiempo involucrados en esto anularían el propósito de su cálculo. Esta es la razón por la cual los datos de ejemplo se toman para la mayoría de los fines estadísticos, y esto se acompaña de la falta de información sobre la mayoría de los datos. Para compensar esto, el valor de la varianza y la desviación estándar, que es la raíz cuadrada de la varianza, son más altos en el caso de datos de muestra que la varianza de los datos de la población.

Esto actúa como un escudo automático para analistas y gerentes de decisiones. La lógica se aplica a las decisiones sobre presupuesto de capital, finanzas personales y corporativas, construcción, gestión del tráfico y muchos campos aplicables. Esto ayuda al titular de las apuestas a mantenerse a salvo mientras toma decisiones u otras inferencias.

¿Qué es la varianza dentro de los grupos?

La fórmula para la variación dentro del grupo. Variación en el grupo (a veces llamado grupo de error o varianza de error) es un término utilizado en las pruebas ANOVA. Se refiere a variaciones causadas por diferencias dentro de los grupos individuales (o niveles). En otras palabras, no todos los valores dentro de cada grupo (por ejemplo, medios) son los mismos. Estas son diferencias no causadas por la variable independiente.

Cada muestra se observa por sí sola. En otras palabras, no se consideran interacciones entre muestras. Por ejemplo, supongamos que tenía cuatro grupos, que representan las drogas A B C D, con cada grupo compuesto por 20 personas en cada grupo y está midiendo los niveles de colesterol de las personas. Para la variación dentro del grupo, analizará las variaciones en los niveles de colesterol para las personas en el Grupo A, sin considerar los Grupos B, C y D. Luego verá los niveles de colesterol para las personas en el Grupo B, sin considerar los Grupos A, C y D. y así sucesivamente.

Dentro de la varianza de grupos que se muestra en la salida ANOVA de Excel.

La variación dentro del grupo se informa en la producción de ANOVA como SS (W) o que significa suma de cuadrados dentro de grupos o SSW: suma de cuadrados dentro. Está intrínsecamente vinculado a entre la variación del grupo (suma de cuadrados entre), la diferencia de varianza causada por cómo los grupos interactúan entre sí. Esto se debe a que el objetivo de ANOVA es comparar la relación entre la varianza del grupo y entre la varianza del grupo. De hecho, el núcleo de la prueba ANOVA, la estadística F, se calcula dividiendo la varianza del grupo entre la varianza del grupo dentro.

Artículos Relacionados:

Related Posts

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *