¿Por qué es preferible realizar el análisis de varianza a varias pruebas de hipótesis de dos a dos?

Un segundo diseño de estudio es reclutar a un grupo de individuos y luego dividirlos en grupos en función de alguna variable independiente. Nuevamente, cada individuo será asignado a un solo grupo. Esta variable independiente a veces se llama una variable independiente del atributo porque está dividiendo el grupo en función de algún atributo que posean (por ejemplo, su nivel de educación; cada individuo tiene un nivel de educación, incluso si es «ninguno»). Luego, cada grupo se mide en la misma variable dependiente que se ha sometido a la misma tarea o condición (o ninguna). Por ejemplo, un investigador está interesado en determinar si existen diferencias en la fuerza de las piernas entre los jugadores de rugby aficionados, semiprofesionales y profesionales. La fuerza/resistencia medida en una máquina isocinética es la variable dependiente. Este tipo de diseño de estudio se ilustra esquemáticamente en la figura a continuación:

Cada vez que realiza una prueba t, existe la posibilidad de que cometa un error tipo I. Este error suele ser del 5%. Al ejecutar dos pruebas t en los mismos datos, habrá aumentado sus posibilidades de «cometer un error» al 10%. La fórmula para determinar la nueva tasa de error para múltiples pruebas t no es tan simple como multiplicar el 5% por el número de pruebas. Sin embargo, si solo está haciendo algunas comparaciones múltiples, los resultados son muy similares si lo hace. Como tal, tres pruebas t serían del 15% (en realidad, 14.3%), etc. Estos son errores inaceptables. Un ANOVA controla estos errores para que el error tipo I permanezca al 5% y puede estar más seguro de que cualquier resultado estadísticamente significativo que encuentre no solo ejecutar muchas pruebas. Consulte nuestra guía sobre pruebas de hipótesis para obtener más información sobre los errores de tipo I.

  • La variable dependiente normalmente se distribuye en cada grupo que se compara en el ANOVA unidireccional (técnicamente, son los residuos los que deben distribuirse normalmente, pero los resultados serán los mismos). Entonces, por ejemplo, si comparamos tres grupos (por ejemplo, jugadores de rugby aficionados, semiprofesionales y profesionales) en la fuerza de su pierna, los valores de fuerza de la pierna (variable dependiente) tendrían que distribuirse normalmente para el grupo de jugadores aficionados, Normalmente distribuido para los semiprofesionales y normalmente distribuido para los jugadores profesionales. Puede probar la normalidad en las estadísticas de SPSS (consulte nuestra Guía: Pruebas de normalidad).
  • Hay homogeneidad de variaciones. Esto significa que las variaciones de población en cada grupo son iguales. Si usa las estadísticas de SPSS, la prueba de Levene para la homogeneidad de las variaciones se incluye en la salida cuando ejecuta un ANOVA unidireccional en las estadísticas de SPSS (consulte nuestro ANOVA unidireccional usando la Guía de estadísticas SPSS).
  • Independencia de las observaciones. Este es principalmente un problema de diseño de estudio y, como tal, deberá determinar si cree que es posible que sus observaciones no sean independientes en función del diseño de su estudio (por ejemplo, trabajo grupal/familias/etc.).

Qué hacer cuando no se cumplen los supuestos se trata en la página siguiente.

¿Cuándo se utiliza ANOVA de dos factores?

El factor de los términos y los múltiples a veces se confunden entre sí. Los factores de 15 incluyen 3 y 5; Los múltiplos de 15 incluyen 30, 45, 60 (y más). Vea más a continuación y en múltiples.

  • Verbo: factorizar un número es expresarlo como un producto de (otros) números enteros, llamados factores. Por ejemplo, podemos factorizar 12 como 3 × 4, o como 2 × 6, o como 2 × 2 × 3. Entonces 2, 3, 4 y 6 son todos factores de 12.
  • Sustantivo: un factor de un número, nombremos ese número N, es un número que puede multiplicarse por algo para hacer n como producto. Otra forma de decirlo: los factores de un número son divisores de ese número; Es decir, pueden dividir ese número sin dejar un resto.

Entonces, por ejemplo, 3 es un factor de 12 porque 3 es un número de conteo y puede multiplicarse por 4 para hacer 12. Una vez más, 3 es un factor de 12 porque 3 divide 12 sin dejar un resto. Los factores de 12 son 1, 2, 3, 4, 6 y 12, porque cada uno de ellos divide 12 sin dejar un resto (o, alternativamente, cada uno de ellos es un número de conteo que puede multiplicarse por otro número de conteo para hacer 12).

  • Verbo: factorizar un número es expresarlo como un producto de (otros) números enteros, llamados factores. Por ejemplo, podemos factorizar 12 como 3 × 4, o como 2 × 6, o como 2 × 2 × 3. Entonces 2, 3, 4 y 6 son todos factores de 12.
  • Sustantivo: un factor de un número, nombremos ese número N, es un número que puede multiplicarse por algo para hacer n como producto. Otra forma de decirlo: los factores de un número son divisores de ese número; Es decir, pueden dividir ese número sin dejar un resto.
  • Los factores de un número incluyen el número, en sí mismo y 1. Pero estos son factores bastante triviales, por lo que cuando hablamos de factorizar un número, generalmente no incluimos factores que incluyen 1 o el número en sí.
  • En el contexto de los números, el factor de los términos (y múltiples y divisibilidad) se usan solo en relación con números enteros. Entonces, por ejemplo, a pesar de que 12 se pueden expresar como un producto que usa fracciones, por ejemplo, 8 × 1 o 24 ×, no son factorizaciones de 12.
  • Los números primos tienen dos factores, ellos mismos y 1, pero esos son los factores triviales que cada número tiene. Debido a que no se pueden tener en cuenta de ninguna otra manera, decimos que no se pueden tener en cuenta. Por ejemplo, 7 «no se puede tener en cuenta» (aunque tiene los dos factores 1 y 7, o podría expresarse como un producto de números no zalómicos de varias maneras).
  • Los números compuestos (números de conteo que no son primos ni 1) a menudo se pueden tener en cuenta (expresarse como un producto de números enteros) en más de una forma. Por ejemplo, 12 se puede tener en cuenta como 3 × 4, o como 2 × 6, o como 2 × 2 × 3. Sin embargo, no todos los números compuestos se pueden tener en cuenta de más de una forma. Por ejemplo, 25 se puede tener en cuenta solo como 5 × 5.
  • El orden en el que los números se enumeran en una factorización no importa: 3 × 4 y 4 × 3 son la misma factorización de 12.
  • Un factor principal de un número es solo un factor de ese número que también es primo. Entonces, 12 tiene seis factores: 1, 2, 3, 4, 6 y 12, pero solo dos de ellos (2 y 3) son primos, por lo que tiene solo dos factores primos.

    ¿Qué es la prueba ANOVA de dos factores?

    La semana pasada, nos presentaron el análisis de varianza de un solo factor (ANOVA). ANOVA también se puede aplicar cuando hay
    es más que un solo tratamiento, siempre que el diseño esté completamente cruzado.
    En general, el ANOVA del factor N (donde N representa el número de tratamientos) puede ser relativamente complicado en términos de
    Los cálculos, por lo que nos vamos a restringir al ANOVA de 2 factores con tamaños de muestra iguales. Aprendiendo el
    Conceptos básicos de cómo funciona el análisis lo preparará para interpretar análisis más complicados cuando los realice utilizando
    un paquete de software apropiado. En algunos casos, puede ver ANOVA del factor N como «ANOVA N-Way».

    Revisemos el modelo que empleamos para ANOVA de un solo factor (Modelo I):

    No es sorprendente que el modelo para ANOVA de 2 factores agrega variación debido a un segundo efecto de tratamiento (β), pero también
    agrega un tercer componente de varianza, αβ, que es la variación debida a las interacciones entre el primero y el segundo
    Variables de tratamiento:

    ¡Las interacciones entre y entre las variables son la parte emocionante de la biología! Los efectos principales simplemente no son tan interesantes, pero emergentes
    ¡Las propiedades, donde todo es más que la suma de las piezas, son donde suceden las cosas geniales!

    Considere los arbustos de arándanos en mi patio trasero. Si nunca has estado en mi patio trasero, solo dale por sentado que
    están allí. Si has estado en mi patio trasero, avísame para que podamos resolver los detalles de la restricción
    ordenar…

    Lo siento… ¿dónde estábamos? Derecha. Los arbustos de arándanos en mi patio trasero están completamente rodeados por un subclover
    Intercrop. Esto ha aumentado su rendimiento, porque hay bacterias fijadoras de nitrógeno asociadas con el trébol, y
    La rotación regular del trébol coloca nitrógeno en el suelo. Es probable que no te sorprendas si te dijera
    que simplemente agregar fertilizante al suelo, sin plantar trébol, también aumentaría el rendimiento. Siguiendo
    La noción de «más es mejor» (que creo que se encuentra en el cromosoma Y), se podría suponer que si hubiera agregado
    Fertilizante a mi Clover Intercrupo Intercrup, mi rendimiento de arándanos aumentaría aún más. En otras palabras, los beneficios del nitrógeno
    Las adiciones serían aditivas (la suma de los efectos juntos). Pero… no lo haría. De hecho, lo haría
    disminuir en bastante. Los efectos del fertilizante y el trébol no son aditivos. Hay una interacción interesante
    entre las dos variables, de modo que el efecto general no se puede predecir a partir del conocimiento de los efectos separados.
    Resulta que las bacterias fijadoras de nitrógeno no fijarán el nitrógeno en presencia de nitratos o amoníaco, por lo que el trébol
    compite con los arándanos por el fertilizante de nitrógeno, y hace un trabajo bastante bueno porque sus raíces están más cerca de
    La superficie donde se aplicó el fertilizante. Claramente una dinámica mucho más interesante que el nitrógeno + nitrógeno =
    mayor rendimiento.

    ¿Cómo funciona la prueba de hipótesis para 2 muestras con prueba F?

    Para comparar dos métodos, a menudo es importante saber si
    Las variabilidades para ambos métodos son las mismas. Para comparar dos
    variaciones V1 y V2, uno tiene que calcular la relación
    de las dos variaciones. Esta proporción se llama F-estadística (en honor de
    REAL ACADEMIA DE BELLAS ARTES. Fisher) y sigue una distribución F:

    F = V1/V2

    • Cuando no se cumple la suposición de normalidad, uno debe usar un no paramétrico
      método. En general, la prueba F es más sensible a las desviaciones de la normalidad
      que la prueba t.
    • La prueba F se puede usar para verificar la suposición de igual varianza necesaria para
      las dos pruebas t de muestra, pero el no rechazado de H0 no implica que
      La suposición (de igual varianza) es válida, ya que la probabilidad
      del error tipo 2 es desconocido.

    Para verificar esto, asumimos la hipótesis nula de que la varianza
    de la segunda serie no es mayor que la varianza de la primera
    serie. La hipótesis alternativa sería que la segunda varianza es
    de hecho más grande que el primero. A continuación tenemos que calcular la estadística F:
    F = 1.79/0.88 = 2.034. Ahora podemos comparar la estadística F con lo crítico
    valor a un nivel de significancia del 5 por ciento. Utilizando la distribución
    Calculadora encontramos un valor crítico de 3.073. Dado que F es solo 2.034
    No podemos rechazar nuestra hipótesis nula (la segunda varianza no es significativamente
    más grande que el primero).

    ¿Cuándo se usa la prueba de F?

    La prueba F está diseñada para probar si dos variaciones de población son iguales. Hace esto comparando el
    Relación de dos variaciones. Entonces, si las variaciones son iguales, la relación de las variaciones será 1.

    Todas las pruebas de hipótesis se realizan bajo el supuesto de que la hipótesis nula es verdadera

    Si la hipótesis nula es verdadera, entonces la estadística de prueba F dada anteriormente se puede simplificar
    (dramáticamente). Esta relación de variaciones de muestra se utilizará la estadística de prueba. Si el nulo
    La hipótesis es falsa, luego rechazaremos la hipótesis nula de que la relación era igual
    a 1 y nuestra suposición de que eran iguales.

    Hay varias mesas F diferentes. Cada uno tiene un nivel diferente de importancia.
    Entonces, encuentre primero el nivel correcto de importancia, y luego busque los grados de libertad numerador
    y los grados de libertad denominadores para encontrar el valor crítico.

    Notará que todas las tablas solo dan nivel de importancia para las pruebas de cola derecha. Porque el
    La distribución f no es simétrica, y no hay valores negativos, puede que no simplemente tome el
    opuesto al valor crítico derecho para encontrar el valor crítico izquierdo. La forma de encontrar una izquierda crítica
    El valor es revertir los grados de libertad, buscar el valor crítico correcto y luego tomar el
    Recíproco de este valor. Por ejemplo, el valor crítico con 0.05 a la izquierda con 12 numeradores
    y 15 grados de libertad denominadores se encuentran al tomar el recíproco del valor crítico con
    0.05 a la derecha con 15 numeradores y 12 grados de libertad denominadores.

    ¿Cómo interpretar la prueba F?

    En esta publicación de blog, echaremos un vistazo a los conceptos y la fórmula de las estadísticas F en los modelos de regresión lineal y comprenderemos con la ayuda de ejemplos. La prueba F y las estadísticas F son conceptos muy importantes para comprender si desea poder interpretar adecuadamente los resultados resumidos de la capacitación de modelos de aprendizaje automático de regresión lineal. Comenzaremos discutiendo la importancia de las estadísticas F en la construcción de modelos de regresión lineal y comprenderemos cómo se calculan en función de la fórmula de las estadísticas F. Entonces entenderemos el concepto con algunos ejemplos del mundo real. Como científicos de datos, es muy importante comprender tanto las estadísticas F como las estadísticas T y cómo ayudan a elaborar el modelo de regresión lineal más apropiado.

    El modelo de regresión lineal representa la variable de respuesta en función de una o más variables predictoras. Existen diferentes tipos de pruebas de hipótesis, como pruebas T y pruebas F que se utilizan para evaluar la idoneidad del modelo de regresión lineal. Es posible que desee consultar este blog para obtener más información: ejemplo de prueba de hipótesis de regresión lineal. Una de las afirmaciones o hipótesis que deben probarse en relación con el modelo de regresión lineal es si el modelo de regresión lineal es válido. Esto se prueba estableciendo la hipótesis nula de que la variable de respuesta no puede representarse en función de ninguna de las variables predictoras. Por lo tanto, si el siguiente es un modelo o función de regresión lineal:

    • y es la variable de respuesta
    • x1, x2 y x3 son variables predictoras
    • β1, β2, β3 son coeficientes o parámetros a estimar para las variables predictoras X1, X2 y X3

    Luego, las hipótesis nulas y alternativas se pueden escribir como:

    H0: β1 = β2 = β3 = 0 (el modelo de regresión no existe)

    ¿Qué compara la prueba de ANOVA?

    ¿Cómo calcula el procedimiento ANOVA un valor p?
    Esta sección te muestra las fórmulas y lleva a través del
    cálculos para el ejemplo con grasa para freír
    donas.

    Recuerde, hace mucho tiempo en una galaxia llamada estadística descriptiva,
    Cómo se definió la varianza: encuentre la media, luego para cada punto de datos
    Tome el cuadrado de su diferencia de la media. Sumar todos esos
    cuadrados, y tienes ss (x), la suma de desviaciones cuadradas en x.
    La varianza fue SS (x) dividida por los grados de libertad
    n – 1, por lo que era una especie de
    desviación cuadrada promedio o media. Probablemente aprendiste el atajo
    Fórmulas computacionales:

    En ANOVA de 1 vía, extendemos un poco esos conceptos.
    Primero dividiste SS (X) en tratamientos entre tratamientos y dentro de los tratamientos
    Partes, SSB y SSW. Entonces tú
    Calcule las desviaciones cuadradas medias:

    • MSB se llama el cuadrado medio entre tratamientos,
      varianza entre grupos o factor MS. Mide el
      variabilidad asociada con los diferentes niveles de tratamiento o
      diferentes valores del factor.
    • MSW se llama el cuadrado medio dentro de los tratamientos, dentro del grupo
      varianza, varianza agrupada o
      Error MS. Mide la variabilidad que no es
      asociado con los diferentes tratamientos.

    Finalmente divide los dos para obtener su prueba
    estadística, f = msb/msw, y tú
    Busque el valor p en una tabla de la distribución F.

    Hay varias formas de calcular la variabilidad, pero ellos
    Todos presentan las mismas respuestas y este método en
    Spiegel y Stephens 1999 [Cita completa en «Referencias», a continuación]
    Las páginas 367–368 son tan fáciles como cualquier otra:

    • MSB se llama el cuadrado medio entre tratamientos,
      varianza entre grupos o factor MS. Mide el
      variabilidad asociada con los diferentes niveles de tratamiento o
      diferentes valores del factor.
    • MSW se llama el cuadrado medio dentro de los tratamientos, dentro del grupo
      varianza, varianza agrupada o
      Error MS. Mide la variabilidad que no es
      asociado con los diferentes tratamientos.
  • r es el número de tratamientos.
  • ¿Cuándo aplicar una prueba ANOVA?

    ANOVA es una prueba estadística para identificar la importancia de ciertos factores en la varianza de datos.

    Primero debemos compilar resultados y factores que influyen con el comando lm () antes de analizar todo con el comando ANOVA ().

    Paso 1: compile los datos disponibles y los asocie con los diversos factores

    resultado = lm (data ~ factor (factor1)*factor (factor2))
    # Resultado: nombre Give a la compilación.
    # Datos: Lista de los valores recopilados cuyos parámetros queremos influir en ellos
    # Factor 1: Lista de procedimientos para un primer factor
    # Factor 2: Lista de términos para un segundo factor
    # Podemos poner muchos otros factores agregando al factor de suite *(factor)

    Tenga en cuenta: no tenga en cuenta los valores continuos: se necesitan categorías para establecer un enlace con estas categorías. De lo contrario, el mensaje «Las pruebas ANOVA F en un ajuste prácticamente perfecto no son confiables» puede aparecer ya que R detectará tantas categorías como medidas.

    Paso 2 – Haga analizar la compilación por la función ANOVA

    <--Anova Analysis (resultado)
    Analysis # le permite mostrar el resultado
    # Las estrellas indican que los parámetros tienen un efecto significativo que para la prueba del estudiante

    Ejemplo: identifique si el sexo y la edad tienen un efecto en una medida hecha en los animales

    ¿Qué es un modelo ANOVA?

    Todas las pruebas anteriores han preocupado a dos grupos de observaciones. Cuando hay tres o más grupos, uno prueba la hipótesis nula de que no hay diferencia en las medias del grupo examinando las variaciones.

    Considere los datos, que se muestran en la Tabla 9.7, de tres grupos de cuatro pacientes. Hay varias fuentes de variación en esta muestra. Primero, existe la variación total de toda la muestra. Para calcular este valor, se calcula la varianza de la muestra, ignorando el grupo al que pertenece cada medición. Esto a veces se llama los cuadrados medios totales (Mstotal) o la varianza total. En segundo lugar, existe la variación del grupo medios sobre una gran media de todas las observaciones. Esto a veces se llama la varianza entre grupos (MSBETWARE) o, a veces, mstreat. Finalmente, existe la variación entre las mediciones del grupo y sus medios grupales individuales. Esto a veces se denomina cuadrados medios dentro de los grupos o cuadrados medios residuales (msresidual) o varianza dentro de los grupos. La relación entre estas fuentes de variación es:

    Si cada uno de los grupos se extrae de la misma población con medias de población iguales, la varianza entre grupos será comparable a la variación dentro de los grupos (Msresidual). Alternativamente, si los tres grupos tienen medias de población diferentes, la variación entre grupos será grande en comparación con la varianza dentro de los grupos. Para probar cuál de estas situaciones es más probable, utilizamos la estadística de prueba F.

    En el ejemplo anterior, la varianza total se calcula a partir de toda la muestra (como si no estuvieran en grupos). La suma de cuadrados entre grupos es la suma de las desviaciones cuadradas entre las medias del grupo y la media general multiplicada por el número de observaciones en cada grupo. La suma residual de los cuadrados se calcula generalmente por sustracción. Los cuadrados medios son la suma de cuadrados (ss) divididos por los grados de libertad apropiados.

    Artículos Relacionados:

    Más posts relacionados:

    Deja una respuesta

    Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *