Anova: ¿Qué es y cómo se aplica?

  • Las respuestas para cada nivel de factor tienen una distribución de población normal.
  • Estas distribuciones tienen la misma varianza.
  • Los datos son independientes.

Una regla general general para variaciones iguales es comparar las desviaciones estándar de muestra más pequeñas y más grandes. Esto es muy parecido a la regla general para variaciones iguales para la prueba de medios independientes. Si la relación de estas dos desviaciones estándar de muestra cae dentro de 0.5 a 2, entonces puede ser que no se viole la suposición.

Recuerde la aplicación desde el comienzo de la lección. Queríamos ver si el contenido de alquitrán (en miligramos) para tres marcas diferentes de cigarrillos era diferente. LAB PRERISITO Y LABLA DE LABIDO Tomó seis muestras de cada una de las tres marcas (A, B y C). Verifique los supuestos de este ejemplo.

  • Las respuestas para cada nivel de factor tienen una distribución de población normal.
  • Estas distribuciones tienen la misma varianza.
  • Los datos son independientes.
  • El tamaño de la muestra es pequeño. Deberíamos verificar las violaciones obvias utilizando el gráfico de probabilidad normal.
  • El gráfico no muestra violaciones obvias de lo normal, pero debemos proceder con precaución.

    La desviación estándar más pequeña es 0.257, y el doble del valor es 0.514. La desviación estándar más grande es menor que este valor. Dado que los tamaños de muestra son los mismos, es seguro asumir que las desviaciones estándar (y, por lo tanto, las variaciones) son iguales.

    ¿Cuáles son los supuestos de un Anova?

    El nivel de medición de las variables y suposiciones de la prueba juega un papel importante en ANOVA. En ANOVA, la variable dependiente debe ser un nivel de medición continuo (intervalo o relación). Las variables independientes en ANOVA deben ser variables categóricas (nominales u ordinales). Al igual que la prueba t, ANOVA también es una prueba paramétrica y tiene algunos supuestos. ANOVA supone que los datos se distribuyen normalmente. El ANOVA también asume la homogeneidad de varianza, lo que significa que la varianza entre los grupos debe ser aproximadamente igual. ANOVA también supone que las observaciones son independientes entre sí. Los investigadores deben tener en cuenta al planificar cualquier estudio para buscar variables extrañas o de confusión. ANOVA tiene métodos (es decir, ANCOVA) para controlar las variables de confusión.

    • La población de la cual se dibujan muestras normalmente debe distribuirse. 2. Independencia de los casos: los casos de muestra deben ser independientes entre sí. 3. Homogeneidad de varianza: homogeneidad significa que la varianza entre los grupos debe ser aproximadamente igual.

    Estos supuestos se pueden probar utilizando software estadístico (¡como Statistics de Intellectus!). La suposición de homogeneidad de varianza se puede probar utilizando pruebas como la prueba de Levene o la prueba de forra marrón. La normalidad de la distribución de las puntuaciones se puede probar utilizando histogramas, los valores de asimetría y curtosis, o usando pruebas como Shapiro-Wilk o Kolmogorov-Smirnov. La suposición de independencia se puede determinar a partir del diseño del estudio.

    Es importante tener en cuenta que ANOVA no es robusto para las violaciones a la suposición de independencia. Esto quiere decir que incluso si viola las suposiciones de homogeneidad o normalidad, puede realizar la prueba y básicamente confiar en los hallazgos. Sin embargo, los resultados del ANOVA no son válidos si se viola la suposición de independencia. En general, con violaciones de la homogeneidad, el análisis se considera robusto si tiene grupos de igual tamaño. Con violaciones de normalidad, continuar con el ANOVA generalmente está bien si tiene un tamaño de muestra grande.

    ¿Qué supuestos tiene la prueba de ANOVA?

    El primer caso que examinaremos es cuando tiene tres o más grupos independientes y desea ver si hay diferencias entre ellos, la prueba que logra esto es un análisis de varianza, una prueba entre sujetos para determinar si hay un diferencia entre tres o más grupos.

    El análisis de varianza (ANOVA) es un negocio complejo, en este punto necesita encontrar un libro de texto y leer los capítulos en ANOVA. Para un resumen rápido, puede ir aquí, pero eso no será realmente suficiente.

    Cargue estos datos en una nueva tabla llamada «datos» en R Studio. Notará que la primera columna indica los números de sujeto de 1 a 150, la segunda columna grupos de códigos para 3 grupos y los datos reales de la tercera columna. Cambie el nombre de las columnas «sujeto», «grupo» y «RT».

    Definamos el grupo como un factor. ¿Recuerdas cómo hacer eso? datos $ grupo = factor (datos $ grupo)

    Antes de ejecutar un ANOVA, necesitamos probar los supuestos de esta prueba. ¿Qué son las suposiciones? En resumen, cada prueba estadística solo se puede ejecutar si los datos cumplen ciertos criterios. Para ANOVA, hay cuatro suposiciones que debe cumplir.

    Asunción uno: entre la independencia del grupo. Los grupos son independientes. Esencialmente, sus grupos no pueden estar relacionados, por ejemplo, si está interesado en estudiar la edad, esto es fácil, un grupo «joven» es naturalmente independiente de los grupos que son «medianos» y «ancianos». Esto puede no ser tan cierto en todos los casos y debe estar seguro. Tenga en cuenta que no hay una prueba estadística para esto, debe usar la lógica y el sentido común. Por ejemplo, las medias y las variaciones de un grupo pueden ser idénticas, pero pueden ser verdaderamente independientes. Considere esto: está interesado en cuántas calorías comen las personas al día. Creas un grupo en Berlín, Alemania y Auckland, Nueva Zelanda y descubres que comen la misma cantidad de calorías por día que reflejan los medios y las variaciones. Es probable que estos grupos sean independientes, pero comparten propiedades estadísticas comunes.

    ¿Qué es el supuesto de varianza?

    Muchas pruebas estadísticas hacen la suposición de igual varianza. Si se viola esta suposición, los resultados de las pruebas se vuelven poco confiables.

    Las pruebas y procedimientos estadísticos más comunes que hacen que esta suposición de igual varianza incluya:

    Este tutorial explica la suposición realizada para cada prueba, cómo determinar si se cumple esta suposición y qué hacer si se viola.

    Se utiliza un ANOVA («análisis de varianza») para determinar si existe o no una diferencia significativa entre las medias de tres o más grupos independientes.

    Supongamos que reclutamos a 90 personas para participar en un experimento de pérdida de peso. Asignamos al azar 30 personas para usar el Programa A, B o C durante un mes.

    Para ver si el programa tiene un impacto en la pérdida de peso, podemos realizar un ANOVA unidireccional.

    Un ANOVA supone que cada uno de los grupos tiene la misma varianza. Hay dos formas de probar si se cumple esta suposición:

    Los gráficos de caja ofrecen una forma visual de verificar la suposición de variaciones iguales.

    La varianza de la pérdida de peso en cada grupo se puede ver por la longitud de cada gráfico de caja. Cuanto más largo sea la caja, mayor será la varianza. Por ejemplo, podemos ver que la varianza es un poco mayor para los participantes en el Programa C en comparación con el Programa A y el Programa B.

    La prueba de Bartlett prueba la hipótesis nula de que las muestras tienen variaciones iguales frente a la hipótesis alternativa de que las muestras no tienen variaciones iguales.

    Si el valor p de la prueba es menor que algún nivel de significancia (como 0.05), entonces tenemos evidencia para decir que las muestras no tienen variaciones iguales.

    ¿Qué pasa si no se cumplen los supuestos del ANOVA?

    Las violaciones de los supuestos de su análisis afectan su capacidad para confiar en sus resultados y provocan válidamente inferencias sobre sus resultados. Para obtener una breve descripción de la importancia de las pruebas de suposición, consulte nuestro blog anterior. Cuando no se cumplen los supuestos de su análisis, tiene algunas opciones como investigador.

    Transformación de datos: un problema común que enfrentan los investigadores es una violación de la suposición de normalidad. Numerosos textos de estadísticas recomiendan transformaciones de datos, como las transformaciones de raíz cuadradas o de registro natural, para abordar esta violación (ver Rummel, 1988). Las transformaciones de datos no están exenta de consecuencias; Por ejemplo, una vez que transforma una variable y realiza su análisis, solo puede interpretar la variable transformada. No puede proporcionar una interpretación de los resultados basados ​​en los valores variables no transformados.

    Alinear el marco teórico, la recopilación de artículos, sintetizar brechas, articular una metodología y plan de datos claros, y escribir sobre las implicaciones teóricas y prácticas de su investigación son parte de nuestros servicios integrales de edición de tesis.

    • Rastree todos los cambios, luego trabaje con usted para lograr una escritura académica.
    • Apoyo continuo para abordar los comentarios del comité, reduciendo las revisiones.

    Análisis no paramétrico: puede encontrar problemas en los que se violan múltiples supuestos o una transformación de datos no correge la suposición violada. En estos casos, puede optar por usar análisis no paramétricos. Si no está familiarizado con los paramétricos y no paramétricos, consulte nuestro blog anterior que discute este tema. Existen alternativas no paramétricas a los análisis paramétricos comunes, por lo que no se limitará en el tipo de análisis que puede realizar. Sin embargo, aunque los análisis no paramétricos son beneficiosos porque están libres de los supuestos de los análisis paramétricos, generalmente se consideran menos potentes que los análisis paramétricos.

    ¿Qué se puede hacer si no se cumplen los supuestos del ANOVA?

    Hasta ahora hemos demostrado cómo las simulaciones pueden ser útiles para los análisis de energía para los diseños ANOVA donde se cumplen todos los supuestos de las pruebas estadísticas.
    Un ANOVA es bastante robusto contra las violaciones de la suposición de normalidad, lo que significa que la tasa de error de tipo 1 permanece cerca del nivel alfa especificado en la prueba. Las violaciones de la suposición de homogeneidad de las variaciones pueden ser más impactantes, especialmente cuando los tamaños de muestra son desiguales entre las condiciones.
    Cuando se viola la suposición de variaciones iguales para un ANOVA unidireccional, la prueba F de Welch es un buen incumplimiento.

    Cuando se viola la suposición de esfericidad dentro de los diseños (cuando las variaciones de las diferencias entre todos los pares no son iguales) se puede aplicar una corrección de la esfericidad (por ejemplo, la corrección de Greenhouse-Geisser o Huynh-Feldt) o un ANOVA multivariado (MANOVA) puede ser realizado.
    Existen enfoques alternativos para los diseños ANOVA con múltiples factores, como los errores estándar robustos de heteroscedasticidad.
    La superpotencia permite a los investigadores realizar análisis de energía para variaciones desiguales (o correlaciones) que aplican correcciones de esferas, o un MANOVA. Nuestro objetivo es incluir la opción de realizar la prueba F de Welch en el futuro.

    Aunque se han proporcionado algunas recomendaciones para ayudar a los investigadores a elegir un enfoque para lidiar con las violaciones de la suposición de homogeneidad (Algina y Keselman 1997), a menudo no está claro si estas violaciones de la suposición de homogeneidad son consecuentes para un estudio determinado.
    Hasta ahora hemos utilizado simulaciones en superpotencia para simular patrones de medios donde hay un efecto verdadero, pero también podemos simular un efecto nulo.
    Dichos estudios de simulación de Monte Carlo se utilizan en artículos publicados para examinar la tasa de error tipo 1 bajo una gama de supuestos y mientras realizan diferentes pruebas.
    La superpotencia facilita la realización de tales estudios de simulaciones para el escenario específico que enfrenta un investigador y puede ayudar a tomar una decisión de si las violaciones de los supuestos son algo de qué preocuparse y si las elecciones para lidiar con las violaciones son suficientes.

    Como ejemplo, revisemos nuestro 2×2 anterior entre el diseño de sujetos.
    Los diseños equilibrados (el mismo tamaño de muestra en cada condición) reducen el impacto de las violaciones de la suposición de homogeneidad, pero supongamos que por alguna razón los tamaños de muestra variaron entre 20 y 80 por celda, y las violaciones estándar de población variaron extremadamente en todas las condiciones (de 1 a 5).
    Podemos usar la superpotencia para estimar el impacto de violar el supuesto de homogeneidad simulando un efecto nulo (las medias en todas las condiciones son las mismas) y examinar la tasa de error tipo 1.
    Podemos especificar un diseño con tamaños de muestra desiguales y variaciones desiguales como se ilustra en el código a continuación.

    ¿Qué supuestos debe cumplir una prueba de ANOVA?

    El análisis de varianza (ANOVA) es útil en el análisis de datos de laboratorio para pruebas de significación. Sin embargo, tiene ciertas suposiciones que deben cumplirse para que la técnica se use de manera adecuada. Sus suposiciones son algo similares a las de regresión porque tanto la regresión lineal como el ANOVA son solo dos formas de análisis de los datos que utilizan el modelo lineal general. Las desviaciones de estos supuestos pueden afectar seriamente las inferencias hechas del análisis de varianza.

    • Idoneidad de datos

    Las variables de resultado deben ser continuas, medidas a nivel de intervalo o relación, y son ilimitadas o válidas en un amplio rango. El factor (variables de grupo) debe ser categórico (es decir, ser un objeto como analista, laboratorio, temperatura, etc.);

    • Idoneidad de datos
  • Aleatoriedad e independencia
  • Cada valor de la variable de resultado es independiente del valor del otro para evitar sesgos. No debería tener ninguna influencia de los datos recopilados. Eso significa que las muestras del grupo en comparación deben extraerse aleatoriamente e independientemente de la población.

    • Idoneidad de datos
  • Aleatoriedad e independencia
  • Distribución
  • La variable continua se distribuye aproximadamente normalmente dentro de cada grupo. Esta distribución de la variable continua se puede verificar creando un histograma y mediante una prueba estadística de normalidad como Anderson-Darling o Kolmogorov-Smirnov. Sin embargo, la prueba F de ANOVA unidireccional es bastante sólida contra las salidas de la distribución normal. Mientras las distribuciones no sean extremadamente diferentes de una distribución normal, el nivel de importancia de la prueba F ANOVA generalmente no se ve muy afectado por la falta de normalidad, particularmente para muestras grandes.

    ¿Cuáles son los supuestos de normalidad?

    La suposición de normalidad afirma que la distribución de muestreo de la media es normal o que la distribución de medias en las muestras es normal. Esto no debe confundirse con la presunción de que los valores dentro de una muestra dada se distribuyen normalmente o que los valores dentro de la población de la cual se tomó la muestra son normales. Más bien, el elemento central de esta suposición es que la distribución de medias de muestra (en muestras independientes) se distribuye normalmente. Afortunadamente, sabemos por el teorema del límite central (CLT) que si los datos de la muestra son aproximadamente normales, la distribución de muestreo también lo será. También sabemos por el CLT que en muestras grandes la distribución de muestreo tiende a ser normal de todos modos.

    Teorema del límite central: dadas muestras aleatorias e independientes de N observaciones cada una, la distribución de las medias de muestra se acerca a la normalidad a medida que aumenta el tamaño de N, independientemente de la forma de la distribución de la población.

    Para ilustrar formas de evaluar la normalidad, demostraré con algunos datos de golf proporcionados por ESPN. Además, los paquetes que aprovechamos incluyen lo siguiente:

    Las distribuciones de frecuencia son una forma útil de ver la forma de una distribución y, por lo general, son nuestro primer paso para evaluar la normalidad. No solo podemos evaluar la distribución de los datos que estamos analizando, sino que también podemos agregar una distribución normal de referencia a nuestra gráfica para comparar. Podemos ilustrar con algunos datos de golf proporcionados por ESPN. Aquí estamos evaluando la distribución de la precisión de la conducción en 200 jugadores y cuando agregamos la distribución normal de referencia con el argumento stat_function (), vemos que los datos de hecho parecen estar normalmente distribuidos.

    ¿Cuándo se cumple el supuesto de normalidad?

    Hacemos algunos supuestos cuando usamos regresión lineal para modelar la relación entre una respuesta y un predictor. Estos supuestos son esencialmente condiciones que deben cumplirse antes de dibujar inferencias con respecto a las estimaciones del modelo o antes de usar un modelo para hacer una predicción.

    • La verdadera relación es lineal
    • Los errores se distribuyen normalmente
    • Homoscedasticidad de errores (o, varianza igual alrededor de la línea).
    • Independencia de las observaciones

    Debido a que estamos ajustando un modelo lineal, suponemos que la relación realmente es lineal y que los errores o residuos son simplemente fluctuaciones aleatorias alrededor de la línea verdadera. Suponemos que la variabilidad en la respuesta no aumenta a medida que aumenta el valor del predictor. Esta es la suposición de igual varianza.

    También suponemos que las observaciones son independientes entre sí. La correlación entre observaciones secuenciales, o auto-correlación, puede ser un problema con los datos de la serie temporal, es decir, con datos con un pedido de tiempo natural.

    ¿Cómo verificamos los supuestos de regresión? Examinamos la variabilidad que queda después de ajustar la línea de regresión. Simplemente graficamos los residuos y buscamos patrones inusuales.

    • La verdadera relación es lineal
    • Los errores se distribuyen normalmente
    • Homoscedasticidad de errores (o, varianza igual alrededor de la línea).
    • Independencia de las observaciones
  • tener una varianza constante
  • estar aproximadamente normalmente distribuido (con una media de cero) y
  • ser independientes el uno del otro.
  • El gráfico más útil para analizar los residuos es un residual por gráfico predicho. Este es un gráfico de cada valor residual trazado con el valor predicho correspondiente.

    Artículos Relacionados:

    Más posts relacionados:

    Deja una respuesta

    Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *