Chi cuadrada: la fórmula para el cálculo de la varianza

La fórmula de Chi-cuadrado se utiliza para comparar dos o más conjuntos de datos estadísticos. La fórmula de chi-cuadrado se usa en datos que consisten en variables distribuidas en varias categorías y nos ayuda a saber si esa distribución es diferente de lo que uno esperaría por casualidad.

Ejemplo: investiga dos grupos de mujeres y las pones en categorías de estudiantes, empleados o trabajadores por cuenta propia.

Los números recopilados son diferentes, pero ahora quieres saber

  • ¿Es solo un hecho aleatorio? O
  • ¿Hay alguna correlación?

La prueba de chi cuadrado verifica la diferencia entre el valor observado y el valor esperado. El chi-cuadrado muestra o de alguna manera verifica la relación entre dos variables categóricas que se pueden calcular utilizando la frecuencia observada dada y la frecuencia esperada.

El chi-cuadrado se denota por χ2. La fórmula de chi-cuadrado es:

  • ¿Es solo un hecho aleatorio? O
  • ¿Hay alguna correlación?
  • Oi = valor observado (valor real)
  • Ei = valor esperado.
  • ¡La prueba de chi-cuadrado ofrece un valor p para ayudarlo a conocer la correlación si la hay!

    Se tiene en cuenta una hipótesis, que una condición o declaración dada podría ser verdadera, lo que podemos probar más adelante. Por ejemplo

    • ¿Es solo un hecho aleatorio? O
    • ¿Hay alguna correlación?
  • Oi = valor observado (valor real)
  • Ei = valor esperado.
  • Una estadística de prueba de chi-cuadrado muy pequeño indica que los datos recopilados coinciden extremadamente bien con los datos esperados.
  • Una estadística de prueba de chi-cuadrado muy grande indica que los datos no coinciden muy bien. Si el valor de chi-cuadrado es grande, la hipótesis nula es rechazada.
  • ¿Cómo se saca el chi cuadrado?

    Se puede usar una prueba de chi-cuadrado Wald/Score para variables continuas y categóricas. Mientras que Pearson Chi-Square se usa para variables categóricas. El valor p indica si un coeficiente es significativamente diferente de cero.

    Nota: las pruebas de chi-cuadrado Wald y Score son asintóticamente equivalentes.

    Para variables continuas

    Ejecute un análisis de puntaje univariado / chi-cuadrado Wald en cada una de sus variables independientes continuas con una variable dependiente. Significa poner una variable en la lista de variables independientes y establecer su análisis de regresión de variable dependiente y ejecutar. Score y Wald Chi-Square son asintóticamente equivalentes. En Proc Logistic, use opciones: selección = stepisute maxstep = 1 detalles

    Maxstep = 1 significa que el número máximo de veces cualquiera de las variables independientes se puede agregar o eliminar es 1 vez.

    Mire la tabla – «Análisis de efectos elegibles para la entrada»

    Regla :

    • Mantenga todas las variables con una probabilidad de chi-cuadrado de menos de 0.25.

    Nota: El uso del nivel conservador de SIG (0.05) a menudo conduce a variables importantes excluidas del análisis. Se recomienda utilizar un nivel superior basado en el trabajo de Mickey y Groenlandia (1989) sobre regresión logística. Es importante verificar la importancia de estas variables en la etapa de modelo multivariable antes de decidir sus variables finales.

    Deepanshu fundó listendata con un objetivo simple: haga que los análisis sean fáciles de entender y seguir. Tiene más de 10 años de experiencia en ciencia de datos. Durante su mandato, ha trabajado con clientes globales en varios dominios como banca, seguro, capital privado, telecomunicaciones y recursos humanos.

    ¿Cómo se aplica el chi cuadrado?

    Una prueba KHI-Deux es un método para probar hipótesis. Dos pruebas de las corrientes KHI-TWO implican verificar si las frecuencias observadas en una o más categorías corresponden a las frecuencias esperadas.

    Utiliza una prueba KHI-Eux para probar hipótesis para determinar si los datos cumplen con las expectativas. La idea básica que subyace en la prueba es comparar los valores observados en sus datos con los valores esperados si la hipótesis nula es verdadera.

    • Defina su hipótesis nula y su hipótesis alternativa antes de recopilar datos.
    • Decide el valor alfa. Esto implica decidir el riesgo de que esté listo para tomar sacando una mala conclusión. Por ejemplo, suponga que define α = 0.05 durante la prueba de independencia. En este caso, ha decidido arriesgarse al 5 % para concluir que las dos variables son independientes cuando en realidad no lo son.
    • Verifique los datos en busca de errores.
    • Verifique los supuestos para la prueba. (Vaya a las páginas de cada tipo de prueba para obtener más detalles sobre los supuestos).
    • Realice la prueba y extrae su conclusión.

    Las dos pruebas KHI-deux en la tabla anterior implican el cálculo de una estadística de prueba. La idea básica de esta prueba es comparar los valores observados en sus datos con los valores esperados si la hipótesis nula es verdadera. La prueba estadística implica encontrar la diferencia en el cuadrado entre los valores de datos observados y esperados, y dividir esta diferencia por los valores de datos esperados. Hace esto para cada punto de datos y agrega los valores.

    ¿Qué es el chi cuadrado en Excel?

    En las versiones de Excel 2010 y más tarde, hay una función incorporada llamada Chisq.Test para calcular rápidamente el valor estadístico de chi-cuadrado.

    Donde real_range es el rango de datos de las celdas que contienen las frecuencias observadas.

    Esperado_range es el rango de datos de las celdas que contienen las frecuencias esperadas.

    En esta guía, voy a probar si la preferencia de votación de una persona es independiente de su género.

    Es muy importante establecer claramente las hipótesis nulas y alternativas antes de resolver este problema.

    Para este ejemplo,

    Hₒ (hipótesis nula): las preferencias de género y votación son independientes.

    H₁ (hipótesis alternativa): las preferencias de género y votación no son independientes.

    Puede seguir estos sencillos pasos para usar fácilmente la función de Excel de prueba de Chi Square y probar la independencia de dos variables.

    • Antes de comenzar, organice su conjunto de datos así:

    Observe que las filas contienen frecuencias de una variable categórica (género) y las columnas contienen frecuencias de otra variable categórica (preferencia de votación). Además, calcule los totales de fila y columna como se muestra arriba.

    • Antes de comenzar, organice su conjunto de datos así:
  • Luego, en una ubicación diferente, calcule las frecuencias esperadas del mismo conjunto de datos. Es muy simple y definido por la fórmula = (fila total x columna total) / gran total.
  • Usar la función chisq.test es muy simple. Todo lo que tiene que hacer es ingresar a los rangos de las frecuencias observadas y esperadas dentro de la fórmula.
  • ¿Cómo funciona la fórmula del chi cuadrado?

    Devuelve la prueba de independencia. Chisq.test devuelve el valor de la distribución KHI-Deux (χ2) para las estadísticas y los grados de libertad apropiada. Use las pruebas χ2 para determinar si los resultados proporcionados son verificados por un experimento.

    La sintaxis de la función chisq.test contiene los siguientes argumentos:

    playa obligatoria. Representa el rango de datos que contiene las observaciones que se compararán con los valores proporcionados.

    Beach_Cathered Compulsory. Representa el rango de datos que contiene el informe total del producto y la columna con el total general.

    Si los argumentos Beach_rélle y Beach_attending no tienen el mismo número de observaciones, Chisq.test devuelve el valor de error #n/a.

    La prueba χ2 calcula primero una estadística χ2 por medio de la siguiente fórmula:

    AIJ = es la frecuencia real en la línea con temática I y la columna J-Me.

    EIJ = es la frecuencia proporcionada en la línea I-2 y la columna J-ME.

    Un valor bajo de χ2 constituye un indicador de independencia. Como muestra la fórmula, el valor de χ2 siempre es positivo o 0, y es solo 0 cuando aij = eij para cada i, j.

    Chisq.test refiere la probabilidad de que un valor de las estadísticas χ2 al menos tan alto como el valor calculado por medio de la fórmula anterior haya ocurrido por casualidad de acuerdo con la hipótesis de la independencia. Para el cálculo de esta probabilidad, Chisq.Test utiliza la distribución χ2 con un número apropiado de grados de libertad (DL). Si R> 1 y C> 1, entonces dl = (r – 1) (c – 1). Si r = 1 y c> 1, entonces dl = c – 1 o si r> 1 y c = 1, entonces dl = r – 1. r = c = 1 no está autorizado y el valor de error #n /a se devuelve .

    ¿Cómo se calculan los grados de libertad de la prueba chi cuadrado?

    Me enfrento al siguiente dilema. Soy consciente de cómo manejar la distribución unilateral de Chi-cuadrado, pero soy víctima de cómo manejar los grados de libertad. Permítanme aclarar con un ejemplo lo que quiero decir.

    Cuántas variables están presentes en su clasificación cruzada determinarán los grados de libertad de su prueba $ chi^2 $. En su caso, en realidad está clasificando dos variables (período y país) en una tabla 2 por 3.

    Entonces, el DOF es $ (2-1) Times (3-1) = 2 $ (ver, por ejemplo, la prueba de chi-cuadrado de Pearson para justificar su cálculo). No veo dónde obtuvo los $ 6 $ en su primera fórmula, y sus frecuencias esperadas no son correctas, a menos que haya entendido mal su conjunto de datos.

    Por lo tanto, el número total de términos para calcular $ chi^2 $ es 6 (ya que estamos agregando la columna final de términos que tiene 6 filas. Como por definición, tenemos d.f. = no de filas o frecuencias esperadas – 1.
    Así obtenemos 5.

    Los grados de libertad para la prueba de Chi Square en la tabla de contingencia están determinados por el número de «observaciones esperadas» estimadas de forma independiente. En su tabla 2×3, ya que los totales de fila y columna ya se conocen, por lo tanto, necesita estimar solo dos observaciones esperadas usando fórmula (total de fila)*(columna total)/n. Las observaciones esperadas restantes se pueden encontrar mediante sustracción de la fila o la columna total. Por ejemplo, si estimas las dos primeras observaciones de la primera fila, se puede encontrar la tercera observación de la primera fila, restar estas dos observaciones estimadas del total de la primera fila y una vez que se conoce la primera fila, puedes encontrar fácilmente las observaciones esperadas de la segunda fila esperadas Como los totales de la columna también se conocen.

    ¿Cómo se determinan los grados de libertad?

    Los grados de libertad (DF) en las estadísticas indican el número de valores independientes que pueden variar en un análisis sin romper ninguna restricción. Es una idea esencial que aparece en muchos contextos a lo largo de las estadísticas, incluidas las pruebas de hipótesis, las distribuciones de probabilidad y la regresión lineal. ¡Aprenda cómo este concepto fundamental afecta el poder y la precisión de su análisis!

    En esta publicación, doy vida a este concepto de manera intuitiva. Aprenderá la definición de grados de libertad y sabrá cómo encontrar grados de libertad para varios análisis, como regresión lineal, pruebas t y chi-cuadrado. Comenzaré definiendo grados de libertad y proporcionando la fórmula. Sin embargo, pasaré rápidamente a ejemplos prácticos en el contexto de varios análisis estadísticos porque hacen que este concepto sea más fácil de entender.

    ¿Qué son los grados de libertad en las estadísticas? Los grados de libertad son el número de valores independientes que un análisis estadístico puede estimar. También puede pensar en ello como el número de valores que son libres de variar a medida que estimula los parámetros. Lo sé, ¡está empezando a sonar un poco turbio!

    DF abarca la noción de que la cantidad de información independiente que tiene limita la cantidad de parámetros que puede estimar. Típicamente, los grados de libertad equivalen a su tamaño de muestra menos el número de parámetros que necesita calcular durante un análisis. Por lo general, es un número entero positivo.

    Los grados de libertad son una combinación de la cantidad de datos que tiene y cuántos parámetros necesita estimar. Indica cuánta información independiente entra en una estimación de parámetros. En este sentido, es fácil ver que desea que mucha información ingrese a estimaciones de parámetros para obtener estimaciones más precisas y pruebas de hipótesis más potentes. Entonces, quieres muchos DF!

    Artículos Relacionados:

    Related Posts

    Deja una respuesta

    Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *