Chi Cuadrada Estadística: Qué Es, Cómo Se Usa Y Qué Significa

Un procedimiento estadístico común para investigar las relaciones es la prueba de chi-cuadrado, también conocida como la prueba de chi-cuadrado de Pearson, y a veces usando «cuadrado» en lugar de «cuadrado». La pronunciación es kī (rima con el cielo). Las relaciones son entre variables categóricas o nominales, que representan atributos de personas, métodos de interacción, sistemas, etc. Los datos se resumen comúnmente en una tabla de contingencia: una tabulación cruzada que organiza datos en filas y columnas con cada celda que contiene recuentos o datos de frecuencia para el número de observaciones en la categoría. Una prueba de chi-cuadrado compara los valores observados, los recuentos en la tabla, en contra los valores esperados. Los valores esperados se desarrollan bajo el supuesto de que no hay diferencia entre las categorías en la tabla. La prueba de chi-cuadrado es una prueba no paramétrica ya que las categorías son atributos a escala nominal y no tienen una distribución de probabilidad asociada con ellos. Un ejemplo hipotético ilustrará.

Considere un proyecto de investigación que investiga si los hombres o las mujeres difieren en sus métodos de desplazamiento al usar un sistema informático de escritorio. Para estudiar esto, se observa una gran cantidad de usuarios. Para cada usuario se observa si son hombres o mujeres y si se desplazan con la rueda del mouse (MW), la barra de desplazamiento haciendo clic y arrastrando (CD) o el teclado (KB). Las categorías son el método de género (masculino, femenino) y de desplazamiento (MW, CD, KB). La Figura 6.22a proporciona los datos en una tabla de contingencia 2 × 3. Se observaron ciento usuarios, incluidos 56 hombres y 45 mujeres. Los recuentos de uso de los métodos de desplazamiento fueron 49 (MW), 24 (CD) y 28 (KB). La Figura 6.22b muestra los datos en un gráfico de barras, como podría aparecer en un trabajo de investigación.

Figura 6.22. Ejemplo de tabla de contingencia: (a) datos. (b) Gráfico.

Una rápida mirada a los datos y un gráfico sugiere que de hecho puede haber una diferencia entre hombres y mujeres en sus métodos de desplazamiento en los sistemas informáticos de escritorio. Solo 9 hembras utilizaron hacer clic y arrastrar, en comparación con 15 hombres. Sin embargo, se observaron más hombres en general, por lo que la diferencia no es tan dramática como parece. El problema, entonces, es si las diferencias observadas son reales o simplemente debido a efectos aleatorios. Para determinar esto, se utiliza la prueba de chi-cuadrado. La estadística de prueba está escrita χ2, utilizando la letra griega en minúscula Chi. Al igual que con el análisis de varianza, la suposición subyacente «no hay diferencia» con la prueba, buscando rechazar la suposición. Sin embargo, a diferencia del análisis de varianza, una prueba de chi-cuadrado es simple. Los cálculos se realizan fácilmente utilizando una aplicación de hoja de cálculo. Trabajemos en los detalles de este ejemplo.

¿Cómo se representa chi cuadrada?

Con la prueba de los cuadrados de chi de Pearson, tenemos la intención de verificar si la asociación entre dos variables, posiblemente resaltada por una tabla de contingencia, es estadísticamente significativa. Estas son una prueba de verificación de prueba que atribuye un valor de probabilidad a la hipótesis nada (es decir, la hipótesis de la ausencia de una asociación).

Estos valores se pueden usar para descomponer el cuadrado y evaluar la contribución de las células individuales a su valor.

Por ejemplo, observaremos cómo el modo «independiente» ha grabado muy poco sobre el valor del cuadrado, y que los hombres y las mujeres difieren sobre todo con respecto a la identificación con las dos partes principales.

Finalmente, es importante recordar que el valor del cuadrado del cuadrado se ve afectado por el número de la muestra y las frecuencias en las celdas. Repetimos la prueba en un tercio de los casos de la Tabla M (dividiendo la tabla para 3: m/3) y comparamos los resultados:

El valor del cuadrado que es igual a un tercio del cuadrado calculado para el M:

30.07/3 ## [1] 10.02333

El cálculo del cuadrado que requiere que las frecuencias esperadas sean superiores a 5, y que la tabla no tenga celdas vacías (con frecuencias iguales a 0). De lo contrario, el resultado puede ser poco confiable. En este caso, habría un mensaje de advertencia como el que siguió:

Para remediar el problema, es posible, también considerando la matriz de los residuos, agregar o eliminar las modalidades menos numerosas (que dan lugar a celdas vacías o frecuencias esperadas inferiores a 5).

¿Cuándo usar la distribución Chi cuadrada?

En la teoría y las estadísticas de la probabilidad, la distribución de chi-cuadrado también se conoce como chi-cuadrado o distribución x2, con k grados de libertad, es la distribución de una suma de cuadrados de k variables normales regulares estándar independientes. Chi-Distribution es un caso único de una distribución gamma y se encuentra entre la distribución de probabilidad más ampliamente aplicada en estadísticas inferenciales. Se usa comúnmente en la evaluación de hipótesis o el desarrollo de un rango aceptable de desviación.

El chi-cuadrado se aplica en las pruebas regulares de chi cuadrado para determinar la bondad del ajuste de una distribución presenciada a una hipotética. Más específicamente, mide la independencia de los dos métodos de agrupación de información cualitativa y aproximación del rango de confianza para la desviación estándar de la población de la distribución normal de una desviación estándar representativa. Otros estudios matemáticos como el análisis de varianza de Friedman por rangos aplican la distribución de chi-cuadrado. La distribución de chi cuadrado se emplea más comúnmente en las pruebas de hipótesis. A pesar de las distribuciones populares, por ejemplo, la distribución normal y las distribuciones exponenciales, la distribución de chi-cuadrado rara vez se aplica en el modelado directo de ocurrencias ordinarias. Resulta en la siguiente evaluación de hipótesis:

  • Prueba de independencia de chi cuadrado en tablas de contingencia
  • Prueba de chi cuadrado de bondad de ajuste de datos observados a distribuciones hipotéticas
  • Prueba de relación de probabilidad para modelos anidados
  • Prueba de log-rank en análisis de supervivencia
  • Prueba de Cochranmantelhaenszel para tablas de contingencia estratificadas

Además de las aplicaciones anteriores, la distribución de chi-cuadrado es parte de la definición de distribución t y distribución F útil en las pruebas t que son un análisis de la varianza y el análisis de regresión. La razón principal del uso extenso de chi-cuadrado en la evaluación postular es su asociación con la distribución normal. Muchas pruebas de hipótesis utilizan estadísticas de prueba, por ejemplo, en estadística T en una prueba t. Para estas pruebas t, a medida que el tamaño de la muestra, N aumenta la distribución de la muestra de la estadística de prueba se mueve a la distribución normal en un concepto del teorema del límite central. Como resultado de que las estadísticas de prueba se distribuyan normalmente asintóticamente, dado que el tamaño de la muestra es lo suficientemente grande, la distribución aplicada para las pruebas de hipótesis puede estimarse mediante una distribución normal. El proceso de prueba de hipótesis utilizando una distribución normal se entiende bien y es relativamente fácil. La distribución de chi-cuadrado más simple es el cuadrado de la distribución normal estándar. En caso de probar una hipótesis utilizando una distribución normal, se puede usar una distribución de chi-cuadrado. Además, la distribución de chi cuadrado generalmente se aplica es que pertenece a una clase de pruebas de relación de probabilidad (LRT). Los LRT poseen características favorables específicamente; Proporciona la alta potencia en el rechazo de hipótesis nula. Por otro lado, las estimaciones normales y chi-cuadradas son asintóticamente no válidas, y esta preferencia se da a una distribución en T en lugar de una estimación normal o una aproximación de chi cuadrado para un tamaño de muestra pequeño. Ramsey indicó que la prueba binomial exacta es normalmente poderosa que una aproximación normal.

¿Cuándo utilizamos la distribución Chi cuadrada para probar la veracidad de una frecuencias en una variable categórica?

Al discutir cómo hacer una prueba de bondad de ajuste de chi-cuadrado (sección 12.1.7) y la prueba de independencia de chi-cuadrado (Sección 12.2.2), le presenté dos funciones separadas en el paquete LSR. Ejecutamos nuestras pruebas de bondad de ajuste utilizando la función GoodnessOffTest () y nuestras pruebas de independencia (o asociación) utilizando la función AssociationTest (). Y ambas funciones produjeron una salida bastante detallada, que le mostró las estadísticas descriptivas relevantes, imprimiendo recordatorios explícitos de cuáles son las hipótesis, y así sucesivamente. Cuando está comenzando por primera vez, puede ser muy útil recibir este tipo de orientación. Sin embargo, una vez que comienza a ser un poco más competente en estadísticas y en R puede comenzar a ser muy agotador. Un verdadero estadístico apenas debe decir cuáles son las hipótesis nulas y alternativas para una prueba de chi-cuadrado, y si un usuario R avanzado quiere que se impriman las estadísticas descriptivas, ¡saben cómo producirlas!

Por esta razón, la función básica chisq.test () en R es mucho más breve en su salida, y debido a que las matemáticas que sustentan la prueba de bondad de ajuste y la prueba de independencia es básicamente la misma en cada caso, puede ejecutarse cualquiera de las pruebas dependiendo de qué tipo de entrada se le da. Primero, aquí está la prueba de bondad de ajuste. Supongamos que tiene la tabla de frecuencia observada que usamos anteriormente,

observado
##
## clubs diamantes hearts espadas
## 35 51 64 50

Si desea ejecutar la prueba de bondad de ajuste contra la hipótesis de que es igualmente probable que aparezcan los cuatro trajes, entonces todo lo que necesita hacer es ingresar esta tabla de frecuencias a la función chisq.test ():

Observe que la salida está muy comprimida en comparación con la función GoodnessOffTest (). No se molesta en darle ninguna estadística descriptiva, no le dice qué hipótesis nula se está probando, y así sucesivamente. Y mientras ya entiendas la prueba, eso no es un problema. Una vez que comience a familiarizarse con R y con las estadísticas, probablemente encontrará que prefiere esta salida simple en lugar de la salida bastante larga que produce GoodnessOffTest (). De todos modos, si desea cambiar la hipótesis nula, es exactamente lo mismo que antes, solo especifique las probabilidades utilizando el argumento P. Por ejemplo:

Nuevamente, estos son los mismos números que informa la función GoodnessOffTest () al final de la salida. Simplemente no ha incluido ninguno de los otros detalles.

Artículos Relacionados:

Más posts relacionados:

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *