La prueba de independencia de chi-cuadrado es una prueba de hipótesis estadística utilizada para determinar si es probable que dos variables categóricas o nominales estén relacionadas o no.
Puede usar la prueba cuando tiene recuentos de valores para dos variables categóricas.
Sí. Si solo tiene una tabla de valores que muestra recuentos de frecuencia, puede usar la prueba.
La prueba de chi-cuadrado verifica si es probable que dos variables estén relacionadas o no. Tenemos recuentos para dos variables categóricas o nominales. También tenemos una idea de que las dos variables no están relacionadas. La prueba nos da una forma de decidir si nuestra idea es plausible o no.
Las secciones a continuación discuten lo que necesitamos para la prueba, cómo hacer la prueba, comprender los resultados, los detalles estadísticos y la comprensión de los valores p.
Para la prueba de independencia de chi-cuadrado, necesitamos dos variables. Nuestra idea es que las variables no estén relacionadas. Aquí hay un par de ejemplos:
- Tenemos una lista de géneros de películas; Esta es nuestra primera variable. Nuestra segunda variable es si los clientes de esos géneros compraron bocadillos en el teatro. Nuestra idea (o, en términos estadísticos, nuestra hipótesis nula) es que el tipo de película y si las personas compraron bocadillos no están relacionados. El dueño del cine quiere estimar cuántos bocadillos comprar. Si el tipo de película y las compras de refrigerios no están relacionadas, la estimación será más simple que si los tipos de películas afectan las ventas de refrigerios.
- Una clínica veterinaria tiene una lista de razas de perros que ven como pacientes. La segunda variable es si los propietarios alimentan alimentos secos, alimentos enlatados o una mezcla. Nuestra idea es que la raza de perros y los tipos de alimentos no estén relacionados. Si esto es cierto, entonces la clínica puede ordenar alimentos basados solo en el número total de perros, sin tener en cuenta las razas.
¿Cuándo se puede realizar una prueba de independencia Ji cuadrada?
Esta lección explica cómo realizar un
Prueba de chi-cuadrado para la independencia.
La prueba se aplica cuando tienes dos
variables categóricas
de una sola población. Se usa para determinar si
Existe una asociación significativa entre las dos variables.
Por ejemplo, en una encuesta electoral, los votantes podrían clasificarse
por género (hombre o mujer) y preferencia de votación (demócrata,
Republicano o independiente). Podríamos usar una prueba de chi-cuadrado para
independencia para determinar si el género está relacionado con
preferencia de votación. los
Problema de muestra al final de la lección
considera este ejemplo.
El procedimiento de prueba descrito en esta lección es apropiado cuando el
Se cumplen las siguientes condiciones:
- Si los datos de muestra se muestran en un
mesa de contingencia,
El recuento de frecuencia esperado para cada celda de la tabla es
al menos 5.
Este enfoque consta de cuatro pasos: (1) indicar las hipótesis,
(2) formular un plan de análisis, (3) analizar los datos de la muestra y
(4) Interpretar los resultados.
Supongamos que la variable A tiene niveles R, y
La variable B tiene niveles de C.
los
La hipótesis nula establece que conocer el nivel de
Variable a no te ayuda a predecir el nivel de
Variable B. Es decir, las variables son independientes.
los
La hipótesis alternativa es que conocer el nivel de
La variable A puede ayudarlo a predecir el nivel de
Variable B.
Nota: el apoyo a la hipótesis alternativa sugiere que las variables
están relacionados; Pero la relación no es necesariamente causal, en
El sentido de que una variable «causa» a la otra.
¿Cuándo se utiliza una prueba de Ji cuadrada?
- Aprenda sobre los diferentes tipos de pruebas de chi-cuadrado y dónde y cuándo debe aplicarlas
- También implementaremos una prueba de chi-cuadrado en R en este artículo
«La ciencia se avanza proponiendo y probando una hipótesis, no declarando preguntas insoluble» – Nick Matzke
Comencemos con un estudio de caso. Quiero que pienses en tu restaurante favorito en este momento. Digamos que puede predecir una cierta cantidad de personas que llegan para el almuerzo cinco días a la semana. Al final de la semana, observa que la pisada esperada era diferente de la pisada real.
¿Suena como un problema de estadística principal? ¡Esa es la idea!
Entonces, ¿cómo verificará la significación estadística entre los valores de pisado observados y esperados? Recuerde que esta es una variable categórica – ‘Días de la semana’ – con 5 categorías [lunes, martes, miércoles, jueves, viernes].
Una de las mejores maneras de lidiar con esto es mediante el uso de la prueba de chi-cuadrado.
Siempre podemos optar por las pruebas Z, las pruebas t o ANOVA cuando estamos lidiando con variables continuas. Pero la situación se vuelve complicada cuando se trabaja con características categóricas (¡como lo atestiguarán la mayoría de los científicos de datos!). He descubierto que la prueba de chi-cuadrado es bastante útil en mis propios proyectos.
Así que vamos a sumergirnos en el artículo para comprender todo sobre la prueba de chi-cuadrado, qué es, cómo funciona y cómo podemos implementarlo en R.
Si es nueva estadística y ciencia de datos, recomendaría los recursos a continuación para obtener una descripción completa de los dos temas generales:
- Aprenda sobre los diferentes tipos de pruebas de chi-cuadrado y dónde y cuándo debe aplicarlas
- También implementaremos una prueba de chi-cuadrado en R en este artículo
¿Cuándo se aplica la prueba chi cuadrado para independencia la hipótesis nula es?
Pruebas de chi-cuadrado de la prueba de independencia Si dos variables cualitativas son independientes, es decir, si existe una relación entre dos variables categóricas. En otras palabras, esta prueba se usa para determinar si los valores de una de las 2 variables cualitativas dependen de los valores de la otra variable cualitativa.
Si la prueba no muestra asociación entre las dos variables (es decir, las variables son independientes), significa que conocer el valor de una variable no proporciona información sobre el valor de la otra variable. Por el contrario, si la prueba muestra una relación entre las variables (es decir, las variables dependen), significa que conocer el valor de una variable proporciona información sobre el valor de la otra variable.
Este artículo se centra en cómo realizar una prueba de independencia de chi-cuadrado a mano y cómo interpretar los resultados con un ejemplo concreto. Para aprender a hacer esta prueba en R, lea el artículo «Prueba de independencia de chi-cuadrado en R».
La prueba de independencia de chi-cuadrado es una prueba de hipótesis, por lo que tiene un nulo ( (H_0 )) y una hipótesis alternativa ( (H_1 )):
- (H_0 ): las variables son independientes, no hay relación entre las dos variables categóricas. Conocer el valor de una variable no ayuda a predecir el valor de la otra variable
- (H_1 ): las variables dependen, existe una relación entre las dos variables categóricas. Conocer el valor de una variable ayuda a predecir el valor de la otra variable
¿Cómo interpretar la prueba de ji cuadrado?
Ahora estamos listos para el paso final, interpretando los resultados de nuestro cálculo de chi-cuadrado. Para esto, necesitaremos consultar una tabla de distribución de chi-cuadrado. Esta es una tabla de probabilidad de valores seleccionados de X2 (Tabla 3).
Los estadísticos calculan ciertas posibilidades de ocurrencia (valores p) para un valor x2 dependiendo de grados de libertad. Grados de libertad es simplemente el número de clases que pueden variar independientemente menos una (N-1). En este caso, los grados de libertad = 1 porque tenemos 2 clases de fenotipo: resistentes y susceptibles.
El valor calculado de X2 de nuestros resultados se puede comparar con los valores en la tabla alineados con los grados específicos de libertad que tenemos. Esto nos dirá la probabilidad de que las desviaciones (entre lo que esperábamos ver y lo que realmente vimos) se deben solo al azar y nuestra hipótesis o modelo puede ser apoyada.
En nuestro ejemplo, el valor X2 de 1.2335 y los grados de libertad de 1 están asociados con un valor P de menos de 0.50, pero mayor a 0.25 (siga la línea de puntos azules y flechas en la Fig. 5). Esto significa que un valor de chi-cuadrado tan grande o mayor (o diferencias entre los números esperados y observados tan grandes o mayores) ocurriría simplemente por casualidad entre el 25% y el 50% del tiempo. Por convención, los biólogos a menudo usan el valor del 5.0% (p <0.05) para determinar si las desviaciones observadas son significativas. Cualquier desviación mayor que este nivel nos haría rechazar nuestra hipótesis y asumir que algo más que el azar estaba en juego. (Consulte el círculo rojo en la Fig. Si su valor calculado de chi-cuadrado es menor que el valor crítico de chi-cuadrado, entonces "no puede rechazar" su hipótesis nula.
¿Cómo interpretar el chi cuadrado en SPSS?
Haga clic en el botón «Chi-quadro» en el menú desplegable y mueva la variable de línea (por ejemplo, sexo) al cuadro de fila y la variable de columna (por ejemplo, resultado) en el cuadro de columna. Haga clic en Aceptar». Verá una tabla de salida con los resultados. Interpretando SPSS 5
Examine el cuadro de salida, que tendrá a Pearson Chi-cuadrado en la parte superior de la fila a la izquierda. 6
Lea la segunda columna, alinee, que tiene el valor del chi-quadrato. Esta es la prueba de estadísticas y será un número, por ejemplo, 32.45. 7
Mire la cuarta fila en la parte superior de la columna que el Sr. (Significado) para una prueba en 2 lados. La importancia es la información más importante de los resultados, indica la probabilidad de que los resultados se deban al azar. En términos de importancia de 0.05 (nivel de significancia más comúnmente aceptado) significa que solo hay cinco de cada 100 posibilidades que los resultados se deben al azar. Una prueba bilateral indica que las medias de muestra por encima y por debajo del promedio de la población se han comparado con el promedio de la muestra. Prueba exacta 8
Fisher baja a la primera columna para «prueba exacta de Fisher». Siga la larga línea hasta el MR exacto. (En 2 lados). La prueba exacta de Fisher es otro método para comparar pares de valores. Este nivel de importancia debe ser similar al nivel de chi-quadro. Cuanto menor sea el número, más significativo es el resultado. 9
¿Cómo se calcula prueba de distribución ji cuadrado?
Anteriormente he explicado el procedimiento para calcular el chi-quadrato en este artículo: si no conoce el procedimiento de cálculo, lo invito a leerlo porque ese valor se refiere a la prueba que necesita evaluar y, por lo tanto, es el punto de partida que debes estar en mente.
Esta estadística es una variable con una distribución de chi-quadro con (R-1) * (C-1) grados de libertad, donde R y C son respectivamente el número de líneas y columnas de la tabla de contingencia, es decir, el número de modos de la primera variable y el número de modo de la segunda variable.
Recuerde que la prueba estadística nunca adquiere valores negativos, y comprender si aceptar o rechazar la hipótesis, nada que comenzará tendrá que comparar este valor con el valor teórico que encuentra en las tablas de la distribución de chi-quadrato.
- Elija un valor establecido Alfa que se encuentre en las columnas de la tabla. (Ejemplo: ALFA = 0.05)
- Calcule los grados de libertad de libertad (R-1) * (C-1) que se encuentran en las líneas (GDL = 1 * 1 = 1)
- Cruzar los dos valores y dentro de la tabla encontrará que se comparará el valor teórico con la prueba de estadística. (Chi-quadro teórico = 3.84)
- Si la prueba es mayor que el valor teórico, entonces los residuos H0 indican que las dos variables pueden considerarse empleados en el nivel = 0.05
- Si la prueba es menos del valor teórico, no desperdicie H0 y afirme que no es posible concluir que las dos variables son empleados.
¿Cuándo utilizamos una prueba de ji cuadrada?
La prueba de chi-cuadrado está diseñada para un conjunto específico de tipos de datos, y esa es una variable categórica. Esto significa que la prueba no podría aplicarse a los tipos de datos continuos. Si se debe aplicar en un tipo de datos continuo, los datos deben dividirse en cubos, y se debe proporcionar frecuencia o contar para cada cubo. Entendamos la diferencia entre los tipos de datos categóricos y continuos.
- Tipo de datos continuos: los tipos de datos continuos son los que tienen un valor numérico infinito entre dos valores. Por ejemplo, salario, tiempo.
Si los datos continuos deben segregarse en cubos/categorías, cree categorías con la máxima precisión. Si la categoría no se selecciona con cuidado, los resultados de la prueba pueden no tener ningún sentido. La prueba de chi-cuadrado le indicará si los datos siguen la distribución de variables independientes o no. Pero, no le dirá si las categorías creadas o elegidas son correctas o no.
Consideremos un escenario, supongamos que una aplicación proporciona calificaciones a todos los restaurantes en 3 categorías, bueno, bien y no recomendado. Ahora el desafío es segregar restaurantes en categorías correctas. Se pueden crear bajo el nombre de la capacidad de asientos del restaurante. Así es como se vería la mesa
Small es para un restaurante con capacidad para sentarse de 20 personas, Medium es para una capacidad de 100 personas y grande es para una capacidad de más de 100 personas.
Aquí cambiamos los datos continuos a datos categóricos. Esté muy atento al hacerlo, lo más que las conclusiones de la prueba podrían no salir bien.
Artículos Relacionados:
