¿Cómo probamos la independencia de dos variables categóricas? Se realizará utilizando la prueba de independencia de chi-cuadrado.
Como con todas las pruebas estadísticas anteriores, necesitamos definir hipótesis nulas y alternativas. Además, como hemos aprendido, la hipótesis nula es lo que se supone que es cierto hasta que tengamos evidencia para ir en contra. En esta lección, estamos interesados en investigar si dos variables categóricas están relacionadas o asociadas (es decir, dependientes). Por lo tanto, hasta que tengamos evidencia para sugerir que lo son, debemos suponer que no lo son. Esta es la motivación detrás de la hipótesis de la prueba de independencia de chi-cuadrado:
- (H_0 ): en la población, las dos variables categóricas son independientes.
- (H_a ): en la población, las dos variables categóricas dependen.
¡Nota! Hay varias formas de expresar estas hipótesis. En lugar de usar las palabras «independientes» y «dependientes», se podría decir «no hay relación entre las dos variables categóricas» versus «hay una relación entre las dos variables categóricas». O «No hay asociación entre las dos variables categóricas» versus «Hay una asociación entre las dos variables». La parte importante es que la hipótesis nula se refiere a las dos variables categóricas que no están relacionadas, mientras que la alternativa está tratando de demostrar que están relacionadas.
Una vez que hemos reunido nuestros datos, resumimos los datos en la tabla de contingencia bidireccional. Esta tabla representa los recuentos observados y se llama tabla de recuentos observados o simplemente la tabla observada. La tabla de contingencia en la página de introducción a esta lección representaba los cargos observados de la afiliación y opinión del partido para los encuestados.
La pregunta es: «¿Cómo se vería esta tabla si las dos variables no estuvieran relacionadas?» Es decir, bajo la hipótesis nula de que las dos variables son independientes, ¿cómo esperaríamos que se vean nuestros datos?
¿Qué es la prueba de independencia Ji cuadrada?
En esta publicación cubriremos la otra prueba de chi-cuadrado conocida, la prueba de la independencia. Esta prueba determina si dos variables categóricas están relacionadas de alguna manera, p. son independientes o dependientes. Puede pensar en esto libremente como la versión categórica de la correlación entre dos variables continuas.
¡En este artículo ejecutaremos el procedimiento de llevar a cabo la prueba de independencia y terminaremos con un problema de ejemplo para mostrar cómo implementarlo en la práctica!
- Ambas variables son categóricas
- Las observaciones son independientes
- El recuento para cada categoría es mayor que 5
- Cada recuento en una categoría es mutuamente excluyente
- Los datos se eligen al azar
Aquí diseñaremos los pasos básicos involucrados en casi todas las pruebas de hipótesis:
- Ambas variables son categóricas
- Las observaciones son independientes
- El recuento para cada categoría es mayor que 5
- Cada recuento en una categoría es mutuamente excluyente
- Los datos se eligen al azar
Estos son los pasos básicos de nivel de superficie para cualquier prueba de hipótesis. ¡No he entrado en detalles al explicar cada tema, ya que eso haría que este artículo sea muy exhaustivo! Sin embargo, para el lector desconocido, he vinculado sitios para cada paso para que pueda obtener algo de intuición sobre estas ideas con más profundidad.
También tengo otras publicaciones que cubren los conceptos en las pruebas de hipótesis en un formato más desglosado que puede ver aquí:
Nota: La distribución de chi-cuadrado proviene de la cuadratura del numerador y esto también asegura que solo tengamos valores positivos que «agregan» a la estadística.
¿Qué es la prueba de independencia?
Una de las cosas principales que distingue la prueba de independencia, que estudiaremos en esta página, a partir de la prueba de homogeneidad es la forma en que se recopilan los datos. Entonces, comencemos por abordar los esquemas de muestreo para cada una de las dos situaciones.
En aras de la concreción, suponga que estamos interesados en comparar las proporciones de los estudiantes de primer año de secundaria y los estudiantes de último año de secundaria que caen en varias categorías de conducción, tal vez, aquellos que no conducen en absoluto, aquellos que conducen inseguamente y aquellos que conducen con seguridad con seguridad . Seleccionamos al azar 100 estudiantes de primer año y 100 personas mayores y luego observamos cuál de las tres categorías de conducción cae cada estudiante:
En este caso, estamos interesados en realizar una prueba de homogeneidad para probar la hipótesis nula:
Ahora, consideremos un ejemplo diferente para ilustrar un esquema de muestreo alternativo. Supongamos que 395 personas son seleccionadas al azar y están «clasificadas» en una de las ocho células, dependiendo de la categoría de edad que caigan y si apoyan o no la legalización de la marihuana:
En este caso, estamos interesados en realizar una prueba de independencia para probar la hipótesis nula:
(H_0 colon ) variable A es independiente de la variable B, es decir, (p (a_i cap b_j) = p (a_i) Times P (b_j) ) para todos i y j.
¿Cómo funciona la prueba de chi cuadrado?
Como ingeniero de ciencia de datos, es imperativo que el conjunto de datos de muestra que elija de los datos sea confiable, limpio y bien probado para su usabilidad en la construcción de modelos de aprendizaje automático.
Bueno, tenemos múltiples técnicas estadísticas como estadísticas descriptivas donde medimos el valor central de los datos, cómo se extiende a través de la media/mediana. ¿Se distribuye normalmente o hay un sesgo en la extensión de datos? Consulte mi artículo anterior sobre el mismo para obtener más claridad.
Como lo primero que hacemos es visualizar los datos utilizando varias técnicas de visualización de datos para tener un sentido temprano de cualquier asimetría o discrepancia de datos, para identificar cualquier tipo de relación entre las variables del conjunto de datos.
Los datos tienen mucho que decir y el ingeniero de datos le damos una voz para expresarse y describirse a sí misma, utilizando técnicas estadísticas descriptivas.
Pero para hacer cualquier predicción o inferir algo más allá de los datos dados para encontrar cualquier probabilidad oculta, confiamos en técnicas estadísticas inferenciales.
Las estadísticas inferenciales se refieren a hacer inferencias basadas en las relaciones encontradas en la muestra, con las relaciones en la población. Las estadísticas inferenciales nos ayudan a decidir, por ejemplo, si las diferencias entre los grupos que vemos en nuestros datos son lo suficientemente fuertes como para brindar apoyo a nuestra hipótesis de que las diferencias grupales existen en general, en toda la población.
Hoy cubriremos uno de los mecanismos estadísticos inferenciales para comprender el concepto de pruebas de hipótesis utilizando una prueba de chi-cuadrado popular.
Artículos Relacionados:
- El test de independencia ji-cuadrada es una prueba estadística usada para comprobar si dos variables son independientes.
- Ji-cuadrada de prueba de contingencia: ejemplos y cómo calcular
- Prueba de Ji Cuadrada: La Guía Definitiva
- La distribución ji cuadrada, también conocida como la distribución chi cuadrada, es una herramienta estadística muy útil.
