Prueba de independencia estadística: guía completa

La prueba de independencia de chi-cuadrado se usa para determinar si existe una relación significativa entre dos variables nominales (categóricas). La frecuencia de cada categoría para una variable nominal se compara en las categorías de la segunda variable nominal. Los datos se pueden mostrar en una tabla de contingencia donde cada fila representa una categoría para una variable y cada columna representa una categoría para la otra variable. Por ejemplo, digamos que un investigador quiere examinar la relación entre el género (hombre frente a la mujer) y la empatía (alta frente a baja). La prueba de independencia de chi-cuadrado se puede utilizar para examinar esta relación. La hipótesis nula para esta prueba es que no existe una relación entre el género y la empatía. La hipótesis alternativa es que existe una relación entre el género y la empatía (por ejemplo, hay más hembras de alta empatía que los hombres de alta empatía).

Alinear el marco teórico, la recopilación de artículos, sintetizar brechas, articular una metodología y plan de datos claros, y escribir sobre las implicaciones teóricas y prácticas de su investigación son parte de nuestros servicios integrales de edición de tesis.

El grado de libertad se calcula utilizando la siguiente fórmula: df = (r-1) (c-1) donde df = grado de libertad r = número de filas c = número de columnas

Hipótesis nula: supone que no hay asociación entre las dos variables.

Hipótesis alternativa: supone que existe una asociación entre las dos variables.

¿Qué es independencia de variables?

Cuando se trata de colecciones de más de dos eventos, se deben distinguir dos nociones de independencia. Los eventos se llaman por pares independientes si dos eventos en la colección son independientes entre sí, mientras que la independencia mutua (o independencia colectiva) de los eventos significa, informalmente hablando, que cada evento es independiente de cualquier combinación de otros eventos en la colección. Existe una noción similar para las colecciones de variables aleatorias. La independencia mutua implica la independencia por pares, pero no al revés. En la literatura estándar de la teoría de la probabilidad, las estadísticas y los procesos estocásticos, la independencia sin una calificación adicional generalmente se refiere a la independencia mutua.

Dos eventos a { displaystyle a} y b { displaystyle b} son independientes (a menudo escritos como a⊥b { displaystyle a perp b} o a⊥⊥b { displaystyle a perp ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! Perp b}, donde este último símbolo a menudo también se usa para la independencia condicional) si y solo si su probabilidad conjunta es igual al producto de sus probabilidades: [2]: p. 29 [3]: p. 10

Indica que dos eventos independientes a { displaystyle a} y b { displaystyle b} tienen elementos comunes en su espacio de muestras para que no sean mutuamente excluyentes (mutuamente excluyentes iff a∩b = ∅ { displaystyle a cap b = conjunto vacio }). Por qué esto define la independencia se aclara reescribiendo con probabilidades condicionalesp (a∣b) = p (a∩b) p (b) { displaystyle p (a mid b) = { frac {p (a cap b) } {P (b)}}} como la probabilidad en que ocurre el evento a { displaystyle a} siempre que el evento b { displaystyle b} tiene o se supone que ha ocurrido:

Por lo tanto, la aparición de b { displayStyle b} no afecta la probabilidad de un { displayStyle a}, y viceversa. En otras palabras, un { DisplayStyle A} y B { DisplayStyle B} son independientes entre sí. Aunque las expresiones derivadas pueden parecer más intuitivas, no son la definición preferida, ya que las probabilidades condicionales pueden estar indefinidas si P (a) { displaystyle mathrm {p} (a)} o p (b) { displaystyle mathrm {P} (b)} son 0. Además, la definición preferida deja claro por simetría que cuando A { displayStyle a} es independiente de b { displayStyle b}, b { displayStyle b} también es independiente de un { DisplayStyle a}.

¿Qué es la independencia de variables?

Dos variables aleatorias son independientes si no transmiten información sobre cada
otro y, como consecuencia, recibir información sobre uno de los dos.
no cambiar nuestra evaluación de la distribución de probabilidad del otro.

Esta conferencia proporciona una definición formal de independencia y analiza cómo
Verifique si dos o más variables aleatorias son independientes.

Recuerde (ver la conferencia titulada Independent
eventos) que dos eventos
y
son independientes si y solo
si

Esta definición se extiende a variables aleatorias de la siguiente manera.

Definición
Dos variables aleatorias
y
se dice que son independientes si y solo
Si por
Cualquier par de eventos
y
,
dónde
y
.

En otras palabras, dos variables aleatorias son independientes si y solo si los eventos
Relacionado con esas variables aleatorias son eventos independientes.

La independencia entre dos variables aleatorias también se llama estadística
independencia.

Verificar la independencia de todas las parejas posibles de eventos relacionados con dos
Las variables aleatorias pueden ser muy difíciles. Esta es la razón por la cual lo anterior
La definición rara vez se usa para verificar si dos variables aleatorias son
independiente. El siguiente criterio se usa con mayor frecuencia en su lugar.

Mediante el uso de algunos hechos de la teoría de la medida (no
demostrado aquí), es posible demostrar que, al verificar el
condicionar
es suficiente para limitar la atención a los sets
y
tomando el
formhus,
Dos variables aleatorias son independientes si y solo
ifusing
Las definiciones de la función de distribución articular y marginal, esta condición
puede ser escrito
como

¿Qué es un analisis de independencia?

El análisis forense significa la práctica de recopilar, retener y analizar datos relacionados con la computadora con fines de investigación de una manera que mantenga la integridad de los datos.

El laboratorio de pruebas independientes significa una organización independiente, aceptada por el oficial de contratación, comprometido para realizar inspecciones o pruebas específicas del trabajo, ya sea en el sitio o en otro lugar, e informa los resultados de estas inspecciones o pruebas.

Auditores independientes significa un contador reconocido a nivel nacional, o firma de contadores, es decir, con respecto a la corporación, un contador público independiente o una firma de contadores públicos independientes en virtud de la Ley de Valores de 1933, según enmendado.

Evaluador independiente significa un evaluador registrado con el gobierno, contratado por DFCCIL, para proporcionar insumos a la autoridad competente para llegar al costo de reemplazo de la tierra

Formato de informe de análisis de la declaración operativa sustancialmente en forma y conteniendo la información solicitada por los préstamos hipotecarios, u otro formulario para la presentación de la información que puede ser aprobada de vez en cuando el CREFC® para las transacciones de valores hipotecarios comerciales en general .

Informe de análisis de la declaración operativa de CREFC® El informe en el formato de «Informe de análisis de la declaración de operación» sustancialmente en forma y conteniendo la información solicitada por los préstamos hipotecarios, u otro formulario para la presentación de la información que se puede aprobar desde el tiempo. al tiempo por el crefc® para las transacciones de valores hipotecarios comerciales en general.

¿Qué prueba estadística ayuda a ver la independencia entre dos variables?

Comprender y cuantificar la relación entre las variables categóricas es una de las tareas más importantes en la ciencia de datos. Esto es útil no solo en la creación de modelos predictivos, sino también en el trabajo de investigación de ciencia de datos. Una prueba estadística que hace esta es la prueba de independencia Chi Square, que se utiliza para determinar si existe una asociación entre dos o más variables categóricas. En esta guía, aprenderá cómo realizar la prueba de chi-cuadrado usando R.

En esta guía, utilizaremos datos ficticios de solicitantes de préstamos que contengan 200 observaciones y diez variables, como se describe a continuación:

Marital_status: si el solicitante está casado («sí»), no casado («no»)
, o divorciado («divorciado»)

IS_GRADUUT: si el solicitante es un graduado («sí») o no («no»)

Préstamo_amount – monto del préstamo (en USD) para el cual se presentó la solicitud

Credit_score: si el puntaje de crédito del solicitante fue bueno («bueno») o no («malo»).

aprobación_status: si la solicitud de préstamo fue aprobada («sí») o no («no»).

Inversión: inversiones en acciones y fondos mutuos (en USD), según lo declarado por el solicitante

La salida muestra que los datos tienen cinco variables numéricas (etiquetadas como ‘int’, ‘dbl’) y cinco variables de caracteres (etiquetadas como ‘chr’). Los convertiremos en variables de factor utilizando la línea de código a continuación.

Antes de sumergirse en la prueba de chi-cuadrado, es importante comprender la tabla de frecuencia o la matriz que se usa como una entrada para la función de chi-cuadrado en R. Las tablas de frecuencia son una forma efectiva de encontrar dependencia o falta entre los dos categóricos variables. También dan una visión de primer nivel de la relación entre las variables.

¿Qué es la prueba de independencia en estadística?

En la prueba de independencia, la afirmación es que las variables de fila y columna son independientes de
El uno al otro. Esta es la hipótesis nula.

La regla de multiplicación dijo que si dos eventos eran independientes, entonces la probabilidad de ambos
ocurrió el producto de las probabilidades de cada uno que ocurre. Esto es clave para trabajar en la prueba
por independencia. Si termina rechazando la hipótesis nula, entonces la suposición debe tener
ha estado equivocado y la variable de fila y columna depende. Recuerde, todas las pruebas de hipótesis son
hecho bajo la suposición de la hipótesis nula es cierta.

La estadística de prueba utilizada es la misma que la prueba de bondad de ajuste de chi-cuadrado. El principio detrás del
La prueba de independencia es el mismo que el principio detrás de la prueba de bondad de ajuste. La prueba para
La independencia siempre es una prueba de cola derecha.

De hecho, puede pensar en la prueba de independencia como una prueba de bondad de ajuste donde están los datos
dispuesto en forma de tabla. Esta tabla se llama tabla de contingencia.

La estadística de prueba tiene una distribución de chi-cuadrado cuando el
Se cumplen los siguientes supuestos

Los datos se obtienen de una muestra aleatoria
La frecuencia esperada de cada categoría debe ser al menos 5.

Las siguientes son propiedades de la prueba de independencia

Los datos se obtienen de una muestra aleatoria
La frecuencia esperada de cada categoría debe ser al menos 5.

Los datos son las frecuencias observadas.

Los datos se organizan en una tabla de contingencia.

Los grados de libertad son los grados de libertad para la fila variable tiempos de los grados de
Libertad para la variable de columna. No es uno menos que el tamaño de la muestra, es el producto del
Dos grados de libertad.

¿Cómo se obtiene la independencia entre variables?

En la vida real, generalmente necesitamos lidiar con más de una variable aleatoria. Por ejemplo, si estudias
Características físicas de las personas en un área determinada, puede elegir a una persona al azar y luego
Mire su peso, altura, etc. El peso de la persona elegida al azar es una variable aleatoria,
mientras que su altura es otra. No solo necesitamos estudiar cada variable aleatoria por separado,
Pero también debemos considerar si hay dependencia (es decir, correlación) entre ellos. Lo es
¿Es cierto que es más probable que una persona más alta sea más pesada o no? Los problemas de dependencia entre
Varias variables aleatorias se estudiarán en detalle más adelante, pero aquí nos gustaría hablar de
Un escenario especial en el que dos variables aleatorias son independientes.

El concepto de variables aleatorias independientes es muy similar a los eventos independientes. Recuerda, dos
Los eventos $ a $ y $ b $ son independientes si tenemos $ p (a, b) = p (a) p (b) $ (recuerde medios de coma y, es decir,
$ P (a, b) = p (a textrm {y} b) = p (a cap b) $). Del mismo modo, tenemos la siguiente definición para independiente
variables aleatorias discretas.

Intuitivamente, dos variables aleatorias $ x $ y $ y $ son independientes si conocen el valor de una de ellas
no cambia las probabilidades para la otra. En otras palabras, si $ x $ y $ y $ son independientes,
podemos escribir
$$ p (y = y | x = x) = p (y = y), textrm {para todos} x, y. $$
Similar a los eventos independientes, a veces es fácil argumentar que dos variables aleatorias son independientes
Simplemente porque no tienen interacciones físicas entre sí. Aquí hay un ejemplo simple:
Lanzo una moneda $ 2n $ veces. Deje que $ x $ sea el número de cabezas que observo en los primeros lanzamientos de $ n $ monedas
Y deje que $ y $ sea el número de cabezas que observo en los segundos lanzamientos de $ N $. Dado que $ x $ y $ y $ son
El resultado de lanzamientos de monedas independientes, las dos variables aleatorias $ x $ y $ y $ son independientes. Sobre el
otra mano, en otros escenarios, podría ser más complicado mostrar si dos variables aleatorias son
independiente.

Lanzo una moneda dos veces y defino $ x $ para ser el número de cabezas que observo. Entonces, arrojo la moneda dos más
tiempos y definir $ y $ para ser el número de cabezas que observo esta vez. Encontrar
$ P bigg ((x <2) textrm {y} (y> 1) bigg) $.

¿Qué es el supuesto de independencia?

La suposición de independencia es una base para muchas pruebas estadísticas.
La suposición de independencia se usa para las pruebas t, en las pruebas ANOVA y en varias otras pruebas estadísticas. Es esencial obtener resultados de su muestra que reflejen lo que encontraría en una población. Incluso la menor dependencia de sus datos puede convertirse en resultados muy sesgados (que pueden ser indetectables) si viola esta suposición.

Una dependencia es una conexión entre sus datos. Por ejemplo, cuánto gana depende de cuántas horas trabaje. La independencia significa que no hay una conexión. Por ejemplo, cuánto ganas no está conectado a lo que comiste para el desayuno. La suposición de independencia significa que sus datos no están conectados de ninguna manera (al menos, de una manera que no se ha explicado en su modelo).

Las observaciones entre grupos deben ser independientes, lo que básicamente significa que los grupos están formados por diferentes personas. No desea que una persona aparezca dos veces en dos grupos diferentes, ya que podría sesgar sus resultados.
Las observaciones dentro de cada grupo deben ser independientes. Si se conectan dos o más puntos de datos en un grupo de alguna manera, esto también podría sesgar sus datos. Por ejemplo, supongamos que estaba tomando una instantánea de cuántas donas comían las personas, y tomas instantáneas todas las mañanas a las 9,10, y a las 11 a.m.. Se podría concluir que los trabajadores de oficina comen el 25% de sus calorías diarias de las donas. Sin embargo, cometió el error de cronometrar las instantáneas demasiado juntas por la mañana cuando las personas tenían más probabilidades de traer bolsas de donas para compartir (haciéndolas dependientes). Si hubiera tomado sus medidas a las 7, al mediodía y a las 4 p.m., esto probablemente habría hecho que sus mediciones sean independientes.

En términos simples, si viola la suposición de independencia, corre el riesgo de que todos sus resultados sean incorrectos.

¿Qué es un supuesto de independencia?

Una suposición común en todas las pruebas inferenciales es que las observaciones en su muestra son independientes entre sí, lo que significa que las mediciones para cada sujeto de la muestra no están influenciadas o relacionadas con las mediciones de otros sujetos.

A continuación se presentan algunos ejemplos de violaciones de esta suposición y sugerencias sobre cómo abordarlos:

1. Desea probar si la capacitación de estudiantes en una nueva técnica de estudio mejora el rendimiento de su prueba, por lo que asigna al azar 10 clases en una escuela secundaria para recibir la capacitación o estar en un grupo de control. Luego mide los puntajes de los estudiantes en una prueba al final del semestre. En este escenario, las medidas de los estudiantes dentro de la misma clase están relacionadas entre sí porque tienen el mismo maestro y otras características a nivel de aula en común.

Posibles soluciones: puede agregar los puntajes de las pruebas en el aula, creando un puntaje promedio único para cada clase y comparando aquellos que recibieron la capacitación con el grupo de control. Otra opción sería ejecutar un análisis estadístico más avanzado, como un modelo mixto o modelo de nivel múltiple, que puede explicar la variación a nivel de clase.

2. Para un grupo de sus amigos, desea saber si la altura está relacionada con el tramo del brazo. Sin embargo, dos de tus amigos son gemelos idénticos. Debido a que las mediciones de un gemelo serán las mismas que las otras, estos dos registros de muestra no son independientes.

Posible solución: seleccione aleatoriamente un gemelo para mantener en su muestra y no mida al otro gemelo.

¿Qué implica el supuesto de independencia dentro de una muestra aleatoria?

Muchas pruebas estadísticas suponen que las observaciones son independientes. Esto significa que no se relacionan dos observaciones en un conjunto de datos entre sí o se afectan entre sí de ninguna manera.

Por ejemplo, supongamos que queremos probar si hay una diferencia en el peso medio entre dos especies de gatos. Si medimos el peso de 10 gatos de las especies A y 10 gatos de la especie B, violaríamos la suposición de independencia si cada uno de los grupos de gatos provenía de la misma camada.

Es posible que la madre gata de especies A simplemente tuviera todos los gatitos de bajo peso, mientras que la gata madre de la especie B tenía gatitos pesados. En este sentido, las observaciones en cada muestra no son independientes entre sí.

Hay tres tipos comunes de pruebas estadísticas que hacen esta suposición de independencia:

En las siguientes secciones, explicamos por qué se hace esta suposición para cada tipo de prueba junto con cómo determinar si se cumple o no esta suposición.

Se usa una prueba t de dos muestras para probar si los medios de dos poblaciones son iguales.

Supongo: este tipo de prueba supone que las observaciones dentro de cada muestra son independientes entre sí y que las observaciones entre muestras también son independientes entre sí.

Pruebe esta suposición: la forma más fácil de verificar esta suposición es verificar que cada observación solo aparece en cada muestra una vez y que las observaciones en cada muestra se recolectaron utilizando muestreo aleatorio.