Pruebas estadísticas de independencia: una guía para principiantes

La estadística de prueba para una prueba de independencia es similar a la de una prueba de bondad de ajuste:

(O = ) valores observados
(E = ) valores esperados
(i = ) el número de filas en la tabla
(j = ) el número de columnas en la tabla

Hay términos (i cdot j ) de la forma ( frac {(o-e)^{2}} {e} ).

Una prueba de independencia determina si dos factores son independientes o no. Primero encontró el término independencia en temas de probabilidad. Como revisión, considere el siguiente ejemplo.

El valor esperado para cada celda debe ser al menos cinco para que use esta prueba.

Supongamos (a = ) una violación de exceso de velocidad en el último año y (b = ) un usuario de teléfono celular mientras conduce. Si (a ) y (b ) son independientes, entonces (p (a text {y} b) = p (a) p (b) ). (A text {y} b ) es el evento en que un conductor recibió una violación de exceso de velocidad el año pasado y también usó un teléfono celular mientras conducía. Supongamos, en un estudio de conductores que recibieron violaciones de exceso de velocidad en el último año, y que usaron el teléfono celular mientras conducían, se encuestaron a 755 personas. De los 755, 70 tuvieron una violación de exceso de velocidad y 685 no; 305 usaron teléfonos celulares mientras conducían y 450 no lo hicieron.

Deje (y = ) número esperado de conductores que usaron un teléfono celular mientras conducían y recibieron violaciones de exceso de velocidad.

Si (a ) y (b ) son independientes, entonces (p (a text {y} b) = p (a) p (b) ). Por sustitución,

Se espera que alrededor de 28 personas de la muestra usen teléfonos celulares mientras conducen y reciben violaciones de exceso de velocidad.

¿Qué es una prueba estadística de independencia?

Para extender la definición de independencia a más de dos eventos, podríamos pensar que podríamos requerir independencia por pares, la independencia de cada par de eventos. Sin embargo, esto no es suficiente para el fuerte tipo de independencia que tenemos en mente. Por ejemplo, supongamos que tenemos tres eventos (a ), (b ) y (c ). La independencia mutua de estos eventos no solo debería significar que cada par es independiente, sino también que un evento que se puede construir a partir de (a ) y (b ) (por ejemplo (a copa b^c ))) debe ser independiente de (c ). La independencia por pares no logra esto; Un ejercicio a continuación ofrece tres eventos que son independientes por pares, pero la intersección de dos de los eventos está relacionada con el tercer evento en el sentido más fuerte posible.

Otra posible generalización sería simplemente requerir la probabilidad de que la intersección de los eventos sea el producto de las probabilidades de los eventos. Sin embargo, esta condición ni siquiera garantiza la independencia por pares. Un ejercicio a continuación da un ejemplo. Sin embargo, la definición de independencia para dos eventos se generaliza de manera natural a una colección arbitraria de eventos.

Suponga que (a_i ) es un evento para cada (i ) en un conjunto de índice (i ). Entonces la colección ( mathscr {a} = {a_i: i in i } ) es independiente si por cada finito (j subseteq i ), [ p left ( bigcap_ {j en j} a_j right) = prod_ {j in j} p (a_j) ]

La independencia de una colección de eventos es mucho más fuerte que la mera independencia por pares de los eventos en la colección. La propiedad de herencia básica en el siguiente resultado sigue inmediatamente desde la definición.

¿Qué es la prueba chi-cuadrado de independencia?

La PrueBa de Independencia es Siempre de Cola Derecha Debido al Cálculo de la Estadística de PrueBa. Si los valores esperados y observados sin búsqueda, entonces el estadística de prueBa es muy grande y se Encuentra en la cola derecha de la curve de chi-cuadrado, en el regal que en un bondad de Ajuste.

El Número de Grados de Libertad para la Prueba de Independent EG:

El Siguiente Fórmula Calculula El Número Esperado (E):

E = (total de filas) (total de columna) número total de encuestado = (total de filas) (total de columna) número total de encuestado

¿El Número de Horas de Volunciotrido es Independiente del tipo de voluntario?

La tabla observa la oración en la final del problema: «¿El Número de Horas de Volunciardo es independiente del tipo de voluntario?», Las indicaciones de un Prueba de Independencia. Los factores de Los dos son El Número de Horas de Volunciotriodo y El tipo de voluntario. ESTA PRUEBA ES SIEMPRA DE COLA DERECHA.

H0: El Número de Horas de Volunciotrido es independiente del tipo de voluntario.

HA: El Número de Horas de Volunciotrido depende del tipo de voluntario.

a. El Total de la Columna para a Tall Nivel de Ansiedad es de 57. El Total de Filas para la Alta Needa de Tenner Éxito en la Escuela ES de 155. El Tamaño de la Maja o El Total de EncuestADOS es de 400.

E = (total de filas) (total de columnas) Total de encuestenes = 155⋅57400 = 22.09e = (total de filas) (total de columna) total de encuestado = 155⋅57400 = 22.09

¿Qué es la estadística de prueba?

Una estadística de prueba es una variable aleatoria calculada a partir de datos de muestras y se usa en una prueba de hipótesis. Puede usar estadísticas de prueba para decidir si la hipótesis nula debe ser rechazada. Las estadísticas de prueba comparan sus datos con los esperados según la hipótesis nula. La estadística de prueba se usa para calcular el valor de p.

Una estadística de prueba mide el grado de correspondencia entre una muestra de datos y la hipótesis cero. Su valor observado cambia aleatoriamente de una muestra aleatoria a otra. Una estadística de prueba contiene información sobre los datos relevantes para determinar si la hipótesis nula debe ser rechazada. La ley de distribución de muestras de la prueba de prueba de una hipótesis nula se denomina ley de distribución cero. Cuando los datos parecen contradecir fuertemente los supuestos de la hipótesis nula, el alcance de las estadísticas de prueba se vuelve demasiado grande o demasiado bajo, dependiendo de la hipótesis alternativa. El valor de P de la prueba se vuelve lo suficientemente pequeño como para rechazar la hipótesis nula.

Por ejemplo, una estadística de prueba para una prueba z es la estadística z, que responde a la ley de distribución normal estándar bajo la hipótesis cero. Suponiendo que realice una prueba Z bilateral con α = 0.05, y obtenga una estadística Z (también llamada valor Z) de acuerdo con sus datos 2.5. Este valor de z corresponde al valor de P de 0.0124. Como este valor p es inferior al α, puede declarar que existe un significado estadístico y rechazar la hipótesis nula.

¿Qué es la prueba chi cuadrado de independencia?

Una prueba de independencia de chi-cuadrado (χ2) es un tipo de prueba de chi-cuadrado de Pearson. Las pruebas de chi-cuadrado de Pearson son pruebas no paramétricas para variables categóricas. Se utilizan para determinar si sus datos son significativamente diferentes de lo que esperaba.

Puede usar una prueba de independencia de chi-cuadrado, también conocida como prueba de asociación de chi-cuadrado, para determinar si se relacionan dos variables categóricas. Si se relacionan dos variables, la probabilidad de una variable que tenga un cierto valor depende del valor de la otra variable.

La prueba de chi-cuadrado de cálculos de independencia se basa en las frecuencias observadas, que son el número de observaciones en cada grupo combinado.

La prueba compara las frecuencias observadas con las frecuencias que esperaría si las dos variables no están relacionadas. Cuando las variables no están relacionadas, las frecuencias observadas y esperadas serán similares.

Cuando desea realizar una prueba de independencia de chi-cuadrado, la mejor manera de organizar sus datos es un tipo de tabla de distribución de frecuencia llamada tabla de contingencia.

Una tabla de contingencia, también conocida como tabulación cruzada o tabla cruzada, muestra el número de observaciones en cada combinación de grupos. También generalmente incluye totales de fila y columna.

La prueba de independencia de chi-cuadrado es una prueba estadística inferencial, lo que significa que le permite sacar conclusiones sobre una población basada en una muestra. Específicamente, le permite concluir si dos variables están relacionadas en la población.

¿Qué es la prueba de independencia del chi cuadrado?

Esta prueba es interesante cuando estamos interesados en las relaciones entre dos variables nominales o cualitativas (para más de dos variables, es necesario recurrir a un método más complejo, análisis loglinear). Por ejemplo, ¿la afiliación política depende del sexo? ¿Es más probable que las niñas jóvenes anoréxicas sean niños únicos que otras? ¿Es más probable que los inmigrantes del norte de África de segunda generación consuman alcohol (sí/no) que los inmigrantes de primera generación regularmente?

Por lo tanto, esta prueba indica si las frecuencias de observación de una categoría dependen de las modalidades (es decir, los «valores que pueden tomar») la otra categoría. Por ejemplo, en una memoria reciente, Rebecca Lévêque estaba interesado en los perfiles de niñas jóvenes que asistían a sectores escolares profesionales con predominantemente «masculino» (por ejemplo, «mecánico») vs. predominantemente femenino (por ejemplo, «esteticista»). Ella midió gracias a un cuestionario desarrollado por Sandra Bem su perfil en una serie de rasgos de personalidad, lo que la llevó a clasificarlos (siguiendo el modelo BEM) en cuatro grupos: perfil «femenino», perfil masculino «, perfil» andrógino «(( Rasgos femeninos y masculinos), perfil «indiferenciado» (ninguno de los dos).

Naturalmente se preguntó si las frecuencias de aparición de los diversos perfiles dependían del sector. Por ejemplo, ¿hay más chicas «masculinas» y menos chicas «femeninas» en sectores masculinos? Para averiguarlo, primero construyó una «tabla de contingencia» que consiste en contar el número de observaciones que aparecen en cada sector/perfil combinado (se obtiene directamente a través del comando descriptivo de análisis/estadísticas/tablas de control/arrastre las dos variables en línea, el otro en la columna y haciendo clic en Aceptar). Cada una de las cajas en esta tabla se llama «celda». En cada celda, encontramos las frecuencias «observadas»:

Cada base de datos (aquí la pertenencia de una niña) corresponde a una «observación» (por lo tanto, hay 67 en total).

¿Qué significa que dos variables sean independientes?

Si X e Y son dos variables aleatorias y la distribución de X no está influenciada por los valores tomados por Y, y viceversa, se dice que las dos variables aleatorias son independientes.

Matemáticamente, se dice que dos variables aleatorias discretas son independientes si:

Intuitivamente, para variables aleatorias independientes que conocen el valor de una de ellas, no cambia las probabilidades del otro. El PMF conjunto de X e Y es simplemente el producto del PMF marginado individual de X e Y.

Resolvamos un problema de ejemplo para comprender mejor cómo se usa la fórmula. Supongamos que tenemos dos variables aleatorias x e y cuyas probabilidades conjuntas se conocen. Se puede representar como una tabla y se muestra a continuación. Los valores de PMF marginados para X se pueden obtener sumando sobre todos los valores Y [5]. También se puede hacer una marginación similar para Y. En una tabla de PMF conjunta, simplemente corresponde a tomar suma sobre columnas. La tabla de PMF conjunta junto con los valores de PMF marginales se muestra a continuación:

Para que dos variables aleatorias sean independientes, las entradas celulares para la articulación PMF deben ser iguales al producto de los valores de PMF marginados representados en las filas y columnas de suma, es decir, p (x = x, y = y) = P (x = x) p (y = y), para todos x, y.

Si esta relación no es cierta para cualquiera de los pares X, Y, entonces las dos variables aleatorias no son independientes. Entonces, para nuestro ejemplo, los pares no son independientes.

El siguiente es el código para crear PMF marginales a partir de la tabla de distribución. (Tenga en cuenta que no se ha optimizado de ninguna manera).

¿Qué plantea la hipótesis nula las pruebas de independencia?

¿Las mujeres jóvenes deciden con más frecuencia que los hombres jóvenes a favor o en contra de ciertos sujetos? ¿Cómo se podría responder tal pregunta con la ayuda de las herramientas del gran método de métodos de estadísticas? En este número de nuestro curso básico de estadísticas y estocásticos aquí en el ciencia gourmet, conocemos la llamada prueba de independencia de Chi Square hoy.

En la prueba de independencia de Chi-Quadrat o la prueba de chi-cuadrado para la independencia estocástica (en adelante, solo se conoce como una prueba de Chi Square), dos características nominales a escala (como el género y la decisión a favor o en contra de un sujeto) así se encuentran en sujeto estocástico. Independencia probada. Para este propósito, las frecuencias reales observadas se comparan con las frecuencias esperadas en caso de independencia completa de las características. Estos se pueden calcular multiplicando las sumas de borde en la tabla de contingencia en pares y divididos por el número de valores totales.

Además un ejemplo. Preguntamos 100 personas (ficticias) después de graduarnos de la escuela y después de la graduación de sus padres para determinar si se puede encontrar una conexión:

Para calcular los valores esperados en caso de independencia estocástica, las sumas de borde (líneas y sumas de columna) se forman primero:

En este momento multiplicado y dividiendo las sumas de borde por la cantidad total, el valor esperado en la independencia, es decir, 55 * 54/100.7 en lugar de 43. Las frecuencias absolutas que se esperan a continuación dan como resultado variables de independencia completamente estocástica:

Por lo tanto, los 100 encuestados, esperados, se distribuirían a las categorías, no habría conexión entre su propio certificado de salida de la escuela y la graduación de los padres. Ya es un indicador de que los valores reales difieren significativamente de estos valores de que ciertamente podría haber una conexión. Con la ayuda de la prueba de Chi Square, ahora queremos averiguar si este es realmente el caso. Para este propósito, las diferencias entre el valor esperado y real se cuadran (para evitar que las desviaciones negativas y positivas se neutralicen entre sí) y dividiendo los valores esperados. La suma de los resultados resulta en el valor decisivo de chi cuadrado.

¿Qué es la hipótesis de independencia?

La hipótesis de la independencia es una solución propuesta al problema sinóptico. Sostiene que Matthew, Mark y Luke son composiciones originales formadas independientemente entre sí, sin relación documental.

Los estudiosos han notado durante mucho tiempo que los tres evangelios sinópticos tienen mucho en común, no solo en contenido sino también en orden y una redacción griega precisa. La mayoría de los estudiosos han asumido que esto debe deberse a algún tipo de interrelación literaria entre los Evangelios, con fragmentos de texto copiados de una fuente a otra, pero han luchado por encontrar una teoría satisfactoria de quién copió de quién. La teoría de la independencia rechaza este consenso de dependencia documental; Más bien, cada evangelista ha extraído de forma independiente de los relatos de testigos oculares y quizás liturgia y otra tradición oral.

Las similitudes entre los evangelios sinópticos, toda la base para el problema sinóptico, se consideran, en primer lugar, enormemente exagerados y, en segundo lugar, explicables como artefactos de confiar en los mismos testigos o de diferentes testigos de los mismos eventos.

Los testigos del contenido del Evangelio, especialmente los apóstoles como Peter, habrían predicado su testimonio innumerables veces antes de contribuir a los Evangelios, y tales ensayos numerosos tienden a hacer que una historia se establezca en una redacción relativamente consistente. Cualquiera de este material que ingresara a la liturgia pública (por ejemplo, la oración del Señor) se estabilizaría aún más. Por otro lado, diferentes testigos casi siempre preservan diferentes detalles y presentan numerosas inconsistencias menores. Así, también, un solo testigo consultado en diferentes ocasiones. Además, los refranes y las curaciones anónimas pueden haber recurrido muchas veces de manera similar, por lo que las cuentas aparentemente similares en realidad preservan eventos distintos. Lo que esperaríamos ver en los Evangelios de acuerdo con este método de composición, dice la teoría, es exactamente lo que encontramos: muchas cuentas similares, a menudo con una redacción prácticamente idéntica, pero muchas adiciones y omisiones, una selección algo diferente de contenido en cada uno. , y aparentes inconsistencias de orden y detalles.

¿Qué representa H0 y H1 en una prueba de independencia?

Configurar y probar hipótesis es una parte esencial de la estadística
inferencia. Para formular dicha prueba, generalmente alguna teoría ha sido
presentado, ya sea porque se cree que es cierto o porque es
utilizado como base para el argumento, pero no se ha demostrado, por ejemplo, reclamando
que un nuevo medicamento es mejor que el medicamento actual para el tratamiento del mismo
síntomas.

En cada problema considerado, la cuestión de interés se simplifica en dos
afirmaciones / hipótesis competitivas entre las cuales tenemos una opción; el nulo
La hipótesis, denotó H0, contra la hipótesis alternativa, denotó H1.
Sin embargo, estas dos afirmaciones / hipótesis competidoras no se tratan en igualdad de condiciones
Base, se da una consideración especial a la hipótesis nula. Tenemos dos
Situaciones comunes:

1. El experimento se ha llevado a cabo en un intento de refutar o rechazar un
Hipótesis particular, la hipótesis nula, por lo tanto, le damos esa prioridad
Por lo tanto, no se puede rechazar a menos que la evidencia en su contra sea suficiente
fuerte. Por ejemplo, H0: no hay diferencia en el gusto entre la coca cola y
Coca -Coca -Coca -Cola contra H1: hay una diferencia.

2. Si una de las dos hipótesis es ‘más simple’, le damos prioridad para que un
La teoría más ‘complicada’ no se adopta a menos que haya evidencia suficiente
contra el más simple. Por ejemplo, es «más simple» afirmar que hay
No hay diferencia en el sabor entre Coca -Cola y Coca -Coca -Cola
hay una diferencia.

Las hipótesis son a menudo declaraciones sobre parámetros de población como
Valor y varianza esperados, por ejemplo, H0 podría ser que el valor esperado
de la altura de los niños de diez años en la población escocesa no es
¿Del mismo modo del de las niñas de diez años? Una hipótesis también podría ser un
Declaración sobre la forma de distribución de una característica de interés, para
Ejemplo de que la altura de los niños de diez años normalmente se distribuye dentro de
la población escocesa?