Distribución chi cuadrada: cómo optimizar su sitio web para el mejor rendimiento

La distribución de chi cuadrado se usa principalmente en las pruebas de hipótesis y, en menor medida, para los intervalos de confianza para la varianza de la población cuando la distribución subyacente es normal. A diferencia de las distribuciones más ampliamente conocidas, como la distribución normal y la distribución exponencial, la distribución de chi cuadrado no se aplica con tanta frecuencia en el modelado directo de fenómenos naturales. Surge en las siguientes pruebas de hipótesis, entre otras:

También es un componente de la definición de distribución t y la distribución F utilizada en las pruebas t, análisis de varianza y análisis de regresión.

La razón principal por la cual la distribución de chi cuadrado se usa ampliamente en las pruebas de hipótesis es su relación con la distribución normal. Muchas pruebas de hipótesis usan una estadística de prueba, como la estadística T en una prueba t. Para estas pruebas de hipótesis, a medida que el tamaño de la muestra, N, aumenta, la distribución de muestreo de la estadística de prueba se acerca a la distribución normal (teorema del límite central). Debido a que el estadístico de prueba (como T) se distribuye normalmente asintóticamente, siempre que el tamaño de la muestra sea lo suficientemente grande, la distribución utilizada para la prueba de hipótesis puede ser aproximada por una distribución normal. La prueba de hipótesis utilizando una distribución normal se entiende bien y es relativamente fácil. La distribución de chi cuadrado más simple es el cuadrado de una distribución normal estándar. Entonces, donde sea que se pueda usar una distribución normal para una prueba de hipótesis, se podría usar una distribución de chi cuadrado.

Suponga que z { displayStyle z} es una variable aleatoria muestreada a partir de la distribución normal estándar, donde la media es 0 { displayStyle 0} y la varianza es 1 { displayStyle 1}: zuv (0,1) { DisplayStyle Z Sim n (0,1)}. Ahora, considere la variable aleatoria q = z2 { displaystyle q = z^{2}}. La distribución de la variable aleatoria q { displayStyle q} es un ejemplo de una distribución de chi cuadrado: q∼χ12. { DisplayStyle q sim chi _ {1}^{2}.} El subíndice 1 indica que esta distribución de chi cuadrado particular se construye a partir de solo 1 distribución normal estándar. Se dice que una distribución de chi cuadrado construida al cuadrar una sola distribución normal estándar tiene 1 grado de libertad. Por lo tanto, a medida que aumenta el tamaño de la muestra para una prueba de hipótesis, la distribución de la estadística de prueba se acerca a una distribución normal. Así como los valores extremos de la distribución normal tienen baja probabilidad (y dan pequeños valores p), los valores extremos de la distribución de chi cuadrado tienen baja probabilidad.

Una razón adicional por la que la distribución de chi-cuadrado se usa ampliamente es que aparece como la gran distribución de la muestra de las pruebas de relación de probabilidad generalizada (LRT). [6] Los LRT tienen varias propiedades deseables; En particular, los LRT simples comúnmente proporcionan la mayor potencia para rechazar la hipótesis nula (Lema de Neyman -Pearson) y esto también lleva a las propiedades de optimización de los LRT generalizados. Sin embargo, las aproximaciones normales y chi-cuadradas solo son válidas asintóticamente. Por esta razón, es preferible usar la distribución T en lugar de la aproximación normal o la aproximación Chi cuadrado para un tamaño de muestra pequeño. Del mismo modo, en los análisis de tablas de contingencia, la aproximación de chi cuadrado será deficiente para un tamaño de muestra pequeño, y es preferible usar la prueba exacta de Fisher. Ramsey muestra que la prueba binomial exacta es siempre más poderosa que la aproximación normal. [7]

Lancaster muestra las conexiones entre las distribuciones binomiales, normales y de chi cuadrado, como sigue. [8] De Moivre y Laplace establecieron que una distribución binomial podría aproximarse mediante una distribución normal. Específicamente mostraron la normalidad asintótica de la variable aleatoria

¿Cuando una distribución es chi cuadrado?

Para n> 0, la distribución de rango con el parámetro de formulario k = n / 2 y el parámetro de escala 2 se llama distribución de chi-cuadrado
Con ngradi di Libert�.

1. Muestra que la distribución que-Cuadro con n grados de Libert ‘tiene la función de la densidad

F (x) = xn / 2 – 1exp (-x / 2) / [2n / 2
Gam (n / 2)] para x> 0.

2. En el applet
Variable aleatoria, seleccione la distribución Chi-quadro. Editar n y observa la forma de la función de densidad. Pon n = 5, y replique la simulación 1000 veces, con una frecuencia de actualización de 10, y observe la convergencia de la función de la densidad empírica a lo teórico.

3. Muestra que la distribución de chi-quadro con 2 grados de libertad es una distribución exponencial con un parámetro de escala 2.

4. Dibuje la función de la densidad de la distribución gamma en cada uno de los siguientes casos:

5. En el applet Quanile
, seleccione la distribución Chi-Quadro. Cambie los grados de libertad y observa la forma de la función de densidad y la función de reemplazo de re. En cada uno de los siguientes casos encuentra la mediana, el primer y tercer cuarto y los desechos intercuartiles.

Medios de comunicación, varianza,
Los momentos y la función de generación de los momentos de la distribución de chi-quadro se pueden obtener de los resultados obtenidos para la distribución de rango. En los siguientes ejercicios, se supone que X tiene una distribución de chi-quadro con n grados de libertad.

  • Y (x) = n
  • var (x) = 2n

9. En el applet de variable aleatoria, elija la distribución Chi-quadro. Editar n
con la barra deslizante y observe la forma y la posición de la barra de desviación media/estándar.
Con n = 4, simule 1000 réplicas con la frecuencia de actualización 10 y observe la convergencia de los momentos empíricos a los teóricos.

¿Cuándo es aplicable una distribución Chi cuadrada?

La sección introducirá la distribución de chi-cuadrado. Se pronuncia como distribución Kai-cuadrado.

La palabra al cuadrado es importante, ya que significa cuadrar la distribución normal. Explicaré su importancia en este artículo también.

Chi-cuadrado es una distribución de probabilidad continua. También se usa en gran medida en la inferencia estadística. Utilizamos la distribución de chi cuadrado cuando estamos interesados ​​en los intervalos de confianza y su desviación estándar.

Al igual que la distribución de Student-T, la distribución de chi-cuadrado también está estrechamente relacionada con la distribución normal estándar.

Consideremos que recopilamos datos para N (un número> 1) variables aleatorias independientes que tienen una distribución normal estándar. Cada una de las variables aleatorias tiene una desviación estándar σ.

Si cuadra las distribuciones y las sumamos, entonces la suma cuadrada de las distribuciones tendrá la distribución de chi cuadrado con n grados de libertad.

A medida que cuadró la distribución normal, la distribución de chi cuadrado siempre es mayor que 0 porque todos los valores negativos están cuadrados.

Es importante tener en cuenta que la media de la distribución es igual a los grados de libertad.

Se considera que cada variable aleatoria tiene un 1 grado de libertad.

A medida que aumentamos los grados de libertad, la distribución comenzará a parecerse a la distribución normal estándar. Sin embargo, a medida que cuadran los valores de distribución, la distribución de chi cuadrado siempre se desplaza hacia el lado derecho del eje Y ya que los negativos no estarán presentes en la distribución. Posteriormente, la asimetría derecha disminuye a medida que agregamos más variables aleatorias. Esto se debe nuevamente al teorema del límite central.

¿Cómo se interpreta la tabla de chi cuadrado?

    Las categorías son independientes (sin superposición)
    Debe tener un recuento esperado de al menos 5 en cada celda
    Recuerde que grandes muestras significan grandes chi-squares, lo que lo hace
    Más fácil de encontrar un significativo
    chi-square (esto se llama poder)

1) Las diferencias de género en el contenido de los sueños están bien documentadas. Suponer que
Un investigador estudia contenido de agresión en los sueños de hombres y mujeres.
Cada tema informa su sueño más reciente. Entonces cada sueño es
juzgado por un panel de expertos para tener una agresión baja, media o alta
contenido. Las frecuencias observadas se muestran en la siguiente tabla. Es
¿Hay una relación entre el género y el contenido de agresión de los sueños?
Prueba con a = 0.01. Asegúrese de indicar su
hipótesis.

2) Suponga que está interesado en si hay una relación
entre el sexo y la membresía en un club después de la escuela (en la escuela secundaria
estudiantes). Entonces seleccionó al azar a 30 estudiantes de una escuela secundaria local
y registraron su sexo y si eran o no miembros de un
Club despues de la escuela. Cree una crosstabulación para los siguientes datos.

3) Usando SPSS, calcule los marginales y los valores esperados y Chi-Squre para
los datos en (2).

4) eran más propensos que los estudiantes de tercer año que los estudiantes de primer año y los estudiantes de segundo año
asistir a las sesiones de revisión? Proporcione un gráfico de barras que muestre el desglose.
Suponiendo una A = 0.05, pruebe si estos
Las variables son independientes. Recuerde indicar sus hipótesis.

5) ¿Eran los hombres más propensos que las mujeres a hacer una tarea de crédito adicional?
Informe el número de personas que hicieron y no hicieron el proyecto de crédito adicional
desglosado por género. Suponiendo una A = 0.05,
Pruebe si el género y la participación de crédito adicional son independientes.
Recuerde indicar sus hipótesis.

¿Qué es y dónde se aplica la distribución ji cuadrada?

Ernst Abbe (1840-1905), una óptica, fue la que descubrió las χ2 { Splayyle Chi ^ ^ {2}} analizando la suma de las variables aleatorias normales estandarizadas e independientes, que produce una nueva variable aleatoria, la variable aleatoria, la χ2 { displayStyle chi ^{2}} de hecho. [2]

Por definición, la suma de dos variables aleatorias independientes con distribuciones χ2 (m) { splatyle chi ^{2} (m)} y χ2 (n) { displaystyle chi ^{2} (n)} es una variable es variable Aleatoria con distribución χ2 (m+n) { splatyle chi ^{2} (m+n)}:

En términos más generales, la suma de variables aleatorias independientes con distribuciones χ2 (k1),…, χ2 (kN), { donnestyle chi ^{2} (k_ {1}), ldots, chi ^{2} (k_ {n}),} es una variable aleatoria con χ2 Distribution (k1+…+kn). { splawyle chi ^{2} (k_ {1}+ ldots+k_ {n}).}

Para el teorema central del límite, la distribución χ22 (k) { splatyle chi ^ ^ {2} (k)} converge a una distribución normal { splatyle { mathcal {n}}} para k { displaysStyle K } Eso tiende sin cesar. Más precisamente, si x (k) = x12+…+xk2 { splatyle x (k) = x_ {1}^{2}+ dots {}+x_ {k}^{2}} sigue la distribución χ2 (K ) { splatyle chi ^{2} (k)}, luego la distribución de probabilidad de

x (k) −k2k, { splatyle { franc {x (k) -k} { sqrt {2k}},}

Tiende al estándar normal n (0.1). { Muestra { mathcal {n}} (0.1).}

Para tener una convergencia más rápida, a veces se consideran 2x (k) 2 { splatyle { sqrt {2x (k)^{2}}} o x (k) 2k3. { Displaystyle { sqrt [{3}] { Fracc {x (k)^{2}} {k}}}.}

¿Cuándo se utiliza la prueba de ji cuadrada?

La fórmula para la estadística de chi-cuadrado utilizada en la prueba de Chi Square es:

El subíndice «C» es los grados de libertad. «O» es su valor observado y E es su valor esperado. Es muy raro que quiera usar esta fórmula para encontrar un valor de chi-cuadrado crítico a mano. El símbolo de suma significa que tendrá que realizar un cálculo para cada elemento de datos en su conjunto de datos. Como probablemente puedas imaginar, los cálculos pueden ser muy, muy, largos y tediosos. En cambio, es probable que desee usar tecnología:

Hay algunas variaciones en la estadística de chi-cuadrado. El cual usa depende de cómo recopiló los datos y qué hipótesis se está probando. Sin embargo, todas las variaciones usan la misma idea, que es que está comparando sus valores esperados con los valores que realmente recopila. Una de las formas más comunes se puede usar para tablas de contingencia:

Donde O es el valor observado, E es el valor esperado y «I» es la posición de «ITH» en la tabla de contingencia.

Un valor bajo para chi-cuadrado significa que existe una alta correlación entre sus dos conjuntos de datos. En teoría, si sus valores observados y esperados fueran iguales («sin diferencia»), entonces el chi-cuadrado sería cero, un evento que es poco probable que ocurra en la vida real. Decidir si una estadística de prueba de chi-cuadrado es lo suficientemente grande como para indicar una diferencia estadísticamente significativa no es tan fácil que parece. Sería bueno si pudiéramos decir una estadística de prueba de chi-cuadrado> 10 significa una diferencia, pero desafortunadamente ese no es el caso.

¿Quién aporto la distribución y cuadrado?

Las medidas que usan estadísticas distribuidas χ2 se calculan con la siguiente fórmula:

donde p (x) d es una distribución de chi-cuadrado con d grados de libertad y x0 es el valor estadístico para el atributo dado. Los algoritmos estándar están disponibles para el cálculo de (6.12).

Si queremos evaluar la calidad del atributo AI, podemos usar las estadísticas χ2 y G. Ambos están aproximadamente χ2 distribuidos con (MI – L) (M0 – 1) grados de libertad, donde MI es el número de valores del atributo AI y M0 es el número de clases.

donde E (CK, VJ) es el número esperado de ejemplos de la clase K-th y con el valor de atributo J-th si asumimos la independencia del atributo y la clase:

Las estadísticas G y χ2 se utilizan para probar la importancia de la diferencia entre la distribución de clase anterior (antes de usar el atributo ai) y la posterior (después de usar el atributo ai). Sin embargo, no son apropiados para comparar la calidad de diferentes atributos.

Un investigador ha implementado cuatro variaciones de una interfaz del motor de búsqueda (A, B, C y D). Cada interfaz utiliza un diálogo diferente para que los usuarios creen sus consultas. El investigador desea saber si las interfaces difieren en la calidad de los resultados que producen. Se reclutan ocho participantes y se les da una demostración de cada interfaz y luego se les pide que realicen una serie de tareas de búsqueda. La «calidad de los resultados» se evalúa para cada participante y para cada motor de búsqueda. La evaluación utiliza una escala lineal de 1 a 100 (1 = muy pobre, 100 = muy buena). Se usó un cuadrado latino para equilibrar el orden de las condiciones, pero esto no es importante aquí. Los datos se dan en la Figura 6.37.

¿Quién creó la distribución chi cuadrado?

La distribución de chi-cuadrado definitivamente no es la distribución más conocida o la más popular en comparación con las distribuciones normales o en T, pero aún dedica una publicación de blog, así que comencemos al principio.

Esta distribución se puede imaginar como descendiente de la distribución normal estándar, porque está construida por la suma de cuadrados de k variables normales estándar independientes. El tamaño de la muestra se denota como K y se llama como el grado de libertad de la distribución. Simplemente, extraiga una muestra de tamaño K de la distribución normal estándar, su sugerir los cuadrados y repítela varias veces, como muestra el siguiente código de Python:

Como en muchos otros casos, esta distribución también converge a una distribución normal si el tamaño de la muestra tiende a ser lo suficientemente grande. En la práctica, un tamaño de muestra de más de 50 puede considerarse lo suficientemente grande donde la distribución está suficientemente cerca de la distribución normal.

Como podemos ver, incluso para k = 50 y un tamaño de muestra de 100 es suficiente para obtener una distribución casi normal. Con un mayor aumento de los grados de libertad y el tamaño de muestreo, la convergencia con una distribución normal es mucho más obvia. También es notable cómo los parámetros de distribución normal han cambiado con la modificación de los grados de libertad. En general, la distribución converge a una distribución normal donde la media es igual a K y la desviación estándar es igual a la raíz cuadrada de 2K.

Aunque la distribución de chi-cuadrado fue descrita primero por un matemático alemán, Helmert, su aplicación práctica en la inferencia estadística fue desarrollada por primera vez por Karl Pearson en 1900. La prueba de chi-cuadrado se usa comúnmente para determinar la independencia entre dos variables categóricas. Esta prueba evalúa si existe una asociación entre dos categorías comparando la frecuencia observada con la frecuencia esperada que existiría si las variables fueran ciertamente independientes entre sí.

¿Qué es y para qué se usa el método de Chi cuadrado?

La prueba le permite verificar si lo diferente entre los datos puede deberse al caso; En el caso de que la prueba demuestre que no pueden ser el resultado del caso, hablamos de «significación estadística». Se usa en situaciones donde hay dos variables nominales dicotómicas y pequeños campeones.

Este número se calcula a partir de una prueba estadística basada, de hecho, en los resultados observados. Al realizar una prueba de hipótesis, el valor p lo ayuda a determinar la importancia del resultado de la prueba en relación con la hipótesis nada.

Cuando el valor p es bajo (es decir, cerca de 0) se dice que el resultado es estadísticamente significativo. Una probabilidad muy cercana a 0 indica que es muy poco probable que observe los datos de su muestra cuando la hipótesis no lo es. El valor del valor p le dice exactamente lo improbable que es.

Estas son una prueba de verificación de prueba que atribuye un valor de probabilidad a la hipótesis nada (es decir, la hipótesis de la ausencia de una asociación). En R, es posible calcular la prueba del cuadrado para una tabla de entrada doble de diferentes maneras. La función utilizada es chisq.

El grado de conexión entre dos caracteres estadísticos se mide a través del índice de conexión de Pearson (x2). Se obtiene como la suma de las contingencias cuadradas relacionadas. El índice toma el valor de cero en el caso de la independencia en la distribución y aumenta a medida que el grado de conexión está creciendo.

, describiendo la suma de los cuadrados de variables aleatorias con distribuciones normales reducidas pero no centradas. En estadísticas se utiliza para el análisis de la varianza y para algunas pruebas de verificación de hipótesis.

Artículos Relacionados:

Más posts relacionados:

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *