Las características de la distribución f

Definición: La distribución F depende de los grados de libertad y generalmente se define como la relación de las variaciones de dos poblaciones normalmente distribuidas y, por lo tanto, también se denomina distribución de la relación de varianza.

Hay varias propiedades de distribución F que se explican a continuación:

La distribución F está positivamente sesgada y con el aumento en los grados de libertad ν1 y ν2, su asimetría disminuye.
El valor de la distribución F siempre es positivo, o cero, ya que las variaciones son el cuadrado de las desviaciones y, por lo tanto, no pueden asumir valores negativos. Su valor se encuentra entre 0 y ∞.
La estadística utilizada para calcular el valor de la media y la varianza es:
La forma de la distribución F depende de sus parámetros ν1 y ν2 grados de libertad.
Los valores del área que se encuentra en el lado izquierdo de la distribución se pueden encontrar tomando el recíproco de los valores F correspondientes al lado derecho y los grados de libertad en el numerador y el denominador se intercambian. Esto se llama propiedad recíproca de distribución F. Simbólicamente, se puede representar como: esta propiedad se usa principalmente en las situaciones cuando los valores de los valores de la cola inferior se determinarán correspondientes a los valores de la cola superior F.

Por lo tanto, estas son las propiedades de distribución F que dicen cómo se distribuye la muestra en estudio y qué inferencias estadísticas se pueden extraer de ellas.

¿Cuáles son las características de la distribución F?

Las distribuciones F generalmente son sesgadas. La forma de una distribución F depende de los valores de (r_1 ) y (r_2 ), los grados de libertad de numeradores y denominadores, respectivamente, como esta imagen pirateaba de su libro de texto ilustra:

Una de las principales formas en que necesitaremos interactuar con una distribución F es necesitar saberlo:

Un valor f, o
Las probabilidades asociadas con una variable de separación F, para completar un análisis estadístico.

Podríamos seguir adelante e intentar trabajar con la función de densidad de probabilidad anterior para encontrar los valores necesarios, pero creo que estará de acuerdo en poco tiempo en que deberíamos recurrir a una mesa F y dejar que haga el trabajo sucio por nosotros. Por esa razón, ahora exploraremos cómo usar una tabla F típica para buscar valores F y/o probabilidades F. Comencemos con dos definiciones.

(100 alpha^{th} ) percentil

Sea ( alpha ) una probabilidad entre 0 y 1 (más a menudo, una pequeña probabilidad inferior a 0.10). El percentil superior (100 alpha^{th} ) de una distribución F con (r_1 ) y (r_2 ) de la libertad es el valor (f_ alpha (r_1, r_2) ) tales que el área debajo de la curva y a la derecha de (f_ alpha (r_1, r_2) ) es ( alpha )::

La definición anterior se utiliza en la Tabla VII, la tabla de distribución F en la parte posterior de su libro de texto. Si bien la siguiente definición no se usa directamente en la Tabla VII, aún así lo encontrará necesario al buscar valores F (o probabilidades F) en la cola izquierda de una distribución F.

¿Qué es la distribución de probabilidad F?

La distribución F es la distribución de probabilidad asociada con la estadística F. En esto
Lección, mostramos cómo calcular una estadística F y cómo encontrar probabilidades
asociado con valores estadísticos F específicos.

La estadística F, también conocida como un valor F,
es una variable aleatoria
que tiene una distribución F. (Discutimos la distribución F en la siguiente
sección.)

Estos son los pasos necesarios para calcular una estadística F:

Seleccione una muestra aleatoria de tamaño N1 de una población normal,
tener una desviación estándar igual a σ1.
Seleccione una muestra aleatoria independiente de tamaño N2 de una normal
población, que tiene una desviación estándar igual a σ2.
La estadística F es la relación de S12/σ12
y S22/σ22.

Las siguientes ecuaciones equivalentes se usan comúnmente para calcular una estadística F:

donde σ1 es la desviación estándar de
Población 1, S1 es la desviación estándar de la muestra
extraído de la población 1, σ2 es el
Desviación estándar de la población 2, S2 es el estándar
La desviación de la muestra extraída de la población 2, χ21 es la estadística de chi-cuadrado para la muestra extraída de la población 1, V1
son los grados de
libertad para χ21,
Χ22 es
La estadística de chi-cuadrado para la muestra extraída de la población 2 y v2
son los grados de libertad para χ22
. Tenga en cuenta que los grados de libertad v1 = n1 – 1,
y grados de libertad v2 = n2 – 1.

La distribución de todos los valores posibles de la estadística F se llama distribución F, con V1 = N1 –
1 y V2 = N2 – 1 grados de libertad.

¿Cuándo se utiliza la distribución F?

La distribución F es una distribución de probabilidad continua, lo que significa que se define para un número infinito de valores diferentes. La distribución F se puede utilizar para varios tipos de aplicaciones, incluidas las pruebas de hipótesis sobre la igualdad de dos variaciones de población y la prueba de la validez de una ecuación de regresión múltiple.

La distribución F comparte una propiedad importante con la distribución T del estudiante: las probabilidades están determinadas por un concepto conocido como grados de libertad. A diferencia de la distribución T del estudiante, la distribución F se caracteriza por dos tipos diferentes de grados de libertad: grados de libertad numeradores y denominadores.

No es simétrico sobre su media; En cambio, está positivamente sesgado.

Una distribución está sesgada positivamente si la media es mayor que la mediana. (La media es el valor promedio de una distribución, y la mediana es el punto medio; la mitad de los valores en la distribución están por debajo de la mediana, y la mitad están por encima).

Un buen ejemplo de una distribución sesgada positivamente son los ingresos domésticos. Supongamos que la mitad de los hogares en un país tienen ingresos por debajo de $ 50,000 y la mitad tienen ingresos superiores a $ 50,000; Esto indica que el ingreso familiar promedio es de $ 50,000. Entre los hogares con ingresos por debajo de $ 50,000, el valor más pequeño posible es de $ 0. Entre los hogares con ingresos superiores a $ 50,000, puede haber ingresos de varios millones de dólares por año. Este desequilibrio entre los ingresos por debajo de la mediana y por encima de la mediana hace que la media sea sustancialmente más alta que la mediana. Supongamos, por ejemplo, que el ingreso medio en este caso es de $ 120,000. Esto muestra que la distribución de los ingresos domésticos está positivamente sesgada.

¿Qué es y para qué sirve la distribución F Fisher?

Esta distribución es necesaria para realizar una prueba de hipótesis sobre la relación entre dos variaciones, o en esas pruebas de hipótesis en las que es necesario establecer a priori si dos muestras provienen de poblaciones que tienen la misma varianza, o para una comparación entre dos o más Valores promedio de grupos de datos de una muestra.

Dado que las variaciones de las dos poblaciones a menudo son desconocidas, cualquier comparación se realiza en función de la varianza campeada.

En este sentido, supongamos que tenemos dos poblaciones normales con varieze respectivamente $ sigma_1^2 $ y $ sigma_2^2 $ y dos muestras extraídas de ellas respectivamente amplitud $ N_1 $ y $ N_2 $; Al indicar con $ s_1 $ e $ s_2 $ la varianza de la muestra, definimos la variable aleatoria $$ bbox [#ffffff, 5px, border: 2px sólido #ff6600] {f = franc {s_1^2/ sigma_1^2^2 } {S_2^2/ Sigma_2^2}} $$ Fisher-snedecor Distribution Fisher con $ nu_1 = n_1-1 $ grados de libertad del numerador y $ nu_2 = n_2-1 $ grados de libertad del denominador

A continuación se muestra la función de densidad de la F de Fisher para variar los grados de libertad.

Aquí puede encontrar algunos valores elegidos de $ f _ { alpha} $ para varias combinaciones de los grados de libertad $ nu_1 $, $ nu_2 $, donde $ f _ { alpha} $ es tal que el área Subyacente a la cola derecha de la distribución es igual a $ alfa $ como se puede ver en la figura a continuación

Las tablas de distribución de Fisher también se pueden usar para calcular el área izquierda subyacente de la curva por la siguiente identidad: $$ F_ {1- alpha} ( nu_1, nu_2) = franc {1} {f_ { alpha} (( nu_2, nu_1)} quad ( gran star) $$

¿Qué es la distribución de F de Fisher y en qué se utiliza?

La distribución F (la F inicial es en honor del estadístico Ronald Fisher) es una proporción
de distribuciones que compara las variaciones de dos poblaciones. Se usa muy
En el análisis de varianza (ANOVA). Desde variaciones de muestra
tienen distribuciones de chi-cuadrado, la distribución F está relacionada con la relación de dos chi-cuadrado
distribuciones. Dado que cada distribución de chi-cuadrado tiene grados de libertad como parámetro,
La distribución F tendrá dos parámetros.

Si la variable aleatoria $ x $ tiene una distribución F durante el intervalo $ [0, infty) $,
con grados de libertad $ m $ y $ n $, entonces el PDF de la distribución viene dada por los siguientes
fórmula.

Cabe señalar que los parámetros para los grados de libertad no son
intercambiable. Es decir, la distribución F con 3 y 5 grados de libertad es
Diferente a la distribución F con 5 y 3 grados de libertad.

En la práctica, utilizamos tablas del CDF de F o tecnología disponible.

Las probabilidades bajo la curva de distribución F dependen no solo de los puntos finales del
intervalo, pero también en los dos grados de parámetros de libertad. Los instrumentos de Texas
La sintaxis de la calculadora para el CDF es $ Operatorname {fcdf} (x_1, x_2, m, n) $.

Para la distribución F con 7 y 12 grados de libertad, el área bajo la curva
Entre 2.5 y 7.3 es $ P (2.5
Para la distribución F con 9 y 5 grados de libertad, el área bajo la curva
Menos de 6 es $ P (x <6) = Operatorname {fcdf} (0,6, 9,5) = 0.9687 $.

¿Cuándo se utiliza la tabla de Fisher?

Supongamos que queremos saber si el género está asociado o no con la preferencia de los partidos políticos en una universidad en particular.

Para explorar esto, encuestamos al azar a 25 estudiantes en el campus. La siguiente tabla muestra los resultados de la encuesta:

Dado que uno o más de los recuentos de células en la tabla son inferiores a 5, podemos usar la prueba exacta de Fisher para determinar si existe una asociación estadísticamente significativa entre el género y la preferencia de los partidos políticos.

Supongamos que realizamos la prueba usando SPSS y obtenemos los siguientes resultados:

La prueba exacta de Fisher se utilizó para determinar si había una asociación significativa entre el género y la preferencia de los partidos políticos.

No hubo una asociación estadísticamente significativa entre las dos variables (P = .115 de dos colas).

Aquí hay algunas cosas a tener en cuenta al informar los resultados de la prueba exacta de Fisher:

Puede ser útil presentar una tabla de estadísticas descriptivas que muestra el número total de individuos utilizados en la encuesta o estudio junto con la proporción total de individuos que pertenecían a cada variable para dar al lector una imagen más completa de los datos.

A diferencia de una prueba de independencia de chi-cuadrado, la prueba exacta de Fisher no tiene estadística de prueba para informar.

En cambio, simplemente informamos el valor p de la prueba y observamos que utilizamos la prueba exacta de Fisher. Esta es una prueba comúnmente utilizada, por lo que es bien sabido que no habrá estadística de prueba incluida en el informe final.

¿Cómo se clasifican las distribuciones de Fisher?

Al igual que con la prueba Chi Square de Pearson, el propósito de la prueba exacta de Fisher es determinar si existe una diferencia significativa entre dos proporciones o probar la asociación entre dos características. Sin embargo, la prueba exacta de Fisher asume un modelo bastante diferente. Como antes, las frecuencias en cada categoría se organizan en una tabla de contingencia de 2×2. Pero en este caso se supone que los totales de fila como de columna son fijos, no aleatorios.

Un número fijo de individuos de un pájaro de un pájaro criado en cautividad y captados en la naturaleza recibe acceso a dos tipos de sitios de nidos (altos y bajos). Cada pájaro solo puede elegir un sitio de nido. Las personas se clasifican de acuerdo con si son criadas cautivas o en la naturaleza salvaje y si anidan altos o bajos. Queremos comparar la proporción de la elección de los sitios altos con criado en cautividad con la proporción de la elección de los sitios altos, o probar de manera equivalente para la asociación entre el origen y el sitio de nido.

Este modelo es mucho más raro que los dos modelos que discutimos en la página de más información sobre la prueba Chi Square de Pearson, pero es aplicable a los experimentos de elección.

Suponiendo que los totales marginales se fijan enormemente simplifican las matemáticas y significa que las probabilidades se pueden estimar utilizando la distribución hipergeométrica con cuatro clases.

Cree todas las tablas 2 × 2 que se desvían de los valores esperados más que su muestra.

Use la fórmula de Fisher para estimar la probabilidad de cada una de estas tablas 2 × 2.

La distribución de las frecuencias celulares cuando la hipótesis nula es cierta (eso no es una asociación entre las categorías) está dada por la distribución hipergeométrica. La fórmula para calcular la probabilidad de una combinación de células dada (A, B, C, D) que surge es:

P es la probabilidad de que surja una combinación de células en particular

¿Cuáles son los parametros de la distribución F?

Recuerde que la cantidad (N – 1) S2 ∕ σ2 tiene la distribución χ2 con n – 1 grados de libertad. Por lo tanto, si suponemos que tenemos una muestra de tamaño N1 de una población con varianza σ12 y una muestra independiente de tamaño N2 de otra población con varianza σ22, entonces la estadística

donde S12 y S22 representan las estimaciones de varianza habituales de σ12 y σ22, respectivamente, es una variable aleatoria que tiene la distribución F.

La distribución F tiene dos parámetros, ν1 y ν2. La distribución se denota por F (ν1, ν2). Si las variaciones se estiman de la manera habitual, los grados de libertad son (N1 – 1) y (N2-1), respectivamente. Además, si ambas poblaciones tienen la misma varianza, es decir, σ12 = σ22, el estadístico F es simplemente la relación S12 ∕ S22. La ecuación que describe la distribución de la estadística F también es bastante compleja y es de poca utilidad para nosotros en este texto. Sin embargo, algunas de las características de la distribución F son de interés:

La distribución F se define solo para valores no negativos.

Se necesita una tabla diferente para cada combinación de grados de libertad. Afortunadamente, para la mayoría de los problemas prácticos, solo se necesitan relativamente pocos valores de probabilidad. Las calculadoras científicas, las aplicaciones de hojas de cálculo y el software estadístico tienen herramientas más poderosas para calcular las probabilidades de esta distribución.

La elección de qué estimación de varianza se colocará en el numerador es algo arbitraria; Por lo tanto, la tabla de probabilidades de la distribución F siempre da el valor de la cola derecho.

¿Qué son los parametros de una distribución?

Se puede probar que
y
son iguales a la media y la varianza de
respectivamente (ver
Normal
distribución).

Los dos números
y
son parámetros (juntos forman un parámetro vectorial).

Al cambiarlos, obtenemos diferentes distribuciones de probabilidad de
.

Entonces, cuando decimos «supongamos que la variable aleatoria
tiene una distribución normal «sin especificar la media y la varianza de
,
Lo que queremos decir es «supongamos que la distribución de
pertenece al conjunto de todas las distribuciones normales «. Este conjunto se puede obtener por
variando los parámetros
y
en la fórmula anterior, y se llama una familia paramétrica.

En términos matemáticos, tenemos un conjunto
de distribuciones de probabilidad, y lo ponemos en correspondencia con un
espacio de parámetros
.

Si la correspondencia es una función que asocia una y solo una
distribución en
a cada parámetro
,
después
se llama familia paramétrica.

En el ejemplo anterior,
es el conjunto de todas las distribuciones normales, y el espacio de parámetros es el conjunto
de todas las parejas
tal que
es positivo. En otras palabras,
.
El conjunto
es una familia paramétrica de distribuciones porque solo hay una
distribución correspondiente a una pareja específica
.

En la inferencia estadística, observamos una muestra de datos y hacemos inferencias
sobre la distribución de probabilidad que generó la muestra.

Lo que normalmente hacemos es configurar un
modelo estadístico y llevar a cabo
Inferencias (estimación, prueba, etc.) sobre un parámetro de modelo.

¿Qué es la distribución de F de Fisher cual su criterio de utilización?

Deje que las estadísticas de prueba, se combinen. Denota el valor p de as (). La estadística de prueba de FCT, se da por

Si todos los valores p son independientes, bajo la hipótesis nula. Deje con la función de densidad, dónde está la función gamma, y la función de distribución está. Cuando los valores p dependen, modelo con Under, donde se estiman utilizando las estimaciones de máxima probabilidad (MLE) o las estimaciones de momentos (Kost y McDermott, 2002; Zheng y otros, 2012). En nuestras aplicaciones, todos los valores P pueden ser de dos lados porque todos los valores de MP se obtienen de probar en diferentes hipótesis nulas. Sin embargo, los siguientes resultados son válidos cuando los valores p unilaterales se combinan utilizando el FCT.

Sea una muestra aleatoria simple con el GGD para algunos. Denota la media de la muestra y la varianza como y, respectivamente. Luego, de Huang y Hwang (2006), como,

Si ajustamos la muestra con el GD, según las estimaciones de los momentos,

Tenga en cuenta que y a menos. El siguiente resultado proporciona más información sobre el ajuste del GGD con el GD; La prueba se proporciona en material complementario disponible en Biostatistics Online. La monotonicidad de In se muestra con una condición, que se satisface en nuestras aplicaciones. En la prueba, sin embargo, mostramos gráficamente que el resultado se mantiene incluso si.

Deje y sea definido anteriormente y sean las estimaciones de los momentos para el GD. Entonces y son asintóticamente no correlacionados. Dado, es una función decreciente en k cuando y es una función creciente en k.