Prueba de frecuencias: cómo optimizar su sitio web para el mejor rendimiento

Las pruebas de neutralidad basadas en el espectro de frecuencia (por ejemplo, los genetistas de la población de Tajima D o FU y Li) son comúnmente utilizadas por la población como pruebas de rutina para evaluar la bondad de ajuste del modelo neutral estándar en sus conjuntos de datos. Aquí, muestro que estas pruebas de neutralidad son instancias específicas de un modelo general que las abarca a todas. Ilustra cómo se puede aprovechar este marco general para diseñar nuevas pruebas más poderosas que detecten mejor las desviaciones del modelo estándar. Finalmente, ejemplifico la utilidad del marco en los datos de SNP al mostrar cómo respalda la hipótesis de selección en el gen humano de Lactasa al superar el sesgo de verificación. El marco presentado aquí allana el camino para construir nuevas pruebas optimizadas para violaciones específicas del modelo estándar que finalmente ayudará a desentrañar escenarios de evolución.

Los modelos estándar de genética de la población (es decir, el modelo Wright -Fisher y los relacionados) constituyen modelos nulos para los cuales se ha desarrollado una sorprendente cantidad de teoría. Los genetistas de la población han utilizado algún aspecto de la teoría (por ejemplo, estadísticas resumidas) para probar la bondad de ajuste del modelo estándar en un conjunto de datos determinado. El rechazo del modelo estándar generalmente sugiere que las hipótesis alternativas, como la selección o el historial demográfico, deben tenerse en cuenta. Aunque prueban más que neutralidad, las pruebas que calculan la bondad de ajuste del modelo estándar se han denominado «pruebas de neutralidad». Dado que las diferentes pruebas de neutralidad tienen una sensibilidad variable a diferentes violaciones del modelo estándar, se usa generalmente una gran cantidad de pruebas en el conjunto de datos de interés. Entonces, se espera que los procesos evolutivos que generaron el conjunto de datos sean, al menos parcialmente, descubiertos por las pruebas. Aunque las pruebas de neutralidad basadas en muestras de población exhiben una diversidad importante, se pueden asignar a familias como «pruebas de haplotipo» (por ejemplo, FU 1997; DePaulis y Veuille 1998) que utilizan la distribución de haplotipos, «pruebas de forma de árbol» que intentan capturar Las deformaciones específicas de los árboles (por ejemplo, Ramos-Ansins y Rozas 2002), y «pruebas de espectro de frecuencia» que se basan en el espectro de frecuencia (por ejemplo, Tajima 1989; Fu y Li 1993b; Fay y Wu 2000; Achaz 2008).

En este estudio, investigo las pruebas de neutralidad basadas en el espectro de frecuencia (en adelante, simplemente como pruebas de neutralidad) y muestro que todas son instancias específicas de un marco general. Las pruebas de neutralidad comparan dos estimadores del parámetro de mutación de la población θ que caracteriza el equilibrio de mutación -deriva. Se define como θ = 2pne μ, donde P es la ploidia (1 para haploides y 2 para diploides), NE es el tamaño de la población efectivo y μ es la tasa de mutación neutra del locus. Cuando el modelo estándar es verdadero, las expectativas de los varios estimadores imparciales de θ son iguales.

Los estimadores típicos de θ, en una muestra de secuencias de N, son, donde S es el número de sitios polimórficos y (Watterson 1975), y, donde π es la diferencia promedio por pares entre todas las secuencias en la muestra (Tajima 1983). Si hay un grupo externo disponible, las mutaciones a la frecuencia de I/N se pueden distinguir de las mutaciones a la frecuencia 1 – I/N. Siguiendo las anotaciones de Fu (1995), ξ es un vector que representa el espectro de frecuencia desplegado compuesto por ξi, el número de sitios polimórficos a la frecuencia I/N en la muestra (i ∈ [1, N – 1]). Cuando no hay grupos externos disponibles, el espectro de frecuencia se plega y está dado por un vector η, compuesto por ηi, el número de sitios polimórficos en ambas frecuencias I/N y 1 – I/N. En consecuencia, se ha demostrado que θ se puede estimar de, con ξ1 el número de singletons derivados (Fu y Li 1993b), de, con η1 el número total de singletones (derivados y ancestrales) (Fu y Li 1993b), y de (Fay y Wu 2000). Recientemente, se ha sugerido que los singletones deben ignorarse cuando θ se estima en muestras con errores de secuenciación; Esto lleva a estimadores como y (Achaz 2008). Otros estimadores de θ, como y, fueron diseñados para minimizar su varianza (FU 1994b), aunque pueden calcularse utilizando recursiones solo para un valor dado de θ.

Las pruebas de neutralidad calculan la bondad de ajuste de una estadística t, que es la diferencia entre dos estimadores de θ, normalizado por su desviación estándar:

Para un θ dado, bajo el modelo estándar, t tiene una media de e [t] = 0 y una varianza de var [t] = 1. Las letras minúsculas (p. Ej., T) denotan la diferencia absoluta (es decir, el numerador solamente) y las letras mayúsculas (por ejemplo, t) denotan la diferencia normalizada (ecuación 1) a lo largo de este trabajo. Curiosamente, la varianza en el denominador es una función de θ y θ2. Debido a que θ es desconocido, el denominador no se puede calcular como tal. En la práctica, los estimadores imparciales de θ y θ2 deben usarse en su lugar. Debido a que la varianza de desaparecer asintóticamente en una muestra muy grande (), θ y θ2 están, en la práctica, sustituidas por estimadores basados ​​en S (Tajima 1989), que cambia la media y la varianza de t a E [t] ≈ 0 y Var [t] ≈ 1.

¿Cuándo se utiliza la prueba de chi cuadrado?

Esto se debe en una pequeña oración: el ( chi² ) le permite decir si hay independencia o no entre sus variables.

Más simple, pero siempre como conciso, la ( chi² ) hace posible estudiar si hay un vínculo entre 2 variables cualitativas en una tabla cruzada (también llamada tabla de contingencia).

Una variable cualitativa es una variable que mide los datos que se pueden cortar en un cierto número de categorías o modalidad. Una tabla de cruz o contingencia es una tabla que indica la fuerza laboral del cruce de las variables que desea estudiar. Por ejemplo :

(Se trata de datos completamente inventados, todos saben que el 100% de los Bretons prefieren la mantequilla salada)

Antes de ir más allá, puede ser bueno decir tan rápidamente lo que no es o no hace el ( chi² ). Simplemente, el ( chi² ) no es una correlación o una regresión. Esto significa que no permite describir, evaluar o cuantificar el enlace.

¡Aquí está el momento de la independencia! Como esta es la noción en el corazón de test ( chi² ), parece bueno pasar un poco de tiempo y explicarla más.

Es posible que los párrafos que seguirán lo sumergen en una gran perplejidad. Intentaré asegurarme de que este no sea el caso, sino en duda, le aconsejo que vaya a preparar un poco de Dafalgan.

El concepto de independencia es tortuoso. En sí mismo, se puede entender con bastante facilidad: la independencia es la ausencia de un vínculo estadístico entre las variables. Ni más ni menos ! Pero su traducción y su evaluación en las pruebas estadísticas es un poco más compleja.

¿Cómo se calculan las frecuencias observadas?

Las frecuencias observadas de los patrones de clasificación en las Tablas 2 y 3 se toman de Böckenholt (1992, Tablas 1 y 2). El conjunto de datos es originario de McKeon (1961). El objetivo es examinar si una puntuación media para una alternativa de elección compuesta que consta de dos objetos, OIJ = {OI, OJ}, puede predecirse mediante una combinación aditiva de puntajes medios obtenidos para cada uno de los dos objetos por separado. En otras palabras, la relación

Tabla 2. Las frecuencias observadas de elementos de clasificación individual en los datos del regalo

se estudia, donde μij representa la puntuación media para el paquete compuesto con elementos individuales que tienen medias μI y μJ, respectivamente. La Tabla 2 presenta las frecuencias de los patrones de clasificación de los elementos individuales {1: cámara, 2: máquina de escribir, 3: radio portátil, 4: reproductor de disco} y tabla 3 presenta las frecuencias de patrones de clasificación de elementos compuestos {1: cámara y máquina de escribir, 2: máquina de escribir y radio portátil, 3: radio y reproductor de radio portátil}. Böckenholt (1992, Tabla 3) aplicó cuatro modelos diferentes para analizar el conjunto de datos, estos modelos se resumen en la Tabla 4, donde μI y σi denotan el vector medio 4 × 1 y la matriz de covarianza 4 × 4 para elementos individuales, μII (3 × 1) y σii (3 × 3) denotan aquellos para los paquetes compuestos, e I es la matriz identificada de la dimensión apropiada. La matriz B está dada por

*1

¿Cómo calcular frecuencias teóricas?

Cuando entre dos variables x e y existe la independencia absoluta, los perfiles (las distribuciones condicionales expresadas en términos de frecuencias relativas) serán todos iguales entre sí y iguales al perfil promedio.

Del mismo modo, esto también será cierto para los perfiles de columna.

De esta declaración es posible derivar una definición adicional de independencia absoluta:
«Se dice que x e y son independientes cuando las frecuencias observadas son las mismas que las frecuencias teóricas para cada celda (i, j) de la doble distribución».

La construcción de un índice que mida el grado de conexión entre dos caracteres estadísticos X e Y se basa en el concepto de contingencia.

La diferencia entre la frecuencia observada y la frecuencia teórica de una célula genérica IJ se define como CIJ.

En el caso de la independencia, las contingencias son todas nulle, mientras que estos crecerán, en valor absoluto, a medida que crece el grado de dependencia entre los caracteres.

El grado de conexión entre dos caracteres estadísticos se mide a través del índice de conexión Pearson (x2).

Se obtiene como la suma de las contingencias cuadradas relativas.

El índice toma el valor de cero en el caso de la independencia en la distribución y aumenta a medida que el grado de conexión está creciendo.

Por lo general, el índice X2 se usa para medir la relación entre dos mutables.
De hecho, para este tipo de variable, la única información analizada se refiere a las frecuencias conjuntas.

¿Cómo se halla el chi cuadrado?

También se solicitó, ¿qué nos dice la prueba de Chi Square en un cruce genético?

La prueba de Chi: la prueba cuadrada es un análisis de método estadístico, esto puede ayudarnos a identificarnos si los resultados de un cruce genético son simplemente por casualidad, o si algo más es evento.

También sepa, ¿cómo se encuentra los grados de libertad en la genética? Una prueba estadística que puede probar las proporciones es el chi-carré o la prueba de bondad de ajuste.

Las estadísticas de Chi Square se usan generalmente para probar las relaciones entre las variables categóricas. La hipótesis cero de la prueba de chi cuadrada es que no existe una relación en las variables categóricas de la población; Son independientes.

Si su estadística de prueba es positiva, comience por encontrar la probabilidad de que Z sea superior a sus estadísticas de prueba (busque su estadística de prueba en la Tabla Z, encuentre su probabilidad correspondiente y la reste con una). Luego duplique este resultado para obtener el P – Valler.

¿Cuál es la diferencia entre el chi cuadrado y la prueba t?

¿Cuál es la prueba Square Chi en estadísticas?

¿Cuál es la hipótesis cero para una prueba de chi cuadrada?

La hipótesis cero para una prueba de independencia de Chi – Carré es que dos variables categóricas son independientes en ciertas poblaciones. De ahora en adelante, el estado matrimonial y la educación están vinculados, por lo tanto, no son independientes, en nuestra muestra. Sin embargo, no podemos concluir que esto se aplica a toda nuestra población.

¿Cuándo se calcula las frecuencias observadas y esperadas?

Los resultados registrados en la Tabla 2 no son exactamente lo que esperábamos porque esperamos que una moneda normal produzca un número igual de cabezas y colas. Debido a que la probabilidad de un resultado determina la frecuencia relativa esperada, esperamos frecuencias relativas de 0.5 cabezas y 0.5 colas para un centavo normal. Es fácil calcular las frecuencias esperadas de trabajo multiplicando las frecuencias relativas esperadas (= probabilidades) por el número total de resultados. Para un total de 87 volteretas de monedas, esperamos (0.5) (87) = 43.5 cabezas. Dado que la probabilidad de colas es la misma, también esperamos 43.5 colas. No debemos preocuparnos de que la frecuencia absoluta esperada incluya una fracción y no debemos redondearla, a pesar de que sabemos que en realidad el número de resultados debe ser un número entero. La situación se resume en la Tabla 3.

Tabla 3. Comparación de frecuencias esperadas y reales para un centavo normal

Los resultados que se muestran en la Tabla 3 podrían hacernos esperar que la moneda se cargara porque había más cabezas de las que esperábamos. Sin embargo, como aprendimos el semestre pasado, es común observar pequeñas desviaciones de lo que esperamos debido a la variación casual. Por lo tanto, no deberíamos sorprendernos observar un resultado de 46 cabezas y 41 colas, incluso si la moneda no se cargó. Si la desviación de la frecuencia esperada fuera mucho mayor (por ejemplo, 61 cabezas y 26 colas), podríamos sospechar que algo inusual estaba sucediendo.

¿Cómo se calcula la frecuencia observada y esperada?

donde o es la frecuencia observada y E es la frecuencia esperada.

Una vez más, el estadístico de prueba implica cuadrar las diferencias, por lo que las estadísticas de prueba son positivas. Por lo tanto, una prueba de chi cuadrado para la bondad de ajuste siempre es de la ruta.

Aquí es donde escribe rechazar (h_ {o} ) o no puede rechazar (h_ {o} ). La regla es: si el valor p < ( alpha ), luego rechace (h_ {o} ). Si el valor p ( geq alpha ), entonces no logre rechazar (h_ {o} ),

Aquí es donde interpretas en términos del mundo real la conclusión de la prueba. La conclusión de una prueba de hipótesis es que tiene suficiente evidencia para mostrar (h_ {a} ) es verdadera, o no tiene suficiente evidencia para mostrar (h_ {a} ) es verdadera.

Ejemplo ( PageIndex {1} ) Prueba de bondad de ajuste usando la fórmula

Supongamos que tiene un dado que tiene curiosidad si es justo o no. Si es justo, la proporción para cada valor debe ser la misma. Debe encontrar las frecuencias observadas y lograr esto, roda el dado 500 veces y cuente con la frecuencia con la que aparece cada lado. Los datos están en el ejemplo ( PageIndex {1} ). ¿Los datos muestran que el dado es justo? Prueba en el nivel del 5%.

Tabla ( pageIndex {1} ): frecuencias observadas de die

1. Indique las hipótesis nulas y alternativas y el nivel de importancia

(H_ {o} ): las frecuencias observadas son consistentes con la distribución para un dado justo (el dado es justo)

(H_ {a} ): las frecuencias observadas no son consistentes con la distribución para un dado justo (el dado no es justo)

¿Qué estadístico es una medida de la discrepancia entre la frecuencias observadas y las frecuencias esperadas?

La prueba de chi-cuadrado se usa para analizar la frecuencia observada y la frecuencia esperada.

  • Una prueba de chi-cuadrado, también escrita como prueba χ2, es una prueba de hipótesis estadística que es válida para realizar cuando el estadístico de prueba es chi-cuadrado distribuido bajo la hipótesis nula, específicamente la prueba de chi-cuadrado de Pearson, y las variantes de la misma.
  • La prueba de chi-cuadrado de Pearson se usa para determinar si existe una diferencia estadísticamente significativa entre las frecuencias esperadas y las frecuencias observadas en una o más categorías de una tabla de contingencia.
  • En las aplicaciones estándar de esta prueba, las observaciones se clasifican en clases mutuamente excluyentes.
  • Si la hipótesis nula (que en la población no hay diferencia entre las clases) es verdadera, la estadística de prueba calculada a partir de las observaciones sigue una distribución de frecuencia χ2.
  • El propósito de la prueba es evaluar qué tan probable es que las frecuencias observadas asuman que la hipótesis nula es cierta.
  • Las estadísticas de prueba que siguen una distribución de χ2 se producen cuando las observaciones son independientes y normalmente se distribuyen, qué supuestos a menudo se justifican bajo el teorema del límite central.
  • También hay pruebas de χ2 para probar la hipótesis nula de la independencia de un par de variables aleatorias basadas en observaciones de los pares.
  • Las pruebas de chi-cuadrado a menudo se refieren a las pruebas para las cuales la distribución de la estadística de prueba se acerca a la distribución χ2 asintóticamente, lo que significa que la distribución de muestreo (si la hipótesis nula es verdadera) de la estadística de prueba se aproxima a una distribución de χ2 cada vez más de cerca a medida que los dimensiones de la muestra aumentar

Ei = un recuento esperado para Bin I, afirmado por la hipótesis nula.

Artículos Relacionados:

Más posts relacionados:

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *