Estadísticos de prueba: ¿Cuáles son y cómo se usan?

Las estadísticas de prueba se pueden informar en la sección de resultados de su trabajo de investigación junto con el tamaño de la muestra, el valor p de la prueba y cualquier característica de sus datos que ayude a poner estos resultados en contexto.

Si necesita informar o no la estadística de prueba depende del tipo de prueba que esté informando.

Al examinar un subconjunto aleatorio de 100 árboles durante 25 años, encontramos una correlación positiva estadísticamente significativa (p <0.01) entre la temperatura y las fechas de floración (R2 = 0.36, SD = 0.057).

Ejemplo: informando los resultados de una prueba t de una prueba t de la diferencia entre dos grupos, es necesario informar la estadística de prueba, así como los grados de libertad y el valor p:

En nuestra comparación de la dieta de la dieta del ratón y la dieta del ratón B, encontramos que la vida útil de la dieta A (media = 2.1 años; SD = 0.12) era significativamente más corta que la vida útil de la dieta B (media = 2.6 años; SD = 0.1), con una diferencia promedio de 6 meses (t (80) = -12.75; p <0.01).

La estadística de prueba le dice cuán diferentes o más grupos son de la población general de la población, o cuán diferente es una pendiente lineal de la pendiente predicha por una hipótesis nula. Se utilizan diferentes estadísticas de prueba en diferentes pruebas estadísticas.

En general, el estadístico de prueba se calcula como el patrón en sus datos (es decir, la correlación entre variables o diferencia entre grupos) dividida por la varianza en los datos (es decir, la desviación estándar).

La estadística de prueba cambiará en función del número de observaciones en sus datos, cuán variables son sus observaciones y cuán fuertes son los patrones subyacentes en los datos.

¿Cómo se define el estadístico de prueba?

Una estadística de prueba es el valor utilizado en una prueba de hipótesis para decidir si apoyar o rechazar una hipótesis nula. Esta estadística compara los datos de un experimento o muestra con los resultados esperados de la hipótesis nula.

Cada estadística se implementa para una prueba diferente, con las estadísticas más comunes en el aprendizaje automático: siendo:

Al ejecutar una prueba de hipótesis, el gráfico de la estadística de prueba a menudo se usa para definir el rango de probabilidad (valor p), generalmente encontrado como una distribución o distribución en T normal. Esto permite al investigador calcular el valor de probabilidad para cada resultado, es decir, que los resultados fueron causados por posibilidades aleatorias o pueden atribuirse a que la hipótesis sea verdadera.

Cuanto más grande sea la estadística de prueba, menor será el valor p, lo que significa que es más probable que la hipótesis nula sea rechazada.

¿Qué es un estadístico de prueba Wikipedia?

En las pruebas de significación estadística, una prueba de una cola y una prueba de dos colas son formas alternativas de calcular la importancia estadística de un parámetro inferido de un conjunto de datos, en términos de una estadística de prueba. Una prueba de dos colas es apropiada si el valor estimado es mayor o menor que un cierto rango de valores, por ejemplo, si un examen puede obtener una puntuación por encima o por debajo de un rango específico de puntajes. Este método se utiliza para las pruebas de hipótesis nulas y si el valor estimado existe en las áreas críticas, la hipótesis alternativa se acepta sobre la hipótesis nula.
Una prueba de una cola es apropiada si el valor estimado puede apartarse del valor de referencia en una sola dirección, izquierda o derecha, pero no ambas. Un ejemplo puede ser si una máquina produce más del uno por ciento de productos defectuosos. En esta situación, si el valor estimado existe en una de las áreas críticas unilaterales, dependiendo de la dirección de interés (mayor o menos), la hipótesis alternativa se acepta sobre la hipótesis nula. Los nombres alternativos son pruebas unilaterales y de dos lados; La «cola» de la terminología se usa porque las porciones extremas de distribuciones, donde las observaciones conducen al rechazo de la hipótesis nula, son pequeñas y a menudo «cola» hacia cero como en la distribución normal, coloreadas en amarillo o «curva de campana», En la foto a la derecha y coloreada en verde.

Las pruebas de una cola se utilizan para distribuciones asimétricas que tienen una sola cola, como la distribución de chi-cuadrado, que son comunes en la medición de la bondad de ajuste, o para un lado de una distribución que tiene dos colas, como la normal distribución, que es común en la estimación de la ubicación; Esto corresponde a especificar una dirección. Las pruebas de dos colas solo son aplicables cuando hay dos colas, como en la distribución normal, y corresponden a considerar cualquier dirección significativa. [1] [2]

En el enfoque de Ronald Fisher, la hipótesis nula H0 será rechazada cuando el valor p del estadístico de prueba sea suficientemente extremo (frente a la distribución de muestreo de la estadística de prueba) y, por lo tanto, se juzga poco probable que sea el resultado del azar. Esto generalmente se realiza comparando el valor p resultante con el nivel de significancia especificado, denotado por α { displayStyle alpha}, al calcular la significación estadística de un parámetro. En una prueba de una cola, «extremo» se decide de antemano como que significa «suficientemente pequeño» o que significa «suficientemente grande»: los valores en la otra dirección no se consideran significativos. Uno puede informar que la probabilidad de la cola izquierda o derecha como el valor p de una cola, que finalmente corresponde a la dirección en la que la estadística de prueba se desvía de H0. [3] En una prueba de dos colas, «extremo» significa «ya sea suficientemente pequeño o suficientemente grande», y los valores en cualquier dirección se consideran significativos. [4] Para una estadística de prueba dada, hay una sola prueba de dos colas y dos pruebas de una cola, una para cualquier dirección. Cuando se proporciona un nivel de significancia α { displaystyle alpha}, las regiones críticas existirían en los dos extremos de la cola de la distribución con un área de α /2 { displaystyle alpha /2} para una prueba de dos colas. Alternativamente, la región crítica existiría únicamente en el extremo de la cola única con un área de α { displaystyle alpha} para una prueba de una cola. Para un nivel de significancia dado en una prueba de dos colas para una estadística de prueba, las pruebas de una cola correspondientes para la misma estadística de prueba se considerarán dos veces más significativas (la mitad del valor p) si los datos están en la dirección especificados por la prueba, o no significativa (valor p anterior α { displayStyle alpha}) si los datos están en la dirección opuesta a la región crítica especificada por la prueba.

Por ejemplo, si voltear una moneda, probar si está sesgado hacia las cabezas es una prueba de una cola, y obtener datos de «todas las cabezas» se considerarían muy significativas, mientras que obtener datos de «todas las colas» no sería significativo en Todos (P = 1). Por el contrario, las pruebas si está sesgada en cualquier dirección es una prueba de dos colas, y «todas las cabezas» o «todas las colas» se verían como datos muy significativos. En las pruebas médicas, mientras que uno generalmente está interesado en si un tratamiento da como resultado resultados que son mejores que el azar, lo que sugiere una prueba de una cola; Un peor resultado también es interesante para el campo científico, por lo tanto, uno debe usar una prueba de dos colas que corresponde a probar si el tratamiento resulta en resultados que son diferentes de los azar, mejor o peor. [5] En el experimento de té de la dama arquetípica, Fisher probó si la dama en cuestión era mejor que el probabilidad de distinguir dos tipos de preparación del té, no si su habilidad era diferente de la oportunidad y, por lo tanto, utilizó una prueba de una cola.

En el volteo de monedas, la hipótesis nula es una secuencia de ensayos de Bernoulli con probabilidad 0.5, produciendo una variable aleatoria x que es 1 para cabezas y 0 para colas, y un estadístico de prueba común es la media de muestra (del número de cabezas) x¯ . { DisplayStyle { Bar {x}}.} Si las pruebas de si la moneda está sesgada hacia las cabezas, se utilizaría una prueba de una cola, solo un gran número de cabezas serían significativos. En ese caso, un conjunto de datos de cinco cabezas (HHHHH), con una media de muestra de 1, tiene un 1/32 = 0.03125≈0.03 { displayStyle 1/32 = 0.03125 aproximadamente 0.03} probabilidad de ocurrir, (5 flips consecutivas con 2 Resultados – ((1/2)^5 = 1/32). Esto tendría p≈0.03 { displayStyle p aprox 0.03} y sería significativo (rechazando la hipótesis nula) si la prueba se analizó a un nivel de significancia de significancia de α = 0.05 { displayStyle alpha = 0.05} (el nivel de significancia correspondiente al límite de corte). Sin embargo, si la prueba de si la moneda está sesgada hacia cabezas o colas, se utilizaría una prueba de dos colas y un conjunto de datos de cinco cabezas (media de muestra 1) es tan extremo como un conjunto de datos de cinco colas (media de muestra 0). Como resultado, el valor p sería 2/32 = 0.0625≈0.06 { displaystyle 2/32 = 0.0625 aproximadamente 0.06} y esto no sería significativo (no rechazar la hipótesis nula) si la prueba se analizó a un nivel de significancia de α = 0.05 { displaystyle alpha = 0.05}.

¿Cómo elegir el estadístico de prueba?

En el fondo para que una prueba funcione bien (al menos, que tiendo a dar mejores posibilidades de rechazo bajo el nulo que bajo la alternativa), necesita que la estadística de prueba se comporte de manera diferente por debajo de $ H_0 $ y $ H_1 $. En muchos casos de una prueba de hipótesis que involucra un solo parámetro, una estadística de prueba obvia sería cierto estimador para ese parámetro: un estimador razonable tenderá a tener una distribución de muestreo diferente bajo la nula que bajo la alternativa, ya que un estimador útil será Tienden a estar cerca en cierto sentido al verdadero valor y esos son diferentes.

Tenga en cuenta que podría no ser necesariamente el estimador «obvio», como la media de la muestra para la media de la población, ya que una vez especifica la distribución que está probando de allí, puede ser una forma mucho más eficiente de estimarla. Alternativamente, puede construir deliberadamente un estimador sólido con el objetivo de obtener algo que funcione razonablemente incluso si la distribución supuesta a partir de la cual llegaron los datos se especificaron algo mal.

[Es posible que desee analizar cantidades fundamentales que a menudo se usan como estadísticas de prueba o como base para formar intervalos de confianza.

Sin embargo, este no es un requisito, por ejemplo, a veces con pruebas de razón de probabilidad (que se usan ampliamente), la estadística de prueba (la relación de las probabilidades evaluadas en sus máximos respectivos) no se corresponde necesariamente con un estimador obvio/explícito de Los parámetros, aunque los valores de la máxima probabilidad se estima en el cálculo de la probabilidad.

¿Cómo elegir un estadístico de prueba?

Hoy estadísticas proporciona la base para la inferencia en la mayoría de las investigaciones médicas. Sin embargo, por falta de exposición a la teoría y la práctica estadística, continúa siendo considerado como el talón de Aquiles por todos los interesados en el ciclo de investigación y publicación: los investigadores (autores), revisores, editores y lectores.

La mayoría de nosotros estamos familiarizados hasta cierto punto con medidas estadísticas descriptivas, como las de tendencia central y las de dispersión. Sin embargo, vacilamos en estadísticas inferenciales. Este no es necesario que sea el caso, particularmente con la disponibilidad generalizada de software estadístico potente y al mismo tiempo fácil de usar. Como hemos esbozado a continuación, algunas consideraciones fundamentales llevarán uno a seleccionar la prueba estadística apropiada para las pruebas de hipótesis. Sin embargo, es importante que el análisis estadístico apropiado se decida antes de comenzar el estudio, en la etapa de planificación misma, y el tamaño de la muestra elegido es óptimo. Estos no se pueden decidir arbitrariamente después de que termine el estudio y ya se han recopilado datos.

La gran mayoría de los estudios se pueden abordar a través de una canasta de unas 30 pruebas de más de 100 que están en uso. La prueba a utilizar depende del tipo de pregunta de investigación que se hace. Los otros factores de determinación son el tipo de datos que se analizan y el número de grupos o conjuntos de datos involucrados en el estudio. Los siguientes esquemas, basados en cinco preguntas de investigación genérica, deberían ayudar. [1]

¿Cuáles son los criterios para la selección de un diseño estadístico?

La elección de un criterio de optimización apropiada requiere un poco de reflexión y es útil comparar el rendimiento de los proyectos en comparación con los diferentes criterios de optimización. Cornell escribe que

desde los criterios de [optimización tradicional].Son criterios para minimizar la varianza ,.Un diseño óptimo para un modelo dado que usa uno de los.Los criterios suelen ser casi óptimos para el mismo modelo en comparación con otros criterios.

De hecho, hay diferentes clases de diseño para las cuales todos los criterios tradicionales de optimización están de acuerdo, según la teoría de Kiefer de «optimización universal». La experiencia de profesionales como la teoría de Cornell y Kiefer de «optimización universal» sugiere que la robustez en comparación con los cambios en el criterio de optimización es mucho mayor que la robustez que los cambios en el modelo.

El software estadístico de alta calidad proporciona una combinación de estanterías de proyectos óptimos o métodos iterativos para construir proyectos aproximadamente óptimos, dependiendo del modelo especificado y el criterio de optimización. Los usuarios pueden usar un criterio de optimización estándar o pueden programar un criterio personalizado.

Cuando los científicos desean probar diferentes teorías, una estadística puede diseñar un experimento que permita pruebas óptimas entre los modelos especificados. Estos «experimentos de discriminación» son particularmente importantes en bioestadística para apoyar la farmacocinética y la farmacodinámica, siguiendo el trabajo de Cox y Atkinson.

¿Cómo elegir una prueba de hipotesis?

Entonces, recopiló algunos datos y ahora desea que le diga algo significativo. Desafortunadamente, su última clase de estadísticas fue hace años y no puede recordar qué hacer con esos datos. Recuerdas algo sobre una hipótesis nula y alternativa, pero ¿qué tiene todo esto sobre las pruebas?

A veces es más fácil solo darle un problema al asistente. Especialmente cuando se trata de estadísticas.

No me malinterpreten, me encanta analizar los datos y ver lo que significa… pero la mayoría de nosotros no analizamos los datos todo el día, todos los días. Y en estadísticas, como en los deportes, si no lo usas, lo pierdes. Si no ha realizado un análisis en meses, no es irrazonable imaginar que podría necesitar un poco de ayuda.

En ese caso, puede buscar al asistente. Específicamente, el menú Asistente en el software estadístico Minitab. El asistente siempre está listo para guiarlo a través de una tarea estadística difícil si no está seguro de qué hacer.

Por ejemplo, suponga que desea comparar dos materiales diferentes para hacer mochilas –lubre A y tela B, para determinar cuál sería un producto más duradero. Muestra materiales de los proveedores y mide la cantidad media de fuerza necesaria para destrozarlos.

Si ya está en sus estadísticas, sabe de inmediato que desea utilizar una prueba t de 2 muestras, que analiza la diferencia entre los medios de sus muestras para determinar si esa diferencia es estadísticamente significativa. También sabrás que las hipótesis de esta prueba de dos colas serían:

Y que si el valor p de la prueba es menor que el nivel de significancia elegido, debe rechazar la hipótesis nula.

¿Cuáles son los tipos de pruebas estadísticas?

Después de observar la distribución de datos y tal vez realizar algunas estadísticas descriptivas para descubrir la media, mediana o modo, es hora de hacer algunas inferencias sobre los datos. Como se mencionó anteriormente, las estadísticas inferenciales son el conjunto de pruebas estadísticas que los investigadores usan para hacer inferencias sobre los datos. Estas pruebas estadísticas permiten a los investigadores hacer inferencias porque pueden mostrar si un patrón observado se debe a la intervención o a la posibilidad. Hay una amplia gama de pruebas estadísticas. La decisión de qué prueba estadística para usar depende del diseño de la investigación, la distribución de los datos y el tipo de variable. En general, si los datos se distribuyen normalmente, se deben usar pruebas paramétricas. Si los datos no son normales, se deben usar pruebas no paramétricas. A continuación se muestra una lista de solo unas pocas pruebas estadísticas comunes y sus usos.

Pruebas para la fuerza de la asociación entre dos variables ordinales (no se basa en el supuesto de datos normalmente distribuidos)

Pruebas para la fuerza de la asociación entre dos variables categóricas

Pruebas para la diferencia entre la misma variable de diferentes poblaciones (por ejemplo, comparar niños con niñas)

Las pruebas para la diferencia entre medias de grupo después de cualquier otra varianza en la variable de resultado se tienen en cuenta (por ejemplo, controlar el sexo, el ingreso o la edad)

¿Qué es una prueba estadística?

Una prueba estadística permite evaluar cómo van los datos en contra de una determinada hipótesis, la hipótesis nula también llamada H0. Bajo H0, los datos se generan por casualidad. En otras palabras, los procesos controlados (manipulaciones experimentales, por ejemplo) no tienen influencia en los datos. Por lo general, H0 implica un concepto de igualdad (ejemplos: igualdad entre promedios, entre variaciones o entre una correlación y coeficiente cero).

H0 se opone a una hipótesis llamada hipótesis alternativa, señalada H1 o HA. A menudo, la hipótesis alternativa es la que el usuario desea tener éxito. Implica una noción de diferencia (diferencia entre medias, por ejemplo).

Si los datos no van lo suficiente contra H0, H0 no es rechazado. Por otro lado, si los datos van lo suficiente contra H0, H0 se rechaza y se considera cierto con un riesgo (bajo) cuantificado. Las pruebas estadísticas cuantifican este riesgo.

Desea comparar dos variedades de manzanas. Se pregunta si el tamaño promedio de las manzanas en la variedad 1 es diferente del tamaño promedio de las papas en la variedad 2. Esta es la forma en que podríamos indicar las hipótesis cero y alternativas:

H0: Tamaño promedio de papas en la variedad 1 = tamaño promedio de las papas en la variedad 2.

HA: Tamaño promedio de papas en la variedad 1 ≠ tamaño promedio de papas en la variedad 2.

¿Cuáles son las pruebas estadísticas de correlacion?

La correlación es una medida de la fuerza y dirección de asociación que existe entre dos variables. Los coeficientes de correlación ( (R )) asumen valores en el rango de −1 a +1, donde ± 1 indica la correlación positiva o negativa más fuerte posible y 0 indica ninguna asociación lineal entre las variables.

Comenzamos mirando el coeficiente de correlación de Pearson. Aquí comparamos la prueba incorporada (en R) para la correlación de Pearson con el modelo lineal equivalente.

Si tuviera que ejecutar el código anterior, vería las siguientes estadísticas clave que se encuentran en la salida de cada prueba:

Tabla 4.1: Modelo lineal de Pearson vs

La salida muestra que el coeficiente de correlación ( (R )) tiene un valor p de 0.1053, que es exactamente el mismo que el valor p para la pendiente del modelo lineal. En este caso, no rechazaríamos la hipótesis nula de que no había correlación entre las dos variables (en el nivel de significancia de 0.05).

La principal diferencia es que el modelo lineal devuelve la pendiente de la relación, ( beta_1 ) (que en este caso es -0.4636), en lugar del coeficiente de correlación, (r ). La pendiente suele ser mucho más interpretable e informativa que el coeficiente de correlación.

Puede ser útil comprender cómo el coeficiente de correlación de Pearson ( (r )) y el coeficiente de regresión o la pendiente ( ( beta_1 )) están relacionados, que es mediante la siguiente fórmula:

Cuando tanto x e y tienen las mismas desviaciones estándar ( (sd_x ) y (sd_y )), entonces la pendiente ( ( beta_1 )) será igual al coeficiente de correlación ( (r ))