Potencia de una prueba estadistica: Qué es y cómo se calcula

El poder estadístico de una prueba de hipótesis binaria es la probabilidad de que la prueba rechaza correctamente la hipótesis nula (H0 { displayStyle H_ {0}}) cuando una hipótesis alternativa específica (H1 { displayStyle H_ {1}}) es cierta. Se denota comúnmente por 1-β { displayStyle 1- beta}, y representa las posibilidades de una detección «verdadera positiva» condicional en la existencia real de un efecto para detectar. El poder estadístico varía de 0 a 1, y a medida que aumenta la potencia de una prueba, la probabilidad β { displayStyle beta} de cometer un error tipo II al no rechazar erróneamente la hipótesis nula disminuye.

Para una probabilidad de error tipo II de β, la potencia estadística correspondiente es 1 – β. Por ejemplo, si el Experimento E tiene un poder estadístico de 0.7, y el Experimento F tiene un poder estadístico de 0.95, entonces existe una probabilidad más fuerte de que el Experimento E haya tenido un error tipo II que el Experimento F. Esto reduce la sensibilidad del experimento E para detectar efectos significativos . Sin embargo, el experimento E es, en consecuencia, más confiable que el Experimento F debido a su menor probabilidad de un error tipo I. Se puede considerar de manera equivalente como la probabilidad de aceptar la hipótesis alternativa (H1 { DisplayStyle H_ {1}}) cuando es verdadera, es decir, la capacidad de una prueba para detectar un efecto específico, si ese efecto específico realmente existe . De este modo,

Si H1 { displayStyle H_ {1}} no es una igualdad, sino simplemente la negación de H0 { displayStyle H_ {0}} (así que, por ejemplo, con H0: μ = 0 { displayStyle H_ {0}: mu = 0} Para algunos parámetros de población no observados μ, { displaystyle mu,} Simplemente tenemos H1: μ ≠ 0 { displayStyle h_ {1}: mu neq 0}) Entonces la potencia no se puede calcular a menos que las probabilidades se conozcan para todos Posibles valores del parámetro que violan la hipótesis nula. Por lo tanto, uno generalmente se refiere al poder de una prueba contra una hipótesis alternativa específica.

A medida que aumenta la potencia, existe una probabilidad decreciente de un error tipo II, también llamado tasa de falsos negativos (β) ya que la potencia es igual a 1 – β. Un concepto similar es la probabilidad de error tipo I, también denominada tasa de falsos positivos o el nivel de una prueba bajo la hipótesis nula.

¿Qué es la potencia de la prueba estadística?

Enseñar a los estudiantes el concepto de poder en las pruebas de importancia puede ser desalentador. Afortunadamente, el plan de estudios de estadísticas AP requiere que los estudiantes entiendan solo el concepto de poder y lo que lo afecta; No se espera que calculen el poder de una prueba de importancia contra una hipótesis alternativa particular.

La definición más fácil para que los estudiantes entiendan es: el poder es la probabilidad de rechazar correctamente la hipótesis nula. Por lo general, solo estamos interesados en el poder de una prueba cuando el nulo es de hecho falso. Esta definición también deja más claro que la potencia es una probabilidad condicional: la hipótesis nula hace una declaración sobre los valores de los parámetros, pero el poder de la prueba está condicionado a cuáles son realmente los valores de esos parámetros.

Para dejar eso aún más claro: una prueba de hipótesis comienza con una hipótesis nula, que generalmente propone un valor muy particular para un parámetro o la diferencia entre dos parámetros (por ejemplo, «» o «») .1 Luego incluye «An» La hipótesis alternativa, que generalmente es una colección de posibles valores de parámetros que compiten con la propuesta en la hipótesis nula (por ejemplo, «» que es realmente una colección de posibles valores de y «que permite muchos valores posibles de. El poder de una prueba de hipótesis es la probabilidad de rechazar lo nulo, pero esto depende implícitamente de cuál sea realmente el valor del parámetro o la diferencia en los valores de los parámetros.

El siguiente diagrama de árboles puede ayudar a los estudiantes a apreciar el hecho de que α, β y potencia son probabilidades condicionales.

¿Cómo aumentar la potencia de una prueba estadística?

En la ciencia de datos, a menudo necesitamos ejecutar pruebas A/B e interpretar los resultados utilizando el poder estadístico. En el blog, explicaré qué es la potencia y cómo aumentar la potencia usando la visualización. Y enfatizo que estos métodos no tienen nada que ver con el hacking P.

En una prueba de hipótesis binaria, la hipótesis nula H0 es verdadera o la hipótesis alternativa ha es cierto. Por lo general, establecemos que el nulo no tenga ningún efecto o cosas que se mantengan igual, como dos medios ser el mismo (mu1 = mu2). Y establecemos que la hipótesis alternativa tiene algún tipo de efecto o las cosas cambian después de introducir una variable en el experimento, como dos medios no son las mismas (mu1 ≠ mu2).

Y para nosotros los probadores, no queremos que H0 sea verdadero. No queremos pasar por todos los problemas para implementar las pruebas solo para descubrir que las variables que presentamos son inútiles. En cambio, nos importa que HA sea cierto porque queremos encontrar variables significativas, por lo que debemos preocuparnos por la probabilidad de que tengamos razón: la probabilidad de que rechacemos H0 y, por lo tanto, aceptemos HA cuando HA es realmente cierto. Y eso se llama poder estadístico, su capacidad para detectar un efecto cuando está allí.

Imagen del autor

En este gráfico, visualizamos la potencia en verde más oscuro. En una prueba de hipótesis, siempre determinamos el valor alfa de antemano, que generalmente se establece en 0.05, por lo que la tasa de error tipo I se establece en piedra antes de que incluso comencemos la prueba. Luego, podemos calcular el valor crítico mínimo que necesitamos para rechazar H0. Podemos dibujar una línea desde la distribución de hipótesis nula hasta la distribución alternativa de hipótesis y separar el área bajo curva en dos piezas. Si nuestro valor T o Z calculado cae a la izquierda de la línea discontinua, no rechazamos H0 cuando HA es verdadero y cometimos un error tipo II. Si el valor calculado cae a la derecha, rechazamos H0 cuando HA es verdadero y hacemos la llamada correcta. Por lo tanto, el área a la derecha de la curva es nuestro poder.

¿Qué efecto sobre el nivel de significación de la prueba tiene el incrementar el tamaño de la muestra?

La probabilidad de no cometer un
El error de tipo II se llama potencia de
una prueba de hipótesis.

Para calcular el poder de la prueba, uno ofrece una alternativa
Ver sobre el valor «verdadero» del parámetro de población,
Suponiendo que la hipótesis nula es falsa. los
El tamaño del efecto es la diferencia
entre el valor verdadero y el valor especificado en el nulo
hipótesis.

Por ejemplo, supongamos que la hipótesis nula establece que una población
la media es igual a 100. Un investigador podría preguntar: ¿Cuál es la probabilidad?
de rechazar la hipótesis nula si la verdadera media población es
igual a 90? En este ejemplo, el
El tamaño del efecto sería 90 – 100, lo que es igual a -10.

El poder de una prueba de hipótesis se ve afectado por tres factores.

Tamaño de muestra (N). Otras cosas son iguales, mayores
El tamaño de la muestra, mayor es la potencia de la prueba.
Nivel de significancia (α). Cuanto menor sea el nivel de significancia,
cuanto menor sea la potencia de la prueba. Si reduce el nivel de significancia (por ejemplo, de 0.05 a 0.01),
la
La región de aceptación se hace más grande. Como resultado, es menos probable que
rechazar la hipótesis nula. Esto significa que es menos probable que
rechazar la hipótesis nula cuando es falsa, por lo que es más probable que
cometer un error tipo II. En resumen, la potencia de la prueba se reduce cuando reduce el nivel de significancia; y viceversa.
El valor «verdadero» del parámetro que se está probando. Cuanto mayor es
diferencia entre el valor «verdadero» de un parámetro y el valor
especificado en la hipótesis nula, cuanto mayor sea el poder de
la prueba. Es decir, cuanto mayor sea el tamaño del efecto,
Cuanto mayor sea el poder de la prueba.

Otras cosas son iguales, ¿cuál de las siguientes acciones
¿Reduce el poder de una prueba de hipótesis?

¿Cuándo se concluye que una prueba presenta alta potencia se entiende que?

Hace años, cuando comencé a probar divididos, pensé que valía la pena ejecutar cada prueba. No importaba si estaba cambiando un color de botón o un titular, quería ejecutar esa prueba.

Mi creencia entusiasta, pero equivocada era que simplemente necesitaba encontrar aspectos para optimizar, configurar la herramienta y comenzar la prueba. Después de eso, pensé, era solo una cuestión de esperar la infame importancia estadística del 95%.

Después de implementar variaciones «estadísticamente significativas», no experimenté un impulso en las ventas porque no había un verdadero elevador, «era imaginario». Muchas de esas pruebas estaban condenadas al inicio. Estaba cometiendo errores estadísticos comunes, como no probar un ciclo económico completo o descuidar tener en cuenta el tamaño del efecto.

Tampoco logré considerar otra posibilidad: que una prueba «con poca potencia» podría hacer que me pierda los cambios que generarían un «verdadero elevador».

Comprender el poder estadístico, o la «sensibilidad» de una prueba, es una parte esencial de la planificación previa a la prueba y lo ayudará a implementar más cambios generadores de ingresos en su sitio.

El poder estadístico es la probabilidad de observar un resultado estadísticamente significativo en el nivel alfa (α) si hay un efecto verdadero de cierta magnitud. Es su capacidad para detectar una diferencia entre las variaciones de prueba cuando realmente existe una diferencia.

El poder estadístico es el logro coronado del arduo trabajo que realiza en la investigación de conversión y los tratamiento (s) con priorizado adecuadamente contra un control. Es por eso que el poder es tan importante: aumenta su capacidad para encontrar y medir las diferencias cuando realmente están allí.

¿Cómo se mide la potencia estadística?

El poder estadístico de un estudio (a veces llamado sensibilidad) es la probabilidad de que el estudio distinga un efecto real de uno de los casos. Es la probabilidad de que la prueba rechace correctamente la hipótesis nula (es decir, «demostrando» su hipótesis). Por ejemplo, un estudio que tiene una potencia del 80% significa que el estudio tiene un 80% de posibilidades de que la prueba tenga resultados significativos.

Un alto poder estadístico significa que los resultados de la prueba son probablemente válidos. A medida que aumenta la potencia, la probabilidad de hacer un error de tipo II disminuye.
Un bajo poder estadístico significa que los resultados de la prueba son cuestionables.

El poder estadístico lo ayuda a determinar si el tamaño de su muestra es lo suficientemente grande.
Es posible realizar una prueba de hipótesis sin calcular el poder estadístico. Si el tamaño de su muestra es demasiado pequeño, sus resultados pueden no ser concluyentes cuando pueden haber sido concluyentes si tuviera una muestra lo suficientemente grande.

Un error tipo I es el rechazo incorrecto de una hipótesis nula verdadera. Alpha es el tamaño de la prueba. Un error de tipo II es donde no rechaza una hipótesis nula falsa. Este es el β ..

El análisis de potencia es un método para encontrar el poder estadístico: la probabilidad de encontrar un efecto, suponiendo que el efecto esté realmente allí. Para decirlo de otra manera, el poder es la probabilidad de rechazar una hipótesis nula cuando es falsa. Tenga en cuenta que la potencia es diferente de un error tipo II, que ocurre cuando no puede rechazar una hipótesis nula falsa. Entonces podría decir que la potencia es su probabilidad de no cometer un error tipo II.

¿Qué es la potencia estadística?

El poder estadístico es la probabilidad de que una prueba produzca un resultado estadísticamente significativo cuando la hipótesis alternativa es cierta. En otras palabras, el poder de una prueba es su probabilidad de rechazar la hipótesis nada cuando la hipótesis nada es falso y es el complemento de una de las probabilidad de error del tipo II.

Como toda probabilidad, incluso el poder estadístico es un valor siempre entre 0 y 1. Cuanto más se acerca el poder 0, más se dice que la prueba no es muy poderosa. Cuanto más se acerca el valor 1, más se dice que la prueba es poderosa.

Por ejemplo, las pruebas no paramétricas son menos potentes que las pruebas paramétricas equivalentes porque su valor de potencia es más bajo. Esta es la razón por la cual, cuando se verifican las hipótesis de su base, es preferible usar pruebas paramétricas. Sin embargo, cuando no se verifican las hipótesis, las pruebas paramétricas pierden potencia y, por lo tanto, en estos casos se prefiere usar pruebas no paramétricas.

En la práctica, el ideal sería que su investigación tenía una alta potencia (por ejemplo, 0.80 o 0.90) y un bajo nivel de importancia (por ejemplo 0.05 o 0.01).

Por ejemplo, la adopción de un nivel de significancia de 0.05 garantiza que una hipótesis real de nada real se rechaza, en promedio, solo una vez de 20 años. Si bien un nivel de importancia igual a 0.01 garantiza que, en promedio, se rechazan allí «no hay hipótesis cuando está en realidad es cierto solo en 1 caso de 100.

¿Qué es la potencia estadística suficiente?

El poder estadístico de una prueba es en estadísticas la probabilidad de rechazar la hipótesis nula (por ejemplo, la hipótesis según la cual los grupos son idénticos con respecto a una variable) sabiendo que la hipótesis nula es incorrecta (en los grupos de realidad son diferentes). Podemos expresarlo en la forma 1-β, donde β es el riesgo de la segunda especie, es decir, el riesgo de no demostrar que dos grupos son diferentes mientras que son en realidad.

PPor ejemplo, en el contexto de un estudio aleatorio doble ciego para el desarrollo de un nuevo fármaco, el riesgo de β tipo 2 puede ser la probabilidad de concluir que un fármaco no es mejor que un placebo cuando lo son. En este caso, el poder de la prueba sería la probabilidad de concluir que el medicamento es mejor que el placébo, lo cual es cierto.

El poder depende del número de sujetos incluidos, el riesgo de la primera especie (α) y el tamaño del efecto (diferencia entre los dos grupos para un ensayo clínico) en relación con otras cantidades de interés (como la varianza).

El poder estadístico otorgado permite calcular el número de sujetos necesarios en un estudio. En general, el poder deseado es fijo, el riesgo de la primera especie y los parámetros asociados con los grupos para obtener el número de sujetos necesarios para el estudio. El cálculo del poder estadístico puede aplicarse a un gran número de pruebas estadísticas (comparación de medias, comparación de proporciones, modelo de logística, modelo de regresión, etc.), cuando la hipótesis alternativa es suficientemente restrictiva.

¿Qué es la potencia de un contraste?

El contraste en una composición se refiere a sus oscuros y luces, independientemente de sus colores. Por ejemplo, el color azul puede ser tan oscuro que parece casi negro o tan claro que parece casi blanco. En el arte, el grado de oscuridad o ligereza de un color se llama su valor. Un color puede ser cualquier grado de oscuro a luz. Hay muchos valores entre la luz oscura más oscura y la luz más ligera.

Los blancos y negros crean el mayor contraste de valores porque muestran una oscuridad extrema contra la luz extrema (o luz extrema contra la oscuridad extrema). Cualquier color oscuro contra cualquier color claro también tiene un alto contraste.

Usa en contraste para crear drama y llamar la atención en una obra de arte. El ojo se siente inmediatamente atraído por áreas de alto contraste, por lo que puede usarlo para su ventaja decidiendo cuál es su centro de interés. Además, dentro de las figuras de los gatos, empleé un alto contraste en los ojos colocando el único blanco puro en los reflejos contra las pupilas negras.

[Nota de los lectores: al final de esta publicación, aprenda cómo podría ser elegible para ganar un juego de pluma de Staedtler Triplus Fineliner! ]

Creé este libro especial para colorear para colorear para adultos Elegant Elegant Midnight Edition para que pueda colorear las imágenes con el drama adicional de los fondos negros. ¡El contraste del color contra el negro hará que tus colores parezcan brillar y aparecer de la página! Los sujetos de elefantes cobran vida y se convierten en el foco, y el fondo se ilumina.

Las ilustraciones son la «misma» edición original «día» de elegantes elefantes, pero su transformación de fondo los hace totalmente diferentes en apariencia y proporciona una experiencia de coloración distintiva.

¿Qué es la potencia de la prueba?

Para definir el poder de una prueba, debemos decidir qué grado de diferencia queremos poder detectar. Esto requerirá algún conocimiento general de la magnitud de la diferencia que generalmente debe detectarse y se puede determinar utilizando datos pasados y convertirlos en términos de valores D ‘. El poder de una prueba se puede ilustrar calculando el tamaño de la muestra necesario para detectar una D ‘dada con una confianza dada. Cuanto más pequeño sea el tamaño de la muestra, más poderosa es la prueba. Se han publicado ecuaciones que proporcionan el tamaño de la muestra necesaria para un valor d ‘dado, nivel α y potencia. Las tablas se pueden construir y se muestra un ejemplo en la Tabla 4.

Tabla 4. Tamaño de la muestra requerido para detectar un grado dado de diferencia (D ‘) para los niveles de α y de potencia dados y el protocolo de discriminación

Aquí está la forma de leer la mesa. Para el 2-AFC, primera línea: si ejecutamos 78 pruebas y detectamos una diferencia significativa en el nivel del 5%, estamos 95% seguros de que existe una diferencia entre los productos. Si no detectamos una diferencia significativa en el nivel del 5%, estamos 80% seguros de que la D ‘fue inferior a 0,5. Para alcanzar el mismo nivel de confianza para las pruebas Duo-Trio, 3-AFC y Triangle, necesitamos un tamaño de muestra de 3092, 64 y 2742 respectivamente. Estas variaciones en el tamaño de la muestra indican la mayor potencia de los protocolos utilizando la estrategia de descremado.

Las mismas pruebas no se pueden incluir en esta tabla debido a la cuestión del sesgo de respuesta. Es necesario calcular un valor de potencia para cada ubicación y tamaño de criterio. Sin embargo, como regla general, la misma prueba diferente es ligeramente más poderosa que las pruebas de triángulo y dúo-trio, pero menos potente que las pruebas de 2 y 3-AFC, mientras que la potencia de la prueba A/no una prueba está más cerca la de la prueba 2-AFC. N.B.: Se han publicado tablas de energía utilizando la proporción de discriminadores en la población. Esta noción es defectuosa (está directamente vinculada a la proporción de respuestas correctas, que hemos visto no es una medida confiable del grado de diferencia entre los productos) y tales tablas deben usarse con extrema precaución.

¿Qué es 1 beta?

El poder de una prueba de hipótesis es la probabilidad de que la prueba apoye correctamente la hipótesis alternativa. Otra forma de decir esto es que el poder es la probabilidad de que las entradas que pertenecen a la distribución B se identificarán correctamente. La potencia se calcula como 1-beta. Entonces, ¿qué es beta? Beta es la probabilidad de que aceptemos la hipótesis nula incluso si la hipótesis alternativa es realmente cierta. En nuestro caso, es la probabilidad de que identifiquemos erróneamente un valor como parte de la distribución A cuando realmente es parte de la distribución B. Una métrica de potencia estándar es a menudo .8 u 80% que hace beta .2 o 20%. Nuevamente, querrá considerar su propia prueba al decidir el nivel beta apropiado para usted. Visualizemos beta.

Imagen creada por el autor

La región sombreada representa beta. Puede ver cómo estos son valores que se considerará parte de la distribución A (apoyar la hipótesis nula) y, por lo tanto, tienen un resultado de prueba negativo. Es por eso que se consideran falsos negativos. Este tipo de error de prueba se llama error tipo II.

Después de aprender sobre alfa y beta, puede ver cómo a menudo es un equilibrio entre los dos. Si queremos evitar falsos positivos o errores de tipo I, entonces podemos elevar nuestro nivel de confianza. Pero cuanto más estrictos somos para evitar falsos positivos, entonces aumentamos la probabilidad de obtener falsos negativos o errores de tipo II. Hay algunas cosas que puede considerar al intentar conciliar este problema:

Puede considerar su prueba particular y qué tipo de error sería peor. Imagine una prueba Covid-19 como ejemplo. Si tuviera que probar a alguien por Covid-19, un falso negativo es peor que un falso positivo porque alguien que tiene el virus pero que se le dice que no (falso negativo) puede terminar infectando a muchos otros, ya que piensan que no tenerlo. Es mejor identificar erróneamente a las personas como el virus (falso positivo) porque lo peor que sucederá es que se quedan en casa y aislen incluso si no era necesario. Por lo tanto, las pruebas para CoVID-19 deberían priorizar tener un valor beta más bajo. Pero tal vez una empresa que prueba un sitio web quisiera minimizar los errores de tipo I o falsos positivos porque hacer un cambio puede ser un esfuerzo costoso lleno de riesgos que no valdría la pena a menos que estuvieran muy seguros de que tendría el impacto positivo previsto. Pueden perder algunas oportunidades, pero evitan errores costosos. Al considerar su problema particular, puede minimizar o maximizar el error que más le importa.