Incluso las definiciones más simples de valores P tienden a complicarse, así que tengan paciencia conmigo mientras lo descompongo.
Cuando los investigadores calculan un valor p, están poniendo a prueba lo que se conoce como la hipótesis nula. Lo primero que debe saber: esta no es una prueba de la pregunta que el experimentador más desesperadamente quiere responder.
Digamos que el experimentador realmente quiere saber si comer una barra de chocolate al día conduce a la pérdida de peso. Para probar eso, asignan a 50 participantes para comer una barra de chocolate al día. Se les ordena a otros 50 que se abstengan de las deliciosas cosas. Ambos grupos se pesan antes del experimento y luego después, y se compara su cambio de peso promedio.
La hipótesis nula es el argumento del defensor del diablo. Afirma que no hay diferencia en la pérdida de peso de los comedores de chocolate frente a los abstemios de chocolate.
Rechazar lo nulo es un gran obstáculo que los científicos deben aclarar para demostrar su hipótesis. Si el nulo se encuentra, significa que no han eliminado una explicación alternativa importante para sus resultados. ¿Y qué es la ciencia si no un proceso de reducción de explicaciones?
Entonces, ¿cómo descartan el nulo? Calculan algunas estadísticas.
El investigador básicamente pregunta: ¿Qué tan ridículo sería creer que la hipótesis nula es la verdadera respuesta, dados los resultados que estamos viendo?
Rechazar al nulo es como el principio de «inocente hasta que se demuestre» en los casos judiciales, explicó Regina Nuzzo, profesora de matemáticas en la Universidad de Gallaudet. En la corte, comienza con la suposición de que el acusado es inocente. Luego comienzas a mirar la evidencia: el cuchillo sangriento con sus huellas digitales en ella, su historia de violencia, cuentas de testigos oculares. A medida que aumenta la evidencia, esa presunción de inocencia comienza a parecer ingenua. En cierto punto, los jurados tienen la sensación, más allá de una duda razonable, de que el acusado no es inocente.
¿Qué significa P 0.05 en estadística?
Si obtenemos un valor p de menos de 0.05 de nuestra prueba estadística, nos complace concluir que hay una diferencia entre nuestros medios, y son estadísticamente significativamente diferentes. 0.05 es el corte establecido por la convención.
Entonces, ¿qué significa P <0.05 y por qué P tiene que ser inferior a 0.05?
Al establecer el valor p en 0.05, estamos diciendo que solo hay un 5% de posibilidades, o menos, de obtener el resultado de nuestra prueba estadística, cuando en realidad no hay una diferencia allí. Si el valor p que obtenemos es inferior a 0.05, hay menos del 5% de posibilidades de que la diferencia que hemos encontrado no está realmente allí y solo hemos encontrado esta diferencia por error.
Por el contrario, si nuestra prueba estadística volviera con un valor p de 0.08, ya que esto es mayor que 0.05, y concluiríamos que no hay diferencias estadísticamente significativas entre nuestros medios.
«Donde establecemos el valor p determina cuán estrictos somos al declarar un resultado estadísticamente significativo»
Si establecemos que el valor p sea 0.01, entonces solo estaríamos encantados de aceptar un hallazgo que solo podría ocurrir el 1% del tiempo, o menos, si la diferencia no estuviera realmente allí. Donde establecemos el valor p determina cuán estricto queremos ser acerca de decir que hay una diferencia media cuando en realidad no hay uno allí. El valor p no tiene que ser 0.05, pero generalmente en estadísticas es el límite con el que estamos felices de vivir.
Si alguna vez queremos ser más estrictos, podemos ajustar el valor P haciéndolo más pequeño, pero más sobre eso, y por qué tenemos que tener en cuenta cuántas pruebas estamos ejecutando, la próxima vez.
¿Cuando el valor de p es estadísticamente significativo?
En 2016, la Asociación Estadística Americana (ASA) emitió una declaración de advertencia contra el mal uso de la significación estadística y los valores de P [5]. Un número especial en el estadístico estadounidense [5] presentó 37 artículos sobre «Inferencia estadística en el siglo XXI: un mundo más allá de P <0.05".
Los principales puntos ASA se destacan en forma de no, como sigue:
No base sus conclusiones únicamente en si se encontró que una asociación o efecto es estadísticamente significativo (es decir, el valor de P pasó algún umbral arbitrario como p <0.05);
No crea que exista una asociación o efecto solo porque fue estadísticamente significativo;
No crea que una asociación o efecto esté ausente solo porque no fue estadísticamente significativo;
No crea que su valor de P le da la probabilidad de que la posibilidad solo produjo la asociación o efecto observado o la probabilidad de que su hipótesis de prueba sea cierta;
No concluya nada sobre la importancia científica o práctica basada en la significación estadística (o la falta de ella).
Según Wasserstein et al. [6], la declaración estadísticamente significativa hoy se ha vuelto sin sentido. En 1885, la intención original de Edgeworth de significación estadística era simplemente tener una herramienta para indicar cuándo un resultado garantiza un mayor escrutinio; La significación estadística nunca tuvo la intención de implicar importancia científica, pero esa idea se ha perdido irremediablemente [7]. Sin embargo, un siglo después, la confusión persiste. Tales dudas pueden conducir a elecciones radicales, como las tomadas por los editores de psicología social básica y aplicada, que decidieron prohibir los valores P en 2015 [8].
¿Qué es P 0.001 en estadística?
En estos días, cuando miro los trabajos de investigación científicos o reviso manuscritos, parece haber casi una competencia para tener un valor de P más pequeño como un medio para presentar hallazgos más significativos. Por ejemplo, una búsqueda rápida en Internet usando «P <0.0000001" creó muchos documentos incluso informando sus valores de P a este nivel. ¿Puede y debería un valor p más pequeño desempeñar un papel así? En mi opinión, no puede. Creo que el software estadístico actual que hace posibles informes estadísticos centrados en el valor P está liderando la investigación científica en un aturdimiento y callejón sin salida.
Para comprender completamente por qué la consulta centrada en el valor P es el enfoque incorrecto, comprendamos en primer lugar cuáles son las pruebas de valor de P y las pruebas de hipótesis (HT) y examinan cómo se ejecutaron las pruebas de hipótesis estadística (SHT) antes de la era de la computadora. Mientras que el valor P y HT ahora se usan bajo el paraguas de SHT, tenían diferentes raíces. El valor P y su aplicación en la investigación científica se acreditan al estadístico inglés Sir Ronald Aylmer Fisher1 en 1925. En el sistema de consulta de Fisher, un estadístico de prueba se convierte a una probabilidad, a saber, el valor de P, utilizando la distribución de probabilidad de la estadística de prueba bajo La hipótesis nula y el valor P se usaron únicamente como una ayuda, después de la recopilación de datos, para evaluar si la estadística observada es un evento simplemente aleatorio o, de hecho, pertenece a un fenómeno único que se ajusta a la hipótesis científica de los investigadores.2 Además, 0.05 o 0.01 son No son los únicos puntajes de corte de valor P para la decisión. Por lo tanto, el sistema de investigación de valor P de Fisher pertenece a un sistema de decisión posteriori, que también presenta: «flexibilidad, más adecuada para proyectos de investigación ad-hoc, inferencial basado en muestras, sin análisis de energía y sin hipótesis alternativa» (p. 4) .3 .3
HT, por otro lado, fue acreditado al matemático polaco Jerzy Neyman y el estadístico estadounidense Egon Pearson4 en 1933, que buscó mejorar el método de Fisher proponiendo un sistema para aplicar la repetición de experimentos. Neyman y Pearson creían que una hipótesis nula no debería considerarse a menos que una posible alternativa fuera concebible. A diferencia del sistema de Fisher, el error tipo I o el error que los investigadores desean minimizar, la región crítica correspondiente y el valor de una prueba deben establecerse primero en el sistema de Neyman -Pearson, que, por lo tanto, pertenece al sistema de decisión a priori. Además, el sistema de Neyman -Pearson es «más poderoso, más adecuado para proyectos de muestreo repetidos, deductivos, menos flexibles que el sistema de Fisher y los valores predeterminados fácilmente al sistema de Fisher» (p. 8) .3 .3
¿Qué significa P 0.01 en estadística?
Cada vez que realizamos una prueba de hipótesis, siempre definimos una hipótesis nula y alternativa:
- Hipótesis nula (H0): los datos de la muestra ocurren puramente de Chance.
- Hipótesis alternativa (HA): los datos de la muestra están influenciados por alguna causa no aleatoria.
Si el valor p de la prueba de hipótesis es menor que algún nivel de significancia (por ejemplo, α = .01), entonces podemos rechazar la hipótesis nula y concluir que tenemos evidencia suficiente para decir que la hipótesis alternativa es verdadera.
Si el valor p no es inferior a .01, entonces no rechazamos la hipótesis nula y concluimos que no tenemos evidencia suficiente para decir que la hipótesis alternativa es verdadera.
Los siguientes ejemplos explican cómo interpretar un valor p inferior a .01 y cómo interpretar un valor p mayor que .01 en la práctica.
Supongamos que una fábrica afirma que produce baterías con un peso promedio de 2 onzas.
Un auditor entra y prueba la hipótesis nula de que el peso medio de una batería es de 2 onzas frente a la hipótesis alternativa de que el peso medio no es 2 onzas, utilizando un nivel de significancia de 0.01.
El auditor realiza una prueba de hipótesis para la media y termina con un valor p de 0.0046.
Dado que el valor p de 0.0046 es menor que el nivel de significancia de 0.01, el auditor rechaza la hipótesis nula.
Concluye que hay evidencia suficiente para decir que el verdadero peso promedio de una batería producida en esta fábrica no es de 2 onzas.
¿Cómo se interpreta el valor p en estadística?
El valor P es un concepto fundamental en estadísticas inferenciales que se utiliza para sacar conclusiones basadas en los resultados de las pruebas estadísticas. En pocas palabras, el valor de P es una medida de extremidad o improbabilidad. La improbabilidad de un evento nos ayuda a tomar decisiones informadas en lugar de decisiones aleatorias.
Para comprender la importancia del valor de P, debemos familiarizarnos con dos términos clave que son población y muestra.
- La población es todos los elementos en un grupo. Por ejemplo, los estudiantes universitarios en EE. UU. Es una población que incluye a todos los estudiantes universitarios en EE. UU. Las personas de 25 años en Europa es una población que incluye a todas las personas que se ajustan a la descripción.
No siempre es factible o posible realizar un análisis sobre la población porque no podemos recopilar todos los datos de una población. Por lo tanto, usamos muestras.
- La población es todos los elementos en un grupo. Por ejemplo, los estudiantes universitarios en EE. UU. Es una población que incluye a todos los estudiantes universitarios en EE. UU. Las personas de 25 años en Europa es una población que incluye a todas las personas que se ajustan a la descripción.
Lo que proporciona el valor P es la capacidad de evaluar o comparar poblaciones basadas en estadísticas de muestra. Por lo tanto, el valor P puede considerarse como un puente entre la población y la muestra.
Prefiero explicar este tipo de conceptos en torno a ejemplos de la vida real que creo que hace que sea más fácil comprender el tema.
Considere que usted y su amigo crearon un sitio web. No está satisfecho con el diseño actual y desea hacer algunos cambios. Usted le dice a su amigo que si realiza algunos cambios en el diseño, más personas harán clic en el sitio web y ganará más dinero a través de anuncios. Sin embargo, su amigo cree que esto es una pérdida de tiempo y cambiar el diseño no aumentará la tasa de clics (CTR).
¿Qué significa p significativa?
La validez de la conclusión científica de un trabajo de investigación debe basarse en algo más que el análisis estadístico en sí. No solo los métodos estadísticos aplicados apropiadamente, sino que también la interpretación correcta de los resultados estadísticos también juega un papel importante en hacer que las conclusiones sonen. Para apoyar la importancia de la conclusión del estudio, el concepto de «significación estadística», típicamente evaluada con un índice referido como el valor de P se usa comúnmente. El uso prevalente de los valores de P para resumir los resultados de los artículos de investigación podría resultar de la mayor cantidad y complejidad de los datos en la investigación científica reciente. Los autores y lectores necesitaban un resumen simple de los resultados de la investigación, lo que hizo que el uso del valor P fuera más popular.
Desde la introducción del valor P en 1900 por Pearson [1], los valores de P son el método preferido para resumir los resultados de los artículos médicos. Debido a que el valor de P es el resultado de una prueba estadística, muchos autores y lectores lo consideran el resumen más importante de los análisis estadísticos.
Aunque es cierto que el valor de P es un método muy útil para resumir los resultados del estudio, es innegable que los valores de P se usan mal y se malinterpretan en muchos casos; Podemos observar que muchos autores o lectores consideran valores de P de 0.05 como el «estándar de oro» de «importancia»; Se considera que un P> 0.05 es de «no importancia» o un resultado «sin valor» para ellos. Sin embargo, eso no es verdad. Debido no solo al malentendido de los valores de P, sino a muchos problemas inherentes en sí mismo, se han planteado muchas preocupaciones; La Asociación Estadística Americana (ASA) publicó seis principios con respecto a la interpretación y el uso adecuado de los valores [2], y el informe de valores de P con pruebas de hipótesis nulas se prohibió en una revista médica [3].
¿Qué significa una p significativa?
Cuando realiza una prueba de hipótesis, una hipótesis es una hipótesis y un valor umbral α (por convención generalmente 0.05) que indica el nivel de importancia de la prueba. Calculó el valor p relacionado con los datos observados. Es posible comportarse de la siguiente manera:
- Si el valor p> α, la evidencia empírica no es suficientemente contraria a la hipótesis, nada que por lo tanto no se puede rechazar;
- Si el valor p ≤ α, la evidencia empírica es fuertemente contraria a la hipótesis, nada que, por lo tanto, debe rechazarse. En este caso se dice que los datos observados son estadísticamente significativos.
Sin embargo, si el valor p ≈ α, es decir, está cerca del valor umbral, se requiere atención. El valor P se utiliza para proporcionar más información sobre una prueba que la aceptación o la negativa para un cierto nivel de significancia. Por esta razón, los análisis estadísticos siempre deben informar el valor del valor p observado que permite a los lectores sacar sus propias conclusiones.
Para realizar una prueba estadística, es importante fijar el nivel de significación (generalmente indicado con la letra griega α, alfa) antes de calcular el valor p. Si el valor P se calcula primero, el experimentador sabría qué valores para ese nivel de significancia conducen a aceptar o rechazar la hipótesis nada, y podría elegir el nivel de acuerdo con el resultado deseado.
Tanto h { dongestyle h} la hipótesis como el valor x { displaystyle x} de los datos observados se extrae de una nota variable aleatoriax { displaysstyle x}. El valor p se define como probabilidad, se supone que la hipótesis h { desplazyle h}, para obtener un resultado (de los datos observados) igual o «más extrema» que el realmente observado. Lo que se entiende por «más extremo» con precisión, depende del tipo de pruebas que pretenda realizar. Si la prueba es bilateral, los resultados más extremos son los valores de x { splatyle x} para los cuales {xinti} { dongestyle {x leq x }} o {x swish} { displaystyle {x geq x }}. Si la prueba es unilateral, entonces los resultados más extremos son los valores de x { dongestyle x} para los cuales {x ellos} { displaystyle {x geq x }}. Si la prueba es unilateral a la izquierda, los resultados más extremos son los valores de x { dongestyle x} para los cuales {xinti} { displaystyle {x leq x }}. Entonces el valor p está dado por:
Cuanto más es pequeño el valor del valor p, mayor es el significado, ya que el resultado nos dice que la hipótesis h { splawyle h} considerada no explica adecuadamente los datos observados, es decir, no es muy creíble que el El valor observado en realidad se ha extraído de la variable aleatoria x { donnestyle x}.
¿Cómo se interpreta P?
En estadísticas, cada conjetura sobre la distribución de probabilidad desconocida de una colección de variables aleatorias que representan los datos observados x { displayStyle x} en algún estudio se denomina hipótesis estadística. Si establecemos solo una hipótesis y el objetivo de la prueba estadística es ver si esta hipótesis es sostenible, pero no investigar otras hipótesis específicas, entonces dicha prueba se denomina prueba de hipótesis nula.
Como nuestra hipótesis estadística, por definición, establecerá alguna propiedad de la distribución, la hipótesis nula es la hipótesis predeterminada bajo la cual esa propiedad no existe. La hipótesis nula es típicamente que algún parámetro (como una correlación o una diferencia entre las medias) en las poblaciones de interés es cero. Tenga en cuenta que nuestra hipótesis podría especificar la distribución de probabilidad de x { displayStyle x} con precisión, o solo podría especificar que pertenece a alguna clase de distribuciones. A menudo, reducimos los datos a una sola estadística numérica, por ejemplo, T { DisplayStyle t}, cuya distribución de probabilidad marginal está estrechamente relacionada con una cuestión principal de interés en el estudio.
El valor p se usa en el contexto de las pruebas de hipótesis nulas para cuantificar la importancia estadística de un resultado, el resultado es el valor observado de la estadística elegida t { displaystyle t}. [Nota 2] menor es la p- El valor es que cuanto menor sea la probabilidad de obtener ese resultado si la hipótesis nula fuera cierta. Se dice que un resultado es estadísticamente significativo si nos permite rechazar la hipótesis nula. En igualdad de condiciones, en igualdad de condiciones, los valores p más pequeños se toman como evidencia más fuerte contra la hipótesis nula.
Hablando libremente, el rechazo de la hipótesis nula implica que hay evidencia suficiente en su contra.
¿Cuando un valor de p es significativo?
Ahora aquí es donde se complica. Los científicos usan el término «P» para describir la probabilidad de observar una diferencia tan grande por casualidad en dos grupos de personas exactamente de la misma. En estudios científicos, esto se conoce como el «valor p».
Si es poco probable que la diferencia en los resultados ocurriera solo por casualidad, la diferencia se pronuncia «estadísticamente significativa».
Las probabilidades matemáticas como los valores P varían de 0 (sin posibilidad) a 1 (certeza absoluta). Entonces, 0.5 significa una probabilidad del 50 por ciento y 0.05 significa una probabilidad del 5 por ciento.
En la mayoría de las ciencias, los resultados que producen un valor p de .05 se consideran en el límite de la significación estadística. Si el valor p está por debajo de .01, los resultados se consideran estadísticamente significativos y si está por debajo de .005 se consideran altamente estadísticamente significativos.
Pero, ¿cómo nos ayuda esto a comprender el significado de significación estadística en un estudio en particular? Volvamos a nuestro estudio de pérdida de peso. Si los resultados producen un valor p de .05, esto es lo que dicen los científicos: «Suponiendo que los dos grupos de personas que se comparan fueron exactamente los mismos desde el principio, hay una muy buena oportunidad: el 95 por ciento, que los tres -Kg La diferencia en la pérdida de peso no se observaría si el medicamento para la pérdida de peso no tuviera ningún beneficio «. A partir de este hallazgo, los científicos inferirían que el fármaco para perder peso es realmente efectivo.
Si nota que el valor p de un hallazgo es .01 pero prefiere expresarse de manera diferente, simplemente reste el valor p del número 1 (1 menos .01 es igual a .99). Por lo tanto, un valor p de .01 significa que hay una excelente oportunidad, del 99 por ciento, de que la diferencia en los resultados no se observaría si la intervención no tuviera ningún beneficio.
¿Cómo saber si un valor es estadísticamente significativo?
Los fanáticos de la Guía Galáctica para su propio apoyo saben que la respuesta a todas las preguntas de la vida, y del universo es 42. Obviamente, incluso si la tendencia a buscar la verdad en un número o más números es algo que hay algo que le preocupa cercanamente. Nosotros en Infodada, ciertamente.
Cuando usamos datos, nos referimos implícitamente al concepto de significación estadística. ¿Cuántas veces hemos sentido que no hay diferencia entre dos grupos alrededor de cierto indicador, por qué esta diversidad «no es estadísticamente significativa»?
Frente a los datos, por ejemplo, en la efectividad de un determinado procesamiento en un grupo de pacientes y en el grupo de control, podemos hacer una hipótesis: la «hipótesis cero», es decir, que no hay diferencia entre los grupos con respecto a los grupos con respecto a los grupos parámetro Esto significa que las diferencias observadas son el trabajo del caso. Para decidir si la hipótesis cero es verdadera o falsa, se necesitan pruebas estadísticas. Si estos muestran que la hipótesis cero es falsa, a saber, que las variaciones no son atribuibles al azar, entonces podríamos decir que los datos en nuestra posesión son estadísticamente significativos.
El nivel de importancia de un experimento se define como un valor (P) de la probabilidad de que las diferencias observadas se deban al azar. Convencionalmente, se define como p = 0.05 (probabilidad del 5%), dentro del intervalo real entre 0 (ninguna probabilidad de que la diferencia observada pueda atribuirse al azar) y 1 (certeza de que la diferencia observada es aleatoria).
P es, por lo tanto, el valor más bajo al que se puede rechazar la hipótesis cero. Si P es inferior a 0.05, por lo que se acerca mucho a 0, significa baja probabilidad de que la diferencia observada pueda atribuirse al azar y, por lo tanto, hablamos de significación estadística.
Bueno: todo se ejecuta, lógicamente, pero las prácticas en el campo biomédico son otra cosa. En un comentario que apareció esta semana sobre la naturaleza, firmado por tres estadísticas, Valentin Amrhein, Sander Groenlandia, Blake McShane y firmado por 800 firmantes, los científicos deben abandonar la significación estadística, acusando a las conclusiones demasiado perentorias, dejando poco espacio para el espacio necesario necesario sombras.
Los autores no requieren que los valores de P mismos se abandonen como una herramienta estadística, sino que esperan que comenzara la incertidumbre desde múltiples ángulos en el campo biomédico.
El ejemplo informado es el siguiente: un análisis sobre los efectos no intencionales de los medicamentos antiinflamatorios, mostró «resultados estadísticamente no significativos», lo que llevó a los investigadores a concluir que la exposición a los medicamentos no se asoció con fibrilación auricular. Sin embargo, estos resultados estaban en contraste con los de un estudio previo, lo que destacó las diferencias estadísticamente significativas. En realidad, explique a los autores: los investigadores que describen sus resultados «estadísticamente no significativos» han detectado una relación de riesgo de 1.2 (es decir, un mayor riesgo de 20% en pacientes expuestos que los que no están expuestos), con un intervalo de 95% de confianza que incluyó una disminución en el riesgo insignificante del 3%y un aumento considerable en el riesgo del 48%. Los investigadores que habían realizado el estudio anterior también habían encontrado la misma relación de riesgo que 1.2. La diferencia es que este estudio anterior fue simplemente más preciso, con un intervalo que varía del 9% al 33% de mayor riesgo.
¿Cuándo es significativo?
En estadísticas, la importancia es la posibilidad significativa de que aparezca un cierto valor. También se refiere a «estadísticamente diferente de Scratch», pero esto no significa que la «importancia» sea relevante o vasta, como lo llevaría a pensar en la palabra. Pero solo que es diferente del número de límite.
Los niveles de importancia generalmente se representan con la letra griega α (alfa). Los niveles más utilizados son 5% (α = 0.05) y 1% (α = 0.01); En el caso de hipótesis principalmente exploratorias, es costumbre utilizar un nivel de importancia al 10% (α = 0.1). Si la prueba de verificación de hipótesis proporciona un valor P más bajo del nivel α, se rechaza la hipótesis.
Estos resultados se informan informalmente como ‘estadísticamente significativos’. Por ejemplo, si se argumenta que solo hay una posibilidad de miles de que esto puede suceder por coincidencia, se usa un nivel de importancia de 0.1%. Cuanto menor sea el nivel de importancia, mayor es la evidencia. En algunas situaciones es mejor expresar significancia estadística con 1 – α. En general, al interpretar un significado establecido, debe tener cuidado al indicar qué, precisamente, se ha probado estadísticamente.
Los diferentes niveles de α tienen diferentes ventajas y desventajas. Los α-LaVelli más bajos dan mayor confianza en la determinación de la importancia, pero más riesgos de error no rechazar una hipótesis falsa nada (un error de tipo II o determinación falsa negativa) y, por lo tanto, tener mayor poder estadístico. La selección de una vida α inevitablemente implica un compromiso entre significación y potencia y, en consecuencia, entre el error de tipo I y el error de tipo II.
Artículos Relacionados: