Errores estadísticos: tipos y ejemplos

Hay dos tipos de errores discutidos en estadísticas clásicas, llamadas unimaginativamente tipo I y tipo II. Además de tener nombres completamente no mnemónicos, representan conceptos impares.

Técnicamente, un error de tipo I consiste en rechazar la «hipótesis nula» (en términos generales, la suposición de ningún efecto, la hipótesis que generalmente se propuso refutar) a favor de la «hipótesis alternativa» cuando en realidad la hipótesis nula es cierta. Un error de tipo II consiste en aceptar la hipótesis nula (técnicamente, no rechazar la hipótesis nula) cuando en realidad la hipótesis nula es falsa.

Supongamos que está comparando dos tratamientos con probabilidades de eficacia θj y θk. La hipótesis nula típica es que θj = θk, es decir, que los tratamientos son idénticamente efectivos. La hipótesis alternativa correspondiente es que θj ≠ θk, que los tratamientos no son idénticos. Andrew Gelman dice en esta presentación (página 87)

Nunca he cometido un error tipo 1 en mi vida. El error tipo 1 es θj = θk, pero yo afirmo que son diferentes. Nunca he estudiado nada donde θj = θk.

Nunca he cometido un error tipo 2 en mi vida. El error de tipo 2 es θj ≠ θk, pero yo afirmo que son lo mismo. Nunca he afirmado que θj = θk.

(Énfasis agregado). El punto es que no hay dos tratamientos idénticos. Las personas generalmente no pretenden probar si dos tratamientos son exactamente iguales, sino que son «casi» iguales, aunque a menudo son confusos sobre lo que significa «casi».

Un filtro de spam no tiene una hipótesis nula puntual.
Exactamente. Estaba bajo una impresión (probablemente incorrecta) de que usted o Andrew Gelman argumentan para reemplazar de alguna manera todos los errores Tipo 1/Tipo 2 con errores Tipo S/Tipo M.

¿Qué son los errores en estadística?

El uso del término «error» como se discutió en las secciones anteriores es en el sentido de una desviación de un valor de un valor hipotético no observado. Al menos otros dos usos también ocurren en estadísticas, ambos refiriéndose a errores de predicción observables:

El error cuadrático medio (MSE) se refiere a la cantidad por la cual los valores predichos por un estimador difieren de las cantidades que se estima (generalmente fuera de la muestra de la cual se estimó el modelo).
El error cuadrado medio de raíz (RMSE) es la raíz cuadrada de MSE.
La suma de cuadrados de errores (SSE) es el MSE multiplicado por el tamaño de la muestra.

La suma de cuadrados de residuos (SSR) es la suma de los cuadrados de las desviaciones de los valores reales de los valores predichos, dentro de la muestra utilizada para la estimación. Esta es la base para la estimación de mínimos cuadrados, donde se eligen los coeficientes de regresión de tal manera que la SSR es mínima (es decir, su derivada es cero).

¿Qué tipos de errores se pueden presentar en los análisis estadísticos?

Los científicos de datos son la rara raza de profesionales que pueden resolver los problemas más espinosos del mundo. Se cree que los profesionales expertos en datos son una combinación rara de ingenio estadístico y computacional, sin embargo, estos profesionales de datos también son propensos a errores. Si bien nos hemos sumergido en la creación de científicos de datos y cubrimos el tema ampliamente, es hora de entrenar la mirada en los seis errores estadísticos más comunes que cometen los científicos de datos. Algunos de los errores más comunes son los tipos de mediciones, la variabilidad de los datos y el tamaño de la muestra. Las estadísticas proporcionan las respuestas, pero en algunos casos también se confunde.

Según el veterano líder de la ciencia de datos y coautor de la ciencia de datos para el negocio Tom Fawcett, el principio subyacente en estadísticas y ciencia de datos es la correlación no es causalidad, lo que significa que solo porque dos cosas parecen estar relacionadas entre sí no significa que no signifique que uno causa al otro. Aparentemente, este es el error más común en la serie temporal. Fawcett cita un ejemplo de un índice de mercado de valores y el número de series temporales no relacionadas de veces que Jennifer Lawrence fue mencionada en los medios de comunicación. Las líneas se ven de manera divertida similar. Por lo general, hay una declaración como: «Correlación = 0.86». Recuerde que un coeficiente de correlación es entre +1 (una relación lineal perfecta) y -1 (perfectamente relacionado inversamente), con cero que no significa ninguna relación lineal. 0.86 es un alto valor, lo que demuestra que la relación estadística de las dos series de tiempo es fuerte. Fawcett continúa agregando que al explorar las relaciones entre dos series de tiempo, todo lo que uno quiere saber es si las variaciones en una serie están correlacionadas con variaciones en otro.

Hemos oído hablar de algoritmos sesgados, pero también hay datos de sesgo. Estamos hablando de muestreo sesgado que puede conducir a errores de medición debido a muestras no representativas. En la mayoría de los casos, los científicos de datos pueden llegar a resultados cercanos pero no precisos debido a los estimadores sesgados. Un estimador es la regla para calcular una estimación de una cantidad dada basada en los datos observados. De hecho, se cree que las muestras no aleatorias son sesgadas, y sus datos no pueden usarse para representar a cualquier otra población más allá de sí mismas.

¿Cómo se calcula el error estadístico?

El error aleatorio o estadístico o indeterminado o accidental es un error de medición que puede afectar la misma probabilidad aumentando o disminuyendo en el valor medido. Influye en la precisión del resultado.

De la definición se deduce que una serie repetida de mediciones implica la reducción progresiva del error aleatorio, ya que las desviaciones individuales se cancelan entre sí.

Este tipo de error es producido por fenómenos aleatorios derivados de errores de herramientas de lectura o fluctuaciones inducidas por fenómenos externos, como trastornos, variaciones de temperatura, etc. Cuanto más preciso sea un instrumento y menos estos fenómenos aleatorios influyen en la medición (y por lo tanto, más pequeños son en promedio los errores aleatorios asociados).

El error aleatorio en la medición no se elimina de alguna manera. Esto se debe al hecho de que el error depende no solo del medidor y el sistema de medición, sino también del sistema medido.

El origen de la última fuente de error (que puede llamarse error intrínseco) puede ser colector.

Por ejemplo, una fuente de error intrínseco puede ser que la cantidad en sí misma que desea medir no es constante con el tiempo.

La mecánica cuántica establece que hay errores intrínsecos no rellenos. En particular, que un sistema no tiene un valor único de una cantidad medible (en jerga, observable), pero que el sistema se caracteriza por una superposición de diferentes estados (correspondientes a los diferentes valores de la cantidad medida). Lo que se obtiene de la medida es un valor que depende de estos estados superpuestos, de su probabilidad y el valor correspondiente a cada estado. Sin entrar en detalles, se puede decir que el valor obtenido es un valor promedio, que depende del tiempo. En algunos casos, es posible crear medidas especiales para saber cuál es la probabilidad de los diferentes estados. Sin embargo, el principio de indeterminación de Heisenberg indica que no es posible saber el valor de dos cantidades conjugadas simultáneamente con la incertidumbre.

Artículos Relacionados:

Más posts relacionados:

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *