¿Cómo evitar errores de estimación en tus proyectos?

El error estándar de estimación, denotado SE aquí (pero a menudo denotado S en impresiones de computadora), le dice aproximadamente cuán grandes son los errores de predicción (residuos) para su conjunto de datos en las mismas unidades que Y. ¿Qué tan bien puede predecir? La respuesta es dentro de SE arriba o más abajo.16 Debido a que generalmente desea que sus pronósticos y predicciones sean lo más precisos posible, estaría contento de encontrar un pequeño valor para SE. Puede interpretar SE como una desviación estándar en el sentido de que si tiene una distribución normal para los errores de predicción, esperará que aproximadamente dos tercios de los puntos de datos caigan dentro de una distancia SE por encima o por debajo de la línea de regresión. Además, aproximadamente el 95% de los valores de los datos deben caer dentro de 2SE, y así sucesivamente. Esto se ilustra en la Fig. 11.2.10 para el ejemplo de costo de producción.

Fig. 11.2.10. El error estándar de la estimación, SE, indica aproximadamente cuánto error comete cuando usa el valor predicho para y (en la línea de mínimos cuadrados) en lugar del valor real de Y. puede esperar aproximadamente dos tercios de los puntos de datos estar dentro de SE por encima o por debajo de la línea de mínimos cuadrados para un conjunto de datos con una relación lineal normal, como esta.

El error estándar de estimación se puede encontrar utilizando las siguientes fórmulas:

La primera fórmula muestra cómo se calcula SE reduciendo SY de acuerdo con la correlación y el tamaño de la muestra. De hecho, SE generalmente será más pequeño que SY porque la línea A + Bx resume la relación y, por lo tanto, se acerca a los valores Y que el resumen más simple, y¯. La segunda fórmula muestra cómo se puede interpretar SE como la desviación estándar estimada de los residuos: los errores de predicción al cuadrado se promedian dividiendo por N – 2 (el número apropiado de grados de libertad cuando se han estimado dos números, A y B,) , y la raíz cuadrada deshace la cuadratura anterior, dándote una respuesta en las mismas unidades de medición que Y.

¿Cómo se calcula el error de estimación?

Este artículo fue coautor del personal de Wikihow. Nuestro equipo capacitado de editores e investigadores valide los artículos para la precisión y la integridad. El equipo de gestión de contenido de Wikihow monitorea cuidadosamente el trabajo de nuestro personal editorial para garantizar que cada artículo esté respaldado por una investigación confiable y cumpla con nuestros estándares de alta calidad.

El error estándar de estimación se utiliza para determinar qué tan bien una línea recta puede describir los valores de un conjunto de datos. Cuando tiene una recopilación de datos de alguna medición, experimento, encuesta u otra fuente, puede crear una línea de regresión para estimar datos adicionales. Con el error estándar de estimación, obtienes una puntuación que describe cuán buena es la línea de regresión.

  • x { displaystyle x}
  • y { displaystyle y}
  • y ′ { displayStyle y^{ prime}}
  • Y-Y ′ { displayStyle y-y^{ prime}}
  • (y-y ′) 2 { displayStyle (y-y^{ prime})^{2}}
  • Tenga en cuenta que la tabla que se muestra en la imagen de arriba realiza las restos opuestos, y′-y { displayStyle y^{ prime} -y}. El orden más estándar, sin embargo, es y-e ′ { displayStyle y-y^{ prime}}. Debido a que los valores en la columna final están cuadrados, el negativo no es problemático y no cambiará el resultado. Sin embargo, debe reconocer que el cálculo más estándar es y-Y ′ { displayStyle y-y^{ prime}}.
  • El orden de los datos y el emparejamiento es importante para estos cálculos. Debe tener cuidado de mantener juntos sus puntos de datos emparejados.
  • Para los cálculos de muestra que se muestran anteriormente, los pares de datos son los siguientes:
  • Para este artículo, se supone que tendrá la ecuación de la línea de regresión disponible o que se ha predicho por algunos medios anteriores.
  • Para el conjunto de datos de muestra en la imagen de arriba, la línea de regresión es y ′ = 0.6x+2.2 { displayStyle y^{ prime} = 0.6x+2.2}.
  • Usando la ecuación de la línea de regresión, calcule o «predice» valores de y ′ { displaystyle y^{ prime}} para cada valor de x. Inserte el valor x en la ecuación y encuentre el resultado para y ′ { displayStyle y^{ prime}} como sigue:
  • Si los datos medidos representan una población completa, encontrará el promedio dividiendo por n, el número de puntos de datos. Sin embargo, si está trabajando con un conjunto de muestras más pequeño de la población, sustituya N-2 en el denominador.
  • Para el conjunto de datos de muestra en este artículo, podemos suponer que es un conjunto de muestras y no una población, solo porque solo hay 5 valores de datos. Por lo tanto, calcule el error estándar de la estimación de la siguiente manera:
  • Con este pequeño conjunto de muestras, la puntuación de error estándar de 0.894 es bastante baja y representa resultados de datos bien organizados.

Para calcular el error estándar de estimación, cree una tabla de datos de cinco columnas. En las dos primeras columnas, ingrese los valores para sus datos medidos e ingrese los valores desde la línea de regresión en la tercera columna. En la cuarta columna, calcule los valores predichos de la línea de regresión utilizando la ecuación de esa línea. Estos son los errores. Complete la quinta columna multiplicando cada error por sí mismo. Agregue todos los valores en la columna 5, luego tome la raíz cuadrada de ese número para obtener el error estándar de estimación. Para aprender a organizar los pares de datos, ¡siga leyendo!

¿Qué es la estimación del error?

Conceptualmente, hay tres tipos principales de error de estimación. Estos incluyen errores de cantidad, errores de tarifa y errores de omisión. La mayoría de las empresas subestiman cuánto les están costando estos errores. Aquellos que ignoran las mejores prácticas para estimar la víctima típica de la maldición del ganador, repetidamente los trabajos «ganadores» que pierden dinero.

Si bien las empresas sufren grados variables de cada tipo de error, la reducción de estos errores requiere un enfoque integrado que aborde las causas de los tres tipos de error. Es bastante común ver a las empresas mejorar su porcentaje de ganancias antes de antes de impuestos en un 2-5% al ​​mejorar estos sistemas.

La implementación es difícil y requiere un diseño y capacitación atento antes del lanzamiento. Muchas organizaciones han fallado debido a la implementación o procedimiento fragmentarios antes de que el personal tenga una comprensión adecuada de las herramientas y cómo encajan en el panorama general.

¡Felicidades! Ganaste ese gran trabajo. Además, tienes un pie en la puerta con un cliente en el que tu competidor más odiado tenía un bloqueo virtual. Pero ahora comienza el dolor. El trabajo realmente está sucediendo y se está atascando en el sistema. La compra notó que se perdieron algunos materiales clave en la estimación. Sabes que vas a perder dinero. Entonces, lo que realmente sucede con la cuenta bancaria y las finanzas después de que se haga es aún peor de lo que esperaba. Usted nota una abolladura en las finanzas durante los meses que pasó la orden que es más grande de lo que se habría explicado solo los materiales perdidos. ¿Qué sucedió? Hay varias fuentes potenciales de error en la estimación.

¿Cómo se interpreta el error estándar de estimación?

Podemos usar los coeficientes de la tabla de regresión para construir la ecuación de regresión estimada:

Y podemos ver que el error estándar de la estimación para este modelo de regresión resulta ser 6.006. En términos simples, esto nos dice que el punto de datos promedio cae 6.006 unidades de la línea de regresión.

Podemos usar la ecuación de regresión estimada y el error estándar de la estimación para construir un intervalo de confianza del 95% para el valor predicho de un cierto punto de datos.

Por ejemplo, supongamos que X es igual a 10. Usando la ecuación de regresión estimada, predeciríamos que Y sería igual a:

Y podemos obtener el intervalo de confianza del 95% para esta estimación utilizando la siguiente fórmula:

La estadología es un sitio que facilita la explicación de las estadísticas de aprendizaje al explicar temas de manera simple y directa. Aprenda más acerca de nosotros.

Statology Study es la mejor guía de estudio de estadísticas en línea que lo ayuda a estudiar y practicar todos los conceptos centrales que se enseñan en cualquier curso de estadísticas primarias y facilita la vida como estudiante.

Introducción a las estadísticas es nuestro principal curso de video en línea que le enseña todos los temas cubiertos en estadísticas introductorias. Empiece hoy con nuestro curso.

¿Qué es y cómo se interpreta el error estándar?

El error de muestra sirve como un medio para comprender el parámetro de población real (como la media de la población) sin estimarlo realmente.

Un investigador «X» está recopilando datos de una gran población de votantes. Por razones prácticas, no puede llegar a todos y cada uno de los votantes. Por lo tanto, solo se selecciona una pequeña muestra aleatoria (de votantes) para la recopilación de datos.

Una vez que se recopilan los datos para la muestra, calcula la media (o cualquier estadística) de esa muestra. Pero entonces, esto significa que acabas de calcular es solo la media de la muestra. No se puede considerar la media de toda la población. Sin embargo, puede esperar que esté en algún lugar cercano al medio de la población.

Si bien no es posible calcular el valor exactamente, puede usar un error estándar para estimar hasta qué punto la media de la muestra puede extenderse por la media de la población real.

El error estándar de la media describe hasta qué punto una media de muestra puede variar de la media de la población.

Primero comprendamos claramente la intuición detrás y la necesidad de un error estándar.

Ahora, supongamos que está trabajando en el dominio agrícola y desea conocer el rendimiento anual de una variedad particular de cocoteros. Si bien toda la población de cocoteros tiene una cierta media (y desviación estándar) de rendimiento anual, no es práctico tomar medidas de todos y cada uno de los árboles.

Para estimar esto, recolecta muestras de rendimiento de coco (número de nueces por árbol por año) de diferentes árboles. Y para mantener sus hallazgos imparciales, recolectas muestras en diferentes lugares.

¿Qué nos dice el error estándar?

El error promedio estándar, o simplemente el error estándar, indica cuán diferente es probable el promedio de la población de un promedio de muestra. Él le dice cuánto varía el promedio de la muestra si tuviera que repetir un estudio usando nuevas muestras dentro de una sola población.

El SEM se calcula tomando la desviación estándar y dividiéndola por la raíz cuadrada del tamaño de la muestra. El error estándar proporciona la precisión de un promedio de muestra midiendo la variabilidad de la muestra a la muestra del promedio de la muestra.

La desviación estándar nos dice cuánta variación podemos esperar en una población. Sabemos por la regla empírica que el 95% de los valores caerán dentro de 2 desviaciones estándar del promedio. El 95% caería en 2 errores estándar y aproximadamente el 99.7% de los promedios de la muestra caerían dentro de 3 errores estándar del promedio de la población.

Una desviación estándar es un número que nos dice. Hasta qué punto se separa un conjunto de números. Una desviación estándar puede variar de 0 al infinito. Una desviación estándar de 0 significa que una lista de números son todos iguales, no están en absoluto separados.

Para el conjunto de puntajes de prueba, la desviación estándar es la raíz cuadrada de 75.76 u 8.7. Si tiene 100 elementos en un conjunto de datos y la desviación estándar es 20, hay una difusión relativamente amplia de los valores promedio. Si tiene 1,000 elementos en una base de datos, una desviación estándar de 20 es mucho menos significativa.

¿Qué significa el +/- en el error de estimación?

Volvamos a la desviación estándar brevemente porque interpretarla nos ayuda a comprender el error estándar de la media. El valor para la desviación estándar indica la distancia estándar o típica que una observación cae de la media de la muestra utilizando las unidades de datos originales. Los valores más grandes corresponden con distribuciones más amplias y indican que los puntos de datos probablemente caigan más lejos de la media de la muestra.

Para el error estándar de la media, el valor indica hasta qué punto las medias de muestra pueden caer de la media de la población utilizando las unidades de medición originales. Nuevamente, los valores más grandes corresponden a distribuciones más amplias.

Para un SEM de 3, sabemos que la diferencia típica entre una media de muestra y la media de la población es 3.

Podríamos parar allí. Sin embargo, el software estadístico utiliza SEMS para calcular los valores p y los intervalos de confianza. A menudo, estas estadísticas son más útiles que el error estándar de la media. Como mencioné, el SEM es la puerta que se abre a estas herramientas estándar de estadísticas inferenciales.

Estoy seguro de que siempre has escuchado que los tamaños de muestra más grandes son mejores. La razón se hace evidente cuando comprende cómo calcular el error estándar de la media.

Aquí está la ecuación para el error estándar de la media.

El numerador (s) es la desviación estándar de muestra, que representa la variabilidad presente en los datos. El denominador es la raíz cuadrada del tamaño de la muestra (N), que es un ajuste por la cantidad de datos.

¿Cómo se interpreta el error de estimación?

En la salida de regresión para el software estadístico Minitab, puede encontrar s en el resumen de la sección del modelo, justo al lado de R cuadrado. Ambas estadísticas proporcionan una medida general de qué tan bien el modelo se ajusta a los datos. S se conoce tanto como el error estándar de la regresión y como el error estándar de la estimación.

S representa la distancia promedio que los valores observados caen desde la línea de regresión. Convenientemente, le dice qué tan equivocado es el modelo de regresión en promedio utilizando las unidades de la variable de respuesta. Los valores más pequeños son mejores porque indica que las observaciones están más cerca de la línea ajustada.

La gráfica de línea ajustada que se muestra arriba es de mi publicación donde uso el IMC para predecir el porcentaje de grasa corporal. S es 3.53399, lo que nos dice que la distancia promedio de los puntos de datos desde la línea ajustada es de aproximadamente 3.5% de grasa corporal.

A diferencia de R-cuadrado, puede usar el error estándar de la regresión para evaluar la precisión de las predicciones. Aproximadamente el 95% de las observaciones deberían caer dentro de un error estándar más/menos 2*de la regresión de la línea de regresión, que también es una aproximación rápida de un intervalo de predicción del 95%.

Para el ejemplo del IMC, aproximadamente el 95% de las observaciones deberían caer dentro de más/menos 7% de la línea ajustada, lo cual es una coincidencia cercana para el intervalo de predicción.

En muchos casos, prefiero el error estándar de la regresión sobre R-cuadrado. Me encanta la intuición práctica de usar las unidades naturales de la variable de respuesta. Y, si necesito predicciones precisas, puedo verificar rápidamente S para evaluar la precisión.

¿Cuál es el error de estimación?

La estimación generalmente se considera para parámetros desconocidos. Si los datos
de la cual se estimaron los parámetros provienen de datos simulados, el
Se puede conocer el verdadero valor de los parámetros. Si ( theta ) es el verdadero
valor y ( hat { theta} ) la estimación, entonces el error es solo el
diferencia entre la predicción y el valor verdadero,
[
textrm {err} = hat { theta} – theta.
]

Si la estimación es mayor que el valor real, el error es positivo,
Y si es más pequeño, entonces el error es negativo. Si un estimador es
imparcial, entonces el error esperado es cero. Entonces, típicamente, error absoluto
o se utilizan errores al cuadrado, que siempre tendrá positivo
Expectativas para un estimador imperfecto. El error absoluto se define como
[
Textrm {ABS-ERR} = Left | hat { theta} – theta right |
]
y error al cuadrado como
[
textrm {sq -erg} = izquierda ( hat { theta} – theta right)^2.
] Gneiting y Raftery (2007) proporcionan una visión general exhaustiva de tales reglas de puntuación
y sus propiedades.

Los medios posteriores bayesianos minimizan el error cuadrado esperado, mientras que
Las medianas posteriores minimizan el error absoluto esperado. Estimaciones basadas
en modos en lugar de probabilidad, como el máximo (penalizado)
Estimaciones de probabilidad o máximo de estimaciones posteriores, no tiene
estas propiedades.

Además de los parámetros, se pueden estimar otras cantidades desconocidas,
como el puntaje de un partido de fútbol o el efecto de un médico
tratamiento dado a un sujeto. En estos casos, se define el error cuadrado
del mismo modo. Si hay múltiples resultados intercambiables
Estimado, (Z_1, LDOTS, Z_N, ) Entonces es común informar mediante cuadrado medio
Error (MSE),
[
Textrm {MSE}
= frac {1} {n} sum_ {n = 1}^n left ( hat {z} _n – z_n right)^2.
]
Para volver a poner el error en la escala del valor original, el cuadrado
Se puede aplicar raíz, lo que resulta en lo que se sabe prosaicamente
Como error de cuadrado medio de raíz (RMSE),
[
textrm {rmse} = sqrt { textrm {mean-sq-rim}}.
]

En el caso de regresión lineal, pueden ser dos etapas de simplificación
llevado a cabo, el primero de los cuales reduce la varianza del
estimador. Primero, en lugar de promediar muestras ( tilde {y} _n^{(m)} ),
El mismo resultado se obtiene promediando predicciones lineales,
[ begin {eqnarray*}
hat { tilde {y}} _ n
& = & mathbb {e} izquierda [
alpha + beta cdot tilde {x} _n
Mid tilde {x} _n, x, y
Correcto]
\ [4PT]
& aprox &
frac {1} {m} sum_ {m = 1}^m
alpha^{(m)} + beta^{(m)} cdot tilde {x} _n
end {eqnarray*} ]
Esto es posible porque
[
tilde {y} _n^{(m)} sim textrm {normal} ( tilde {y} _n mid alpha^{(m)} +
beta^{(m)} cdot tilde {x} _n, sigma^{(m)}),
]
y la distribución normal tiene un error simétrico para que la expectativa de
( tilde {y} _n^{(m)} ) es lo mismo que ( alpha^{(m)} + beta^{(m)} cdot tilde {x} _n ). Reemplazando la cantidad muestreada ( tilde {y} _n^{(m)} ) con
Su expectativa es una técnica de reducción de varianza general para Monte
Estimaciones de Carlo conocidas como Rao-Blackwellization (Rao 1945; Blackwell 1947).

Artículos Relacionados:

Más posts relacionados:

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *