Formula del sesgo: cálculo de la probabilidad de un resultado

El sesgo es el error en las estimaciones debido a errores sistemáticos que conducen a resultados consistentemente altos o bajos en comparación con los valores reales. El sesgo individual de una estimación que se sabe que está sesgada es la diferencia entre los valores estimados y reales. Si no se sabe que la estimación esté sesgada, la diferencia también podría deberse a un error aleatorio u otras inexactitudes. Contrariamente al sesgo, que siempre actúa en una dirección, estos errores pueden ser positivos o negativos.

Para calcular el sesgo de un método utilizado para muchas estimaciones, encuentre los errores restando cada estimación del valor real u observado. Agregue todos los errores y divida por el número de estimaciones para obtener el sesgo. Si los errores se suman a cero, las estimaciones fueron imparciales y el método ofrece resultados imparciales. Si las estimaciones están sesgadas, puede ser posible encontrar la fuente del sesgo y eliminarla para mejorar el método.

Calcule el sesgo encontrando la diferencia entre una estimación y el valor real. Para encontrar el sesgo de un método, realizar muchas estimaciones y agregar los errores en cada estimación en comparación con el valor real. Dividir por el número de estimaciones da el sesgo del método. En estadísticas, puede haber muchas estimaciones para encontrar un solo valor. El sesgo es la diferencia entre la media de estas estimaciones y el valor real.

Cuando las estimaciones están sesgadas, están constantemente equivocadas en una dirección debido a los errores en el sistema utilizado para las estimaciones. Por ejemplo, un pronóstico meteorológico puede predecir constantemente temperaturas que son más altas que las realmente observadas. El pronóstico es parcial, y en algún lugar del sistema hay un error que da una estimación demasiado alta. Si el método de pronóstico es imparcial, aún puede predecir temperaturas que no son correctas, pero las temperaturas incorrectas a veces serán más altas y a veces más bajas que las temperaturas observadas.

El sesgo estadístico funciona de la misma manera, pero generalmente se basa en una gran cantidad de estimaciones, encuestas o pronósticos. Estos resultados pueden representarse gráficamente en una curva de distribución y el sesgo es la diferencia entre la media de la distribución y el valor real. Si hay sesgo, siempre habrá una diferencia a pesar de que algunas estimaciones individuales pueden caer a cualquier lado del valor real.

Un ejemplo de sesgo es una compañía de encuestas que dirige encuestas durante las campañas electorales, pero sus resultados de encuestas sobreestiman constantemente los resultados de un partido político en comparación con los resultados electorales reales. El sesgo se puede calcular para cada elección restando el resultado real de la predicción de la encuesta. El sesgo promedio del método de votación utilizado se puede calcular encontrando el promedio de los errores individuales. Si el sesgo es grande y consistente, la compañía de votación puede tratar de averiguar por qué su método está sesgado.

¿Cómo se calcula un sesgo?

El sesgo es una palabra que enfrenta mucho tiempo en estadísticas, pronosticando un valor, etc., y probablemente sepa que significa algo que no es bueno. Pero «¿Qué significa el sesgo?» El sesgo se refiere a la tendencia de un proceso de medición a sobreestimar o subestimar el valor de un parámetro de población. En el muestreo de la encuesta, por ejemplo, el sesgo sería la tendencia de una estadística de muestra a sobreestimar o subestimar sistemáticamente un parámetro de población (Imdad Ullah, 2012). El sesgo puede filtrarse en sus resultados por una serie de razones, incluidos los errores de muestreo o medición, o muestras no representativas.

El sesgo es el error en las estimaciones debido a errores sistemáticos que conducen a resultados consistentemente altos o bajos en comparación con los valores reales. Cuando las estimaciones están sesgadas, están constantemente equivocadas en una dirección debido a los errores en el sistema utilizado para las estimaciones. Por ejemplo, una predicción climática puede pronosticar constantemente lluvias que son más altas que las realmente observadas. El pronóstico es parcial, y en algún lugar del sistema hay un error que da una estimación demasiado alta. Si el método de pronóstico es imparcial, aún puede predecir las lluvias que no son correctas, pero las lluvias incorrectas a veces serán más altas y a veces más bajas que las lluvias observadas.

El sesgo individual de una estimación que se sabe que está sesgada es la diferencia entre los valores estimados y reales. Si no se sabe que la estimación esté sesgada, la diferencia también podría deberse a un error aleatorio u otras inexactitudes. Al contrario del sesgo, que siempre funciona en una dirección, estos errores pueden ser negativos o positivos. Para calcular el sesgo de un método utilizado para muchas estimaciones, encuentre los errores restando cada estimación del valor observado. Suma todos los errores y divididos por el número de estimaciones para lograr el sesgo. Si los errores se suman a cero, las estimaciones fueron imparciales y el método ofrece salidas imparciales. Si las estimaciones están sesgadas, puede ser posible encontrar la fuente del sesgo y eliminarla para enmendar el método.

Es crucial determinar posibles fuentes de sesgo al planificar una encuesta de muestra. Cuando decimos que hay un sesgo potencial, también deberíamos poder argumentar si los resultados probablemente serán una sobreestimación o una subestimación. Intente reconocer la fuente de sesgo y contemple la dirección del sesgo. Es significa que debe considerar la cantidad de sobreestimación o subestimación. El sesgo puede ocurrir de varias maneras:

En la forma en que se selecciona la muestra.
En la forma en que se recopilan los datos.

Para calcular la cantidad de sesgo simple, puede usar la siguiente ecuación:

En esta ecuación, XOBS establece la observación o los datos reales, y XGEN a los datos de generación o modelados (estimación). Preste atención a la escala de datos y la escala del valor de sesgo. Por ejemplo, si desea calcular el sesgo anual de los datos de precipitación, debe calcular el sesgo de cada 12 meses y luego obtener un promedio de 12 valores para la cantidad de sesgo anual.

¿Cómo se calcula el sesgo fórmula?

Pasé algún tiempo discutiendo MAPE y WMAPE en publicaciones anteriores. En esta publicación, discutiré el sesgo de pronóstico. El sesgo de pronóstico se puede describir libremente como una tendencia a

excesivo (es decir, la mayoría de las veces, el pronóstico es más que el real), o
Abrazonjado (es decir, la mayoría de las veces, el pronóstico es menor que el real).

Ahora hay muchas razones por las cuales existe tal sesgo, incluidos los sistémicos. En este blog, no me concentraré en esas razones. En cambio, hablaré sobre cómo medir estos sesgos para que uno pueda identificar si existen en sus datos.

Una palabra rápida para mejorar la precisión del pronóstico en presencia de sesgo. Una vez que se ha identificado el sesgo, corregir el error de pronóstico es generalmente bastante simple. Se puede lograr ajustando el pronóstico en cuestión por la cantidad apropiada en la dirección apropiada, es decir, aumentarlo en el caso del sesgo de bajo ajuste y disminuirlo en el caso del sesgo excesivo.

Rick Glover en LinkedIn describió su cálculo del sesgo de esta manera: calcule el sesgo en el nivel más bajo (por ejemplo, por producto, por ubicación) de la siguiente manera:

excesivo (es decir, la mayoría de las veces, el pronóstico es más que el real), o
Abrazonjado (es decir, la mayoría de las veces, el pronóstico es menor que el real).

Si el pronóstico es mayor que la demanda real, el sesgo es positivo (indica un exceso de oferta). El inverso, por supuesto, da como resultado un sesgo negativo (indica un error de bajo).

En un nivel agregado, por grupo o categoría, los +/- se anotan revelando el sesgo general.

La otra métrica común utilizada para medir la precisión del pronóstico es la señal de seguimiento. En LinkedIn, le pregunté a John Ballantyne cómo calcula esta métrica. Aquí estaba su respuesta (la he parafraseado un poco):

excesivo (es decir, la mayoría de las veces, el pronóstico es más que el real), o
Abrazonjado (es decir, la mayoría de las veces, el pronóstico es menor que el real).

Si el pronóstico es mayor que la demanda real, el sesgo es positivo (indica un exceso de oferta). El inverso, por supuesto, da como resultado un sesgo negativo (indica un error de bajo).

En un nivel agregado, por grupo o categoría, los +/- se anotan revelando el sesgo general.

La «señal de seguimiento» cuantifica «sesgo» en un pronóstico. No se puede planificar ningún producto a partir de un pronóstico mal sesgado. La señal de seguimiento es la prueba de puerta de enlace para evaluar la precisión del pronóstico. La señal de seguimiento en cada período se calcula de la siguiente manera:

Una vez que esto se calcula, para cada período, los números se agregan para calcular la señal de seguimiento general. Un historial de pronóstico totalmente vacío de sesgo devolverá un valor de cero, con 12 observaciones, el peor resultado posible devolvería +12 (subforecido) o -12 (excesivo). En términos generales, dicho historial de pronóstico que devuelve un valor mayor que 4.5 o menos que el negativo 4.5 se consideraría fuera de control.

¿Qué determina un sesgo en estadística?

El sesgo puede manifestarse, sobre todo, de tres maneras:

Sesgo de selección de selección: es el más común en las estadísticas. Por lo general, tiene que ver con la elección de los grupos. Muy a menudo, la decisión no se tomó sobre la base de métodos de muestreo objetivos. Por ejemplo, la muestra es elegida por afinidad con un candidato en una encuesta.
Sesgo de información de información: nos enfrentamos a un prejuicio debido a información deficiente. Por lo tanto, no podemos comparar los grupos porque tenemos información demasiado limitada sobre ellos.
Sesgo de confusión: en este caso hay una variable confontible de SO, que es lo que causa el sesgo. A menudo es difícil encontrar dónde está el problema.

Cuando realizamos una investigación, tenemos que saber si estamos a punto de llevar a cabo un estudio exploratorio o de confirmación. Esta pregunta es esencial. El tipo de muestreo que elegimos dependerá de esto.

Por lo tanto, cuando queremos realizar un estudio de confirmación, utilizaremos métodos aleatorios. Sin embargo, cuando la intención es realizar un examen que sirva como base para nuevas investigaciones, el método no puede ser accidental. Debe tenerse en cuenta que el último método suele ser más barato y más fácil.

Este es el más común y lo que los investigadores están comprometidos en mayor medida. Debe tener mucho cuidado al elegir una muestra estadística. Este tipo de sesgo de selección estadística se comete en este proceso.

Es por eso que es muy importante establecer el protocolo de antemano y hacerlo en detalle. Además, las personas que recopilan datos deben formarse. La última parte es la prioridad para evitar otros tipos de sesgo, como la información.

¿Cómo se calcula el sesgo y la curtosis?

Al cuantificar el efecto causal de una intervención propuesta, deseamos estimar el efecto causal promedio que esta intervención tendrá en las personas en nuestro conjunto de datos. ¿Cómo podemos estimar los efectos promedio del tratamiento y de qué sesgos debemos tener cuidado al evaluar nuestra estimación?

Hemos definido un lenguaje para describir las relaciones causales existentes entre el proceso interconectado que componen nuestro universo. ¿Hay alguna manera de describir el alcance de estas relaciones, para caracterizar más los efectos causales?

¿Cómo representamos relaciones causales entre los muchos procesos interconectados que comprenden nuestro universo?

En mis publicaciones anteriores, he discutido metodologías para calcular los efectos causales en escenarios en los que observamos una variable explicativa y una variable de resultado y deseamos cuantificar una relación causal. En este escenario simple, uno puede usar un cálculo como la diferencia simple en los resultados medios para estimar el efecto promedio del tratamiento (o usar otra estrategia de estimación para estimar otro tipo de efecto de tratamiento). Sin embargo, también he discutido cómo las estimaciones pueden ser sesgadas, como resultado de factores externos que afectan tanto una variable explicativa como una variable de resultado. Este sesgo es la razón principal por la cual las tareas de inferencia causal son tan desafiantes y es por eso que ha sido un desafío aplicar técnicas de aprendizaje automático a estas tareas, hasta hace poco. Identificar y eliminar los sesgos de los efectos causales estimados es la principal preocupación de los profesionales de la inferencia causal en los negocios y la academia, y la estrategia formal para describir dicho sesgo, que discuto en este puesto, bajo la mayoría de la literatura de inferencia causal.

¿Cómo se calcula la curtosis y el sesgo?

Datos de entrada que representa una muestra de una población, especificada como un
vector, matriz o matriz multidimensional.

Si x es un vector, entonces
La curtosis (x) devuelve un valor escalar que
Es la curtosis de los elementos en X.

Si x es una matriz, entonces
La curtosis (x) devuelve un vector de fila que
contiene la curtosis de la muestra de cada columna en
X.

Si X es una matriz multidimensional, entonces
La curtosis (x) opera a lo largo de la primera
Dimensión Nonsingleton de X.

Para especificar la dimensión operativa cuando x es una matriz
o una matriz, use el argumento de entrada Dim.

La curtosis trata los valores de NAN en
X Como valores faltantes y los elimina.

Si la bandera es 1 (predeterminado),
entonces la curtosis de X es sesgada, lo que significa que
tiende a diferir de la curtosis de la población por un sistema sistemático
cantidad basada en el tamaño de la muestra.

Si la bandera es 0, entonces
La curtosis corrige para lo sistemático
parcialidad.

Dimensión a lo largo de la cual operar, especificado como un entero positivo. Si usted
No especifique un valor para DIM, entonces el valor predeterminado es el
Primera dimensión de x cuyo tamaño no es igual
1.

Si Dim es igual a 1, entonces
La curtosis devuelve un vector de fila que
contiene la curtosis de la muestra de cada columna en
X.

Si Dim es igual a 2, entonces
La curtosis devuelve un vector de columna que
contiene la curtosis de la muestra de cada fila en
X.

Si el dim es mayor que los ndims (x) o
Si el tamaño (x, dim) es 1, entonces curtosis
Devuelve una matriz de nans del mismo tamaño que
X.

Vector de dimensiones, especificado como un vector entero positivo. Cada elemento
de Vecdim representa una dimensión de la matriz de entrada
X. La salida k tiene longitud 1
En las dimensiones operativas especificadas. Las otras longitudes de dimensión son las
Lo mismo para x y k.

¿Qué es la curtosis y cómo se calcula?

El término «curtosis» se refiere a la medida estadística que describe la forma de cualquier cola de una distribución, es decir, si la distribución es de cola pesada (presencia de valores atípicos) o de cola ligera (escasez de valores atípicos) en comparación con una distribución normal. En otras palabras, indica si la cola de distribución se extiende más allá de la desviación estándar ± 3 de la media o no.

Dado que la curtosis de la distribución es inferior a 3, significa que es una distribución platykurtica.

La fórmula para la curtosis se puede calcular utilizando los siguientes pasos:

Paso 1: En primer lugar, después de formar la distribución de datos, determine el número de variables en la distribución que se denota por «n».

Paso 2: A continuación, calcule la media de la distribución, que es el agregado de todas las variables (yi) en la distribución dividida por el número de variables de la distribución (n). Se denota por ȳ.

Paso 3: A continuación, determine el cuarto momento de la distribución sumando la cuarta potencia de desviación entre cada variable y media (paso 2) que luego se divide por el número de variables en la distribución (paso 1).

Paso 4: A continuación, determine la varianza (S2) o el segundo momento de la distribución sumando el cuadrado de desviación entre cada variable y media (paso 2) que luego se divide por el número de variables en la distribución (paso 1).

Paso 5: Finalmente, la fórmula para la curtosis se puede derivar dividiendo el cuarto momento (Paso 3) por el segundo momento cuadrado de la distribución (Paso 4) como se muestra a continuación.

¿Cómo determinar el sesgo en una grafica?

El sesgo es una palabra que escuchas todo el tiempo en estadísticas, y probablemente sabes que significa algo malo. Pero, ¿qué constituye realmente un sesgo? El sesgo es un favoritismo sistemático que está presente en el proceso de recopilación de datos, lo que resulta en resultados desagradables y engañosos. El sesgo puede ocurrir de varias maneras:

En la forma en que se selecciona la muestra. Por ejemplo, si desea estimar cuánto las personas de compras navideñas en los Estados Unidos planean hacer este año, y lleva su portapapeles y se dirige a un centro comercial el día después del Día de Acción de Gracias para preguntar a los clientes sobre sus planes de compras, usted tiene sesgo en su proceso de muestreo. Su muestra tiende a favorecer a esos compradores acérrimos en ese centro comercial en particular que desafiaba a las multitudes masivas ese día conocidas por los minoristas y compradores como «Black Friday».

En la forma en que se recopilan los datos. Las preguntas de la encuesta son una fuente importante de sesgo. Debido a que los investigadores a menudo buscan un resultado particular, las preguntas que hacen a menudo pueden reflejar y conducir a ese resultado esperado. Por ejemplo, el tema de un impuesto sobre impuestos para ayudar a apoyar a las escuelas locales es algo que cada votante enfrenta en un momento u otro. Una pregunta de la encuesta que pregunta: «¿No crees que sería una gran inversión en nuestro futuro apoyar a las escuelas locales?» tiene un poco de sesgo. Por otro lado, ¿no está cansado de pagar dinero de su bolsillo para educar a los hijos de otras personas? » La redacción de la pregunta puede tener un gran impacto en los resultados.

Otros problemas que dan como resultado un sesgo con las encuestas son el momento, la longitud, el nivel de dificultad de la pregunta y la forma en que se contactó a las personas en la muestra (teléfono, correo, puerta a puerta, etc.).

¿Cómo se identifica el sesgo?

Debido a que no hay contacto con el paciente para fines de investigación, los criterios de elegibilidad para identificar a la población de pacientes que se incluirán en los análisis de ensayos deben definirse únicamente utilizando fuentes de datos automatizadas como se discutió anteriormente. Sin embargo, identificar la población objetivo de interés (pacientes con OUD) es difícil, porque OUD no se reconoce dentro de las poblaciones generales de atención primaria y, en particular, con frecuencia no se documenta en el EHR (ver Fig. 1). Según los estudios preliminares realizados antes del ensayo (Fase de orgullo 1), aproximadamente el 0.5% de los aproximadamente 300,000 pacientes de atención primaria observados durante un período de tres años en los 12 sitios orgullosos tuvieron un diagnóstico OUD activo documentado en el EHR, mientras que la verdadera prevalencia Se cree que OUD está en el rango del 1% al 4% en las poblaciones de atención primaria general (con tasas más altas en ciertas subpoblaciones) [26, 32,33,34,35]. Además, debido a que OUD no se diagnostica, los pacientes que tienen OUD documentados en su EHR pueden no reflejar la población más amplia de pacientes con OUD. Para distinguir entre pacientes con un diagnóstico de OUD documentado en el EHR y los pacientes que tienen Oud, independientemente de su documentación en el EHR, usaremos los términos «Oud» documentados y «OUD verdaderos», respectivamente. Del mismo modo, nos referiremos a las proporciones correspondientes de pacientes como la «prevalencia de OUD documentada» y la «verdadera prevalencia» de OUD.

Muestras analíticas disponibles para su inclusión en análisis de efectos de intervención orgullosos antes y después de la aleatorización. Cajas no dibujadas a la escala. * El aumento en la documentación de un diagnóstico OUD puede deberse a una mayor habilidad para diagnosticar y tratar OUD o aumento de la divulgación del paciente debido a una reducción del estigma. ** Incluye pacientes que se sienten atraídos por el sitio de intervención porque buscan tratamiento con OUD (por ejemplo, debido al acceso limitado al tratamiento en otro lugar o barreras más bajas para recibir atención en el orgulloso sitio de intervención)

Además, se espera que la orgullosa intervención aumente la identificación de OUD, tanto al aumentar el diagnóstico de OUD entre las personas que ya reciben atención primaria en el sitio debido a las evaluaciones de enfermería, así como al atraer a las personas con OUD que buscan tratamiento con OUD en primaria Cuidado que no se ha visto previamente en el sitio de intervención (Fig. 1). Estos últimos individuos podrían ser atraídos por un sitio diferente en el sistema de salud o pueden ser nuevos en el sistema de salud por completo. Como parte del programa de administrador de cuidado de enfermería, las personas tratadas por OUD generalmente reciben un diagnóstico documentado en su EHR. En casos anteriores en los que se implementó este programa, se observó que una alta proporción de pacientes tratados por la enfermera era nuevo en el sitio [28, 29] por razones descritas anteriormente.

¿Cómo obtener el coeficiente de sesgo?

En esta publicación introdujo una nueva métrica de sesgo que tiene varias propiedades deseables sobre las tradicionales.

Al evaluar el rendimiento de pronóstico, es importante observar dos elementos: precisión de pronóstico y sesgo. Aunque ha habido un progreso sustancial en la medición de la precisión con varias métricas que se proponen, ha habido un progreso bastante limitado en la medición del sesgo. Una métrica típica es el error medio (ME):

donde n es el número de errores EJ. Aunque, en principio, esta es una métrica dependiente de la escala, esta limitación se supera al escalar adecuadamente los errores sin procesar. No obstante, el ME todavía sufre de otras limitaciones. Primero, se pierde el tamaño de los errores. Se pierden grandes errores positivos y negativos. Aunque la información de sesgo se conserva, no podemos inferir si un sesgo observado está asociado con errores grandes o pequeños. En segundo lugar, el tamaño del sesgo es muy difícil de interpretar, ya que el ME no tiene límites naturales superiores o inferiores. Se han propuesto variantes de mí, como los errores de porcentaje medio (MPE) para proporcionar un tamaño de sesgo más fácil de comunicar, expresado como un porcentaje:

donde YJ es la observación real en el momento j. Sin embargo, MPE nuevamente está ilimitado e introduce complicaciones adicionales. Por ejemplo, el MPE no es simétrico en términos de cómo se miden los sesgos negativos y positivos. Considere lo siguiente: el pronóstico para un período es 90, mientras que la demanda observada es 100. El error, medido como la diferencia entre los valores reales y previstas, será 10 y el MPE = 10%. Si, por otro lado, el pronóstico fuera 100 y la demanda fuera 90, el error sería -10, pero el MPE = -11.1%, aunque el sesgo es realmente del mismo tamaño.