Prueba de medias: cómo simular datos para un análisis estadístico

Gartner, American Research Company of IT Technologies, ha proporcionado que Digital Twin sería una de las tendencias del sector para 2018 y que el 50% de las grandes empresas los usará para 2022. Un gemelo digital (en gemelo digital italiano) es una simulación, Una copia digital de un proceso, producto o servicio, obtenida gracias a la información obtenida a través de los sensores que integran los medios de los centros de producción. ¿Cómo funciona y qué ventajas ofrece la simulación? ¿Cómo se puede aplicar a la cadena de distribución o al almacén?

Actualmente, Industry 4.0 tiene sensores, redes inalámbricas, aprendizaje automático (aprendizaje automático), interpretación de datos (big data), realidad virtual y gemelos digitales para adaptar los procesos de producción a las solicitudes cambiantes de los consumidores. La simulación en particular no constituye un nuevo concepto, aunque está adquiriendo mayor importancia debido al progreso continuo de Internet de las cosas (IoT) y el uso de dispositivos RFID.

La primera compañía en acuñar el término gemelo digital para referirse a la simulación y para ponerla en práctica fue la NASA después del accidente de Apall 13 en 1970. La Agencia Espacial Americana entendió que necesitaba tecnología para simular cualquier reacción a una nave espacial en el espacio Antes de enviar una tripulación a una misión.

Sin embargo, se puede utilizar la simulación en cada sector profesional. Gracias al progreso tecnológico, las empresas pueden crear y probar vehículos, productos y procesos en un entorno virtual antes de transferirlos al mundo real. De esta manera, se identifican con problemas y situaciones de riesgo, pruebe nuevas configuraciones y reproduzcan respuestas frente a cualquier escenario. En última instancia, la simulación no es más que la representación de un proceso que actúa como una base de experimentación para mejorar la flexibilidad y aumentar la productividad de las empresas.

¿Qué son las pruebas estadísticas en simulacion?

Las pruebas estadísticas teóricas implican muchos supuestos detallados, fórmulas complejas y, a menudo, difíciles de interpretar. Este artículo utiliza un enfoque alternativo utilizando una simulación simple para llegar a resultados similares. En la mayoría de los casos, el método de simulación hace menos suposiciones sobre la distribución subyacente y, por lo tanto, se aplica a una clase más grande de problemas.

Considere un experimento de lanzamiento de monedas donde una moneda potencialmente sesgada se arroja 30 veces, lo que resulta en 22 cabezas y 8 colas. ¿Es una moneda justa? Esto se puede responder utilizando una prueba T de un campo con hipótesis nula de que la moneda es justa (p = 0.5). Y rechace la hipótesis nula si el valor p <0.05.

El mismo resultado se puede obtener simulando una moneda justa 30 veces y repitiendo el experimento una gran cantidad de veces (digamos 1000). Luego calcule la proporción de veces que vemos más de 22 cabezas de 1000 experimentos. Esto nos da p (datos | parámetro).

En ambos enfoques rechazamos la hipótesis nula y la conclusión de la moneda está sesgada.

Considere un peso de dos grupos donde el objetivo es verificar si la diferencia entre los dos grupos es estadísticamente significativa. La función de prueba T. incorporada puede realizar una prueba t de muestra WELCH dos donde la hipótesis nula es que la diferencia en las medias entre los dos grupos es 0.

En el enfoque de simulación, los dos grupos se mezclan y se sufren para verificar si la diferencia es puramente aleatoria. El experimento se repite muchas veces.

En ambos enfoques, no rechazamos la hipótesis nula y concluyimos que no hay diferencias significativas entre dos grupos.

¿Qué papel cumplen las pruebas de hipótesis estadística en la simulación?

Las pruebas de hipótesis son un componente importante de las estadísticas. Nos ayudan a tomar decisiones importantes en atención médica, negocios, ética y muchos otros campos. Hay muchos recursos excelentes que explican cómo realizar estas pruebas y cómo usar distribuciones como la distribución normal y las distribuciones T para obtener resultados para estas pruebas.

Este artículo se centrará en cómo generar nuestras propias distribuciones para las pruebas de hipótesis utilizando simulaciones. La simulación nos permite realizar pruebas de hipótesis con muy pocos supuestos y tener un resultado intuitivo que se puede interpretar fácilmente.

La primera técnica de simulación que veremos es generar datos aleatoriamente utilizando una variable aleatoria con una distribución de probabilidad conocida. Este es un concepto particularmente útil para comprender cuando conoce la distribución de probabilidad subyacente para los resultados de un evento que está interesado en analizar estadísticamente.

La segunda técnica de simulación que utilizaremos se conoce como prueba de hipótesis de permutación. Esta es una herramienta particularmente útil cuando intenta probar la dependencia entre las variables.

Para ambas técnicas, utilizaremos un ejemplo de contar el número de otras que se rodan en un dado de seis lados. Usamos esto como un ejemplo básico para describir cómo funcionan estas simulaciones. Al final de este artículo, debe comprender cómo aplicar simulaciones a pruebas de hipótesis más avanzadas que le interese ejecutar.

Antes de entrar en las simulaciones, revisemos rápidamente las pruebas de hipótesis. Si ya te sientes cómodo con esto, siéntete libre de saltar a la siguiente sección.

¿Qué es la prueba de serie?

La FDA ha creado una vía acelerada para los fabricantes que buscan obtener autorización de uso de emergencia para los productos utilizados en pruebas en serie para detectar SARS-CoV-2 en individuos asintomáticos. Actualmente, la mayoría de las pruebas están autorizadas para diagnosticar a las personas con una sospecha de infección.

Las pruebas en serie implican probar a la misma persona más de una vez durante unos días para aumentar las posibilidades de detectar infección asintomática que una sola prueba podría no detectar. Las recomendaciones simplificadas se aplican a las pruebas moleculares y de antígeno utilizadas en serie en cualquier ubicación, desde entornos de punto de atención hasta hogares, escuelas, aeropuertos o lugares deportivos.

Un suplemento de la política existente permite a los fabricantes cuyas pruebas para individuos sintomáticos han logrado un acuerdo porcentual positivo de al menos el 80% para solicitar la autorización para las pruebas en serie en personas asintomáticas antes de tener datos de validación para ese grupo.

La agencia sugirió que los fabricantes especifiquen que una persona asintomática se examinaría con su prueba dos veces más de 2 a 3 días con 24 a 36 horas entre las pruebas. Los intervalos alternativos pueden aplicarse para pruebas con mayor sensibilidad.

Los funcionarios de la FDA dijeron en un comunicado que la agencia «cree que la evidencia del fuerte desempeño de una prueba en pacientes sintomáticos combinados con pruebas en serie puede mitigar el riesgo de resultados falsos al probar individuos asintomáticos».

La agencia también emitió una hoja informativa para ayudar a las escuelas, empleadores y otras organizaciones a elegir pruebas para programas de detección para detectar infecciones individuales en grupos que no se sospechan que tienen SARS-CoV-2. Los programas que utilizan pruebas que no están autorizadas para la detección deben considerar el uso de pruebas autorizadas altamente sensibles, otras autorizadas para pruebas de muestra agrupadas o pruebas más frecuentes.

¿Cómo hacer la prueba de varianza?

Antes de realizar la prueba F, le aconsejo que calcule la varianza para cada grupo de antemano; verá por qué esto es útil en breve.

Para calcular la varianza, en una nueva celda, use la función var.s.

= Var.s (número1, [número2],...)
  • Número1: rango de células que contienen los datos del primer grupo
  • Número2: rango de células que contienen los datos del segundo grupo

Entonces, para mis datos de ejemplo, la varianza para los hombres fue de 23.55 cm2 y la varianza para las mujeres fue de 25.70 cm2.

Ahora estamos listos para realizar la prueba F para determinar si las dos variaciones son significativamente diferentes.

Luego, en la lista, seleccione la opción de dos muestras de prueba F para las variaciones y haga clic en Aceptar.

  • Número1: rango de células que contienen los datos del primer grupo
  • Número2: rango de células que contienen los datos del segundo grupo
  • Variable 1 Rango: el rango de células que contienen los datos del primer grupo. Para la variable 1, se recomienda ingresar el grupo con el valor de varianza más alto para que Excel pueda calcular el valor F correcto. ¡Esta es la razón por la que calculamos la varianza para cada grupo de antemano! Para mi ejemplo, usaré el grupo femenino ya que tenían una mayor variación en comparación con el grupo masculino
  • Rango de variable 2: el rango de células que contienen los datos del segundo grupo. Para mi ejemplo, ingresaré los datos del grupo masculino
  • Etiquetas: seleccione esto si ha resaltado la etiqueta de grupo
  • Alpha: este es el umbral de significado. Por defecto, esto se establece en 0.05. Entonces, si el p <0.05, podemos rechazar la hipótesis nula y concluir que la prueba es estadísticamente significativa
  • ¿Cómo hacer una tabla ANOVA a mano?

    Un estudio de investigación comparó las onzas de café consumidas diariamente entre tres grupos. El Grupo1 era italianos, Grupo 2 Francés y Grupo 3 Americano. Determine si hay una diferencia significativa entre los grupos que usan un nivel del 5% (alfa IS .05).

    Los resultados de este estudio están en la siguiente tabla:

    Tenga en cuenta que «N» es el tamaño de muestra combinado para los tres grupos.

    Paso 1: Hipótesis nula y alternativa Ho y HA

    Ho (el nulo) representará que todos los grupos son estadísticamente iguales.

    La hipótesis de HA (alternativa o investigación) representará que al menos uno de los grupos es estadísticamente significativamente diferente.

    Paso 2: Determine los «grados de libertad» también llamado DF para cada grupo y para la combinación de grupos:

    El DF entre se calcula restando 1 del número de grupos que tiene. Tenemos tres grupos aquí.

    DF entre = 3 – 1 = 2 (utilizado como numerador o DF superior)

    A continuación, el DF dentro se calcula primero determinando el DF individual para cada grupo y luego agregándolos:

    DF dentro de = 69 + 69 + 69 = 207 (utilizado como denominador o DF inferior)

    Paso 3: Use la Table F o una tecnología para obtener los valores de «corte» para este ANOVA de la prueba F. Recuerde que todas las pruebas de hipótesis tienen valores de corte que utiliza para determinar si su resultado de la prueba F está en la región de rechazo o no.

    NOTA: La tabla F no puede contener todos los valores posibles. Por lo tanto, la mayoría de las tablas F contienen algunos valores y elegirá el valor del armario a sus números de DF.

    Artículos Relacionados:

    Más posts relacionados:

    Deja una respuesta

    Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *