- Ando
- Kayla
- Tyler
- Becca
- Jessica
Supongamos que nos gustaría tomar una muestra de 2 estudiantes con reemplazo.
En el primer sorteo aleatorio, podríamos seleccionar el nombre Tyler. Luego volveríamos a colocar su nombre en el sombrero y dibujaríamos nuevamente. En el segundo sorteo, podríamos seleccionar el nombre Tyler nuevamente. Por lo tanto, nuestra muestra sería: {Tyler, Tyler}
Este es un ejemplo de obtener una muestra con reemplazo porque reemplazamos el nombre que elegimos después de cada sorteo aleatorio.
Cuando tomamos muestras con reemplazo, los elementos de la muestra son independientes porque el resultado de un sorteo aleatorio no se ve afectado por el sorteo anterior.
Por ejemplo, la probabilidad de elegir el nombre Tyler es 1/5 en el primer sorteo y 1/5 nuevamente en el segundo sorteo. El resultado del primer sorteo no afecta la probabilidad del resultado en el segundo sorteo.
El muestreo con reemplazo se utiliza en muchos escenarios diferentes en estadísticas y aprendizaje automático, que incluyen:
En cada uno de estos métodos, el muestreo con reemplazo se usa porque nos permite usar el mismo conjunto de datos varias veces para construir modelos en lugar de salir y recopilar nuevos datos, lo que puede llevar mucho tiempo y costoso.
Nuevamente, supongamos que tenemos los nombres de 5 estudiantes con un sombrero:
- Ando
- Kayla
- Tyler
- Becca
- Jessica
Supongamos que nos gustaría tomar una muestra de 2 estudiantes sin reemplazo.
En el primer sorteo aleatorio, podríamos seleccionar el nombre Tyler. Luego dejaríamos su nombre fuera del sombrero. En el segundo sorteo, podríamos seleccionar el nombre Ando. Por lo tanto, nuestra muestra sería: {Tyler, Ando}
¿Qué es un muestreo con y sin reemplazo?
Supongamos que la población tenía 5 miembros y usted tiene un presupuesto para probar 5 personas. Le interesa la media de la población de una variable X, una característica de los individuos en esta población. Puede hacerlo a su manera y probar aleatoriamente con reemplazo. La varianza de la media de muestra será V (x)/5.
Por otro lado, suponga que muestra a las cinco personas sin reemplazo. Luego, la varianza de la media de la muestra es 0. Has probado a toda la población, cada individuo exactamente una vez, por lo que no hay distinción entre la «media de la muestra» y la «media de la población». Ellos son la misma cosa.
En el mundo real, debe saltar de alegría cada vez que tenga que hacer la corrección de la población finita porque (Drumroll…) hace que la varianza de su estimador disminuya sin que tenga que recopilar más datos. Casi nada hace esto. Es como la magia: buena magia.
La corrección <1 significa que la aplicación de la corrección hace que la varianza disminuya, porque aplica la corrección multiplicándola contra la varianza. Varianza hacia abajo == bien.
Moviéndose en la dirección opuesta, completamente lejos de las matemáticas, piense en lo que está pidiendo. Si desea aprender sobre la población y puede probar a 5 personas de ella, parece probable que aprenda más aprovechando la oportunidad de probar al mismo tipo 5 veces o parece más probable que aprenda más al garantizar ¿Que muestras 5 chicos diferentes?
El caso del mundo real es casi lo contrario de lo que estás diciendo. Casi nunca muestras con reemplazo, es solo cuando estás haciendo cosas especiales como el arranque. En ese caso, en realidad está tratando de arruinar el estimador y darle una variación «demasiado grande».
¿Qué es el muestreo con o sin reemplazo?
Métodos de muestreo probabilístico. El muestreo probabilístico significa que cada miembro de la población tiene la oportunidad de ser seleccionados. Se utiliza principalmente en investigación cuantitativa. Si desea producir resultados representativos de toda la población, las técnicas de muestreo probabilístico son la opción más válida.
Tanto el muestreo aleatorio simple como el laminado, es necesario que exista una lista de individuos en la población estudiada (la base de la encuesta). Estas técnicas de muestreo requieren trabajo previo antes de obtener la muestra.
Un error de muestreo es un error estadístico que ocurre cuando un analista no selecciona una muestra que represente a toda la población de datos. En consecuencia, los resultados encontrados en la muestra no representan los resultados que se obtendrían de toda la población.
Si las unidades seleccionadas no se reemplazan en la población antes. Segundo empate, se llama SRSWOR y si las unidades seleccionadas están en marcha. Reemplazado en la población antes del segundo sorteo, se llama SRSWR.
Los errores que no se deben al muestreo sistemático son peores que los errores no debido al muestreo aleatorio porque los errores sistemáticos pueden causar el estudio, la encuesta o el censo. Cuanto mayor sea el número de errores, menos la información es confiable. Cuando se producen errores que no se deben al muestreo, la tasa de sesgo en un estudio o encuesta aumenta.
¿Qué es muestreo sin reemplazo ejemplos?
El muestreo se llama sin reemplazo cuando una unidad se selecciona al azar de la población y no se devuelve al lote principal. La primera unidad se selecciona con una población de tamaño $$ n $$ y la segunda unidad se selecciona de la población restante de unidades $$ n – 1 $$, y así sucesivamente. Por lo tanto, el tamaño de la población disminuye a medida que aumenta el tamaño de la muestra $$ n $$. El tamaño de la muestra $$ n $$ no puede exceder el tamaño de la población $$ n $$. Una vez que se selecciona la unidad para una muestra, no se puede repetir en la misma muestra. Por lo tanto, todas las unidades de la muestra son distintas entre sí. Se puede seleccionar una muestra sin reemplazo utilizando la idea de permutaciones o combinaciones. Dependiendo de la situación, escribimos todas las permutaciones o combinaciones posibles. Si se deben considerar los diferentes arreglos de las unidades, entonces las permutaciones (arreglos) se escriben para obtener todas las muestras posibles. Si la disposición de las unidades no tiene interés, escribimos las combinaciones para obtener todas las muestras posibles.
Vamos a considerar nuevamente mucho (población) de $$ 5 $$ BOMBS con $$ 3 $$ bueno ($$ {g_1}, {g_2} $$ y $$ {g_3} $$) y 2 defectuoso ($$ {d_1 } $$ y $$ {D_2} $$) Bombillas. Supongamos que tenemos que seleccionar dos bombillas en cualquier orden. Hay $$^5 {c_2} = frac {{5!}} {{2! 3!}} = 10 $$ Combinaciones o muestras posibles. Estas combinaciones (muestras) se enumeran como: $$ {g_1} {g_2} $$, $$ {g_1} {g_3} $$, $$ {g_2} {g_3} $$, $$ {g_1} {d_1} $$, $$ {g_1} {d_2} $$, $$ {g_2} {d_1} $$, $$ {g_2} {d_2} $$, $$ {g_3} {d_1} $$, $$ { G_3} {d_2} $$, $$ {d_1} {d_2} $$.
Hay muestras posibles $$ 10 $$ y cada una de ellas tiene una probabilidad de selección igual a $$ 1/10 $$. La muestra seleccionada será cualquiera de estas muestras $$ 10 $$. La muestra seleccionada de esta manera también se llama muestra aleatoria simple. En general, el número de muestras por combinaciones es igual a [^n {c_n} = frac {{n!}} {{N! Left ({n – n} right)!}} ].
Cada combinación genera una serie de arreglos (permutaciones). Por lo tanto, en general, el número de permutaciones es mayor que el número de combinaciones. En el ejemplo anterior de bulbos, si el orden de las bombillas seleccionadas se debe considerar, entonces el número de muestras por permutación viene dado por [^5 {p_2} = frac {{5!}} {{ Left ({{ 5 – 2} right)!}} = 20 ].
Cada muestra tiene una probabilidad de selección igual a $$ 1/20 $$. La muestra seleccionada sostiene que el orden de las bombillas será cualquiera de estas muestras $$ 20 $$. Una muestra seleccionada de esta manera también se llama muestra aleatoria simple porque cada muestra tiene una probabilidad igual de ser seleccionada.
¿Cómo hacer un muestreo sin reemplazo?
Estoy tratando de verificar la probabilidad de que una agrupación particular de datos haya ocurrido por casualidad. Una forma efectiva de hacerlo es la simulación de Monte Carlo, en la que las asociaciones entre datos y grupos se reasignan aleatoriamente una gran cantidad de veces (por ejemplo, 10,000) y una métrica de agrupación se usa para comparar los datos reales con las simulaciones para determinar el valor AP .
La mayor parte de este trabajo funciona, con los episodios que asocian la agrupación de elementos de datos, por lo que tengo la intención de reasignar aleatoriamente los datos a los datos. La pregunta: ¿Cuál es una forma rápida de muestreo sin reemplazo, de modo que cada puntero se tranquiliza aleatoriamente en los conjuntos de datos replicados?
Para cada conjunto de datos de réplica, tendría las mismas dimensiones que el clúster (a = 3, b = 3, c = 2, d = 4) y los valores de los datos, pero volvería a modificar los valores a los clústeres.
Para hacer esto, podría generar números aleatorios en el intervalo 1-12, asignar el primer elemento del Grupo A, luego generar números aleatorios en el intervalo 1-11 y asignar el segundo elemento en el Grupo A, y así sucesivamente. La reorganización del puntero es rápida y tendré prep-actual asignado todas las estructuras de datos, pero el muestreo sin reemplazo parece haber sido un problema que puede haberse resuelto muchas veces anteriormente.
Hay un método más eficiente pero más complejo que Jeffrey Scott Vitter en «un algoritmo eficiente para el muestreo aleatorio secuencial», transacciones ACM en software matemático, 13 (1), marzo de 1987, 58-67.
Artículos Relacionados: