El muestreo sin reemplazo se puede definir como un muestreo aleatorio que no permite que las unidades de muestreo ocurran más de una vez. Ahora revisemos un ejemplo rápido de cómo funciona el muestreo sin reemplazo.
Imagine que tiene un frasco de 12 cuentas de vidrio únicas como en la imagen de arriba. Si está muestras sin reemplazo del frasco, la posibilidad de seleccionar aleatoriamente 1 de las cuentas de vidrio es 1/12. Después de seleccionar una cuenta, no se devuelve al frasco para que la probabilidad de seleccionar cualquiera de las 11 cuentas restantes en muestreo futuro sea ahora (1/11). Esto significa que para cada muestra adicional dibujada, hay cada vez menos cuentas en el frasco hasta que finalmente no hay más cuentas para la muestra (después de 12 muestras).
Para insertar este conocimiento, ahora simulemos este proceso con Python. El siguiente código carga numpy y muestras sin reemplazo 12 veces desde una matriz numpy que contiene números únicos de 0 a 11
Tenga en cuenta que si intenta generar una muestra usando el muestreo sin reemplazo que sea más largo que la muestra original (12 en este caso), recibirá un error. Volviendo al ejemplo del frasco de cuentas, no puede probar más cuentas que en el frasco.
np.random.seed (3) np.random.Choice (a = 12, tamaño = 20, reemplazar = falso)
El muestreo sin reemplazo se utiliza en toda la ciencia de datos. Un uso muy común es en los procedimientos de validación del modelo como la división de prueba de trenes y la validación cruzada. En resumen, cada uno de estos procedimientos le permite simular cómo funcionaría un modelo de aprendizaje automático en datos nuevos/invisibles.
¿Qué significa con reemplazo y sin reemplazo?
La probabilidad sin reemplazo significa una vez que dibujamos un elemento, no lo reemplazamos al espacio de muestra antes de dibujar un segundo elemento. En otras palabras, un elemento no se puede dibujar más de una vez.
Por ejemplo, si sacamos un dulce de una caja de 9 dulces, y luego dibujamos un segundo dulce sin reemplazar el primer dulce. Por supuesto, el espacio muestral ya no permanecería 9 para el segundo evento porque no hemos reemplazado el primer dulce. Por lo tanto, el espacio de muestra sería 8 para el segundo evento. En otras palabras, el espacio muestral se ha cambiado para el segundo evento.
Utilizamos la probabilidad sin reemplazo para resolver los problemas donde el espacio de la muestra cambia para diferentes eventos y la aparición del próximo evento depende de lo que sucede en el evento anterior.
Ahora que entendemos brevemente la probabilidad dependiente, antes de sumergirnos en el cálculo de la probabilidad sin reemplazo, primero intentemos visualizar qué eventos dependientes son y cómo el evento anterior puede afectar el próximo evento.
Consideremos que el evento A está recibiendo un dulce verde. Como hay $ 4 $ dulces verdes, la cantidad de formas en que puede suceder = $ 4 $. Además, el número total de dulces es de $ 9 $, por lo que el número total de resultados = $ 9 $.
Supongamos que $ P (a) $ representa la probabilidad de generar un dulce verde. Por lo tanto, podemos calcular la probabilidad de obtener un dulce verde como:
P (a) = número de formas en que puede suceder $ displaystyle /$ total número de resultados
¿Qué quiere decir sin reemplazo?
Al extraer de un conjunto de elementos (por ejemplo, un mazo de cartas) sin reemplazar los elementos después de que se dibujen, calculando la probabilidad de una secuencia de sorteos se puede hacer siguiendo estos pasos:
- Calcule la probabilidad de que el primer sorteo tenga en cuenta el número de posibles resultados deseables con respecto al espacio muestral.
- Calcule la probabilidad de que el segundo sorteo tenga en cuenta el nuevo espacio de muestra realizado por el hecho de que el primer elemento fue eliminado y no reemplazado.
- Calcule la probabilidad de que cada sorteo sucesivo tenga en cuenta el nuevo espacio de muestra cada vez hasta que se calculen todos los sorteos deseados.
- Multiplique las probabilidades de cada dibujo para encontrar la probabilidad de toda la secuencia.
Probabilidad: la probabilidad de un evento se expresa como un número entre 0 y 1 donde 0 significa que el evento es imposible y 1 significa que el evento es inevitable.
Dibuje sin reemplazo: dibujar sin reemplazo significa que después de que se extrae un elemento de un conjunto de elementos, no se reemplaza, lo que significa que el espacio de muestra del siguiente sorteo ahora cambia desde el sorteo anterior.
Espacio de muestras: el espacio muestral de un evento es el conjunto de resultados totales posibles para ese evento.
Los siguientes dos problemas demuestran cómo calcular las probabilidades de los sorteos sin reemplazo.
Dado un mazo de cartas estándar, ¿cuál es la probabilidad de que pueda dibujar tres corazones seguidos si no reemplaza las cartas después de que se dibujen?
¿Qué es espacio muestral con reemplazo y sin reemplazo?
Considere la misma configuración que anteriormente, pero ahora no está permitida la repetición. Por ejemplo, si $ a = {1,2,3 } $ y $ k = 2 $,
Hay $ 6 $ diferentes posibilidades:
- (1,2);
- (1,3);
- (2,1);
- (2,3);
- (3,1);
- (3,2).
En general, podemos argumentar que hay posiciones $ K $ en la lista elegida:
$ ($ Posición $ 1 $, posición $ 2 $,…, posición $ k) $. Hay $ N $ opciones para la primera posición, $ (N-1) $ opciones
para la segunda posición (ya que un elemento ya se ha asignado a la primera posición y no se puede elegir
Aquí), $ (N-2) $ Opciones para la tercera posición,… $ (N-K+1) $ Opciones para la posición de $ K $ TH. Así, al ordenar
No se permiten asuntos y repetición, el número total de formas de elegir $ K $ objetos de un conjunto con $ N $
Elementos es
$$ N Times (N-1) Times… Times (N-K+1). $$
Cualquiera de las listas elegidas en la configuración anterior (elija $ k $ elementos, ordenado y sin repetición) se llama
Una permutación de $ K $ de los elementos en el conjunto $ A $. Usamos la siguiente notación para mostrar el número de
$ K $ -Permutaciones de un conjunto de $ n $ -Element:
$$ p^n_k = n times (n-1) times… times (n-k+1). $$
Tenga en cuenta que si $ k $ es mayor que $ n $, entonces $ p^n_k = 0 $. Esto tiene sentido, ya que si $ k> n $ no hay forma de
Elija $ K $ elementos distintos de un conjunto de 10 n $ n $. Veamos un problema muy famoso, llamado
El problema de cumpleaños o la paradoja de cumpleaños.
Si $ K $ personas están en una fiesta, ¿cuál es la probabilidad de que al menos dos de ellas tengan el mismo cumpleaños?
Supongamos que hay $ N = 365 $ días en un año y que todos los días tienen la misma probabilidad de ser el cumpleaños de un
persona concreta.
¿Qué es el muestreo con reemplazamiento y sin reemplazamiento?
El muestreo aleatorio simple es la técnica de extraer una muestra de una población de tal manera que cada unidad tiene la misma posibilidad de ser incluida en la muestra en comparación con las otras. Hay dos métodos diferentes para elegir nuestra muestra, con reemplazo y sin reemplazo.
En muestreo aleatorio con reemplazo cada vez que incluimos una unidad de la población en nuestra muestra, la unidad elegida se vuelve a colocar nuevamente en la población. Esto significa que la unidad en particular podría elegirse una vez más como parte de nuestra muestra. Entonces nuestra muestra puede contener unidades repetidas.
Supongamos que queremos estudiar las alturas de una población. Elegimos a una persona al azar y anotamos su altura. Una vez más, la persona vuelve a colocar en la población. Entonces, si tuviéramos que elegir a esa persona al azar una vez más, su altura se eliminaría dos veces como parte de nuestros valores de muestra. Este método generalmente no se usa en encuestas estadísticas porque no deseamos incluir la misma información en nuestra muestra dos veces. Por lo tanto, el método más utilizado es el muestreo sin reemplazo que se explica a continuación.
En este método, una vez que se incluye una unidad en nuestra muestra, se elimina de la población y, por lo tanto, no puede ocurrir ninguna unidad en particular más de una vez en la muestra. Deje que el tamaño de la población sea N. entonces la probabilidad de que una unidad que se incluya en la muestra es 1/N. En el segundo paso, la probabilidad de que una unidad se incluya en la muestra es 1/(N-1) porque el tamaño de la población disminuyó en una cuando se eligió la primera unidad.
¿Qué es un muestreo con reemplazamiento?
Pocos saben cómo funcionan los ETF, uno de los aspectos más fundamentales es el modo de réplica. Los ETF pasivos replican un punto de referencia, un índice de referencia proporcionado por varios proveedores como los índices CBOE, Bloomberg, MSCI o S&P Dow Jones. El objetivo del gerente es alinear el rendimiento de retorno completamente de la parte inferior a los de la indexación minimizando el error de seguimiento.
Hay 4 formas de replicar un índice, cada uno con diferentes precisión y costos. Estas modalidades se distinguen en dos macrocastores: réplica física y sintética. A su vez, dividido en una réplica física completa y muestreo y una respuesta sintética financiada y no financiada.
Este modo establece que el gerente compra todos los valores incluidos en el punto de referencia respeta los pesos fijos. Por lo tanto, el rendimiento está en línea, pero los costos de gestión se deducen. Esta metodología es efectiva para índices compuestos de valores líquidos y en números no altos para optimizar los costos de transacción. De hecho, se solicita el reequilibrio continuo que genere costos que aumentan el error de seguimiento y reducen el rendimiento del ETF.
El muestreo consiste en la compra de varios valores elegidos dentro del índice de referencia. El objetivo es crear una cartera con un número reducido de valores pero suficientemente representativos al optimizar los costos de transacción. Si el muestreo no es efectivo, el error de seguimiento puede ser muy alto. Para reducirlo, el gerente puede generar ingresos adicionales al recurrir a las operaciones de préstamos de los valores que el ETF posee en la cartera, sin embargo, esto implica la aparición de un riesgo de contraparte debido a la posibilidad de insolvencia de los sujetos a quienes los valores tienen ha sido proporcionado.
La réplica del punto de referencia tiene lugar a través de la inversión en una canasta de títulos de reemplazo y la entrada en un contrato de intercambio con una contraparte seleccionada por el gerente. Esto reconoce el ETF el rendimiento de la red de índice de referencia del costo del intercambio en la contraparte del rendimiento de la canasta de reemplazo. La canasta intercambiada está compuesta por valores diferentes de los componentes de referencia, pero dado que se intercambian los rendimientos, esto no afecta el rendimiento del ETF. La legislación UCIT limita la exposición en Deriviticon una sola contraparte a no más del 10% del NAV para proteger a los inversores.
Artículos Relacionados:
