¿Cuál debe ser el tamaño de la muestra?

Cuando realiza una encuesta, la intención es obtener una imagen representativa sobre una serie de variables o declaraciones dentro de un determinado grupo o población objetivo. Debido a razones prácticas (demasiado grande, demasiado caro, demasiado tiempo,…) a menudo es difícil interrogar a la población total. En ese caso se usa una muestra. Esta es una selección de encuestados elegidos de tal manera que representan a la población total lo más posible.

Es muy importante usar un tamaño de muestra correcto. Cuando su muestra es demasiado grande, esto conducirá a una pérdida innecesaria de dinero y tiempo. Por otro lado, cuando sea demasiado pequeño, sus resultados no serán estadísticamente significativos y no llegará a conclusiones confiables.

Hay muchos métodos de muestreo diferentes. Una de las más utilizadas es la muestra aleatoria, donde todos los miembros de la población tienen las mismas posibilidades de ser seleccionados para la muestra. En la página de soporte de nuestro sitio hay una herramienta muy útil y fácil para calcular el tamaño de muestra mínimo necesario para una encuesta realizada en una muestra aleatoria. El cálculo se basa en los siguientes parámetros:

Tamaño de la población aquí debe ingresar al tamaño del grupo que debe estar representado por la muestra. Si realiza una encuesta de empleados, por ejemplo, su población sería el personal total. Una vez que la población excede los 20,000, el tamaño de su muestra ya no cambiará mucho.
Margen de error preferido Esta es la desviación positiva o negativa que permite en los resultados de su encuesta para la muestra, en otras palabras, el nivel de precisión requerido. Supongamos que en su encuesta el 40% de los encuestados eligen una determinada respuesta y su margen de error es del 2%. Esto significaría que si interroga la población total, puede estar seguro de que entre el 38% y el 42% elegiría la misma respuesta. Cuanto más pequeño sea el margen de error permitido, mayor será su muestra.
Nivel de confianza deseado El nivel de confianza le indica qué tan seguro puede ser del margen de error, en otras palabras, con qué frecuencia el porcentaje real de la población que elige una determinada respuesta, se encuentra dentro del margen de error. En la investigación de mercado, los márgenes de error se calculan generalmente para un nivel de confianza del 95%. Esto significa que los resultados de la encuesta estarán en línea con la realidad 19 de 20 veces. Si desea un nivel de confianza más alto (por ejemplo, 99%), su muestra tendrá que ser mayor.

Una vez que haya calculado el tamaño de la muestra, sabe cuántos encuestados necesita generar. Luego, aún debe estimar cuántas personas de la población pedir que participen para asegurar el número requerido de encuestados. Por ejemplo, si envía invitaciones por correo electrónico y el tamaño de su muestra es de 100, y la tasa de respuesta esperada es del 20%, entonces tendrá que enviar 500 invitaciones.

¿Cuál es el tamaño óptimo de la muestra?

La determinación del tamaño de la muestra es el acto de elegir el número de observaciones o réplicas que se incluirán en una muestra estadística. El tamaño de la muestra es una característica importante de cualquier estudio empírico en el que el objetivo es hacer inferencias en una población por una muestra. En la práctica, el tamaño de la muestra utilizada en un estudio generalmente se determina sobre la base del costo, el tiempo o la conveniencia de la recopilación de datos y la necesidad que ofrece suficiente poder estadístico. En estudios complicados puede haber diferentes tamaños de la muestra: por ejemplo, en una investigación estratificada habría diferentes tamaños para cada capa. En un censo, se buscan los datos para toda una población, por lo tanto, el tamaño de la muestra esperada es el mismo que la población. En el diseño experimental, en el que un estudio se puede dividir en diferentes grupos de tratamiento, puede haber muestras de diferentes tamaños para cada grupo.

Usando una varianza objetivo para una estimación que se deriva de la muestra posiblemente obtenida, o si se requiere una alta precisión (intervalo de confianza restringido) esto se traduce en una varianza objetivo baja del estimador.
Utilizando un objetivo para el poder de una prueba estadística que se aplicará una vez que se recolecte la muestra.
Usando un nivel de confianza, es decir, cuanto mayor sea el nivel de confianza requerido, mayor es el tamaño de la muestra (dado un requisito de precisión constante).

Las muestras más grandes generalmente conducen a una mayor precisión en la estimación de parámetros desconocidos. Por ejemplo, si deseamos conocer la proporción de una cierta especie de peces infectadas por un patógeno, generalmente tendríamos una estimación más precisa de esta proporción si se muestrean y examinan 200 peces en lugar de 100. Varios hechos fundamentales de las estadísticas matemáticas Describa este fenómeno, incluida la ley de grandes números y el teorema del límite central.

¿Cómo obtener un tamaño de muestra adecuado?

Es esencial calcular un tamaño de muestra apropiado para la validez de la siguiente muestra. Si la muestra no es válida o representativa, no puede proyectar de manera confiable los resultados de los procedimientos de auditoría que realiza con la muestra en toda la población.

No pase el paso de calcular el tamaño de la muestra o simplemente intente «adivinar» su tamaño.

La mayoría de los valores introductorios que utiliza para calcular el tamaño de una muestra se calculan de acuerdo con su juicio profesional. Asegúrese de haber entendido completamente las consecuencias de los valores antes de confiar en los resultados de muestreo en un entorno de producción. En caso de duda, consulte los recursos en el muestreo de auditoría o acérquese a un especialista en muestreo de auditoría.

Los valores de introducción influyen en el tamaño de la muestra calculada por análisis. Puede usar el botón de calcular en el cuadro de diálogo Tamaño para probar en qué medida los diferentes valores introductorios influyen en el tamaño de la muestra.

La siguiente tabla resume el efecto de los valores introductorios en el tamaño de la muestra.

En un entorno de producción, no maneje los valores introductorios solo para alcanzar un tamaño de muestra más bajo. Los valores introductorios deben calcularse de acuerdo con su juicio profesional sobre lo que es más apropiado para los datos muestreados y el objetivo de la auditoría.

¿Qué factores determinan el tamaño de una muestra?

Aparecer con el tamaño de muestra correcto para la recopilación de datos antropométricos es un acto de equilibrio. Desea medir suficientes personas para capturar toda la variabilidad necesaria para diseñar su producto, pero no desea perder tiempo y dinero que mide las personas que no necesita. Seleccionar el tamaño de muestra apropiado es un paso fundamental para determinar la variabilidad antropométrica en una población, por lo que es importante que se haga bien.

Hemos descubierto que hay tres componentes clave que pueden ayudar a establecer el tamaño de su muestra objetivo.

Las personas a menudo piensan incorrectamente que el tamaño de la muestra está relacionado con el tamaño de la población, por lo que asumen que para una población muy grande necesitaría medir muchas, muchas personas. Pero piénselo de esta manera: si la población de China fuera exactamente la misma, ¡necesitaría medir solo una persona! En cambio, el problema importante para el tamaño de la muestra es la variabilidad.

Para una muestra aleatoria, las personas se presentarán en aproximadamente las mismas proporciones que están en la población. Como resultado, habrá más personas con mediciones típicas que aparecen con más frecuencia, y las personas más inusuales (muy cortas o muy altas, por ejemplo) aparecen con menos frecuencia. Entonces, si la población es bastante variable, deberá medir más de ellos para asegurarse de capturar la persona atípica y típica. Para fines de diseño, a menudo estamos más interesados en los extremos de la distribución, el extremo pequeño y el extremo grande de la curva de campana, porque si podemos acomodarlos, también acomodaremos a la gente en el medio. Si no ha capturado a esas personas más extremas, corre el riesgo de hacer que su puerta sea demasiado corta o su asiento de avión demasiado estrecho.

¿Cuál es el tamaño de una muestra en estadística?

El tamaño de la muestra se define como el número de observaciones utilizadas para determinar las estimaciones de una población dada. El tamaño de la muestra se ha extraído de la población. El muestreo es el proceso de selección de un subconjunto de individuos de la población para estimar las características de toda la población. El número de entidades en un subconjunto de una población se selecciona para el análisis.

A veces el tamaño de la muestra puede ser muy pequeño. Cuando el tamaño de la muestra es pequeño (n <30), utilizamos la distribución T en lugar de la distribución normal. Si la varianza de la población es desconocida y el tamaño de la muestra es pequeño, entonces usamos la estadística T para probar la hipótesis nula con una cola y dos colas, donde

Genere para estimaciones más precisas, pero el tamaño de muestra grande puede causar dificultades para interpretar las pruebas habituales de importancia, y puede surgir el mismo problema en caso de tamaño de muestra muy pequeño. Por lo tanto, ni los tamaños de muestra demasiado grandes ni demasiado pequeños ayudan a los proyectos de investigación.

La fórmula de tamaño de muestra para la población infinita viene dada por:

Cuando se obtiene la entrada o los datos de la muestra y la media de la muestra

se calcula, la media de muestra obtenida es diferente de la media de la población μ. Esta diferencia entre la media de la población y la media de la muestra puede considerarse como un error E, que es la diferencia máxima entre la media de muestra observada y el valor verdadero de la media de la población.

Suponiendo que las alturas de los estudiantes en un campus universitario se distribuyan normalmente con una desviación estándar = 5 in, encuentre el tamaño mínimo requerido para construir un intervalo de confianza del 95% para la media con un error máximo = 0.5 in.

¿Cuándo se considera que una muestra es grande?

La mayoría de las fórmulas que usamos en las pruebas de hipótesis y los intervalos de confianza suponen que una muestra dada sigue aproximadamente una distribución normal.

Sin embargo, para hacer esta suposición de forma segura, debemos asegurarnos de que nuestro tamaño de muestra sea lo suficientemente grande. Específicamente, debemos asegurarnos de que se cumpla la condición de muestra grande.

La condición de muestra grande: el tamaño de la muestra es al menos 30.

Nota: En algunos libros de texto, un tamaño de muestra «lo suficientemente grande» se define como al menos 40, pero el número 30 se usa más comúnmente.

Cuando se cumple esta condición, se puede suponer que la distribución de muestreo de la media de la muestra es aproximadamente normal. Esta suposición nos permite usar muestras para dibujar inferencias sobre las poblaciones de las que provienen.

La razón por la cual se usa el número 30 se basa en el teorema del límite central. Puedes leer más sobre eso en esta publicación de blog.

Supongamos que una cierta máquina crea galletas. La distribución del peso de estas cookies está sesgada a la derecha con una media de 10 onzas y una desviación estándar de 2 onzas. Si tomamos una muestra aleatoria simple de 100 cookies producidas por esta máquina, ¿cuál es la probabilidad de que el peso medio de las cookies en esta muestra sea inferior a 9.8 onzas?

Para responder a esta pregunta, podemos usar la calculadora CDF normal, pero primero debemos verificar que el tamaño de la muestra sea lo suficientemente grande como para asumir que la distribución de la media de muestreo es normal.

¿Qué pasa si la muestra es muy grande?

Varios comentarios han sugerido que los grandes estudios son más confiables que los estudios más pequeños y existe un creciente interés en el análisis de «big data» que integra información de muchos miles de personas y/o fuentes de datos diferentes. Consideramos una variedad de sesgos que probablemente estén en la era de los grandes datos, incluido el error de muestreo, el error de medición, los errores de comparaciones múltiples, el error de agregación y los errores asociados con la exclusión sistemática de la información. Utilizando ejemplos de epidemiología, investigación de servicios de salud, estudios sobre determinantes de la salud y ensayos clínicos, concluimos que es necesario ejercer mayor precaución para asegurarse de que el tamaño de la muestra grande no conduzca a grandes errores inferenciales. A pesar de las ventajas de los grandes estudios, el tamaño de la muestra grande puede ampliar el sesgo asociado con el error resultante del muestreo o el diseño del estudio. Clin Trans Sci 2014; Volumen #: 1–5

En preparación para las elecciones presidenciales de 1936, se realizó la encuesta de opinión pública más grande en la historia de los Estados Unidos. Más de 2.4 millones de encuestados indicaron si tenían la intención de votar por el gobernador Alfred Landon de Kansas o el presidente actual Franklin Delano Roosevelt. Los resultados de la encuesta fueron claros e inequívocos. Landon ganaría por un deslizamiento de tierra. Las elecciones presidenciales brindan una de las pocas oportunidades para validar las encuestas de opinión pública contra los resultados verificables. En las elecciones de 1936, la encuesta de tamaño de muestra grande fue incorrecta. Roosevelt ganó 46 de los entonces 48 estados. Landon solo llevaba Vermont y Maine, y debido a que estos estados eran pequeños, recibió solo 8 votos electorales.1

El entusiasmo actual sobre los registros de salud electrónicos (EHR) ejemplifica por qué se deben entender estos problemas de sesgo potencial.4 Muchos investigadores creen que el futuro de la investigación epidemiológica utilizará la información obtenida de los pacientes en entornos comunitarios y registrados en EHRS. La propuesta de construir un EHR basado en la Red Nacional de Investigación Clínica centrada en el paciente (PCORNET) 4 ha sido recibida con gran entusiasmo. Sin embargo, puede haber sesgos sistemáticos en la muestra de personas en los sistemas EHR y a menudo hay sesgos en la forma en que se obtiene y registra la información.3, 5 Si ignoramos estos sesgos y asumimos que se resolverán a través del tamaño de la muestra, comprometemos La utilidad de los hallazgos de nuestra investigación. Estos son algunos de los sesgos que se pueden esperar si exageramos el tamaño de la muestra en relación con otros aspectos del diseño del estudio.

Una porción sustancial de la población de los Estados Unidos permanece sin seguro e incluso un grupo más grande usa solo la atención médica rara vez. Aunque la tendencia es hacia un mayor uso de EHRS, solo alrededor del 40% de los pacientes actualmente tienen su información registrada en EHRS. Los científicos de la población han ofrecido innumerables ejemplos de las consecuencias del sesgo de muestreo. Por ejemplo, el estudio de salud de las grandes enfermeras siguió a 48,470 mujeres posmenopáusicas, de 30 a 63 años de edad durante 10 años (337,854 años). El estudio concluyó que el uso de la terapia de reemplazo hormonal redujo la tasa de enfermedad coronaria grave casi a la mitad.6 A pesar del enorme tamaño de la muestra, el estudio no reconoció la naturaleza atípica de la muestra y la confusión del uso de la terapia con estrógenos con otra salud positiva hábitos. La parte del ensayo clínico de la Iniciativa de Salud de la Mujer (WHI) pudo controlar la auto -selección y sugirió que el reemplazo de estrógenos no redujo el riesgo de enfermedad cardíaca y en realidad puede ser dañino.7 Más tarde, los investigadores pudieron demostrar que los resultados del Estudio de Salud de las Enfermeras Mapee al WHI si el enfoque está en los nuevos usuarios de reemplazo hormonal.8 Los estudios de observación pueden proporcionar información causal valiosa, pero solo cuando los investigadores tienen el modelo correcto. Cuando el modelo de muestreo subyacente es incorrecto, el tamaño de muestra grande puede ampliar el sesgo.

Es probable que los grandes datos revolucionen la investigación de servicios de salud.9 Pero, a pesar de las ventajas de los EHR, el despliegue real en los Estados Unidos está creando su propio conjunto de prejuicios. Por ejemplo, la amplia personalización de EHR ahora hace que sea muy difícil combinar datos en todos los sistemas. También hay serios problemas con la intraoperabilidad o la compartimentación de los datos en todos los sistemas que a menudo no se comunican entre sí.10 Los pacientes a menudo cambian a los proveedores y pueden pasar de un sistema de reclamos EHR o de seguro a otro, y como resultado sus trayectorias son difíciles de seguir. Los cambios en las convenciones de codificación y la conversión frecuente de datos numéricos en texto pueden dar lugar a información que no se puede rastrear fácilmente con el tiempo. La fusión de datos puede ser un desafío, particularmente cuando las observaciones se almacenan en diferentes sistemas de propiedad a los que no se puede acceder fácilmente.

¿Que se entiende por inferencia estadística con muestras grandes?

En la sección anterior sobre el teorema del límite central, nos centramos exclusivamente en la media de la muestra. Aprendimos que, para muestras lo suficientemente grandes, las fluctuaciones estadísticas en la media de la muestra pueden describirse mediante una distribución normal cuyo ancho se conoce con bastante precisión, a través de la ecuación de De Moivre.

Resulta que la media de la muestra no es especial: muchos otros resúmenes de datos comunes también tienen distribuciones de muestreo aproximadamente normales, independientemente de si la población subyacente en sí misma parece normal. El resultado es que podemos hacer declaraciones de probabilidad aproximadas sobre los estimadores más comunes utilizando la distribución normal, utilizando la misma lógica básica de la sección sobre intervalos de confianza para una media. Esto incluye medios, medianas, proporciones, diferencias de medias, diferencias de proporciones, desviaciones estándar, correlaciones, coeficientes de regresión, cuantiles… ¡es una lista bastante larga! Se dice que estos estimadores son asintóticamente normales, suponiendo que sus datos consistan en una muestra aleatoria de alguna población subyacente.

Para cualquier estimador asintóticamente normal ( hat { theta} ), podemos calcular un intervalo de confianza utilizando el mismo enfoque básico:

Calcule la estimación de muestra ( hat { theta} ).
Calcule el error estándar de su estimación, ( mbox {se} ( hat { theta}) ), de la fórmula apropiada (como la ecuación de De Moivre).
Forma el intervalo de confianza como este:

De hecho, lo único que cambia de una estadística resumida a otra es la fórmula para el error estándar. Para una media de muestra, calculamos el error estándar usando la ecuación de De Moivre: ( mbox {se} ( bar {x} _n) = sigma/ sqrt {n} ). Para cualquier estadística que no sea la media de la muestra, simplemente requerimos una fórmula diferente para el error estándar. Afortunadamente, en los últimos siglos, muchas de estas fórmulas «de modo de moivre» se han resuelto para una amplia gama de situaciones, y están programadas en todos los paquetes de software estadísticos comunes (incluida R).

¿Cómo interpretar el tamaño de la muestra?

¿Es importante tener una muestra estadísticamente significativa? La regla general es que cuanto mayor es el tamaño de la muestra, mayor es su valor estadístico, es decir, la probabilidad de que los resultados se hayan obtenido por pura coincidencia.

¿Qué sucede con el intervalo de confianza si aumenta el número de muestra? Siempre se espera que estas diferencias aumenten el número de muestras, por lo que cuando es muy alto, es posible usar la distribución normal estandarizada en lugar de t.

Para obtener una muestra representativa del objetivo, es necesario definir una estructura de muestra (a través de las variables de estratificación) y el tamaño de la muestra. Definir la estructura de la muestra y el tamaño de la muestra es una operación muy compleja que depende de numerosos factores.

Definimos el representante de la muestra el subconjunto de las unidades estadísticas sometidas a la observación que tiene: una estructura que refleja la de la población; un número adecuado para la población de origen.

precisión en la realización de su valor nominal;
logro de alta repetibilidad y reproducibilidad en las cantidades de interés;
Alta estabilidad en el tiempo de características;
Inmunidad a los agentes del trastorno ambiental.
Definición de los objetivos de la investigación.
Detección de datos.
Procesamiento metodológico.

¿Qué pasa si el tamaño de la muestra es muy pequeña?

Muchos estudios sobre usabilidad, pruebas A/B en línea, investigación de mercado y innumerables otras áreas sacan conclusiones cuando, francamente, no deberían serlo. ¿Por que no? Su tamaño de muestra es demasiado bajo.

La falta de reclutamiento de temas de investigación los deja con un número insignificante de personas que hacen que las conclusiones no sean confiables. Los pequeños tamaños de muestra los datos de sesgo al hacer que los acontecimientos únicos o limitados parezcan más comunes de lo que realmente son. Del mismo modo, las ocurrencias relativamente comunes pueden no aparecer en absoluto durante el estudio.

Los números detrás de este fenómeno son un poco complicados, pero a menudo un tamaño de muestra pequeño en un estudio puede causar resultados que son casi tan malos, si no peores, que no ejecutar un estudio.

Muchos estudios ignoran la «tasa de confianza», o qué probable sean los fenómenos estadísticos observados.
Para los estudios que tienen la intención de descubrir la tasa de falla de un producto, empaque o sitio web en particular con estrictos requisitos de aprobación/falla, el tamaño de la muestra se vuelve aún más importante

○ Un estudio de 30 (n = 30) que encuentra fallas cero indica que la tasa de falla aún es de alrededor del 11,6%

Muchos estudios ignoran la «tasa de confianza», o qué probable sean los fenómenos estadísticos observados.
Para los estudios que tienen la intención de descubrir la tasa de falla de un producto, empaque o sitio web en particular con estrictos requisitos de aprobación/falla, el tamaño de la muestra se vuelve aún más importante

Muchos estudios deberían querer afirmar:

○ Un estándar moderado de desviación de 0.5, donde las respuestas generalmente no se dividen dramáticamente entre sí (piense en una curva de campana estándar)

Muchos estudios ignoran la «tasa de confianza», o qué probable sean los fenómenos estadísticos observados.
Para los estudios que tienen la intención de descubrir la tasa de falla de un producto, empaque o sitio web en particular con estrictos requisitos de aprobación/falla, el tamaño de la muestra se vuelve aún más importante

Muchos estudios deberían querer afirmar:

Para satisfacer todos estos requisitos, este estudio necesitará al menos 385 personas

Para los estudios que desean hacer observaciones demográficas/de segmentos en estas condiciones, cada segmento representativo debe tener al menos 385 personas, y el muestreo estratificado debe usarse para obtener resultados equitativos