Determinación del número de observaciones (n) para análisis estadístico

Al planificar un estudio, por ejemplo, un ensayo clínico controlado, es necesario calcular el número necesario de sujetos que se incluirán para garantizar que el estudio pueda dar un resultado inequívoco: una diferencia significativa (valor p <2α ⇒ Hipótesis nula rechazado) o-si el resultado es negativo (valor p> 2α ⇒ hipótesis nula no rechazada)-una probabilidad baja (riesgo de error de tipo 2 pequeño) de un resultado falso negativo que pasa por alto una diferencia significativa.

Si el cálculo muestra que un estudio dado requeriría más individuos de los que es posible incluir, entonces el estudio no debe realizarse porque no es ético y un desperdicio de recursos para realizar estudios, lo que no puede dar un resultado claro.

La hipótesis nula significa que no hay diferencia entre los grupos. La hipótesis alternativa sería que hay una diferencia entre los grupos. No importa cuán grande se esté planeando una prueba, siempre habrá un límite para las pequeñas diferencias que podrá demostrar. –

Antes de calcular el número requerido de sujetos, uno debe especificar la diferencia mínima relevante δ (tamaño del efecto) que el ensayo debería poder encontrar si existe. El nivel de significación (2α) y la potencia (1 – β) deben especificarse por el examinador y basarse en el conocimiento biológico y la experiencia clínica, es decir, el equilibrio entre los beneficios de demostrar una verdadera diferencia y el riesgo de encontrar una diferencia falsa de diferencia .

Finalmente, para calcular el número requerido de sujetos en cada grupo de tratamiento (n) uno debe conocer la varianza (s²) de la diferencia que desea evaluar. El cálculo se realiza de acuerdo con la Fórmula 5.1.

¿Cómo determinar el número de observaciones para realizar un estudio de muestreo de trabajo?

Mientras que la medición del trabajo se refiere a cuánto tiempo lleva realizar una tarea o actividad específica, el muestreo del trabajo se preocupa principalmente por cómo los trabajadores pasan su tiempo entre varias tareas o actividades. Por ejemplo. Es posible que deseemos saber cuánto tiempo pasan los trabajadores en actividades indirectas, como el manejo de materiales para determinar si se debe comprar o no equipos de manejo de materiales más rentables. En un centro de llamadas de reserva de hotel, querríamos saber qué porcentaje de tiempo se gastan realmente por teléfono. El muestreo de trabajo ‘nos proporciona un método para determinar el tiempo dedicado a estas actividades e implica observar una porción o muestra de la actividad laboral. Luego, según los hallazgos en esta muestra, se pueden hacer algunas declaraciones sobre cómo los empleados o empleados pasan su tiempo. Por ejemplo, si tuviéramos que observar un escuadrón de rescate del departamento de bomberos 100 tiempos aleatorios.

Por ejemplo, si tuviéramos que observar un escuadrón de rescate del departamento de bomberos 100 tiempos aleatorios durante el día y descubrió que estaba involucrado en una misión de rescate durante 30 de las 100 veces (en el camino. En el sitio, o regresando de una llamada), nosotros estimaría que el escuadrón de rescate gasta aproximadamente el 30 por ciento de su tiempo directamente en llamadas de misión de rescate. (El tiempo que lleva hacer una observación depende de lo que se esté observando, a menudo solo se necesita una mirada para determinar la actividad, y la mayoría de los estudios requieren solo varios segundos de observación). Observar una actividad incluso 100 veces. sin embargo. puede no proporcionar la precisión deseada en la estimación de mosaicos. Para refinar esta estimación. Se deben decidir tres temas principales (estos puntos se discuten más adelante en esta sección. Junto con un ejemplo):

I. ¿Qué nivel de confianza estadística se desea en los resultados?

3. Precisamente cuándo se deben hacer las reservas OB?

¿Cómo se determina el número de observaciones necesarias?

El comportamiento de la actividad física varía naturalmente de día a día, de una semana a otra e incluso en las temporadas. Para evaluar el nivel habitual de actividad física de una persona, la persona debe ser monitoreada durante el tiempo suficiente para que se pueda identificar el nivel, teniendo en cuenta esta variación natural dentro de la persona. Una pregunta importante, y una cuya respuesta tiene implicaciones para el diseño de estudio y encuestas, la investigación epidemiológica y la vigilancia de la población, es, para cuánto tiempo, se debe monitorear un individuo antes de que dicho nivel o patrón habitual pueda identificarse a un nivel deseado de ¿precisión? El objetivo de este estudio fue estimar el número de observaciones repetidas necesarias para identificar el comportamiento de actividad física habitual de un individuo a un grado dado de precisión. Una muestra de conveniencia de 50 adultos suecos llevaba acelerómetros durante cuatro semanas consecutivas. Se calculó el número de días que debían llegar dentro del 5 al 50% de la actividad física habitual de un individuo, el 95% del tiempo se calculó. Para tener una idea de la incertidumbre de las estimaciones, todas las estimaciones estadísticas fueron arrancadas 2000 veces. El número medio de días de medición necesarios para la observación, con un 95% de confianza, estará dentro del 20% de la actividad física habitual de un individuo es más alta para la actividad física vigorosa, para la cual se necesitan 182 días. Para el comportamiento sedentario, el número equivalente de días es 2.4. Para capturar el 80% de la muestra dentro de ± 20% de su nivel habitual de actividad física, se necesitan 3.4 días si el comportamiento sedentario es el resultado de interés y 34.8 días para MVPA. El presente estudio muestra que para los análisis que requieren datos precisos en el nivel individual, se debe utilizar un período de recolección de medición más largo que el protocolo tradicional de 7 días. Además, la cantidad de MVPA se asoció negativamente con el número de días requeridos para identificar el nivel de actividad física habitual que indica que los menos activos también son aquellos cuyo nivel de actividad física habitual es el más difícil de identificar. Estos resultados podrían tener implicaciones importantes para los investigadores cuyo objetivo es analizar los datos a nivel individual. Antes de actualizar las recomendaciones sobre un protocolo de monitoreo apropiado, el presente estudio debe replicarse en diferentes poblaciones.

Editor: Robert L. Newton, Centro de Investigación Biomédica de Pennington, Estados Unidos

Financiación: el autor no recibió fondos específicos para este trabajo.

Intereses en competencia: el autor ha declarado que no existen intereses en competencia.

Existe una gran evidencia que muestra los beneficios de la actividad física y las consecuencias negativas del comportamiento sedentario para la salud física y mental [1-3]. La medición precisa de la actividad física habitual es importante para comprender la relación entre la frecuencia, la duración y la cantidad de actividad física y la salud. Una propiedad central del comportamiento de la actividad física es que en las poblaciones de vida libre, naturalmente varía del día a día en torno a un verdadero nivel medio de actividad física. Este verdadero nivel medio de actividad física a menudo se conoce como el nivel habitual de actividad física de un individuo y en este estudio se define, ligeramente modificado de la versión de Lui para la dieta, como: «El promedio hipotético alrededor del cual la actividad física de ese individuo varía» [4]. A corto plazo, esta variación puede estar influenciada por cosas como el clima [5] o qué día de la semana es [6] y durante períodos más largos de tiempo, se observan variaciones estacionales [7] en la actividad física.

¿Qué cantidad de observaciones deben tomar los analistas en un muestreo de trabajo?

Por ejemplo, dado 15 minutos de observación, una confiabilidad obtenida de .6 y una confiabilidad deseada de .9:

Esto indica que uno tendría que observar durante 6 × 15 minutos (o 90 minutos) para estimar la tasa típica de código A de las personas con una fiabilidad de .9.

Esto indica que el tiempo de observación podría reducirse a 30 minutos × .44 (o 13.2 minutos) con solo una reducción modesta en la confiabilidad.

1Mitchell (1979) proporciona una discusión convincente de las distinciones críticas entre el acuerdo interobservador y la confiabilidad: “[i] t debe repetirse que la confiabilidad y el acuerdo de observador no son los mismos. . . Las diferencias entre acuerdo y confiabilidad se basan en la forma en que se definen los dos índices. Coeficientes de confiabilidad Partición La varianza de un conjunto de puntajes en una puntuación verdadera (diferencias individuales) y un componente de error. El componente de error puede incluir fluctuaciones aleatorias en el comportamiento de los sujetos, inconsistencias en el uso de la escala, diferencias entre los observadores, etc. Acuerdo interobservador [índices], por otro lado, no llevan información sobre las diferencias individuales entre los sujetos y contiene información sobre solo una de las posibles fuentes de error: diferencias entre los observadores. En otras palabras, un coeficiente de confiabilidad refleja la magnitud relativa de todo error con respecto a la verdadera variabilidad de la puntuación, mientras que un porcentaje de acuerdo refleja la magnitud absoluta de un solo tipo de error ”(p. 378).

¿Cómo se calcula la frecuencia de las observaciones?

Una pantalla de tallo y hojas es un método para escribir los datos
de una manera que describe su forma.
Una gran línea vertical divide los tallos
de las hojas.

El último dígito significativo de cada observación se llama hoja.
Hay exactamente una hoja por observación escrita en el lado derecho
de la pantalla.
Para cada fila (tallo) se ordenan las hojas de más pequeñas a más grandes.
Las hojas deben alinearse exactamente y estar al ras con la línea vertical,
Para dar una descripción visual de cuántas observaciones hay en cada fila.

La porción restante de cada observación se llama tallo.
Cada tallo se escribe solo una vez, en el lado izquierdo de la línea vertical.
Incluso si no hay observaciones para un tallo, el tallo debe escribirse
Para mostrar que hay una brecha en los datos.

Un ejemplo es la forma más fácil de aprender a hacerlo.
Hacer datos del ejercicio 2.3.8 en clase.

1 | 02
2 | 1223
3 | 245566789
4 | 3455556
5 | 345567
6 | 04

Hay 30 observaciones.
El cuarto más pequeño es 22,
mientras que el más grande es 64.

Cuando los datos tienen demasiados dígitos significativos,
Los mejores resultados se producen si los datos se redondean primero.
Mire las dos primeras columnas de datos del ejercicio 2.3.9.
Aquí hay una pantalla de tallo y hojas después del redondeo.

Si todos los datos caerán en un número muy pequeño de tallos,
Los tallos se pueden dividir.
Las opciones están dividiendo cada tallo en dos
(con hojas de 0-4 en el tallo superior y hojas de 5-9 en el tallo inferior)
o en cinco (con hojas de 0-1, 2-3, 4-5, 6-7, 8-9).
Aquí están las primeras tres columnas del ejercicio 2.3.5 que se muestran en ambos sentidos.

¿Cómo determinar la frecuencia de las observaciones?

En asuntos estadísticos, la frecuencia absoluta de un valor es simple de encontrar: consiste en contar el número de ocurrencias de este valor en una muestra (de personas, objetos, etc.). La frecuencia relativa es un poco más compleja en la medida en que mide la frecuencia de un valor, expresada como una proporción de un todo. Se calcula dividiendo la frecuencia absoluta por el tamaño de la muestra, este último con el nombre de la población. Para facilitar el cálculo de la frecuencia relativa, debe clasificar los datos, hacer algunos cálculos simples y luego dibujar una tabla de frecuencia.

Para comprender mejor, tomemos el ejemplo de personas que fueron a ver una película determinada. Harás las edades de cada espectador. Si se trata de una película pública todo, tendrá personas entre 10 y 70 (u 80), 60 a 70 edades diferentes. Puede agrupar a sus espectadores en seis clases: menores de 20 años, 20 a 29 años, 30 a 39 años, 40 a 49 años, 50 a 59 años y más de 60 años. Esta agrupación en clases es más práctica.
Como otro ejemplo, puede tener la hipótesis de un médico que tomaría la temperatura de todos sus pacientes durante un día. Si decide tomar temperaturas completas (37 ° C, 38 ° C…), no será relevante: entonces es necesario observar las temperaturas en la décima (37.2 ° C, 37.3 ° C…).
Si la serie está compuesta por valores cercanos, asegúrese de no olvidar ninguno de ellos clasificándolos o grabándolos. Cuente sus valores para verificar que no lo haya olvidado.
I { DisplayStyle I}: en esta columna, pondrás todos los diferentes valores de tu serie. Ya no hay ninguna cuestión de ponerlos a todos. Por lo tanto, incluso si el 4 aparece varias veces en su serie, solo pondrá este valor una vez en la primera columna.
n (i) { displayStyle n (i)}: en estadísticas, esta denominación corresponde a la fuerza laboral del valor i { displayStyle i}, es decir, el número de veces que aparece el valor, n { displayStyle n} siendo la fuerza laboral total. La expresión n (i) { displayStyle n (i)} se pronuncia «n de i». Sin embargo, la mayoría de las veces, esta columna se titula «efectiva». Es en esta columna que registrará el número de veces que aparece el valor de la columna anterior. Por lo tanto, si el valor 4 aparece tres veces en la serie, pondrá un 3 en la misma línea que el 4, pero a la derecha.
f (i) { displayStyle f (i)}: en estadísticas, esta denominación corresponde a la frecuencia relativa y lee «frecuencia de i». Cada uno de los valores de esta columna se obtiene utilizando los valores de la columna anterior y los de la fuerza laboral total. Estos valores se pueden dar en forma de cifras decimales o porcentuales, como veremos ahora.
Si tomamos el ejemplo anterior, vemos que la serie tiene una fuerza laboral total de 16 datos.
Tomemos el ejemplo anterior y echemos un vistazo al valor 4: vemos que aparece 3 veces en la serie, esta es su fuerza laboral.
Tomemos el ejemplo anterior. Por lo tanto, el valor 4 { displaystyle 4} aparece tres veces y la fuerza laboral de la serie es 16: puede deducir que la frecuencia relativa de este valor es 3/16, lo que, después del cálculo en los diez mil, da 0.1875, como Podemos ver en la mesa.
En el ejemplo que habíamos tomado, todos los valores de 1 a 7 estaban presentes en la serie, pero admitamos que los 3 estaban ausentes, en la línea de 3 luego colocó el valor 0 y la frecuencia relativa entonces también sería 0 (6/16).
Transformado en un porcentaje, 0.13 se convierte en 13 % (13/100).
Transformado en un porcentaje, 0.06 se convierte en 6 % (tenga cuidado con los ceros interlap).
Concretamente, una frecuencia relativa da una indicación sobre la frecuencia de aparición de un evento en una serie de eventos.
La somme de toutes les fréquences relatives des valeurs (ou des classes) d’une série doit être égale à 1. Comme vous avez parfois arrondi certaines valeurs, il est possible que vous n’obteniez pas exactement cette valeur de 1, mais une valeur muy cerca.
Si tiene muestras grandes, ciertamente es más rápido usar un software de manejo de datos digitales, como MS Excel o Matlab… siempre que programas celdas.

El equipo de gestión de contenido de Wikihow examina cuidadosamente el trabajo del equipo editorial para garantizar que cada elemento esté de acuerdo con nuestros estándares de alta calidad. Este artículo fue consultado 82,566 veces.

¿Cuántos y cuáles son los métodos más utilizados para determinar el número de observaciones?

Determinar el tamaño de la muestra a seleccionar es un paso importante en cualquier estudio de investigación. Por ejemplo, supongamos que algún investigador quiere determinar la prevalencia de problemas oculares en los niños en niños y quiere realizar una encuesta.

La pregunta importante que debe responderse en todas las encuestas de muestra es «¿Cuántos participantes deben ser elegidos para una encuesta»? Sin embargo, la respuesta no se puede dar sin considerar los objetivos y circunstancias de las investigaciones.

La elección del tamaño de la muestra depende de consideraciones no estadísticas y consideraciones estadísticas. Las consideraciones no estadísticas pueden incluir la disponibilidad de recursos, mano de obra, presupuesto, ética y marco de muestreo. Las consideraciones estadísticas incluirán la precisión deseada de la estimación de prevalencia y la prevalencia esperada de problemas oculares en los niños en niños.

Se deben especificar los siguientes tres criterios para determinar el tamaño de muestras apropiado:

También llamado error de muestreo, el nivel de precisión, es el rango en el que se estima que el valor real de la población. Este rango es expresado en puntos porcentuales. Por lo tanto, si un investigador encuentra que el 70% de los agricultores en la muestra han adoptado una tecnología recomendada con una tasa de precisión de ± 5%, entonces el investigador puede concluir que entre el 65% y el 75% de los agricultores en la población han adoptado la nueva tecnología. .

¿Qué técnicas o métodos se usan para calcular el número de observaciones?

Este tipo de análisis puede usarse para fusionar observaciones similares de las variables involucradas en el mismo clúster. Se usa en varios campos para responder a diferentes hipótesis de investigación:

Medicina: ¿cuáles son los grupos de diagnóstico? Este es el caso en el que se prepara un conjunto de datos que incluye posibles síntomas como ansiedad, depresión, cansancio, etc. Los grupos que se forman están representados por grupos de pacientes que tienen síntomas similares.
Marketing: ¿Cuáles son los segmentos de los clientes? Las variables involucradas tienen que ver con los aspectos demográficos, las necesidades, los hábitos, el comportamiento de los clientes. En este caso, los clústeres están formados por los sujetos que presentan las mismas actitudes.
Educación: ¿cuáles son los estudiantes que necesitan atención particular? El análisis del clúster identifica grupos de estudiantes homogéneos, es decir, aquellos que se parecen, por ejemplo, en términos de votos escolares, velocidad de aprendizaje y actitud de estudio.
Biología: ¿Cuál es la taxonomía de la especie? Imagine tener un conjunto de datos que contiene diferentes especies de plantas, con diferentes atributos de sus fenotipos. Luego, con el análisis de los grupos, se puede construir la taxonomía de grupos y subgrupos de plantas que tienen los mismos atributos.

En el caso del análisis de clúster, para dividir el conjunto de datos en grupos, se pueden usar tanto las variables numéricas como las variables categoriales, o incluir ambos tipos.

Una vez que se eligen las variables, en este punto debe elegir qué métricas usar para calcular la distancia entre las diversas unidades estadísticas. De hecho, la pertenencia de dos elementos al mismo grupo depende de qué tan cerca estén: cuanto menor sea la distancia entre ellos, mayor es la probabilidad que pertenece al mismo grupo.

¿Qué debe conocer el analista para determinar el número necesario de observaciones?

Cuando se conoce una probabilidad general de un evento sobre un proceso, es posible determinar el número preciso de observaciones a tomar. El número requerido de observaciones se puede calcular en función de la probabilidad general del evento, la precisión deseada de esa probabilidad y el nivel de confianza deseado.

Convierta las probabilidades generales del evento que se observan a un porcentaje. La precisión se basará en cuán cerca de esta probabilidad debe estar la respuesta. Por ejemplo, si se estima que uno de cada 10 productos se fabrica incorrectamente, la probabilidad es del 10 por ciento.

Determine el nivel de confianza requerido. Este será un nivel de precisión estadística en cualquier resultado encontrado en las observaciones. Este valor es entre cero y 100 por ciento. Según la «construcción moderna: entrega de proyectos Lean y prácticas integradas», de Lincoln H. Forbes y Syed M. Ahmed, «un nivel de confianza del 95 por ciento y un límite de error o precisión del 5 por ciento es generalmente adecuado».

Determine el nivel de precisión deseado. Este valor es típicamente entre 1 por ciento y 10 por ciento. El nivel de precisión se basará en cuán cerca del 10 por ciento de probabilidad establecido en el paso 1 estarán las observaciones de datos.

Busque el valor z, también llamado desviado normal estándar, para el nivel de confianza deseado en la tabla normal (z) estándar. Para un nivel de confianza del 95 por ciento, el valor Z es 1.96.

¿Qué se necesita para determinar el número de observaciones?

Señorita. Little quiere saber cuántos pares de zapatos posee cada uno de sus alumnos. Estos datos se muestran en el gráfico DOT proporcionado. Según esta trama de puntos, ¿cuántas observaciones se hicieron?

Para esta trama, el número de observaciones realizadas representa el número de estudiantes que participaron en la encuesta. Cada punto representa a un estudiante, por lo que podemos contar el número de puntos en la parcela para determinar el número de observaciones que se hicieron.

Si se hace correctamente, debería haber contado puntos; Por lo tanto, se hicieron observaciones.

Una clase de ciencias ambientales quería ver la temperatura promedio de cada día el mes pasado. Estos datos se muestran en el gráfico proporcionado. Según esta trama de puntos, ¿cuántas observaciones se hicieron?

Para esta trama, el número de observaciones realizadas representa el número de días en que se rastreó la temperatura. Cada punto representa un día, por lo que podemos contar el número de puntos en la parcela para determinar el número de observaciones que se hicieron.

¿Cómo se puede determinar el momento del día en que deben tomarse las distintas observaciones de manera que no se obtengan resultados sesgados?

El sesgo del período de tiempo puede sesgar los resultados del estudio y hacer conclusiones específicas para un conjunto particular de circunstancias. Para evitar tales situaciones, los analistas deben asegurarse de usar una gran cantidad de observaciones que abarcan un amplio rango de tiempo. Esto permitirá la mezcla de observaciones a corto plazo y nos permitirá sacar conclusiones muy generales que se mantengan en una amplia gama de situaciones.

Alternativamente, los analistas pueden proteger su trabajo del sesgo del período de tiempo manteniendo promedios móviles o promedios finales de valores en los que les interese. Hacerlo preservará la tendencia a largo plazo de que la seguridad en cuestión puede estar entrando, y el Los analistas podrán acceder a un gran conjunto de datos para comparar los resultados de un período a otro. Tal enfoque les permitirá distinguir entre períodos de prosperidad económica particularmente alta o baja ya que las fluctuaciones sobresalirán de las tendencias generales observadas.

Considere los siguientes rendimientos del mercado para un mercado de valores determinado:

En la tabla anterior, vemos los rendimientos mensuales del mercado de valores, así como los promedios finales de 3 meses y 5 meses. La columna de extrema derecha también muestra la diferencia entre los dos promedios finales.

La diferencia observada se debe al sesgo del período de tiempo, donde los promedios finales de 5 meses tienen en cuenta más puntos de datos y, por lo tanto, se puede decir que es una medida promedio mejor que el promedio de 3 meses. Debido a la mayor cantidad de puntos de datos en el promedio final de 5 meses, ningún punto de datos único tiene tanto peso sobre cuál será el promedio final. La medida no se ve fácilmente afectada por rendimientos mensuales anormalmente altos o bajos; Por lo tanto, hacer que la medida sea más resistente al sesgo del período de tiempo.