Las medidas de tendencia central son importantes porque ayudan a resumir datos y proporcionar información útil para tomar decisiones.

En cualquier investigación, se recopilan enormes datos y, para describirlos de manera significativa, se necesita resumir lo mismo. El volumen de los datos se puede reducir organizándolo en una tabla de frecuencia o histograma. [1] La distribución de frecuencia organiza el montón de datos en algunas categorías significativas. Los datos recopilados también se pueden resumir como un único índice/valor, que representa los datos completos. Estas medidas también pueden ayudar en la comparación de datos.

La tendencia central se define como «la medida estadística que identifica un valor único como representante de una distribución completa». [2] Su objetivo es proporcionar una descripción precisa de los datos completos. Es el valor único el que es más típico/representativo de los datos recopilados. El término «crujido de números» se utiliza para ilustrar este aspecto de la descripción de los datos. La media, la mediana y el modo son las tres medidas de tendencia central comúnmente utilizadas.

La media es la medida más utilizada de la tendencia central. Hay diferentes tipos de media, a saber. media aritmética, media ponderada, media geométrica (GM) y media armónica (HM). Si se menciona sin un adjetivo (como medio), generalmente se refiere a la media aritmética.

La media aritmética (o, simplemente, «significa») no es más que el promedio. Se calcula agregando todos los valores en el conjunto de datos divididos por el número de observaciones en él. Si tenemos los datos sin procesar, la media viene dada por la fórmula

Donde, ∑ (la letra griega en mayúsculas Sigma), X se refiere a la suma, se refiere al valor individual y N es el número de observaciones en la muestra (tamaño de la muestra). Los artículos de investigación publicados en revistas no proporcionan datos sin procesar y, en tal situación, los lectores pueden calcular la media calculando a partir de la distribución de frecuencia (si se proporciona).

¿Qué importancia le brinda a las medidas de tendencia central y dispersión?

Hay muchas razones por las cuales la medida de la propagación de los valores de los datos es importante, pero una de las principales razones considera su relación con las medidas de tendencia central. Una medida de propagación nos da una idea de qué tan bien, por ejemplo, la media representa los datos. Si la propagación de valores en el conjunto de datos es grande, la media no es tan representativa de los datos como si la propagación de datos fuera pequeña. Esto se debe a que una gran propagación indica que probablemente existan grandes diferencias entre las puntuaciones individuales. Además, en la investigación, a menudo se considera positivo si hay poca variación en cada grupo de datos, ya que indica que lo similar.

El rango es la diferencia entre los puntajes más altos y más bajos en un conjunto de datos y es la medida más simple de propagación. Entonces calculamos el rango como:

Por ejemplo, consideremos el siguiente conjunto de datos:

El valor máximo es 85 y el valor mínimo es 23. Esto da como resultado un rango de 62, que es 85 menos 23. mientras que el uso del rango como medida de propagación es limitada, establece los límites de las puntuaciones. Esto puede ser útil si está midiendo una variable que tiene un umbral crítico bajo o alto (o ambos) que no debe ser cruzado. El rango le informará instantáneamente si al menos un valor rompió estos umbrales críticos. Además, el rango se puede usar para detectar cualquier error al ingresar datos. Por ejemplo, si ha registrado la edad de los niños en la escuela en su estudio y su rango tiene de 7 a 123 años, ¡sabe que ha cometido un error!

Los cuartiles nos cuentan sobre la propagación de un conjunto de datos dividiendo el conjunto de datos en cuartos, al igual que la mediana lo rompe por la mitad. Por ejemplo, considere las marcas de los 100 estudiantes a continuación, que se han ordenado de los puntajes más bajos a los más altos, y los cuartiles resaltados en rojo.

¿Qué importancia tienen las medidas de tendencia central posición y dispersión en un estudio estadístico?

Los métodos descritos en los siguientes dos videos tienen más sentido cuando desea mostrar estadísticas descriptivas para las cucarachas en lugar de los rinocerontes.

Sal dejó un cliffhanger al final del video anterior: ¿Cómo obtenemos una estimación imparcial de la desviación estándar de la población?

Ahora que tiene una buena idea de cómo las medidas de tendencia central, como la media, mediana y el modo, junto con medidas de dispersión, como la varianza y la desviación estándar, pueden ayudarlo a usted y a su audiencia a comprender los datos sin tener que mirar cada uno. Punto de datos, pasemos a las formas de comprender las estadísticas descriptivas para las variables no escalares.

El Departamento de Informática Biomédica y de Salud (DBHI) explora cómo la tecnología puede afectar tanto la investigación como la atención al paciente. El talentoso equipo de DBHI de científicos de datos, programadores y científicos bioinformáticos combina experiencia tecnológica y científica para transformar la investigación y los datos clínicos en soluciones innovadoras que afectan directamente los resultados de los pacientes. Además, DBHI proporciona un hogar académico para todas las actividades informáticas de investigación, incluido el desarrollo y el despliegue de recursos intelectuales, técnicos y educativos en la informática biomédica.

Arcus es una iniciativa del Instituto de Investigación del Hospital de Niños de Filadelfia (CHOP) que tiene como objetivo conectar los datos clínicos y de investigación. Permitimos que los investigadores biomédicos realicen investigaciones altamente innovadoras, basadas en datos, computacionalmente complejas y reproducibles. Nos unimos a los investigadores en esfuerzos colaborativos que promueven la ciencia y los científicos y estamos a la vanguardia de las nuevas prácticas de investigación que promueven la ciencia que es transparente, ambiciosa y ágil.

¿Cuál es el objetivo de las medidas de dispersión?

El rango (la diferencia entre los valores máximos y mínimos)
es la medida más simple de propagación. Pero si hay un caso atípico en el
datos, será el valor mínimo o máximo. Por lo tanto, el rango es
No es robusto para los valores atípicos.

La desviación estándar y la varianza son medidas populares
de dispersión que son óptimos para muestras normalmente distribuidas. La muestra
La varianza es el estimador mínimo de estimador imparcial (MVUE) del
Parámetro normal σ2. El estandar
La desviación es la raíz cuadrada de la varianza y tiene lo deseable
propiedad de estar en las mismas unidades que los datos. Es decir, si los datos
está en metros, la desviación estándar también está en metros. La varianza
está en metros2, que es más difícil
interpretar.

Ni la desviación estándar ni la varianza son robustas para
valores atípicos. Un valor de datos que está separado del cuerpo de los datos
puede aumentar el valor de las estadísticas en una cantidad arbitrariamente grande.

La desviación absoluta media (MAD) también es sensible a los valores atípicos.
Pero el loco no se mueve tanto como la desviación estándar
o varianza en respuesta a datos malos.

El rango intercuartil (IQR) es la diferencia entre el
75 y 25º percentil de los datos. Ya que solo el 50% de la mediana
Los datos afectan esta medida, es robusto para los valores atípicos.

El rango intercuartil (IQR) es la diferencia entre el percentil 75 y 25 de los datos de la muestra, y es robusto para los valores atípicos. El rango (rango) es la diferencia entre los valores máximos y mínimos en los datos, y está fuertemente influenciado por la presencia de un valor atípico.

¿Cuál es la importancia de las medidas estadísticas?

Muchas organizaciones hoy en día tienen muchos datos disponibles sobre sus clientes, operaciones, servicios o productos y factores relacionados. Un modelo estadístico puede hacer que todos estos datos sean más comprensibles. Cuando las empresas tienen una manera de analizar y comprender todos sus datos, pueden realizar tareas como:

Diseño de encuestas más efectivas para clientes o empleados

Creación de estudios experimentales, como un estudio para probar un nuevo producto en el desarrollo

La media es la suma total de todos sus números divididos por la cantidad de números. Por ejemplo, digamos que su conjunto de datos comprende los números 2, 5, 9 y 3. Primero agregaría todos estos números para obtener un total de 19, y luego dividiría ese total por cuatro para obtener una media de 4.75.

Más a menudo llamado promedio, la media intenta proporcionarle información sobre la tendencia general de su conjunto de datos. La media es más útil para analizar conjuntos de datos que tienen pocos valores atípicos, lo que significa puntos de datos que tienen poco en común con la mayoría del conjunto de datos. Calcular la media es una forma rápida y relativamente simple de analizar sus datos.

La desviación estándar evalúa los datos distribuidos en torno a su media. Para calcular la desviación estándar, reste la media de cada valor dentro del conjunto de datos y cuadra la respuesta. Luego encuentras la media de todas las respuestas al cuadrado y cuadra el total.

Si obtiene una alta desviación estándar, significa que su media tiene sus puntos de datos extendidos. Mientras tanto, una desviación estándar baja muestra que más de sus puntos de datos se alinean con su media, que a veces también se denomina valor esperado. Al igual que la media, la desviación estándar funciona mejor para conjuntos de datos con un bajo número de valores atípicos.

¿Qué son las medidas estadísticas?

Las medidas estadísticas son una técnica de análisis descriptiva utilizada para resumir las características de un conjunto de datos. Este conjunto de datos puede representar a toda la población o una muestra de él. Las medidas estadísticas se pueden clasificar como medidas de tendencia central y medidas de propagación.

Las medidas de tendencia central describen algunas características clave del conjunto de datos basados en los valores promedio o medios, ya que describen el centro de los datos. Las medidas de tendencia central que veremos son la media, el modo y la mediana.

La media, también llamada promedio matemático de un conjunto de datos dado, se puede encontrar agregando todos los valores en el conjunto de datos y dividiendo por el número de valores. Podemos usar una fórmula matemática para describir esto: donde se usa para representar la media.

Tenemos los puntajes de un cuestionario realizado por estudiantes de matemáticas en el grado. Son 76, 89, 45, 50, 88, 67, 75, 83. ¿Cuál es la puntuación media?

La fórmula anterior significa que agregaremos todos los puntajes y luego dividiremos la suma por el número de puntajes disponibles.

Dado que hay 8 puntajes disponibles, dividiremos nuestra suma por 8.

El modo es el valor más frecuente en un conjunto de datos. A veces tendrá un conjunto de datos donde esto describe más de un valor. Aquí todos se consideran el modo.

Encuentre el modo para el conjunto de datos dado 6, 9, 3, 6, 6, 5, 2, 3.

Organizar estos valores en orden ascendente lo ayudará a identificar cuál ocurre más.

¿Cuál es la importancia de las medidas de tendencia central y las medidas de dispersión?

En la investigación cuantitativa, las estadísticas son omnipresentes. Solo nos centraremos aquí en su dimensión descriptiva. Definaremos los principales parámetros estadísticos a nuestra disposición para describir la distribución de una variable cuantitativa (como la edad) dentro de una población. Hay mediciones de posición (promedio y mediana) que consideran la tendencia central («centro de gravedad») de una población y medidas de dispersión (vajilla e intervalo intercuartil en particular) que consideran su expansión.

Dentro de una muestra, corresponde a la suma de los valores tomados por la variable, dividido por el número de estos valores. Es una buena medida de la tendencia central para las distribuciones simétricas o aproximadamente simétricas. Pero de lo contrario puede ser sesgado. También está muy influenciado por valores extremos. La mediana resulta ser un mejor estimador de la tendencia central.

Dentro de una muestra ordenada, es el valor que separa una muestra en dos partes iguales. Es más robusto que el promedio en el caso de distribuciones asimétricas o valores extremos, pero se presta menos bien a los cálculos.

Dentro de una muestra, calculamos las diferencias entre los valores tomados por una variable y el promedio de esta variable. Calculamos la varianza que es el promedio de estas desviaciones planteadas al cuadrado (para tener valores positivos). La raíz cuadrada de la varianza se llama desviación estándar. Una pequeña variación es una señal de que los valores están cerca uno del otro, mientras que una alta varianza es un signo de que estos están muy separados. Estas dos medidas son sensibles a los valores extremos.

¿Cuál es la importancia de las medidas de dispersión?

Mientras que las medidas de tendencia central se utilizan para estimar valores «normales» de
un conjunto de datos, las medidas de dispersión son importantes para describir la propagación del
datos, o su variación alrededor de un valor central.
Dos muestras distintas pueden tener lo mismo
media o
Medio, pero completamente diferentes niveles de variabilidad, o viceversa. Una adecuada
La descripción de un conjunto de datos debe incluir ambas características. Ahí
son varios métodos que se pueden usar para medir la dispersión de un conjunto de datos, cada uno
con su propio conjunto de ventajas y
Desventajas.

Definido como la diferencia entre los valores de muestra más grandes y más pequeños.
Una de las medidas de variabilidad más simples para calcular.
Depende solo de valores extremos y no proporciona información sobre cómo el resto
Los datos se distribuyen.
Presione el botón OK.
CONTROLAR
El comando anterior resta el SST mínimo mensual de la SST máxima mensual.
El resultado es un rango de valores SST para cada punto de cuadrícula espacial.
Para ver sus resultados, elija el espectador con tierra sombreada en negro.

Rango de temperaturas observadas de la superficie del mar

Definido como la diferencia entre los valores de muestra más grandes y más pequeños.
Una de las medidas de variabilidad más simples para calcular.
Depende solo de valores extremos y no proporciona información sobre cómo el resto
Los datos se distribuyen.
Presione el botón OK.
CONTROLAR
El comando anterior resta el SST mínimo mensual de la SST máxima mensual.
El resultado es un rango de valores SST para cada punto de cuadrícula espacial.
Para ver sus resultados, elija el espectador con tierra sombreada en negro.

La desviación estándar es la raíz cuadrada de la varianza de la muestra.

Definido para que pueda usarse para hacer inferencias sobre la varianza de la población.

Calculado usando la fórmula:

Los valores calculados en el término cuadrado, xi – xbar, son
anomalías, que se discute en otra sección.

Proporciona información significativa sobre la distribución de datos alrededor
la media, que se aproxima a la normalidad.

La media ± una desviación estándar contiene aproximadamente
68% de las mediciones en la serie.

La media ± dos desviaciones estándar contiene aproximadamente
95% de las mediciones en la serie.

La media ± tres desviaciones estándar contiene aproximadamente el 99.7% de las mediciones
En la serie.

Los climatólogos a menudo usan desviaciones estándar para ayudar a clasificar las condiciones climáticas anormales.
El cuadro a continuación describe la anormalidad de un valor de datos por cuántos
Desviaciones estándar Se encuentra lejos de la media. Las probabilidades en el tercero
columna suponga que los datos se distribuyen normalmente.

Presione el botón OK.
CONTROLAR
Los comandos anteriores calculan la desviación estándar de la serie temporal. Los comandos de suma de dataflag [t] determinan, para cada punto de cuadrícula, el número de elementos no falsificadores en el
series de tiempo. DUP hace una copia de este número para luego calcular N-1 usando 1. Sub (donde n es el número de puntos de datos en el tiempo).
El siguiente paso es tomar N y dividirlo por N-1.
El último paso en la primera línea es tomar la raíz cuadrada de N / (N-1). El seguimiento
Cinco líneas de código hacen referencia al conjunto de datos que se está utilizando, incluidos los temporales y espaciales
rangos. Las dos líneas finales de código multiplican la anomalía cuadrada de la raíz por el
valor calculado en la primera línea,
SQRT (N / (N-1)).

Para ver los resultados de esta operación, elija la ventana del espectador con costas descritas.
CONTROLAR

Desviación estándar de la cubierta de nubes mensuales

Tenga en cuenta que la anomalía cuadrada media de la raíz se puede sustituir por la devinación estándar
Si el tamaño de la muestra es suficientemente grande.
(Devore, Jay L. Probabilidad y estadísticas para la ingeniería y las ciencias. Pp. 38-39, 259.)

¿Qué importancia tiene las medidas de dispersión?

Las medidas de dispersión son importantes en cualquier estudio estadístico cuando intenta sacar conclusiones de los datos. Esto se debe a que juegan un papel directo en el margen de error con el que está trabajando. Cuanto mayor sea la dispersión en una muestra, más espacio deberá trabajar dentro de ese margen.

También pueden ayudarlo a determinar si sus datos están lejos de su tendencia central. Lo que hace es mostrarle si su tendencia central es en realidad una buena manera de representar a las personas que ha probado para su estudio. Esto es muy útil cuando se trata de comparar distribuciones y comprender los riesgos de tomar ciertas decisiones (1).

En resumen, cuanto mayor es la dispersión, menos representativa es su tendencia central. Estas son las medidas más comunes de dispersión:

El rango es generalmente mejor para hacer sus primeras comparaciones porque solo mira los dos extremos de sus datos. Esta es también la razón por la cual generalmente solo vale la pena hacerlo con pequeños tamaños de muestra (1). La definición básica de rango es: la diferencia entre los datos primeros y últimos.

Luego, hay desviación promedio. Es útil porque puede mostrarle dónde estarían los datos si fuera la misma distancia exacta de la media (1). La desviación de un número de la variable es la diferencia entre el valor absoluto de esa variable y la media. Por lo tanto, la desviación promedio es básicamente el promedio de todas las desviaciones (3).

¿Cuál es la utilidad de medidas de variacion de datos?

La desviación estándar siempre es positiva o cero. La desviación estándar es pequeña cuando todos los datos se concentran cerca de la media, que exhiben poca variación o propagación. La desviación estándar es mayor cuando los valores de los datos se extienden más a partir de la media, exhibiendo más variación.

Supongamos que estamos estudiando la cantidad de tiempo que los clientes esperan en la cola en el pago en el supermercado A y el supermercado B. El tiempo de espera promedio en ambos supermercados es de cinco minutos. En el supermercado A, la desviación estándar para el tiempo de espera es de dos minutos; En el supermercado B, la desviación estándar para el tiempo de espera es de cuatro minutos.

Debido a que el supermercado B tiene una desviación estándar más alta, sabemos que hay más variación en los tiempos de espera en el supermercado B. En general, los tiempos de espera en el supermercado B están más distribuidos del promedio; Los tiempos de espera en el supermercado A están más concentrados cerca del promedio.

Supongamos que Rosa y Binh compran en el supermercado A. Rosa esperan en el mostrador de pago durante siete minutos y Binh espera un minuto. En el supermercado A, el tiempo de espera medio es de cinco minutos y la desviación estándar es de dos minutos. La desviación estándar se puede usar para determinar si un valor de datos está cerca o lejos de la media.

Siete es dos minutos más largo que el promedio de cinco; Dos minutos es igual a una desviación estándar.
El tiempo de espera de Rosa de siete minutos es dos minutos más largo que el promedio de cinco minutos.
El tiempo de espera de Rosa de siete minutos es una desviación estándar por encima del promedio de cinco minutos.