El más lejano puede reducir un conjunto de datos y aún así retener cualquier
La información es resumir los datos con un solo valor.
Las medidas de ubicación hacen exactamente eso: ellos
Intente capturar con un solo número lo que es típico de los datos.
¿Qué número único es más representativo de una lista completa de números?
No podemos decir sin definir «representante» más
precisamente.
Estudiaremos tres medidas comunes de ubicación: el
significar,
la mediana y el
modo.
La media, la mediana y el modo son todos «más representativos»,
pero para diferentes nociones relacionadas de representatividad.
- Vimos la mediana en
La mediana es el número que divide los datos (ordenados) por la mitad, los más pequeños
número que es al menos tan grande como la mitad de los datos.
Al menos la mitad de los datos son iguales o más pequeños que la mediana, y al menos
La mitad de los datos son iguales o mayores que la mediana. - El modo de un conjunto de datos (a diferencia del modo de un histograma) es el más
valor común entre los datos.
Es raro que varios datos coincidan exactamente, a menos que la variable sea discreta,
o las mediciones se informan con baja precisión. - La media (más precisamente, la media aritmética) se llama comúnmente el promedio.
Es la suma de los datos, dividido por el número de datos:
Para cualitativo y
datos categóricos, el modo tiene sentido, pero el
media y
mediana no.
Es difícil ver la conexión entre la media, mediana y el modo de su
Definiciones.
Sin embargo, la media, la mediana y el modo están «lo más cerca posible» de todos
Los datos: para cada una de estas tres medidas de ubicación, la suma de las distancias
Entre cada dato y la medida de la ubicación es lo más pequeña posible.
Las diferencias entre las tres medidas de ubicación están en cómo «distancia»
se define.
Para la media, la distancia entre dos números se define para ser
la plaza de su diferencia.
Es decir, la suma de los cuadrados de las diferencias entre los datos y la media
es menor que la suma de los cuadrados de las diferencias entre los datos y
cualquier otro número.
(De manera equivalente, el RMS o la raíz media cuadrada
de las diferencias de la media es
más pequeño que el rms del
Lista de diferencias de cualquier otro
Número: el RMS se define y se discute a continuación).
¿Cuáles son las medidas de localización?
Esta trama muestra histogramas para 10,000 números aleatorios generados a partir de
Una normalidad, un exponencial, un cauchy y una distribución lognormal.
La distribución normal es una distribución simétrica con
Colas de bienestar y un solo pico en el centro de la distribución.
Por simétrico, queremos decir que la distribución se puede doblar sobre
un eje para que los 2 lados coincidan. Es decir, se comporta el
Igual a la izquierda y a la derecha de algún punto central. Para una normalidad
La distribución, la media, la mediana y el modo son realmente equivalentes.
El histograma anterior genera estimaciones similares para la media, mediana,
y modo. Por lo tanto, si un histograma o gráfico de probabilidad normal
indica que sus datos se aproximan bien por una normalidad
distribución, entonces es razonable usar la media como la ubicación
estimador.
La distribución exponencial es un sesgo, i. e., no simétrico,
distribución. Para distribuciones sesgadas, el
media y mediana no son lo mismo. La media será tirada en el
Dirección de la asimetría. Es decir, si la cola derecha es
más pesado que la cola izquierda, la media será mayor que la
mediana. Del mismo modo, si la cola izquierda es más pesada que la derecha
cola, la media será menor que la mediana.
Para las distribuciones sesgadas, no es nada obvio si el
media, la mediana o el modo es la medida más significativa del
valor típico. En este caso, las tres medidas son útiles.
¿Qué y cuáles son las medidas de localización?
A menudo no es posible enumerar todos los datos o dibujar un histograma; podría serEs bueno tener un número que mejor represente un conjunto de datos. A menudo donde los datos
Las mentiras son de interés, para el cual es útil una medida de ubicación. Ahí
son varias medidas de ubicación, que ilustraremos con los conjuntos de datos
A = {2, 9, 5, 3, 8}, b = {1, 4, 7, 3, 9, 2} y el
Pesos de estudiantes de una lección anterior.El mínimo es el valor más pequeño en un conjunto de datos. A menudo es útil poner
datos
en orden de rango al estudiarlo, en cuyo caso A se representaría como
{2, 3, 5, 8, 9} y B como {1, 2, 3, 4, 7, 9} y el
El orden de rango de los pesos se dio antes.
A partir de estos listados de pedidos de rango, es inmediato que el mínimo de A sea 2,
la
El mínimo de B es 1, y el mínimo de los pesos es 105.El rango medio es el valor medio en el sentido de que está a medio camino entre
el máximo y mínimo. Se calcula como (máximo+mínimo)/2. El rango medio
Para el conjunto de datos A es (9+2) /2=5.5, el rango medio para el conjunto de datos B es (9+1)/2 = 5, el
El rango medio para los pesos es (235+105)/2 = 170. El rango medio es fácil de
calcular,
Pero debido a que está definido por los dos datos extremos, puede no ser representativo
de donde se encuentran la mayoría de los datos. El rango medio rara vez se usa, un texto dijo que debe definirse únicamente para que el estudiante no confundiera su definición con la mediana.La mediana es el valor medio en el sentido de que la mitad de los datos están por encima de él,
y
La mitad de los datos están debajo de él. Si hay un número impar de puntos de datos, el
La mediana es el valor medio, por ejemplo, 5 para el conjunto de datos A. Si hay un par de
número
de datos, la mediana está a mitad de camino entre los dos valores medios, por ejemplo,
(3+4) /2=3.5 para el conjunto de datos B y (155+155)/2 = 155 para los pesos. Al encontrar
la mediana, asegúrese de que los datos estén en orden de rango, y cada valor ha sido
Listado con tanta frecuencia como ocurre. La mediana es quizás el mejor indicador de
donde el
Los datos se encuentran, siendo realmente en medio de los valores de datos. Alguno
Los comentarios sobre la mediana de Stephen Jay Gould pueden ser de interés.
¿Cuáles son las medidas de localizacion de datos más utilizadas?
Los cuartiles son percentiles especiales. El primer cuartil, Q1, es el mismo que el percentil 25, y el tercer cuartil, Q3, es el mismo que el percentil 75. La mediana, M, se llama tanto el segundo cuartil como el percentil 50.
Para calcular los cuartiles y los percentiles, debe solicitar los datos de más pequeño a más grande. Los cuartiles dividen los datos ordenados en cuartos. Los percentiles dividen los datos ordenados en centésimas. Recuerde que un porcentaje significa centésima parte. Entonces, los percentiles significan que los datos se dividen en 100 secciones. Anotar en el percentil 90 de un examen no significa, necesariamente, que recibió el 90 por ciento en una prueba. Significa que el 90 por ciento de los puntajes de las pruebas son los mismos o menos que su puntaje y que el 10 por ciento de los puntajes de las pruebas son los mismos o mayores que su puntaje de prueba.
Los percentiles son útiles para comparar valores. Por esta razón, las universidades y los colegios usan percentiles ampliamente. Una instancia en la que los colegios y las universidades usan los percentiles es cuando los resultados de SAT se utilizan para determinar una puntuación de prueba mínima que se utilizará como factor de aceptación. Por ejemplo, suponga que Duke acepta puntajes SAT en el percentil 75 o superior. Eso se traduce en un puntaje de al menos 1220.
Los percentiles se usan principalmente con poblaciones muy grandes. Por lo tanto, si tuviera que decir que el 90 por ciento de los puntajes de las pruebas son menores, y no los mismos o menos, que su puntaje, sería aceptable porque eliminar un valor de datos en particular no es significativo.
La mediana es un número que mide el centro de los datos. Puedes pensar en la mediana como el valor medio, pero en realidad no tiene que ser uno de los valores observados. Es un número que separa los datos ordenados en las mitades. La mitad de los valores son del mismo número o menor que la mediana, y la mitad de los valores son del mismo número o más grandes. Por ejemplo, considere los siguientes datos:
1, 11.5, 6, 7.2, 4, 8, 9, 10, 6.8, 8.3, 2, 2, 10, 1
Pedido de la más pequeña a más grande:
1, 1, 2, 2, 4, 6, 6.8, 7.2, 8, 8.3, 9, 10, 10, 11.5
¿Cuáles son las medidas de dispersión y posición?
El campo de variabilidad, o rango (o rango, para los anglosajones), está dado por la diferencia entre el valor máximo y mínimo de los datos no agrupados de una distribución de frecuencia.
Es un cálculo muy rápido, que en R se puede calcular de la siguiente manera:
Max (var) - min (var) En realidad, el máximo y el mínimo también se pueden ver con: Rango (var) y aparece como el primer y último término en: Fivenum (var)
Para los datos agrupados, el rango de rango se define como la diferencia entre el borde superior de la clase máxima y el borde inferior de la clase mínima.
Un campo de variabilidad modificado es un campo desde el cual se ha eliminado un cierto porcentaje de valores extremos de ambos extremos de la distribución (por ejemplo, 80 por ciento intermedio).
El desperdicio promedio se basa en la diferencia de datos individuales de su promedio. Si el promedio se calculó agregando las diferencias positivas y negativas entre los datos individuales y el promedio aritmético, el resultado siempre sería cero. Por esta razón, se agregan los valores absolutos de las diferencias:
Esos «valores absolutos» plantean algunos problemas de eficiencia en el cálculo, por lo que los desechos promedio no se usan mucho. Hay otra forma de eliminar los valores negativos y, por lo tanto, el concepto importante de…
La varianza es similar a los desechos promedio, ya que se basa en las diferencias entre los datos individuales del todo y su promedio, pero estas diferencias son altas al cuadrado antes de ser agregado. La varianza se indica con el símbolo del sigma pequeño al cuadrado y la fórmula es:
R tiene la función var () para el cálculo de la varianza, pero calcula (N-1) al denominador. Para tener el valor de la varianza por n como denominador, podemos escribir una función:
En general, es difícil interpretar el significado del valor de una varianza porque las unidades en las que se expresa no son las mismas en las que se expresan las observaciones del conjunto de datos.
¿Cuáles son los tipos de medidas de dispersión?
Hay cuatro medidas de uso común para indicar la variabilidad (o dispersión) dentro de un conjunto de medidas. Son: 1. Rango 2. Desviación del cuartil 3. Desviación promedio 4. Desviación estándar.
El rango es el intervalo entre el puntaje más alto y más bajo. El rango es una medida de variabilidad o dispersión de las variadas u observaciones entre ellos y no da una idea sobre la propagación de las observaciones en torno a algún valor central.
HS es el «puntaje más alto» y LS es el puntaje más bajo.
En el ejemplo I, el puntaje más alto es 77 y el puntaje más bajo es 17.
Entonces, el rango es la diferencia entre estos dos puntajes:
Aquí encontramos que los puntajes de los niños están ampliamente dispersos. Por lo tanto, las decenas de los niños varían mucho, pero las decenas de las niñas no varían mucho (por supuesto, varían menos). Por lo tanto, la variabilidad de las puntuaciones de los niños es más que la variabilidad de las puntuaciones de las niñas.
En este caso, el límite verdadero superior de la clase más alta 70-79 es HS = 79.5 y el límite verdadero más bajo de la clase más baja 20-29 es LS = 19.5
El rango es un índice de variabilidad. Cuando el rango es más, el grupo es más variable. Cuanto más pequeño sea el rango, más homogéneo es el grupo. El rango es la medida más general de «propagación» o «dispersión» de puntajes (o medidas). Cuando deseamos hacer una comparación aproximada de la variabilidad de dos o más grupos, podemos calcular el rango.
El rango en comparación anteriormente está en una forma cruda o es una medida absoluta de dispersión y no es apto para los fines de comparación, especialmente cuando la serie está en dos unidades diferentes. A los fines de la comparación, el coeficiente de rango se calcula dividiendo el rango por la suma de los artículos más grandes y más pequeños.
¿Qué son las medidas de dispersión?
Hay dos tipos principales de métodos de dispersión en estadísticas que son:
- Medida absoluta de dispersión
- Medida relativa de dispersión
Una medida absoluta de dispersión contiene la misma unidad que el conjunto de datos original. El método de dispersión absoluta expresa las variaciones en términos del promedio de desviaciones de observaciones como desviaciones estándar o medias. Incluye rango, desviación estándar, desviación del cuartil, etc.
- Medida absoluta de dispersión
- Medida relativa de dispersión
Las medidas relativas de dispersión se utilizan para comparar la distribución de dos o más conjuntos de datos. Esta medida compara valores sin unidades. Los métodos de dispersión relativos comunes incluyen:
- Medida absoluta de dispersión
- Medida relativa de dispersión
¿Cómo se hacen las medidas de posición?
Una medida de la posición es un método por el cual se puede identificar la posición que tiene un valor de datos particular dentro de un conjunto de datos dado. Al igual que con otros tipos de medidas, hay más de un enfoque para definir tal medida.
La puntuación estándar (a menudo llamada puntaje Z) de un valor de datos particular proporciona la posición de ese valor de datos al determinar su distancia de la media, en unidades de desviación estándar. Por lo tanto, la fórmula para la puntuación Z cuando los datos de la población están involucrados son
$ z = dfrac {x- mu} { sigma} $, y cuando los datos de la muestra están involucrados son
$ z = dfrac {x- bar {x}} {s} $.
Por ejemplo, suponga que las calificaciones en un examen económico promediaron el 78%, con una desviación estándar de 5 puntos porcentuales. Si Tom ganó un 69% en ese examen, entonces su puntaje Z fue
$ z = dfrac {69-78} {5} = dfrac {-9} {5} =-1.8 $. Es decir, obtuvo 1.8 desviaciones estándar por debajo de la puntuación media.
Para calcular una puntuación estándar, solo se requiere la media y la desviación estándar. Sin embargo, dado que ambas cantidades dependen de cada valor en el conjunto de datos, un pequeño cambio en un valor de datos cambiará cada puntaje Z.
Puede notar que el teorema de Chebyshev también usó la variable $ Z $. De hecho, el significado de $ Z $ en ese teorema es el mismo que una puntuación estándar. Cuando el teorema de Chebyshev afirma que al menos el 75% de los datos caen dentro de 2 desviaciones estándar de la media, luego una puntuación en el extremo superior del intervalo $ [ bar {x} -2s, bar {x}+2s] $ tendrá una puntuación estándar de $ z = 2 $.
¿Cómo se calculan las medidas de posición para datos agrupados?
- aproximar la media y la desviación estándar de una variable de la agrupación
datos* - Calcule la media ponderada
Para obtener una descripción general rápida de esta sección, mire este breve resumen de video:
Supongamos que quería estimar la desviación media y estándar para un examen, pero todo el profesor
Te dio fue una curva, tal vez algo como este:
La técnica que utilizaremos (que puede haber pensado) es tratar a cada individuo como el
punto medio de su clase. Entonces, en lugar de 13 puntajes de 80-89, diremos que hay 13 85. (Este
Realmente funciona mejor con datos continuos: probablemente deberíamos usar un punto medio de 84 para este ejemplo.
¿Puedes ver por qué?)
A partir de ahí, deberíamos poder aproximar la desviación media y estándar. Solo tenemos
Para recordar pescar cada observación por el número que se encuentra en esa categoría.
(Observe nuevamente que estoy redondeando la media a un lugar adicional decimal).
Para calcular la media o la desviación estándar de las variables de los datos agrupados en Statcrunch, suponemos que los datos ya se proporcionan en «contenedores» dentro de Statcrunch.
Una media ponderada ocurre cuando ciertos valores tienen más peso que otros. El ejemplo más fácil
es tu GPA. Un «A» en estadísticas cuenta más que una «C»
En el tenis, no porque sea más importante o tenga un significado más alto, sino porque los 4 créditos
Para las estadísticas superan el 1 crédito por el tenis. Es por eso que tu GPA estará más cerca de un «A» que
A «C»: el curso de estadísticas cuenta para más.
¿Cómo calcular medidas de posición para datos no agrupados?
La mediana de ME es el valor que hornea la distribución ordenada de los métodos de una variable X, de modo que la mitad de las observaciones es menor que la mediana y la otra mitad es más alta.
La mediana es, por lo tanto, ese valor para el cual la función de distribución empírica vale ½: f (me) = 0.5.
El cálculo de la mediana difiere dependiendo de si se trata de una distribución unitaria o una distribución de frecuencia.
NÓTESE BIEN. Antes de calcular la mediana, siempre es necesario ordenar la distribución en orden creciente sobre la base de los métodos de variable X.
Para las distribuciones en las clases, la mediana se calcula en dos pasos.
En primer lugar, la identificación de la clase media, como esa clase cuya función de distribución F es igual a ½.
Posteriormente, a través de un cálculo proporcional, se identifica el valor medio dentro de la clase media.
Como ya se dijo, la mediana es un índice que horne igualmente la distribución ordenada.
Al extender este concepto a múltiples distribuciones, es posible definir los cuartos.
Dividir igualmente la distribución en cuatro partes, identificar:
- El primer cuartil Q1. Representa ese método que el 25% de las observaciones toman valores más bajos que él, mientras que el 75% restante tiene valores más altos.
- El segundo cuartil Q2, que es equivalente a la mediana.
- El tercer cuartil Q3. Representa ese método que el 75% de las observaciones adquieren valores más bajos, mientras que el 25% restante tiene valores más altos.
¿Cuáles son las medidas de posición para datos agrupados?
En el caso de los datos agrupados, es necesario: 1. Establecer qué clase contiene el valor mediano y luego 2. Determine para la interpolación la posición de la mediana dentro de esa clase.
La clase que contiene la mediana es la primera clase cuya frecuencia acumulativa es igual o excede la mitad del número total de observaciones. Una vez que se identifica esta clase, el valor específico de la mediana se determina con la fórmula:
Dónde está:
CI = borde inferior de la clase que contiene la mediana n = número total de observaciones de la distribución de frecuencia fcp = frecuencia acumulativa de la clase que precede a la que contiene la mediana de fc = número de observaciones de la clase que contiene la mediana i = amplitud de la clase intervalo
Como siempre, es un ejemplo que muestra cómo la realidad operativa es más simple que cómo aparece un primer aspecto. Tomemos una distribución dividida en clases de frecuencia. En nuestro ejemplo estamos hablando de clases de alturas:
La clase que contiene la mediana es la primera clase cuya frecuencia acumulativa es igual o excede la mitad del número total de observaciones, que como se puede ver en la tabla es 34/2 = 17.
Nuestra clase media, que contiene el valor 17, es, por lo tanto, la 170-180.
Por lo tanto, podemos obtener fácilmente todos los valores que se incluirán en nuestra fórmula de interpolación:
CI = borde inferior de la clase que contiene la mediana = 170 n = número total de observaciones de la distribución de frecuencia = 34 fcp = frecuencia acumulativa de la clase que precede a la que contiene la mediana = 12 fc = número de observaciones de la clase que contiene la mediana = 10 i = amplitud del intervalo de clase = (180 – 170) = 10
¿Cuáles son las medidas de posición para datos no agrupados?
La costumbre es bastante común que,Queriendo resumir en un solo número de datos estadísticos, si le da
El valor promedio: promedio de los votos de un estudiante, edad promedio
de un grupo de personas, ingresos promedio, etc.
De hecho, el promedio aritmético
Es la posición más simple y conocida de una distribución.
Estadísticas. Recuerde que se define porEn el caso de los datos divididos en clases la suma
Se puede reescribir como la suma de los valores numéricos asociados
a las clases, cada una multiplicada por el número de veces que
aparece, obteniendo asíes decir, es un promedio pesado con la frecuencia,
o con la frecuencia relativa,
de cada una de las clases.
Si los datos experimentales se han agrupado
sin unirse clases de primaria adyacentes
Es fácil demostrar que los dos valores del promedio obtenidos
de (5.6) e
(5.7-5.8)
son exactamente iguales (es una aplicación simple
de la propiedad conmutativa y asociativa de la suma).
De lo contrario son solo
aproximadamente igual. La aproximación es mucho mejor
Cuanto mayor es el número de clases y más
Los valores de los datos originales en el interior se distribuyen regularmente
clases.
Hay casos en los que en realidad es
Interesado en los valores que ocurren con mayor frecuencia. Se introduce
Entonces el concepto de
moda como el valor que ocurre con mayor frecuencia, o que
que tiene un mayor peso estadístico o, por decirlo en otras palabras, « qué
Va más de moda ». Como se define, está claro que la moda puede ser
No es único. Luego hablamos de distribución multimodal.
Al contar datos durante 3 y 30 segundos, la moda vale la pena respectivamente
0 y 4.
¿Cuáles son las medidas de posición cuartiles?
Un percentil indica la posición relativa de un valor de datos cuando los datos se clasifican en orden numérico de más pequeño a mayor. Los porcentajes de valores de datos son menores o iguales al percentil PTH. Por ejemplo, el 15% de los valores de datos son menores o iguales al percentil 15.
- Los percentiles bajos siempre corresponden a valores de datos más bajos.
- Los percentiles altos siempre corresponden a valores de datos más altos.
Un percentil puede o no corresponder a un juicio de valor sobre si es «bueno» o «malo». La interpretación de si un cierto percentil es «bueno» o «malo» depende del contexto de la situación a la que se aplican los datos. En algunas situaciones, un percentil bajo se consideraría «bueno»; En otros contextos, un percentil alto podría considerarse «bueno». En muchas situaciones, no hay un juicio de valor que se aplique.
Comprender cómo interpretar los percentiles correctamente es importante no solo al describir los datos, sino también al calcular las probabilidades en los capítulos posteriores de este texto.
Al escribir la interpretación de un percentil en el contexto de los datos dados, la oración debe contener la siguiente información.
- Los percentiles bajos siempre corresponden a valores de datos más bajos.
- Los percentiles altos siempre corresponden a valores de datos más altos.
Artículos Relacionados:
