¿Qué es la media de la muestra y cómo se calcula?

La media de la muestra es el promedio de los valores de una variable en una muestra, que es la suma de esos valores divididos por el número de valores. Usando notación matemática, si se toma una muestra de N observaciones en la variable X de la población, la media de la muestra es:

Según esta definición, si la muestra (1, 4, 1) se toma de la población (1,1,3,4,0,2,1,0), entonces la media de la muestra es x¯ = (1+4+ 1)/3 = 2 { displayStyle { bar {x}} = (1+4+1)/3 = 2}, en comparación con la media de población de μ = (1+1+3+4+0+ 2+1+0) /8=12/8=1.5 { DisplayStyle Mu = (1+1+3+4+0+2+1+0) /8=12/8=1.5}. Incluso si una muestra es aleatoria, rara vez es perfectamente representativa, y otras muestras tendrían otras medias de muestra, incluso si las muestras fueran todas de la misma población. La muestra (2, 1, 0), por ejemplo, tendría una media de muestra de 1.

Si el estadístico está interesado en las variables K en lugar de una, cada observación tiene un valor para cada una de esas variables K, la media de muestra general consiste en K de muestra K medias para variables individuales. Sea xij { displayStyle x_ {ij}} la ésima observación dibujada independientemente (i = 1,…, n) en la variable aleatoria J (j = 1,…, k). Estas observaciones se pueden organizar en n
Vectores de columna, cada uno con entradas K, con el vector de columna K × 1 que dan las observaciones i-Th de todas las variables que se denotan xi { displaystyle mathbf {x} _ {i}} (i = 1,…, n ).

¿Qué es la media y la varianza?

Necesito obtener algún tipo de «promedio» entre una lista de variaciones, pero tengo problemas para obtener una solución razonable. Hay una discusión interesante sobre las diferencias entre las tres medias pitagóricas (aritmética, geométrica y armónica) en este hilo; Sin embargo, todavía no creo que ninguno de ellos sea un buen candidato. ¿Alguna sugerencia?

PD Algo contexto: estas variaciones son variaciones de muestra de $ N $ sujetos, cada una de las cuales pasó por el mismo diseño de experimento con aproximadamente el mismo tamaño de muestra $ K $. En otras palabras, hay $ N $ Variaciones de muestreo $ Sigma_1^2 $, $ sigma_2^2 $,…, $ sigma_n^2 $, correspondiente a esos sujetos $ n $. Ya se ha realizado un meta análisis a nivel de población. La razón por la que necesito obtener algún tipo de varianza de muestra «promedio» o «resumida» es que quiero usarlo para calcular un índice como ICC después del meta análisis.

P.P.S. Para mantener la discusión más concreta, permítanme explicar el problema con el siguiente ejemplo en R:

Supongamos que realizamos un meta análisis con un modelo jerárquico o de efectos mixtos:

donde $ alpha_i $ y $ beta_j $ son los efectos aleatorios para la escuela $ i $ th y $ j $ th distrito, respectivamente, y $ epsilon_ {ij} $ es el error de medición con una distribución gaussiana conocida $ N ( 0, v_ {ij}) $. Este modelo se puede analizar a continuación:

Las dos variaciones en el resultado, Sigma^2.1 y Sigma^2.2, corresponden a las dos variables de efectos aleatorios (distrito y escuela).

¿Cómo se calcula la media y la varianza?

Sería útil tener una medida de dispersión que tenga las siguientes propiedades:

  • La medida debe ser proporcional a la dispersión de
    los datos (pequeños cuando los datos se agrupan y grandes cuando
    Los datos están ampliamente dispersos).
  • La medida debe ser independiente del número de valores
    En el conjunto de datos (de lo contrario, simplemente tomando más mediciones las
    el valor aumentaría incluso si la dispersión de las mediciones no fuera
    creciente).
  • La medida debe ser independiente de la media (ya que ahora
    solo están interesados ​​en la propagación de los datos, no en su central
    tendencia).

Tanto la varianza como la desviación estándar cumplen con estos tres criterios para conjuntos de datos normalmente distribuidos (simétricos, «curva de campana»).

La varianza (σ2) es una medida de qué tan lejos está cada valor en el conjunto de datos de la media. Así es como se define:

  • La medida debe ser proporcional a la dispersión de
    los datos (pequeños cuando los datos se agrupan y grandes cuando
    Los datos están ampliamente dispersos).
  • La medida debe ser independiente del número de valores
    En el conjunto de datos (de lo contrario, simplemente tomando más mediciones las
    el valor aumentaría incluso si la dispersión de las mediciones no fuera
    creciente).
  • La medida debe ser independiente de la media (ya que ahora
    solo están interesados ​​en la propagación de los datos, no en su central
    tendencia).
  • Resta la media de cada valor en los datos. Esto le da una medida de la distancia de cada valor de la media.
  • Cuadrar cada una de estas distancias (para que todos sean valores positivos) y agregue todos los cuadrados juntos.
  • Divida la suma de los cuadrados por el número de valores en el conjunto de datos.
  • La desviación estándar (σ) es simplemente la raíz cuadrada (positiva) de la varianza.

    Para escribir la ecuación que define la varianza, es más simple usar el operador de suma, σ. El operador de suma es solo una forma abreviada de escribir: «Tome la suma de un conjunto de números». Como ejemplo, mostraremos cómo usaríamos el operador de suma para escribir la ecuación para calcular el valor medio del conjunto de datos 1. Comenzaremos asignando cada número a variable, x1 – x6, como esta:

    Piense en la variable (x) como la cantidad medida de su experimento, como el número de hojas por planta, y piense que el subíndice indica el número de prueba (1–6). Para calcular el número promedio de hojas por planta, primero tenemos que agregar los valores de cada una de las seis pruebas. Usando el operador de suma, lo escribiríamos así:

    Obviamente, la suma es mucho más compacta para escribir con el operador de suma. Aquí está la ecuación para calcular la media, μX, de nuestro conjunto de datos utilizando el operador de suma:

    La ecuación general para calcular la media, μ, de un conjunto de números, x1 – xn, se escribiría así:

    A veces, por simplicidad, los subíndices quedan fuera, como lo hicimos a la derecha, arriba. Eliminar con los subíndices hace que las ecuaciones sean menos abarrotadas, pero aún se entiende que está agregando todos los valores de X.

    ¿Qué es media varianza y desviación estándar?

    La desviación estándar mide la variabilidad del conjunto de datos. Al igual que el rango, una desviación estándar más pequeña indica menos variabilidad.

    Encontrar la desviación estándar requiere sumar la diferencia al cuadrado entre cada punto de datos y la media [∑ (x – µ) 2], agregando todos los cuadrados, dividiendo esa suma por uno menos que el número de valores (n – 1), y finalmente calculando la raíz cuadrada del dividendo. En una fórmula, esto es:

    Calcule la media agregando todos los valores del punto de datos, luego dividiendo por el número de puntos de datos. En el conjunto de datos de muestra,

    Divide la suma, 175, por el número de puntos de datos, 7, o

    Luego, reste la media de cada punto de datos, luego cuadre cada diferencia. La fórmula se ve así:

    donde ∑ significa suma, x I representa cada valor del conjunto de datos y µ representa el valor medio. Continuando con el conjunto de ejemplo, los valores se convierten en:

    Divida la suma de las diferencias al cuadrado en una menos que el número de puntos de datos. El conjunto de datos de ejemplo tiene 7 valores, por lo que N – 1 es igual a 7 – 1 = 6. La suma de las diferencias al cuadrado, 160, dividida por 6 es igual a 26.6667.

    Calcule la desviación estándar al encontrar la raíz cuadrada de la división por N – 1. En el ejemplo, la raíz cuadrada de 26.6667 es igual a 5.164. Por lo tanto, la desviación estándar es igual a aproximadamente 5.164.

    La desviación estándar ayuda a evaluar los datos. Los números en el conjunto de datos que se encuentran dentro de una desviación estándar de la media son parte del conjunto de datos. Los números que caen fuera de dos desviaciones estándar son valores o valores atípicos extremos. En el conjunto de ejemplo, el valor 36 se encuentra más de dos desviaciones estándar de la media, por lo que 36 es un caso atípico. Los valores atípicos pueden representar datos erróneos o pueden sugerir circunstancias imprevistas y deben considerarse cuidadosamente al interpretar los datos.

    ¿Cuál es la media de la población?

    A raíz de la unidad, la población italiana ascendió a poco más de 28 millones. El crecimiento de la población fue lo suficientemente lento en las últimas décadas del siglo XIX, también debido al gran número de personas que emigraron al extranjero. En el siglo XX, hasta los años setenta, el aumento demográfico fue más apoyado, a pesar de las pérdidas humanas que ocurrieron durante la guerra mundial 1 y II. Sin embargo, la población italiana permaneció sustancialmente sin cambios entre 1981 y 2001, y luego se reanudó para aumentar en la primera década del tercer milenio, especialmente debido a la inmigración.

    Según las últimas encuestas ISTAT el 1 de enero de 2017, los jóvenes de hasta 14 años son casi 100 000 menos que en 2016 y representan el 13.5% del total [2]. Las personas con más de 65 años aumentan en 160 000 unidades y ahora representan el 22.6% de la población [2]. Los ciudadanos extranjeros también están aumentando constantemente y constituyen, el 1 de enero de 2018, el 8.5% del total [3].
    Desde un punto de vista demográfico, Italia se confirma como uno de los países con la tasa de natalidad más baja del mundo; En 2016, el número promedio de nacimientos por mujer se estima en 1.34 [4], disminuyendo en comparación con 1.46 en 2010, lo que representó el valor más alto desde 1984 [5]. La fecundidad, después de un período de recuperación, comenzó a disminuir nuevamente. Sigue siendo más alto que el de mediados de la década de 1990 en el que se tocaron los mínimos históricos, pero aún no ha alcanzado el nivel considerado óptimo para una población, o el nivel de reemplazo de parejas, igual a aproximadamente 2.1 niños por mujer [6] [ 7]. En 2022, el número de nacimientos alcanzó el mínimo histórico de la unificación de Italia [8], un registro negativo que excedió el encontrado en 2019 y 2018. [9]

    La población está muy concentrada en algunas áreas urbanas específicas, en 2015 solo 741 municipios italianos superan a 15 000 habitantes y cuentan un total de 36 000 000 de habitantes, por lo tanto, los 7 299 restantes se consideran «pequeñas municipalidades».

    ¿Cómo se calcula la media de la población?

    Cuando la naturaleza estudiada durante una investigación o una serie de medidas es cuantitativa, las diferentes características le permiten tener una visión general de la serie estadística para interpretar los resultados o comparar la serie entre ellos. El promedio es una de estas características.

    Comenzaremos este curso con un retiro del vocabulario de las estadísticas antes de introducir el ejemplo que nos servirá a lo largo del curso. Luego definiremos el promedio de una serie estadística, luego también abordaremos el concepto de valores ponderados y promedio.

    Las listas de datos recopiladas durante una encuesta o una serie de medidas se denominan una serie de datos estadísticos.

    Estudiar una serie estadística está estudiando un personaje en una población:

    • La población es la totalidad de los individuos estudiados;
    • El personaje es el tipo de medida que se recoge; puede ser :
    • Los valores son todos los valores posibles que este personaje puede tomar;
    • Los datos son todas las medidas que se han recopilado;
    • La fuerza laboral de un valor del personaje es el número de veces que este valor aparece en la lista, es decir, el número de personas que tienen este valor del personaje;
    • La fuerza laboral total de la serie es el número total de individuos de la población estudiada, es decir, la suma de la fuerza laboral;
    • La frecuencia de un valor es el cociente de la fuerza laboral de este valor por la fuerza laboral total.

    ¿Cómo se calcula la media de la muestra?

    El teorema del límite central para las medias de muestra dice que si sigue dibujando muestras cada vez más grandes (como rodar uno, dos, cinco y finalmente, diez dados) y calcular sus medias, la muestra significa su propia distribución normal (la distribución de muestreo ). La distribución normal tiene la misma media que la distribución original y una varianza que es igual a la varianza original dividida por el tamaño de la muestra. La variable N es el número de valores que se promedian juntos, no el número de veces que se realiza el experimento.

    Supongamos que X es una variable aleatoria con una distribución que puede ser conocida o desconocida (puede ser cualquier distribución). Usando un subíndice que coincida con la variable aleatoria, suponga:

    • μx = la media de x
    • σx = la desviación estándar de x

    Si dibuja muestras aleatorias de tamaño n, entonces a medida que n aumenta, la variable aleatoria [látex] displayStyle overline {{x}} [/latex].

    Para decirlo más formalmente, si dibuja muestras aleatorias de tamaño n, la distribución de la variable aleatoria [látex] displayStyle overline {{x}} [/latex], que consiste en medias de muestra, se denomina distribución de muestreo de el significado. La distribución de muestreo de la media se acerca a una distribución normal a medida que N, el tamaño de la muestra aumenta.

    La variable aleatoria [látex] displayStyle Overline {{x}} [/latex] en una muestra.

    [latex] displaystyle { mu} _ {x} [/latex] es el promedio de x y [latex] displaystyle overline {x} [/latex]
    [latex] displayStyle { sigma} overline {x} = frac {{ overline {x}-{ mu} _ {x}}} {{ frac {{ sigma {x}}} {{{{{{{{{{{{{{{{{{ sqrt {n}}}}} [/latex] = desviación estándar de [latex] DisplayStyle Overline {{x}} [/latex] y se llama el error estándar de la media.
    Para encontrar probabilidades para medias en la calculadora, siga estos pasos:

    El valor que es dos desviaciones estándar por encima del valor esperado es 96. El error estándar de la media es [látex] displayStyle frac {{ sigma}} {{ sqrt {n}}} [/latex] = [latex ] displayStyle frac {{15}} {{ sqrt {25}}} [/latex] = 3.

    ¿Cómo calcular la media de una muestra en Excel?

    Los temas de la sintaxis de la función dev.st.valori son los siguientes:

    Val1, Val2,… Val1 es obligatorio, los valores posteriores son opcionales. De 1 a 255 valores correspondientes a una muestra de población. En lugar de temas separados de los puntos y coma, también es posible usar una sola matriz o una referencia a una matriz.

    La función dev.st.valori presupone que los temas relacionados representan una muestra de la población. Si los datos en cuestión representan a toda la población, para calcular la desviación estándar para usar la función dev.st.pop.valori.

    La desviación estándar se calcula utilizando el método «N-1».

    Los temas pueden ser números, nombres, matrices o referencias que contienen números, representaciones textuales de números o valores lógicos, como Verdadero y Falso, en una referencia.

    Los temas que contienen el valor real se evalúan como 1, mientras que los que contienen texto o el valor falso se evalúan como 0 (cero).

    Si un tema es una matriz o una referencia, solo se utilizarán los valores contenidos en esa matriz o en esa referencia. Se ignorarán las celdas vacías y los valores de texto de la matriz y la referencia.

    Los temas representados por valores de error o por texto no convertibles en los números generan errores.

    Si no desea incluir valores lógicos y representaciones de texto de números en una referencia como parte del cálculo, use Dev.St.

    Artículos Relacionados:

    Related Posts

    Deja una respuesta

    Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *