Interpretación de la varianza: comprendiendo el análisis de datos

En estadísticas, a menudo estamos interesados ​​en comprender cómo están los valores de «distribución» en un conjunto de datos. Para medir esto, a menudo usamos las siguientes medidas de dispersión:

  • El rango: la diferencia entre el valor más grande y pequeño en un conjunto de datos.
  • El rango intercuartil: la diferencia entre el primer cuartil y el tercer cuartil en un conjunto de datos (los cuartiles son simplemente valores que dividen un conjunto de datos en cuatro partes iguales).
  • La desviación estándar: una forma de medir la distancia típica que los valores son de la media.
  • La varianza: la desviación estándar al cuadrado.

De estas cuatro medidas, la varianza tiende a ser la más difícil de entender intuitivamente. Esta publicación tiene como objetivo proporcionar una explicación simple de la varianza.

Antes de que podamos entender la varianza, primero debemos comprender la desviación estándar, típicamente denotada como σ.

La fórmula para calcular la desviación estándar es:

Donde μ es la media de la población, Xi es el elemento ésimo de la población, N es el tamaño de la población, y σ es solo un símbolo elegante que significa «suma».

En la práctica, rara vez necesitará calcular la desviación estándar a mano; En su lugar, puede usar software estadístico o una calculadora.

En su nivel más básico, la desviación estándar nos dice cómo se extienden los valores de los datos en un conjunto de datos. Para ilustrar esto, considere los siguientes tres conjuntos de datos junto con sus desviaciones estándar correspondientes:

[5, 5, 5] Desviación estándar = 0 (sin reparación)

¿Qué es la varianza y como interpretarla?

Veamos ahora cómo calcular la varianza residual.

Haga la diferencia entre los valores teóricos de ŷi y el promedio general de la variable dependiente de Y, obteniendo desechos del promedio (que no debe confundirse con los primeros residuos residuales).

Eleve el cuadrado al cuadrado desde el promedio y calcule su suma.

Esta suma se llama desviación explicada y simbolizada con el acrónimo inglés SSR, la regresión de cuadrados de agitación.

Cuanto mayor sea esta cantidad, mejor será el modelo que estoy aplicando.

La peculiaridad de la regresión recta es que estos dos índices son siempre los mismos entre ellos, por lo tanto, calcular uno u otro es indiferente. Pero desde el punto de vista didáctico es necesario conocerlos a ambos, porque generalmente se solicitan en cada examen universitario.

Sin embargo, desde un punto de vista estadístico, esta relación es importante porque en múltiples modelos no hay propiedad y, por lo tanto, la única forma de conocer la bondad del modelo es calcular el índice de determinación que, como ha visto, puede obtener de la descomposición de la varianza.

También para el índice de bondad de adaptación, he creado un video explicativo, que a través de una metáfora le ayuda a comprender claramente su significado real.

Índice R-Quadro
  • La varianza residual (llamado error en inglés) evalúa los desechos, y en la vida real los desechos son cosas que se tiran. De hecho, son los errores del modelo.

¿Cómo interpretar el resultado de la desviación estándar?

Es decir ? «

La sensación de comparación: si el tipo GAP – Tipo es más bajo, la dispersión es menor.
Del mismo modo, para series positivas, utilizamos el coeficiente de variación, que es el cociente de la desviación estándar por el promedio para comparar dispersiones relativas.

En cuanto a la regla de Christian Vassard, se generaliza (fórmula Bienaymé-tchebicheff): entre $ m-t sigma y m+t sigma $ hay una proporción de valores que son mayores que 1-1/t².
Para T Grand, la fórmula es prácticamente útil.

¿Qué diferencia la varianza de la desviación estándar?
¿Es interesante compararlos?

Estaba pensando en hacer dos curvas a partir de mis datos. Uno que representa los promedios, otro que representa las variaciones. Y esto para ver si la diferencia en relación con el promedio es importante. Qué piensas ?

Por otro lado, no ingreso el final de su mensaje: ¿tiene una serie de series de datos, con cada serie de datos un promedio y una varianza?

Nos escondemos discretamente bajo el factor 6, que en otras veces llamamos coeficiente de seguridad, pero podemos lograr formular problemas en términos de 6Sigma, lo cual es difícil de hacer en términos de coeff de seguridad.

Finalmente, conozco especialmente DFS (diseño para Six Sigma) y en particular en la parte robusta, y no lo encuentro absurdo en absoluto.

Una idea gráfica, fácil de hacer, Excel es representar «en el físico» la curva del medio, enmarcada por las dos curvas medianas + desviación estándar y estándar promedio. Lo que los físicos también hacen al representar una serie de medidas en un fenómeno mediante un intervalo (una barra vertical) basada en la desviación promedio + estándar y estándar promedio. Excel quizás también lo haga.

¿Cómo se interpreta la varianza y la desviación estándar?

La varianza es un método para encontrar u obtener la medida entre las variables que son diferentes entre sí, mientras que la desviación estándar nos muestra cómo el conjunto de datos o las variables difieren de la media o el valor promedio del conjunto de datos.

La varianza ayuda a encontrar la distribución de datos en una población a partir de una media, y la desviación estándar también ayuda a conocer la distribución de datos en la población, pero la desviación estándar da más claridad sobre la desviación de los datos de una media.

La ganancia promedio por juego para ambos casos es de Rs.61.54. ¿Qué juego te gustaría jugar bien? Hay un cierto instrumento que ayuda a tomar la decisión, es decir, tenemos que calcular la varianza y la desviación estándar.

En finanzas, hablamos sobre la volatilidad de, por ejemplo, las existencias, lo que significa que las grandes choques en los activos financieros regresan seguidos de grandes choques, y pequeñas choques en el retorno de los activos financieros tienden a seguir pequeños choques.

Veamos las principales diferencias entre la varianza frente a la desviación estándar.

  • La varianza proporciona una idea aproximada de la volatilidad de los datos. El 68% de los valores están entre la desviación estándar +1 y -1 de la media. Eso significa que la desviación estándar da más detalles.
  • La varianza se utiliza para conocer el comportamiento planificado y real con un cierto grado de incertidumbre. La desviación estándar se usa para la prueba estadística para saber sobre la relación que existe entre dos conjuntos de variables
  • La varianza mide la distribución de datos en una población alrededor del valor central. La desviación estándar mide la distribución de datos en relación con el valor central

¿Cómo se interpreta la desviación estándar?

Una alta desviación estándar generalmente significa que los puntos de datos están ampliamente dispersos del promedio, mientras que una desviación estándar baja significa que los puntos de datos están más cerca de la media. Esto le permite comparar los resultados dentro de un grupo de población. También le permite comparar la desviación estándar en los resultados entre diferentes grupos de población. Esto es particularmente útil si está intentando reproducir sus resultados en un estudio científico.

Digamos, por ejemplo, que está probando los tiempos de respuesta de los participantes en una simulación de conducción. El grupo de control está bien descansado, mientras que los 3 grupos experimentales han tenido 6, 4 y 2 horas de sueño respectivamente. La desviación estándar en sus tiempos de respuesta daría una valiosa información sobre cómo los conductores erráticos se vuelven cuando se privan del sueño.

En esta figura, el eje X representa la diferencia en las desviaciones estándar de la media, mientras que el eje Y representa los percentiles del conjunto de datos. En el eje X, el 0 es la media. Los puntos a su izquierda son las desviaciones estándar -1, -2 y -3 de la media, y viceversa a la derecha. Este gráfico nos dice que el 34.1% de este conjunto de datos cae entre -1 y 1 desviación estándar de la media, mientras que solo 0.1% cae fuera de -3 y 3.

En la prueba de estadísticas AP®, se le dará todas las fórmulas de desviación estándar relevantes en la hoja de fórmula de estadísticas AP®. Las preguntas en la prueba le pedirán que demuestre su conocimiento de la desviación estándar e interprete en el contexto de un problema práctico. A menudo, esto significa usar una desviación estándar dada para calcular otro valor en una fórmula diferente. Tomemos, por ejemplo, esta pregunta de la parte FRQ del examen de estadísticas AP® 2009.

Esta pregunta le pide a un estudiante que aplique el concepto de desviación estándar en el contexto para determinar otra información sobre las huellas de neumáticos. El círculo rojo marca la información más importante que necesita para este problema. Una vez que usamos la desviación estándar para encontrar el percentil 70, podemos usar esa respuesta para resolver las partes B y C.

¿Que nos indica el valor de la varianza?

La varianza es un cálculo que considera variables aleatorias en términos de su relación con la media de su conjunto de datos. La varianza se puede usar para determinar qué tan lejos está cada variable de la media y, a su vez, qué tan lejos está cada variable entre sí. También se usa en inferencias estadísticas, pruebas de hipótesis, métodos de Monte Carlo (muestreo aleatorio) y análisis de bondad de ajuste.

La varianza se utiliza para invertir para determinar el rendimiento individual de las partes separadas de una cartera de inversiones. Esto ayuda a los administradores e inversores de activos a mejorar su rendimiento de inversión.

Otros profesionales que pueden usar la variación son científicos, estadísticos, matemáticos, analistas de datos y cualquier persona responsable de identificar riesgos o determinar información sobre la población de un experimento o muestra.

En algunos casos, la varianza y la desviación estándar se pueden usar indistintamente. Alguien podría elegir la desviación estándar sobre la varianza porque es un número menor, que en algunos casos podría ser más fácil de trabajar y es menos probable que se vea afectado por sesgo. Para encontrar la desviación estándar, simplemente tome la raíz cuadrada de la varianza. Con este número, puede dibujar los mismos tipos de inferencias que lo haría si estuviera usando varianza, pero con cálculos más pequeños.

Para calcular la varianza, debe cuadrar cada desviación de una variable dada (x) y la media.

En un conjunto de datos de muestra, restará cada valor de la media individualmente, luego cuadraría el valor, como este: (μ – x) ². Luego, agregaría todas las desviaciones al cuadrado y las dividiría por el número total de valores para alcanzar un promedio. Este número es la varianza.

¿Cómo interpretar el valor de la varianza?

Recuerde que dada una variable discreta (x ) a valores en un set (y subseteq mathbb {r} ), su valor esperado se define por la fórmula [ mathbb {e} [x] = = sum_ {x in e} x p (x = x). ]

Si la ley es uniforme, el comando « medio () ’’ (que calcula el promedio aritmético de los valores de un portador) es suficiente. Ejemplo:

N = 10
Valores = 1: n
Valores medios)
[1] 5.5
Imprimir (C ("Valor teórico =", (n+1)/2))
[1] "Valor teórico =" "5.5"

La varianza viene dada por [ mathbb {e} [(x- mathbb {e} [x])^2] = mathbb {e} [x^2] – mathbb {e} [x]^2 . ] Finalmente, la desviación estándar ( sigma (x) ) es la raíz cuadrada de la varianza. Los controles var (), SD () calculan la varianza y la desviación estándar de un portador (suponiendo que la probabilidad es uniforme en los valores del portador). Atención: en realidad, RS calcula el correcto Cossshiddice Varianzia (imparcial), que se multiplica por el factor (n/(n-1) ), pero cuando (n ) es grande, la diferencia es insignificante.

Una variable (x ) que cuenta el número de éxitos en (n ) experimenta todo independiente entre sí y cada uno con probabilidad de éxito (p en (0.1) ) tiene la ley binomial de parámetros (((((( (n, p) ). La densidad discreta, para (k = 0, 1, ldots, n ), es [p (x = k) = {n elige k} p^k (1-p)^{n-k}. ]

En R podemos usar los controles dbbu (), pbinom (), qbinom (), rinom () para densidad, CDF, cuantil y simulación de una variable de combinación. Potamos la densidad

¿Qué valores da la varianza?

En primer lugar, veamos cómo calcular la varianza (que en su fórmula se indica con el símbolo σ2). Hay dos formas de hacerlo y puede ser útil conocerlos a ambos.

El ejercicio realizó aritmética promedio

Resume cada número y divide por el recuento de la misma.

Tome cada valor XI y reste el promedio que se encuentra en el punto anterior.

Tome el desperdicio del punto 2 y póngalos en el cuadrado. Multiplicales entonces por el Ni, si está en presencia de una distribución de frecuencias absolutas. Al final, los valores son suma. Si, por otro lado, está en presencia de una distribución de frecuencias relativas, no necesita la última multiplicación

Tome la suma del punto 3 (llamado desviación) y se relacione con las observaciones totales (N). El resultado es la varianza.

Nota: Por su naturaleza, solo se puede calcular en variables cuantitativas.

Eleva todo el valor XI al cuadrado y multiplica por el Ni, si está en presencia de una distribución de frecuencias absolutas. Al final, los valores son suma.

Tome la suma del punto 2 y divídalo por las observaciones totales (n). El resultado que encuentra se llama el segundo momento y es la primera parte de la varianza.

La varianza es la misma en este momento según el promedio del cuadrado.

Forma

Para ayudar a los estudiantes en el camino de superar el examen de estadísticas, puse a disposición en mi canal de YouTube, un ejercicio realizado con la calculadora científica, que le permite ahorrar mucho tiempo y, sobre todo, garantiza el éxito de lo mismo.

Artículos Relacionados:

Más posts relacionados:

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *