Ejemplos de correlación lineal: cómo la relación entre dos variables se puede medir

Hasta ahora hemos visualizado relaciones entre dos variables cuantitativas usando diapasones de dispersión, y describimos el patrón general de una relación considerando su dirección, forma y fuerza. Notamos que evaluar la fuerza de una relación simplemente mirando el diagrama de dispersión es bastante difícil y, por lo tanto, necesitamos complementar el diagrama de dispersión con algún tipo de medida numérica que nos ayudará a evaluar la fuerza.

En esta parte, restringiremos nuestra atención al caso especial de las relaciones que tienen una forma lineal, ya que son bastante comunes y relativamente simples de detectar. Más importante aún, existe una medida numérica que evalúa la fuerza de la relación lineal entre dos variables cuantitativas con las que podemos complementar el diagrama de dispersión. Presentaremos esta medida numérica aquí y la discutiremos en detalle.

Aunque a partir de este momento nos centraremos solo en las relaciones lineales, es importante recordar que no todas las relaciones entre dos variables cuantitativas tienen una forma lineal. En realidad, hemos visto varios ejemplos de relaciones que no son lineales. Las herramientas estadísticas que se introducirán aquí son apropiadas solo para examinar las relaciones lineales, y como veremos, cuando se usan en situaciones no lineales, estas herramientas pueden conducir a errores en el razonamiento.

Comencemos con un ejemplo motivador. Considere los siguientes dos gráficos de dispersión.

Podemos ver que en ambos casos, la dirección de la relación es positiva y la forma de la relación es lineal. ¿Qué pasa con la fuerza? Recuerde que la fuerza de una relación es la medida en que los datos siguen su forma.

¿Cómo saber si hay una correlacion lineal?

La correlación es una medida estadística que expresa la relación lineal entre dos variables (que, por lo tanto, cambian junto con una velocidad constante) y se usa ampliamente para describir relaciones simples sin tener que hablar sobre la causa y el efecto.

El coeficiente de correlación de la muestra, R, se usa para cuantificar la resistencia de la relación entre variables. Las correlaciones también se utilizan para calcular la significación estadística.

La correlación no puede verificar la presencia o efecto de otras variables que no son las dos examinadas. En particular, no nos dice nada sobre la causa y el efecto. Además, no puede describir con precisión las relaciones curvilíneas.

Las correlaciones son útiles para describir relaciones simples entre datos. Vamos a colocar, por ejemplo, que debe examinar el conjunto de datos del campamento en un área de montaña para comprender si existe una correlación entre la parte del campamento (la altitud a la que se encuentra) y la temperatura promedio en el verano.

Por lo tanto, para cada campamento tendrá dos valores: cuota y temperatura. Al comparar las dos variables con una muestra equipada con una cierta correlación, descubrirá que es una relación lineal, en la que al aumentar la altitud la temperatura disminuye. En este caso, es, por lo tanto, una correlación negativa.

La correlación se describe mediante un valor que no está equipado con una unidad específica de medición, llamada coeficiente de correlación, entre -1 y +1 y denota por R. La significación estadística se indica a través de un valor p. Por lo tanto, las correlaciones generalmente se escriben utilizando dos números fundamentales: R y P.

¿Cómo saber si existe correlacion lineal entre dos variables?

Para aprender lo que significa que dos variables exhiban una relación cercana a lineal, pero que contiene un elemento de aleatoriedad

La siguiente tabla da ejemplos de los tipos de pares de variables que podrían ser de interés desde un punto de vista estadístico.

La primera línea en la tabla es diferente de todo el resto porque en ese caso y en ninguna otra la relación entre las variables es determinista: una vez que el valor de (x ) se conoce, el valor de (y ) está completamente determinado. De hecho, hay una fórmula para (y ) en términos de (x ):

Elegir varios valores para (x ) y calcular el valor correspondiente para (y ) para cada uno que usa la fórmula le da a la tabla

Podemos trazar estos datos eligiendo un par de líneas perpendiculares en el plano, llamados ejes de coordenadas, como se muestra en la figura ( pageIndex {1} ). Luego, a cada par de números en la tabla, asociamos un punto único en el plano, el punto que se encuentra (x ) unidades a la derecha del eje vertical (a la izquierda si (x <0 )) e y y Unidades sobre el eje horizontal (abajo si (y <0 )). La relación entre (x ) y (y ) se llama relación lineal porque los puntos se trazan todos en una sola línea recta. El número (95 ) en la ecuación (y = 95x+32 ) es la pendiente de la línea y mide su inclinación. Describe cómo los cambios y en respuesta a un cambio en (x ): si (x ) aumenta por (1 ) unidad y luego (y ) aumenta (ya que (95 ) es positivo) por (95 ) Unidad. Si la pendiente hubiera sido negativa, entonces (y ) habría disminuido en respuesta a un aumento en (x ). El número (32 ) en la fórmula (y = 95x+32 ) es la intercepción (y )-de la línea; Identifica dónde la línea cruza el eje (y )-. Puede recordar desde un curso anterior que cada línea no vertical en el plano se describe mediante una ecuación de la forma (y = mx+b ), donde (m ) es la pendiente de la línea y (b ) es su (y )-intercepción.

¿Qué es la correlación lineal y cómo se calcula?

Para poder calcular una regresión lineal, se deben cumplir varios requisitos. Ahora queremos tomar esto brevemente:

  • El predictor debe ser escalado por intervalo. Excepción: variables de escala nominal de dicotom con una llamada codificación ficticia, es decir, solo las formas «0» y «1», también se pueden usar como predictor
  • El criterio debe ser escalado por intervalo. Para otros niveles de escala, existen sus propios procedimientos (por ejemplo, regresión logística ordinal, multinominal)
  • La conexión de las variables en teoría debe ser lineal. Ayuda a ver el diagrama de dispersión para esto. Hay modelos de regresión no lineales para otras relaciones (por ejemplo, regresión cuadrada)
  • Tan poco como sea posible en los datos, ya que pueden tener un gran impacto en la bolsa predictiva. Aquí, también, es útil mirar el diagrama de dispersión.

Conocimiento experto: regresión en estadísticas de inferencia

Hay otros requisitos previos para el uso de la regresión en estadísticas de inferencia, que luego profundizaremos en el tema de la regresión múltiple. Estos son:

Ahora podemos comparar varios modelos de regresión con respecto a la bolsa predictiva. Sin embargo, si queremos comparar el coeficiente de regresión B de varios modelos de regresión, tenemos un problema: el peso B no debe interpretarse independientemente de la escala correspondiente, es decir, los pesos de diferentes ecuaciones de regresión no se pueden comparar. Por ejemplo, la altura conduce a una B más grande en centímetros como predictor que el tamaño del cuerpo en metros. Por lo tanto, uno a menudo habla del peso de regresión inestable b. Los pesos se vuelven comparables a la estandarización en las desviaciones estándar. El coeficiente de regresión estandarizado ( peso) es idéntico a la correlación del momento del producto r, es decir, en el caso de la regresión bivariada, es decir, valores entre -1 a +1. La estandarización se lleva a cabo nuevamente en las desviaciones estándar de ambas variables, de la siguiente manera:

El resultado de esta ecuación debe ser familiar. Corresponde a la fórmula para la correlación del momento del producto. Esto muestra la relación entre correlación y regresión de manera matemática.

¿Qué tipos de correlación lineal existen?

En un conjunto de datos existente, es muy crucial poder distinguir el tipo apropiado de coeficiente de correlación para decidir si mantener la variable en nuestro conjunto de datos o no en los próximos análisis y pasos de modelado. En los datos, las características pueden tener una relación creciente (positiva) o decreciente (negativa) entre ellos como se muestra a continuación.

La dirección de los coeficientes de correlación (propiedad del autor)

Todos los coeficientes de correlación contienen una descripción muy única por medio de sus áreas y aspectos de uso. A lo largo de este artículo, habrá cuatro coeficientes de correlación principales como Covariance, Pearson’s Spearman y coeficiente de correlación policórica.

En términos básicos, la correlación de covarianza se puede aplicar cuando existe una relación normalmente distribuida entre las características. Se puede usar fácilmente para evaluar la suma de la varianza de las dos características específicas.

Al usar este coeficiente, se puede presumir la dirección de las características. Sin embargo, en la necesidad de medir la dependencia de las variables, se seleccionará una métrica adicional ya que el coeficiente de covarianza no puede responder a esta relación.

En un lenguaje simple, la formulación de la correlación de covarianza se puede encontrar a continuación.

Covarianza (x, y) = (sum (x - media (x)) * (y - media (y))) * 1/(n -1)

Para la correlación de Pearson, también existe la necesidad de una relación lineal entre un par de variables. En la literatura, se puede llamar «correlación de productos de productos de Pearson» [1].

¿Qué es correlacion lineal y ejemplos?

En probabilidades y estadísticas, estudiar la correlación entre dos o más variables aleatorias o estadísticas es estudiar la intensidad del enlace que puede existir entre estas variables. La conexión solicitada es una relación afina (en matemáticas, Affine puede corresponder a :). En el caso de dos variables, esto es regresión lineal (en estadísticas, dada una muestra aleatoria un modelo de…).

Una medida de esta correlación se obtiene mediante el cálculo del coeficiente (en matemáticas, un coeficiente es un factor multiplicativo que depende de una cierta…) de correlación lineal. Este coeficiente es igual al informe de su covarianza (en estadísticas, la covarianza es un número que permite evaluar la dirección de variación de dos…) y el producto no cero de sus desviaciones estándar (en desviaciones en inglés estándar). El coeficiente de correlación es entre -1 y 1.

Calcule el coeficiente de correlación entre 2 variables equivale a buscar resumir el enlace que existe entre las variables usando una línea. Luego hablamos de un ajuste lineal.

¿Cómo calcular las características de este derecho? Asegurar que el error que cometamos al representar el enlace entre nuestras variables por un derecho es lo más pequeño posible. El criterio formal con mayor frecuencia utilizado, pero no el único posible, es minimizar la suma de todos los errores realmente cometidos en el cuadrado (un cuadrado es un polígono regular en cuatro lados. Esto significa que es…). Luego hablamos de ajuste de acuerdo con el método de mínimo cuadrado (el método de mínimo cuadrado, desarrollado independientemente por Legendre en…) ordinario. La derecha resultante de este ajuste se llama línea de regresión. Cuanto más es buena la calidad general de la representación del vínculo entre nuestras variables por este derecho, más también es el coeficiente de correlación lineal asociado. Existe una equivalencia formal entre los dos conceptos.

Por ejemplo, calcularemos el coeficiente de correlación entre dos curvas (caso típico: una regresión). Suponemos que tenemos las siguientes tablas de valores: y para cada una de las dos curvas. Entonces, para conocer el coeficiente de correlación de aglutinante (un aglutinante es un producto líquido que aglomera partículas sólidas en forma de polvo…) Estas dos curvas, se aplicará la siguiente fórmula:

Si R es 0, las dos curvas no están correlacionadas. Las dos curvas están mejor correlacionadas que R está cerca de 1.

Artículos Relacionados:

Related Posts

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *