Correlación lineal múltiple: cómo determinar si existe una relación entre variables

En estadísticas, el coeficiente de correlación múltiple es una medida de qué tan bien se puede predecir una variable dada utilizando una función lineal de un conjunto de otras variables. Es la correlación entre los valores de la variable y las mejores predicciones que se pueden calcular linealmente a partir de las variables predictivas. [1]

El coeficiente de correlación múltiple toma valores entre 0 y 1. Los valores más altos indican una mayor previsibilidad de la variable dependiente de las variables independientes, con un valor de 1 que indica que las predicciones son exactamente correctas y un valor de 0 que indica que no hay una combinación lineal de la Las variables independientes son un mejor predictor que la media fija de la variable dependiente. [2]

El coeficiente de correlación múltiple se conoce como la raíz cuadrada del coeficiente de determinación, pero bajo los supuestos particulares de que se incluye una intersección y que se usan los mejores predictores lineales posibles, mientras que el coeficiente de determinación se define para casos más generales, incluidos aquellos de predicción no lineal y aquellos en los que los valores predichos no se han derivado de un procedimiento de ajuste de modelo.

El coeficiente de correlación múltiple, denotada R, es un escalar que se define como el coeficiente de correlación de Pearson entre los valores predichos y reales de la variable dependiente en un modelo de regresión lineal que incluye una intersección.

El cuadrado del coeficiente de correlación múltiple se puede calcular utilizando vectorC = (rx1y, rx2y,…, rxny) ⊤ { displaystyle mathbf {c} = {(r_ {x_ {1} y}, r_ {x_ {2 } y}, dots, r_ {x_ {n} y})}^{ top}} de correlacionesrxny { displaystyle r_ {x_ {n} y}} entre las variables predictoras xn { displaystyle x_ {n}} (variables independientes) y la variable de destino y { displayStyle y} (variable dependiente), y la correlación matrixrxx { displaystyle r_ {xx}} de correlaciones entre las variables predictoras. Se da por

¿Qué es la correlación múltiple?

Un coeficiente de correlación múltiple (R) produce el grado máximo de relación de revestimiento que se puede obtener entre dos o más variables independientes y una única variable dependiente. (R nunca se firma como + o -. R2 representa la proporción de la varianza total en la variable dependiente que las variables independientes). con la variable dependiente. Debido a que la determinación de estos pesos (coeficientes beta) es, como cualquier estadística, siempre afectada (la R siempre se infla) por error de muestreo, la R múltiple está correctamente «encogida» para corregir el sesgo debido al error de muestreo. La contracción de R se basa en el número de variables independientes y el tamaño de la muestra. Cuando el número de variables independientes es pequeña (<10) y el tamaño de la muestra es grande (> 100), el procedimiento de contracción tiene un efecto insignificante. Además, las correlaciones entre las variables independientes que van al cálculo de R se pueden corregir para la atenuación (error de medición), lo que aumenta R. Además, R puede corregirse para restricción del rango de capacidad en la muestra particular cuando su varianza de Las variables que ingresan a R son significativamente diferentes de la varianza de la población, suponiendo que se estima adecuadamente. La corrección de las correlaciones para la restricción del rango se usa con frecuencia en estudios basados ​​en estudiantes en universidades selectivas, porque generalmente representan solo la mitad superior de la distribución de IQ en la población general.

A continuación se presentan dos ejemplos de la R múltiple entre varias variables RT y una sola puntuación «IQ». Para asegurar una fuerte distinción entre RT basadas en ECT muy simples y puntajes cronometrados en los PT convencionales, se seleccionaron los siguientes ejemplos para excluir cualquier ECTS en el que las RT media son mayores que 1 s para adultos normales o 2 s para niños pequeños. Obviamente, no puede ocurrir mucha cogitación en este pequeño tiempo.

El ejemplo más simple es el paradigma Hick. Jensen (1987a) obtuvo valores de R en muestras grandes, donde las variables independientes son varios parámetros de RT y MT derivados de los datos de Hick, a saber. RT media, RTSD, la intersección y la pendiente de la regresión de RT en bits, y MT media.

Sin correcciones para la atenuación y restricción del rango en las muestras, r = .35; Con ambas correcciones, r = .50. Esta es la mejor estimación que tenemos del valor de la población de la correlación más grande que se puede obtener entre una combinación de variables obtenidas de los parámetros de Hick y IQ medido por una u otra prueba única, con mayor frecuencia las matrices de cuervo.

¿Qué es regresión y correlación múltiple?

Del modelo obtenemos la ecuación de regresión múltiple con dos variables independientes donde B0, B1 y B2 representan los coeficientes de regresión neto, ya que estiman la variación promedio de y para las variaciones unitarias de una variable particular X, manteniendo el efecto de las otras variables constantes X.

Además, con dos variables dependientes y una variable independiente, los datos están en tres dimensiones, y pueden representarse mediante un diagrama de dispersión de tres dimensiones.

R2 correcto ayuda a medir el aumento de la desviación explicado debido a la inserción de una nueva variable en el modelo.

El cálculo del índice R2 correcto es muy importante al comparar dos o más modelos de regresión que predican la misma variable dependiente, pero con un número diferente de variables independientes.

La prueba F se usa para verificar si existe una relación significativa entre la variable dependiente y el conjunto de variables independientes, o todo el modelo de regresión múltiple.
Dado que hay variables más independientes, se usa la siguiente fórmula:

Es decir, no existe una relación lineal entre la variable dependiente y las variables independientes

Existe una relación lineal entre la variable dependiente y al menos una variable independiente.

La ecuación define las estadísticas para la prueba F: (ver figura).

La regla de decisión es:
Él rechaza H0 con un nivel de importancia α SE F STAT> F ∞ De lo contrario, no se niega a H0.

¿Qué mide el coeficiente de correlación múltiple?

donde rxz, ryz, rxyare tal como se define en la definición 2 de conceptos básicos de correlación. Aquí X e Y se ven como las variables independientes y Z es la variable dependiente.

También definimos que el coeficiente múltiple de determinación sea el cuadrado del coeficiente de correlación múltiple.

A menudo, los subíndices se reducen y el coeficiente de correlación múltiple y el coeficiente de determinación múltiple se escriben simplemente como R y R2 respectivamente. Estas definiciones también pueden ampliarse a más de dos variables independientes. Con solo una variable independiente, el coeficiente de correlación múltiple es simplemente r.

Desafortunadamente, R no es una estimación imparcial de la población coeficiente de correlación múltiple, lo cual es evidente para muestras pequeñas. Una versión relativamente imparcial de R está dada por R ajustada.

Definición 2: Si R es RZ, XYAS definido anteriormente (o de manera similar para más variables), entonces el coeficiente múltiple de determinación ajustado es

donde k = el número de variables independientes y n = el número de elementos de datos en la muestra para z (que debería ser el mismo que las muestras para x e y).

Herramientas de análisis de datos de Excel: además de las diversas funciones de correlación descritas en otros lugares, Excel proporciona las herramientas de análisis de datos de covarianza y correlación. La herramienta de covarianza calcula las covarianzas de población por pares para todas las variables en el conjunto de datos. Del mismo modo, la herramienta de correlación calcula los diversos coeficientes de correlación como se describe en el siguiente ejemplo.

¿Qué es el modelo regresión lineal múltiple?

Ahora que hemos cubierto la fórmula de regresión lineal múltiple, es posible que se pregunte cómo esto te ayuda en el mundo real. Explorar las relaciones entre múltiples variables y una única variable dependiente puede ayudarlo a comprender qué están impulsando los cambios en los precios, las fluctuaciones del mercado o las cifras de ventas. En la mayoría de los casos, estas variables dependientes están influenciadas por más de un solo factor, por lo que el análisis de regresión lineal múltiple es tan útil.

Al observar un modelo de regresión lineal, los analistas pueden hacer predicciones sobre la variable dependiente en función de los datos obtenidos de múltiples variables independientes.

¿Cómo se ve este tipo de análisis en el lugar de trabajo? Imagine que un analista financiero quiere comprender más sobre cómo el mercado en general está afectando el precio de un stock de petróleo. En este ejemplo de regresión lineal múltiple, las variables independientes podrían incluir cosas como el precio del petróleo, las tasas de interés y los movimientos futuros del petróleo. La variable dependiente sería el precio del stock de petróleo.

Al conectar todas estas variables a la ecuación, el analista podría ver cómo las fluctuaciones en las variables independientes impactan los movimientos del precio de la variable dependiente. Luego, el analista sabría qué variables observar para predecir con más éxito los movimientos de precios futuros, ayudándoles a decidir cuándo es el momento de comprar o vender.

Gocardless lo ayuda a automatizar la recaudación de pagos, reduciendo la cantidad de administrador que su equipo necesita lidiar al perseguir las facturas. Descubra cómo Gocardless puede ayudarlo con pagos ad hoc o pagos recurrentes.

¿Qué es correlación lineal y ejemplos?

Cuando se trata de correlación, generalmente nos referimos al grado de relación entre dos variables.

El tipo de correlación más importante es el lineal, que se mide por el índice de correlación de Pearson o el índice de correlación lineal.

  • Cuando el índice es positivo, existe una correlación lineal directa entre las dos variables observadas; La correlación directa es máxima para lograr el valor de +1.
  • Cuando el índice es negativo, hay una correlación lineal inversa entre las dos variables observadas; La correlación inversa es máxima para lograr el valor de −1.
  • Cuando el índice es igual a 0, las dos variables observadas no presentan correlación lineal; La correlación lineal está ausente.

La disposición de los puntos y valores del índice de correlación lineal en la siguiente imagen dan una idea de la variabilidad de este último de acuerdo con las posibles conformaciones de los fenómenos observados:

En la última línea de la imagen, las disposiciones de los puntos siguen tendencias bien definidas y no aleatorias. Sin embargo, todos son ejemplos de relaciones no lineales y el índice de correlación lineal es igual a 0.

De ahora en adelante, cuando hablamos de correlación, siempre nos referiremos a la correlación lineal.

Coviania y el coeficiente de correlación lineal son dos medidas estadísticas similares pero con algunas diferencias importantes.

Ambos miden el nivel de relación existente entre dos variables.

¿Cuando la correlación es lineal?

Se dice que una de estas variables es independiente o explicativa. A menudo representado por la letra X, se dice que es independiente, porque no está influenciado por los otros parámetros de un cálculo. Estas variables generalmente son impuestas por la naturaleza: tiempo, edad, sexo, etc. Se dice que la segunda variable depende o explica. Se identifica por la letra Y. Su valor evoluciona de acuerdo con los cambios en la variable independiente.

La correlación lineal o la correlación de Pearson, por lo tanto, tiene como objetivo establecer una medida de la asociación lineal, o la fuerza de un vínculo entre dos variables x e y (en un diagrama, x se coloca en abscisa e y en orden). Esta medida se llama coeficiente de correlación, o R en un informe de correlación. R es un valor sin unidad entre -1 y 1.

Una correlación lineal es positiva cuando las dos variables X e Y aumentan en el concierto. Por ejemplo, puede intentar estimar una correlación lineal entre la edad de un grupo de personas (una muestra) y sus ingresos. Si r = 0.99, entonces la correlación lineal entre estas dos variables es positiva y fuerte. Claramente, cuantos más ancianos estén estas personas, más se benefician de la alta remuneración. Si R = 0.01, la resistencia de la correlación es baja, pero siempre positiva. Si r = -1, la correlación es negativa en este caso, los valores de una variable aumentan cuando disminuyen los de la otra variable. Aquí, eso significaría que nuestra relación entre la edad y la riqueza es infundada. Es inexistente cuando r = 0.

La regresión lineal, ampliamente utilizada en la ciencia de datos, también busca establecer una relación lineal entre las variables x e y en función de la correlación entre estas dos variables. Es una técnica destinada a predecir valores futuros, utilizando el siguiente modelo:

Aquí, es la respuesta (lo que queremos predecir, por ejemplo, la rotación), mientras que los XIS son los predictores (por ejemplo, sexo, con 0 = hombre, 1 = mujer, el nivel de educación, edad, etc.)

Artículos Relacionados:

Más posts relacionados:

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *