Correlación y regresión lineal: una guía paso a paso

La regresión lineal simple es una técnica apropiada para comprender la asociación entre una variable independiente (o predictor) y una variable dependiente continua (o resultado). Por ejemplo, supongamos que queremos evaluar la asociación entre el colesterol total (en miligramos por decilitro, mg/dl) e índice de masa corporal (IMC, medida como la relación de peso en kilogramos a altura en metros2) donde el colesterol total es la variable dependiente e IMC es la variable independiente. En el análisis de regresión, la variable dependiente se denota y y la variable independiente se denota X. Entonces, en este caso, y = colesterol total y x = IMC.

Cuando hay una sola variable dependiente continua y una variable independiente única, el análisis se llama análisis de regresión lineal simple. Este análisis supone que existe una asociación lineal entre las dos variables. (Si se plantea una relación diferente, como una relación curvilínea o exponencial, se realizan análisis de regresión alternativos).

La siguiente figura es un diagrama de dispersión que ilustra la relación entre el IMC y el colesterol total. Cada punto representa el par (x, y) observado, en este caso, el IMC y el colesterol total correspondiente medido en cada participante. Tenga en cuenta que la variable independiente (IMC) está en el eje horizontal y la variable dependiente (colesterol sérico total) en el eje vertical.

El gráfico muestra que existe una asociación positiva o directa entre el IMC y el colesterol total; Es más probable que los participantes con un IMC más bajo tengan niveles de colesterol total más bajos y los participantes con IMC más altos tienen más probabilidades de tener niveles de colesterol total más altos. En contraste, supongamos que examinamos la asociación entre el IMC y el colesterol HDL.

En contraste, el siguiente gráfico muestra la relación entre el IMC y el colesterol HDL en la misma muestra de n = 20 participantes.

¿Qué es una correlación lineal?

Cuando hacemos preguntas como «¿Se relaciona X con Y?», «¿X predice y?» Y «¿X representa y», estamos interesados en medir y comprender mejor la relación entre dos variables.

La correlación mide la medida en que las variables:

covary
depender unos de otros
predecir unos a otros

El alcance de la correlación entre dos variables, por convención, se denota R, y la correlación entre la variable X y la variable Y se indica con RXY.

Las correlaciones están estandarizadas para variar entre -1 y +1, con 0 que no representan una relación, -1 una relación negativa perfecta y +1 una relación positiva perfecta.

Hay una variedad de estadísticas correlacionales bivariadas disponibles, cuya elección depende del nivel de medición de las variables:

Las respuestas que varían se pueden medir como una variable (es decir, las respuestas se distribuyen en un rango).

Las respuestas a dos o más variables pueden covary. Estas variables comparten alguna variación. Cuando el valor de una variable es alto, el valor de otra variable tiende a ser alto (correlación positiva) o bajo (correlación negativa).

Si miras a tu alrededor, ¡puedes notar que el mundo está hecho de covarianza! p.ej.,

covary
depender unos de otros
predecir unos a otros

El recuento de polen se correlaciona positivamente con la actividad de las abejas

La lluvia se correlaciona positivamente con la cantidad de vegetación

Horas de estudio se correlacionan positivamente con el rendimiento de la prueba

El número de camiones de bomberos que asisten a un incendio se correlaciona con el costo de reparaciones para el incendio [2]

¿Qué son la correlación lineal y regresión lineal?

Antes de entrar en la construcción de modelos complejos, mirar la relación de datos es un paso sensato para comprender cómo interactúan juntas sus diferentes variables. La correlación analiza las tendencias compartidas entre dos variables, y la regresión analiza la relación entre una variable predictor (variable independiente) y una respuesta (dependiente).

Como se mencionó anteriormente, la correlación mira el movimiento global compartido entre dos variables, por ejemplo, cuando una variable aumenta y la otra también aumenta, se dice que estas dos variables están correlacionadas positivamente. El otro lado, cuando una variable aumenta y la otra disminuye, estas dos variables se correlacionan negativamente. En el caso de No Correlación, no se verá ningún patrón entre las dos variables.

Desde la trama que obtenemos, vemos que cuando trazamos la variable Y con x, los puntos forman algún tipo de línea, cuando el valor de X aumenta el valor de Y de alguna manera proporcionalmente también, también podemos sospechar una correlación positiva entre X y y.

La medida de esta correlación se denomina coeficiente de correlación y puede calcularse de diferentes maneras, la medida más habitual es el coeficiente de Pearson, es la covarianza de las dos variables divididas por el producto de su desviación estándar, se escala entre 1 (( Para una correlación positiva perfecta) a -1 (para una correlación negativa perfecta), 0 sería una aleatoriedad completa. Podemos obtener el coeficiente de correlación de Pearson utilizando la función cor ()::

A partir de estos resultados, nuestra sospecha se confirma x e y tienen una alta correlación positiva, pero como siempre en estadísticas podemos probar si este coeficiente es significativo. Usando supuestos paramétricos (Pearson, dividiendo el coeficiente por su error estándar, dando un valor que sigue una distribución en T) o cuando los datos violan los supuestos paramétricos utilizando el coeficiente de rango de Spearman.

Correlación y regresión lineal: una guía paso a paso

¿Qué es una correlación lineal?

¿Qué son la correlación lineal y regresión lineal?

Más posts relacionados:

Análisis de forma: cómo optimizar tu web para un mejor rendimiento

Los 3 pasos indispensables para analizar e interpretar correctamente tus datos y resultados

Deja una respuesta Cancelar la respuesta