Aprende a calcular la regresión y la correlación con estos sencillos pasos

Una correlación o análisis de regresión lineal simple puede determinar si dos variables numéricas están significativamente relacionadas linealmente. Un análisis de correlación proporciona información sobre la fuerza y la dirección de la relación lineal entre dos variables, mientras que un análisis de regresión lineal simple estima los parámetros en una ecuación lineal que puede usarse para predecir valores de una variable basada en la otra.

El coeficiente de correlación de Pearson, R, puede tomar valores entre -1 y 1. Cuanto más lejos R es de cero, más fuerte es la relación lineal entre las dos variables. El signo de R corresponde a la dirección de la relación. Si R es positivo, entonces a medida que aumenta una variable, la otra tiende a aumentar. Si R es negativo, entonces a medida que aumenta una variable, la otra tiende a disminuir. Una relación lineal perfecta (r = -1 o r = 1) significa que una de las variables puede explicarse perfectamente por una función lineal de la otra.

Un análisis de regresión lineal produce estimaciones para la pendiente e intercepción de la ecuación lineal que predice una variable de resultado, y, basada en valores de una variable predictor, X. Una forma general de esta ecuación se muestra a continuación:

La intersección, B0, es el valor predicho de y cuando x = 0. La pendiente, B1, es el cambio promedio en Y para cada unidad de aumento en X. Más allá de darle la fuerza y dirección de la relación lineal entre X e Y, la estimación de la pendiente permite una interpretación de cómo Y cambia cuando X aumenta. Esta ecuación también se puede usar para predecir los valores de Y para un valor de X.

Las pruebas inferenciales se pueden ejecutar tanto en las estimaciones de correlación como en la pendiente calculadas a partir de una muestra aleatoria de una población. Ambos análisis son pruebas t ejecutadas en la hipótesis nula de que las dos variables no están relacionadas linealmente. Si se ejecuta en los mismos datos, una prueba de correlación y una prueba de pendiente proporcionan la misma estadística de prueba y valor p.

¿Qué es la correlación simple?

El análisis de regresión y correlación son técnicas estadísticas que se utilizan ampliamente en la geografía física para examinar las relaciones causales entre las variables. La regresión y la correlación miden el grado de relación entre dos o más variables de dos formas diferentes pero relacionadas.

Coordenada rectangular
Dos variables cuantitativas
Una variable se llama independiente (x) y la segunda se llama dependiente (y)
No se unen puntos
Sin tabla de frecuencia

En el análisis de correlación, los estadísticos estiman un coeficiente de correlación de muestra, más específicamente el coeficiente de correlación del momento del producto Pearson. El coeficiente de correlación es el estadístico que muestra el grado de relación entre dos variables. El coeficiente de correlación simple, denotó R, varía entre -1 y +1 y cuantifica la dirección y la resistencia de la asociación lineal entre las dos variables. También se llama correlación de Pearson o coeficiente de correlación de momento del producto. Mide la naturaleza y la fuerza entre dos variables del tipo cuantitativo.

En la gráfica de dispersión, el patrón de datos es indicativo del tipo de relación entre dos variables. Puede ser

Coordenada rectangular
Dos variables cuantitativas
Una variable se llama independiente (x) y la segunda se llama dependiente (y)
No se unen puntos
Sin tabla de frecuencia

Relación positiva

Relación negativa

Sin relación

El signo del coeficiente de correlación indica la dirección de la asociación. La magnitud del coeficiente de correlación indica la resistencia de la asociación.

Además, las formas paramétricas de análisis de regresión realizan que para cualquier valor dado de la variable independiente, los valores de la variable dependiente normalmente se distribuyen sobre alguna media. La aplicación de este procedimiento estadístico a variables dependientes e independientes produce una ecuación que «mejor» se aproxima a la relación funcional entre las observaciones de datos.

¿Qué es correlación simple y multiple?

Sustituya la medida de una propiedad con otra medición
más fácil de lograr
anticipar un resultado final midiendo una propiedad de un
materia prima
identificar un mecanismo destacando
comportamientos paralelos
…
Si el sistema observado está regulado, la correlación se traducirá
La acción del regulador en lugar del supuesto fenómeno físico. Por
Ejemplo de la observación de la correlación entre el flujo de un fluido
Calentamiento ajustado por un regulador en la temperatura del fluido
calentado aparecerá que la temperatura es mayor
Cuando el flujo del fluido de calentamiento es bajo.
Las variables correlacionadas pueden ser sous
La influencia de un tercio no medido o no tiene en cuenta. Esto es
así como las variables medidas simultáneamente pueden mostrar un
relación cuando ambos dependen del tiempo

A diferencia de la correlación, que es totalmente
simétrico, para las necesidades de regresión, debemos definir un
variable «para explicar» llamada «dependiente» de una variable «explicativa»
llamado «independiente», según un modelo subyacente de la siguiente forma:

Sustituya la medida de una propiedad con otra medición
más fácil de lograr
anticipar un resultado final midiendo una propiedad de un
materia prima
identificar un mecanismo destacando
comportamientos paralelos
…
Si el sistema observado está regulado, la correlación se traducirá
La acción del regulador en lugar del supuesto fenómeno físico. Por
Ejemplo de la observación de la correlación entre el flujo de un fluido
Calentamiento ajustado por un regulador en la temperatura del fluido
calentado aparecerá que la temperatura es mayor
Cuando el flujo del fluido de calentamiento es bajo.
Las variables correlacionadas pueden ser sous
La influencia de un tercio no medido o no tiene en cuenta. Esto es
así como las variables medidas simultáneamente pueden mostrar un
relación cuando ambos dependen del tiempo

Yi es el ésimo
observación de la variable a explicarse,

Xi es el ésimo
observación de la variable explicativa,

Es el residuo entre la derecha
(estimado) y el valor realmente observado (yi).

La ecuación de un derecho utiliza dos parámetros. Ellos son
Determinado según las coordenadas de dos puntos en un gráfico.
Del mismo modo, la ecuación de una línea de regresión simple requerirá un
mínimo de dos puntos experimentales que representan dos puntos
sistema operativo.
Si solo se usan dos puntos, la línea de regresión pasará
necesariamente por estos dos puntos. Un mayor número de puntos
Por supuesto, el experimental es altamente deseable. Debido a los peligros de
incertidumbres de medición El derecho de regresión sin duda podrá ser capaz de
no pasar por todos los puntos, pero sin embargo pasará tan cerca como
posible. Es el derecho de los cuadrados más pequeños (desviaciones).

La regresión lineal múltiple requerirá al menos
Tantos puntos experimentales que hay parámetros para determinar
en la ecuación dirigida. Un mayor número de puntos experimentales es
Siempre altamente deseable.

¿Qué es la regresión y correlación simple?

La diferencia entre la correlación y la regresión es una de las preguntas más frecuentes en las entrevistas. Además, muchas personas sufren de ambigüedad en la comprensión de estos dos. Entonces, tome una lectura completa de este artículo para tener una comprensión clara de estos dos.

El término correlación es una combinación de dos palabras «Co» (juntos) y relación (conexión) entre dos cantidades. La correlación es cuando, en el momento del estudio de dos variables, se observa que una variación de unidades en una variable es rítmica por una variación equivalente en otra variable, es decir, directa o indirecta. O se dice que las variables no están relacionadas cuando el movimiento en una variable no corresponde a ningún movimiento en otra variable en una dirección específica. Es una técnica estadística que representa la fuerza de la conexión entre parejas de variables.

La correlación puede ser positiva o negativa. Cuando las dos variables se mueven en la misma dirección, es decir, un aumento en una variable dará como resultado el aumento correspondiente en otra variable y viceversa, las variables se considerarán positivamente relacionadas. Por ejemplo: ganancias y inversiones.

Por el contrario, cuando las dos variables se mueven en diferentes direcciones, de modo que un aumento en una variable determinará una disminución en otra variable y viceversa, esta situación se conoce como una correlación negativa. Por ejemplo: precio y demanda de un producto.

¿Cómo se complementan los análisis de correlación y regresión?

Este módulo cubre métodos estadísticos comunes utilizados en aplicaciones radiológicas para medir las relaciones entre variables. Bajo el tema de la correlación, describimos los coeficientes de correlación de Pearson y Spearman y la correlación parcial, todos los cuales son adecuados para evaluar la asociación entre dos variables continuas. En la sección de regresión cubrimos modelos de regresión lineal y logística. Los modelos de regresión se utilizan para estudiar la asociación entre una variable de resultado y una o más variables predictoras que pueden ser continuas o dicotómicas. Para los modelos de regresión lineal, la variable de resultado es continua, mientras que para los modelos de regresión logística es dicotómica. También describimos brevemente métodos para la selección del modelo y la determinación del tamaño de la muestra.

En un estudio hipotético que evalúa el uso de la resonancia magnética para la evaluación de la viabilidad miocárdica, los investigadores estaban interesados en caracterizar la naturaleza de la relación entre el volumen del infarto miocárdico y la fracción de eyección. Su objetivo era responder preguntas como: ¿Existe alguna relación entre el volumen de infarto y la fracción de eyección? ¿Cuál es la fuerza de esta relación? ¿La fracción de expulsión aumenta o disminuye al aumentar el volumen de infartos miocárdicos? ¿Por cuánto esperaríamos que cambie la fracción de expulsión cuando el volumen del infarto miocárdico aumente en 1 ml? ¿Podemos predecir la fracción de eyección de un paciente cuando se le da su volumen de infarto de miocardio? ¿Qué tan precisa es esta predicción?

Preguntas como estas surgen en situaciones en las que se ha medido más de una variable en cada paciente (u unidad de observación) en una muestra, y la relación entre las diferentes variables es de interés. Este módulo cubre algunas de las herramientas estadísticas más utilizadas para responder tales preguntas: coeficientes de correlación y modelos de regresión. Cubriremos métodos para estudiar la relación entre dos variables que pueden ser continuas, ambas dicotómicas (es decir, tener solo dos valores) o una mezcla (una dicotómica y la otra continua). También cubriremos situaciones en las que deseamos estudiar la relación entre más de dos variables.

Para ilustrar los métodos en este tutorial, hemos utilizado ejemplos hipotéticos que se inspiran en estudios que aparecen en revistas de investigación de radiología. Algunos de los conceptos cubiertos en este tutorial asumen el conocimiento de artículos anteriores en esta serie, a los que se alienta al lector a referirse [1-4].

En las Figuras 1A, y 1B tenemos dos diagramas de dispersión entre la fracción de eyección y el volumen de infartos miocárdicos. A primera vista, parece que la relación entre las dos variables es más fuerte en la Figura 1A que en la Figura 1b. De hecho, las dos cifras se basan en los mismos datos de un estudio hipotético de 30 pacientes. Alterar la escala del eje de fracción de eyección hace que la relación observada en la Figura 1b parezca menos fuerte que en la Figura 1A. El propósito de esta figura es ilustrar que un diagrama de dispersión por sí solo no es suficiente para llegar a conclusiones sobre la fuerza de la relación entre dos variables. La trama debe ir acompañada de una medida objetiva.

¿Cuándo se utilizan la regresión y correlación lineal?

¿Cuál es la diferencia entre la correlación entre $ x $ y $ y $ y una regresión lineal que predice $ y $ de $ x $?

El coeficiente de regresión estandarizado es el mismo que el coeficiente de correlación de Pearson
El cuadrado del coeficiente de correlación de Pearson es el mismo que el $ r^2 $ en regresión lineal simple
Ni la regresión lineal simple ni la correlación responden directamente preguntas de causalidad. Este punto es importante, porque he conocido a personas que piensan que la regresión simple puede permitir mágicamente una inferencia de que $ x $ causa $ y $.
La ecuación de regresión (es decir, $ a + bx $) se puede usar para hacer predicciones en $ y $ basadas en valores de $ x $
Si bien la correlación generalmente se refiere a la relación lineal, puede referirse a otras formas de dependencia, como relaciones polinomiales o verdaderamente no lineales
Si bien la correlación generalmente se refiere al coeficiente de correlación de Pearson, hay otros tipos de correlación, como la de Spearman.

La correlación y la regresión lineal no son las mismas. Considere estas diferencias:

El coeficiente de regresión estandarizado es el mismo que el coeficiente de correlación de Pearson
El cuadrado del coeficiente de correlación de Pearson es el mismo que el $ r^2 $ en regresión lineal simple
Ni la regresión lineal simple ni la correlación responden directamente preguntas de causalidad. Este punto es importante, porque he conocido a personas que piensan que la regresión simple puede permitir mágicamente una inferencia de que $ x $ causa $ y $.
La ecuación de regresión (es decir, $ a + bx $) se puede usar para hacer predicciones en $ y $ basadas en valores de $ x $
Si bien la correlación generalmente se refiere a la relación lineal, puede referirse a otras formas de dependencia, como relaciones polinomiales o verdaderamente no lineales
Si bien la correlación generalmente se refiere al coeficiente de correlación de Pearson, hay otros tipos de correlación, como la de Spearman.

La correlación cuantifica el grado en que se relacionan dos variables. La correlación no se ajusta a una línea a través de los datos.

Con la correlación no tiene que pensar en la causa y el efecto. Simplemente cuantifica qué tan bien dos variables se relacionan entre sí. Con la regresión, debe pensar en la causa y el efecto, ya que la línea de regresión se determina como la mejor manera de predecir y desde X.

Con la correlación, no importa cuál de las dos variables llame «X» y cuáles llaman «Y». Obtendrá el mismo coeficiente de correlación si intercambia los dos. Con una regresión lineal, la decisión de qué variable llamas «X» y cuáles llamas «Y» es muy importante, ya que obtendrás una línea de mejor ajuste diferente si intercambias los dos. La línea que mejor predice y de x no es la misma que la línea que predice x de y (a menos que tenga datos perfectos sin dispersión).

La correlación casi siempre se usa cuando mide ambas variables. Raramente es apropiado cuando una variable es algo que manipulas experimentalmente. Con la regresión lineal, la variable X suele ser algo que manipulas experimentalmente (tiempo, concentración…) y la variable y es algo que mides.

En el caso predictor único de regresión lineal, la pendiente estandarizada tiene el mismo valor que el coeficiente de correlación. La ventaja de la regresión lineal es que la relación se puede describir de tal manera que puede predecir (en función de la relación entre las dos variables) la puntuación en la variable predicha dado cualquier valor particular de la variable predictor. En particular, una información que una regresión lineal le brinda que una correlación no es la intercepción, el valor en la variable predicha cuando el predictor es 0.

¿Qué es regresión y correlación para datos agrupados?

La correlación es una de las estadísticas más comunes. Usando un solo valor, describe el «grado de relación» entre dos variables. La correlación varía de -1 a +1. Los valores negativos de correlación indican que a medida que una variable aumenta la otra variable disminuye. Los valores positivos de correlación indican que a medida que una variable aumenta la otra variable también aumenta. Hay tres opciones para calcular la correlación en R, y presentaremos dos de ellas a continuación.

El tipo de correlación más utilizado es la correlación de Pearson, que lleva el nombre de Karl Pearson, introdujo esta estadística a principios del siglo XX. La R de Pearson mide la relación lineal entre dos variables, digamos X e Y. Una correlación de 1 indica que los puntos de datos se encuentran perfectamente en una línea para la cual Y aumenta a medida que X aumenta. Un valor de -1 también implica que los puntos de datos se encuentran en una línea; Sin embargo, y disminuye a medida que X aumenta. La fórmula para R es

(De la misma manera que distinguimos entre ȳ y µ, de manera similar, distinguimos r de ρ)

Las dos variables se distribuyen normalmente. Podemos probar esta suposición usando
Una prueba estadística (Shapiro-Wilk)
Un histograma
Una trama QQ
La relación entre las dos variables es lineal. Si se encuentra que esta relación es curva, etc. Necesitamos usar otra prueba de correlación. Podemos probar esta suposición examinando el diagrama de dispersión entre las dos variables.

Para calcular la correlación de Pearson, podemos usar la función cor (). El método predeterminado para COR () es la correlación de Pearson. Obtener una correlación es generalmente solo la mitad de la historia, y es posible que desee saber si la relación es estadísticamente significativamente diferente de 0.

¿Cuándo se usa regresión lineal simple?

Tuvimos la oportunidad de examinar en los conceptos de publicación anteriores, como los desechos promedio o cuadrados medianos, capaces de describir una sola variable. Estas son estadísticas que cubren gran importancia; Sin embargo, en la práctica diaria, a menudo tiene que investigar las relaciones entre dos o más variables. Por lo tanto, surgen nuevos conceptos clave: análisis de correlación y regresión.

La correlación y el análisis de la regresión son herramientas muy utilizadas durante el análisis de nuestros conjuntos de datos. Implican la estimación de la relación entre una variable de empleado y una o más variables independientes.

Podemos considerar la regresión como un método adecuado para buscar una relación matemática que exprese un vínculo entre un carácter y (la respuesta variable o variable) y un carácter X (variable independiente o variable predictiva).

El primer paso útil para investigar cualitativamente cualquier dependencia entre dos variables x e y siempre consiste en dibujar un diseñador gráfico, llamado diagrama de dispersión (shatterplot).

Ponemos los datos relacionados con una de las dos variables en la abscisa, para aquellos relacionados con la otra variable y representan las observaciones individuales con puntos. De hecho, recuerde que los gráficos de dispersión comparan dos variables.

Si hay una relación simple entre las dos variables, ¡el diagrama debería mostrarla!

Utilizamos valores de ejemplo y dejamos la tarea de dibujar nuestro diagrama de dispersión en el video.

¿Cómo hacer una regresión lineal simple?

Aquí la variable dependiente (y) es cuantitativa. Las variables independientes pueden ser cualitativas (factores) o cuantitativas (covariat)

La pregunta en nuestro ejemplo: ¿Hay variables que explican el DMO lumbar?

En el análisis univariado, en regresión lineal simple, colocamos una sola variable en relación con el DMO en el análisis multivariado, traemos al modelo todas las variables que pueden explicar el DMO; Con la regla básica: 1 variable explicativa para 10 pacientes incluidas (x: cohorte de 300 pacientes; uno puede incluir hasta 30 variables en el modelo). La elección de las variables dependerá de sus resultados de análisis univariados, literatura y su hipótesis básica.

3. Luego hacemos clic en modelos coeficientes y seleccionamos para tener un intervalo de confianza

Model Builer, le permite clasificar las variables por bloque, para permitir incluso la importancia de cada bloque de separación. Por ejemplo, podemos agrupar parámetros demográficos en un bloque, parámetros de estilo de vida en un segundo, tratamientos en un tercero…

Los niveles de referencia le permiten cambiar la modalidad de referencia para variables cualitativas, a nivel de esta sección. Por ejemplo, para el nivel de educación, puede comparar su muestra tomando como referencia el nivel analfabeto o el nivel universitario. Solo tiene que elegir el modelo que le interese en esta sección.

¿Qué es regresión lineal simple y correlación método de mínimos cuadrados?

La implementación de una regresión (lat. Si la variable dependiente solo se describe mediante una variable independiente, se habla de regresión lineal simple, se describe mediante varias variables independientes, es una regresión lineal múltiple. Algunas preguntas de muestra de la regresión podrían ser las siguientes:

El jefe de una gran compañía de muebles quiere saber cuánto dinero debe invertir en publicidad para su empresa y si se refleja en las cifras de ventas
En Berlín, en nombre del jefe de policía, debe examinarse si una mayor presencia de la policía reduce la tasa de criminalidad
El director de una escuela privada está interesado en si y en qué medida el número de registros para la primera clase disminuiría si exige 1000 euros más tarifas anuales
Un enólogo desea verificar en qué medida el clima tiene un impacto en la calidad del vino obtenido
Una cadena de supermercados quiere averiguar cuánto gasta un ingreso promedio por mes para alimentos
Los organizadores de un festival de música anual deben predecir si el número de asistentes al festival permanecerá al menos constante durante los próximos diez años para que la inversión en una nueva etapa y sistema de iluminación valga la pena

La precisión del pronóstico en una regresión depende de la correlación o la fuerza de la conexión lineal entre las variables independientes y dependientes. Cuanto mayor sea la correlación, más preciso será el pronóstico. Puede visualizar la conexión mostrando los datos en un diagrama de dispersión (inglés: «shatterplot»), como se muestra en la Figura 1. El caso ideal de una conexión lineal perfecta, en la que se puede predecir con precisión el valor de la variable dependiente y usando el valor de la variable independiente X, no ocurre en realidad. Los puntos de datos forman principalmente nubes, de las cuales se puede leer una conexión positiva o negativa, pero no es posible hacer una declaración precisa puramente visualmente.

¿Qué es regresión lineal simple y correlación?

En esta publicación vemos la diferencia entre correlación y regresión en términos «conceptuales» más que «matemáticas».

Una de las preguntas, de hecho, que a menudo le pregunto a aquellos que no están familiarizados con las estadísticas es la diferencia entre los conceptos de correlación y regresión. A decir verdad, también vi muchas estadísticas que luchaban por distinguir las dos técnicas correctamente.

La correlación es una sola estadística, un indicador calculable de diferentes maneras y que puede tener valores entre -1 y 1. El coeficiente de correlación más utilizado, para el registro, es el coeficiente de correlación de Pearson; Hay otros de coeficientes de correlación, pero este no es el momento de profundizar.

La regresión, por otro lado, es un modelo estadístico, una ecuación. En esta ecuación, no se calcula una sola estadística, pero al menos una pareja: una intersección y una pendiente (el coeficiente de regresión), además de todas las suscripciones subyacentes (desechos normalmente distribuidos con medios igual a cero, etc.).

Repetición: la correlación es identificada por un número, la regresión por una ecuación.

Hablemos ahora sobre la diferencia entre las dos técnicas en términos de utilidad.

La diferencia fundamental, de hecho, radica en la información que nos proporcionan estas dos técnicas (y el consiguiente uso que hacemos).

La correlación indica que ve que dos variables están matemáticamente vinculadas, es decir, variar el valor de una variable, el valor de la otra variable también cambia.

¿Cuál es el objetivo del método de mínimos cuadrados?

Este modelo puede tomar varias formas. Estas pueden ser leyes de conservación que las cantidades medidas deben respetar. El método de mínimo cuadrado minimiza el impacto de los errores experimentales al «agregar información» en el proceso de medición.

En el caso más común, el modelo teórico es una familia de funciones f (x; θ) de una o más variables tontas x, indexada por uno o más parámetros θ desconocido. El método de mínimo cuadrado permite seleccionar de estas funciones lo que mejor reproduce datos experimentales. Estamos hablando en este caso de ajuste por el método de mínimo cuadrado. Si los parámetros θ tienen un significado físico, el procedimiento de ajuste también proporciona una estimación indirecta del valor de estos parámetros.

El método consiste en una receta (inicialmente empírica), que es que la función f (x; θ) que describe «los mejores» los datos es lo que minimiza la suma cuadrática de las desviaciones de las medidas a las predicciones de F (x ; θ). Si, por ejemplo, tenemos n mediciones (yi) i = 1,…, n, los parámetros θ «óptimo» en el sentido del método de mínimo cuadrado son aquellos que minimizan la cantidad:

donde el Ri (θ) son los residuos del modelo, es decir, RI (θ) es la diferencia entre la medición yi y la predicción f (xi; θ) dada por el modelo. S (θ) puede considerarse como una medida de la distancia entre los datos experimentales y el modelo teórico que predice estos datos. La prescripción de los cuadrados más pequeños comenta que esta distancia es mínima.