El coeficiente de correlación se puede calcular de diferentes maneras, pero esta lección se centrará en la fórmula de correlación de Pearson en la Figura 1.
Figura 1: la fórmula para calcular el coeficiente de correlación.
Como puede ver, esta fórmula tiene dos pasos para calcular el valor de Pearson. Primero, calcula algo llamado la suma de productos (o SP). Luego, usa el valor SP para calcular el coeficiente (o R). La fórmula puede parecer complicada, pero puede ayudar a dividirla en variables separadas:
Antes de trabajar en un problema de práctica, es importante comprender cómo interpretar el coeficiente de correlación.
El valor de Pearson será entre -1 y +1. Un valor positivo representa una correlación positiva o una relación en la que dos variables se mueven en la misma dirección. Por ejemplo, los puntajes de las pruebas estandarizadas (por ejemplo, el SAT) tienden a correlacionarse positivamente con el GPA universitario. En otras palabras, los estudiantes que anotan en el SAT también tienden a tener un GPA universitario más alto.
Un coeficiente de correlación negativo representa una correlación negativa. Una correlación negativa es cuando dos variables relacionadas se mueven en direcciones opuestas. En otras palabras, se produce una correlación negativa cuando las puntuaciones altas en una escala están acompañadas de puntajes bajos en otra escala. Por ejemplo, un investigador encuentra que los estudiantes que escuchan más música a todo volumen en casa a menudo obtienen puntajes más bajos en las tareas.
Cuanto más cerca sea el coeficiente de correlación a +1 o -1, más fuerte es la correlación. Inversamente, cuanto más cerca sea el valor de 0, más débil es la correlación. Consulte los siguientes coeficientes de correlación para ver ejemplos:
Ahora que sabe cómo interpretar el coeficiente de correlación, es hora de trabajar a través de un ejemplo utilizando las fórmulas antes mencionadas.
¿Cómo calcular el coeficiente de correlación Pearson?
En esta sección, le mostraré cómo calcular el coeficiente de correlación de Pearson en Excel, que es sencillo.
En Excel, haga clic en una celda vacía donde desea que se ingrese el coeficiente de correlación. Luego ingrese la siguiente fórmula.
= Pearson (Array1, Array2)
Simplemente reemplace ‘Array1‘ con el rango de celdas que contienen la primera variable y reemplace ‘Array2‘ con el rango de celdas que contienen la segunda variable.
Para el ejemplo anterior, el coeficiente de correlación de Pearson (R) es ‘0.76‘.
El siguiente paso es convertir el valor del coeficiente de correlación de Pearson a una estadística T. Para hacer esto, se requieren dos componentes: R y el número de pares en la prueba (N).
Para determinar el número de pares, simplemente cuente manualmente o use la función de conteo (= recuento). Cada par debe ser un par, así que elimine las entradas que no sean un par.
La ecuación utilizada para convertir R a la estadística T se puede encontrar a continuación.
La fórmula para hacer esto en Excel se puede encontrar a continuación.
= (r*sqrt (n-2))/(sqrt (1-r^2))
Simplemente reemplace el ‘r‘ con el valor del coeficiente de correlación y reemplace el ‘n‘ con el número de observaciones en el análisis.
Para el ejemplo en esta guía, la fórmula utilizada en Excel se puede ver a continuación.
Tenga en cuenta que si su valor de coeficiente es negativo, use la siguiente fórmula:
= (ABS (R)*SQRT (N-2))/(SQRT (1-Abs (R)^2))
La adición de la función ABS convierte el valor del coeficiente en un número absoluto (positivo). De lo contrario, un valor de coeficiente negativo traerá un error.
¿Cuándo se aplica el coeficiente de correlación de Pearson?
La correlación es un método general de análisis útil al estudiar la posible asociación entre dos variables de escala continua u ordinal. Existen varias medidas de correlación. El tipo apropiado para una situación particular depende de la escala de distribución y medición de los datos. Tres medidas de correlación se aplican comúnmente en bioestadística y se discutirán a continuación.
Supongamos que tenemos dos variables de interés, denotadas como X e Y, y supongamos que tenemos una muestra bivariada de tamaño N:
Estas estadísticas anteriores representan la media de muestra para X, la varianza de muestra para X, la media de muestra para Y, la varianza de la muestra para Y y la covarianza de muestra entre X e Y, respectivamente. Estos deberían ser muy familiares para usted.
El coeficiente de correlación de Pearson de muestra (también llamado coeficiente de correlación de productos de productos de muestra) para medir la asociación entre las variables x e y viene dada por la siguiente fórmula:
El coeficiente de correlación de Pearson de muestra, (r_ {p} ), es la estimación puntual del coeficiente de correlación de Pearson de población
( rho_p = dfrac { sigma_ {xy}} { sqrt { sigma_ {xx} sigma_ {yy}}} )
El coeficiente de correlación de Pearson mide el grado de relación lineal entre x e y y (-1 ≤ r_ {p} ≤ +1 ), de modo que (r_ {p} ) es una cantidad «sin unidad», es decir, cuándo, cuándo, cuándo Construye el coeficiente de correlación Las unidades de medición que se usan se cancelan. Un valor de +1 refleja una correlación positiva perfecta y un valor de -1 refleja una correlación negativa perfecta.
¿Qué es la correlación de Pearson ejemplos?
La correlación entre dos variables nos da una idea del grado de asociación o covarianza que existe entre los dos. Por lo tanto, los coeficientes de correlación son una representación numérica de la relación entre dos variables. Pero, ¿cuál es el índice de correlación de Pearson?
Bravais hizo una aproximación de lo que sabemos como una indicación de la correlación de Pearson en 1846. Sin embargo, fue Karl Pearson quien describió por primera vez, en 1896, el método de cálculo estándar y demostró que era el mejor.
Pearson también ofreció algunos comentarios sobre una posible expansión de la idea de Galton. Fue el último quien lo aplicó a los datos antropométricos. Pearson llamó a este enfoque el método de los momentos del producto «(o la función Galton para el coeficiente de correlación R).
El índice de correlación de Pearson se asocia con la regulación de modelos muy comunes en estadísticas, como el análisis de regresión utilizando su cuadrado (coeficiente de determinación) como un indicador de buena adaptación.
El propio Pearson (1896) habló de la necesidad de las variables analizadas para satisfacer ciertas hipótesis, como lo normal. Por otro lado, en Spearman (1904) está subrayado:
“El requisito fundamental es poder medir nuestra correspondencia observada con un símbolo numérico simple. No hay razón para conformarse con la generalidad vaga como «grande», «mediana», «pequeña» o, por otro lado, de tablas y compilaciones complicadas. La primera persona en ver la posibilidad de este inmenso progreso parece haber sido Galton «.
¿Cómo se explica la correlacion de Pearson?
¿Qué tiene que ver con un mapa del estado de Alabama hace 100 millones de años con inteligencia artificial y aprendizaje automático? Varias veces en las publicaciones de este blog me he referido a la correlación como una herramienta clave para la IA. Con esta publicación trato de profundizar un poco la pregunta. Entonces, ¿qué tiene que ver Alabama con eso? Y su configuración geológica en el Cretácico, la era geológica que oscila entre 145 y 66 millones de años, ¿cómo se conecta al aprendizaje automático? Me temo que, por la respuesta, la publicación debe leerse…
Para presentar nuestro tema, aproveche una publicación de Reddit un sitio web de noticias y entretenimiento social, donde los usuarios registrados (llamados ingresos y estimados en más de 500 millones por mes) pueden publicar contenido en forma de publicaciones textuales o enlaces de hipertexto (enlace) Los contenidos de Reddit se organizan en áreas de interés llamadas Sumddit y nuestra publicación se encuentra en un sub -subddit muy evocador llamado Mapporn. Más allá del nombre, el canal se ocupa de mapas de alta calidad y ve varias discusiones sobre la construcción del mapa y sobre su precisión.
Aquí está el mapa propuesto en esta publicación a principios de mayo de 2019:
«El estado de Alabama en el período Cretácico (de 145 a 66 millones de años) en comparación con la forma en que Alabama votó en las elecciones de 2016»
Los dos mapas muestran dos condiciones muy diferentes. A la izquierda, la conformación orográfica del territorio con el lugar indicado en verde donde en el Cretácico estaba el mar. A la derecha, los distritos electorales de Alabama con coloridos en azul, los distritos donde prevalecían los demócratas y los republicanos en rojo. Los dos mapas muestran territorios similares. Sin embargo, una pregunta nos asalta:
¿Pero son comparables los dos mapas? Eso es «¿tienen algo que ver entre sí o es solo una coincidencia?»
¿Cómo calcular la correlación de Pearson?
El intervalo de confianza bilateral a (1 – α) 100 % para ρ es (ρi, ρs), donde el límite inferior, ρi y el límite superior, ρs, se expresan de la siguiente manera:
Para calcular el coeficiente de correlación de Spearman y el valor de P, haga una correlación de Pearson en las filas de los datos. Las filas de respuestas vinculadas son el promedio de las rangos ex aequo. La siguiente tabla muestra los rangos para dos muestras de datos.
El coeficiente de correlación de Spearman entre A y B es -0.678 y el valor de P es 0.139. Estos valores son idénticos al coeficiente y el valor de P con una correlación de Pearson en los valores del rango A y el rango B.
En sus cálculos, Minitab omite las líneas que contienen datos faltantes para una variable o más. Las dos columnas deben tener el mismo número de líneas.
El intervalo de confianza bilateral a (1 – α) 100 % para ρ es (ρl, ρu), donde el límite inferior, ρl y el límite superior, ρU, se expresan de la siguiente manera:
Bonnett y Wright (2000) sugieren configurar el siguiente ajuste para el error típico:
Las hipótesis de una prueba cuya correlación es igual a 0 son las siguientes:
H0: ρ = 0 en función de H1: ρ ≠ 0 donde ρ es el coeficiente de correlación de Pearson, o el de Spearman entre un par de variables.
Las estadísticas de prueba para el coeficiente de correlación de Pearson y el de Spearman tienen la misma fórmula:
El valor de P es 2 x p (t> t), donde t sigue una distribución t con n – 2 grados de libertad.
Artículos Relacionados:
- Coeficiente de correlacion de Pearson: la formula para encontrar la relacion entre dos variables
- ¿Qué es el coeficiente de correlación de Pearson y cómo se calcula?
- Ejemplo de cálculo de la correlación de Pearson
- Interpretación de la correlación de Pearson: cómo determinar si hay una relación entre dos variables
