¿Qué es el coeficiente de correlación de Pearson y cómo se calcula?

En estadísticas, el coeficiente de correlación de Pearson (PCC, pronunciado /ˈpɪərsən /): también conocido como R de Pearson, el coeficiente de correlación de productos de productos de Pearson (PPMCC), la correlación bivariada, [1] o coloquialmente simplemente como el coeficiente de correlación [2] [2] [2]] – es una medida de LinealCorrelación entre dos conjuntos de datos. Es la relación entre la covarianza [3] [referencia circular] de dos variables y el producto de sus desviaciones estándar; Por lo tanto, es esencialmente una medición normalizada de la covarianza, de modo que el resultado siempre tiene un valor entre −1 y 1. Al igual que con la covarianza misma, la medida solo puede reflejar una correlación lineal de las variables e ignora muchos otros tipos de relaciones o correlaciones. Como simple ejemplo, uno esperaría que la edad y la altura de una muestra de adolescentes de una escuela secundaria tengan un coeficiente de correlación de Pearson significativamente mayor que 0, pero menos de 1 (como 1 representaría una correlación irrealista).

El coeficiente de correlación de Pearson es la covarianza de las dos variables divididas por el producto de sus desviaciones estándar. La forma de la definición implica un «momento del producto», es decir, la media (el primer momento sobre el origen) del producto de las variables aleatorias ajustadas a la media; De ahí el producto de producto modificador en el nombre.

El coeficiente de correlación de Pearson, cuando se aplica a una población, está comúnmente representado por la letra griega ρ (Rho) y puede denominarse coeficiente de correlación de la población o el coeficiente de correlación de Pearson de la población. Dado un par de variables aleatorias (x, y) { displaystyle (x, y)}, la fórmula para ρ [11] es: [12]

¿Qué nos dice el coeficiente de correlación de Pearson?

Si queremos inspeccionar las correlaciones, tendremos una computadora que las calcule para nosotros. Raramente (probablemente nunca) necesitarás la fórmula real. Sin embargo, en aras de la integridad, una correlación de Pearson entre las variables x e y se calcula por
$$ r_ {xy} = frac { sum_ {i = 1}^n (x_i – overline {x}) (y_i – overline {y})} { sqrt { sum_ {i = 1}^^ n (x_i – overline {x})^2} sqrt { sum_ {i = 1}^n (y_i – overline {y})^2} $$
La fórmula básicamente se reduce a dividir la covarianza mediante el producto de las desviaciones estándar. Dado que un coeficiente es un número dividido por otro número, nuestra fórmula muestra por qué hablamos de un coeficiente de correlación.

Los datos que tenemos disponibles a menudo son, pero no siempre, una pequeña muestra de una población mucho más grande. Si es así,
Podemos encontrar una correlación no cero en nuestra muestra
Incluso si es cero en la población. La siguiente figura ilustra cómo podría suceder esto.

Si ignoramos los colores por un segundo, los 1,000 puntos en este diagrama de dispersión visualizan cierta población. La correlación de la población, dirigida por ρ- es cero entre la prueba 1 y la prueba 2.
Ahora, podríamos dibujar una muestra de n = 20 de esta población para la cual la correlación r = 0.95.
Reversamente, esto significa que una correlación de muestra de 0.95 no prueba con certeza que hay una correlación no cero en toda la población. Sin embargo, encontrar r = 0.95 con n = 20 es extremadamente improbable si ρ = 0. pero precisamente ¿qué tan improbable? ¿Y cómo lo sabemos?

Si ρ -A correlación de la población es cero, entonces la probabilidad de una correlación de muestra dada, su significación estadística, depende del tamaño de la muestra. Por lo tanto, combinamos el tamaño de la muestra y R en un solo número, nuestra estadística de prueba t:
$$ t = r sqrt { frac {(n – 2)} {(1 – r^2)}} $$

Ahora, T en sí no es interesante. Sin embargo, lo necesitamos para encontrar el nivel de significancia para alguna correlación. T sigue una distribución t con ν = n – 2 grados de libertad, pero solo si se cumplen algunas suposiciones.

¿Cómo determinar el coeficiente de correlación de Pearson?

El coeficiente de correlación de Pearson, R, puede tomar un rango de valores de +1 a -1. Un valor de 0 indica que no hay asociación entre las dos variables. Un valor mayor que 0 indica una asociación positiva; Es decir, a medida que aumenta el valor de una variable, también lo hace el valor de la otra variable. Un valor inferior a 0 indica una asociación negativa; Es decir, a medida que aumenta el valor de una variable, el valor de la otra variable disminuye. Esto se muestra en el diagrama a continuación:

Cuanto más fuerte sea la asociación de las dos variables, más cerca del coeficiente de correlación de Pearson, R, será a +1 o -1 dependiendo de si la relación es positiva o negativa, respectivamente. Lograr un valor de +1 o -1 significa que todos sus puntos de datos están incluidos en la línea de mejor ajuste: no hay puntos de datos que muestren ninguna variación lejos de esta línea. Los valores para R entre +1 y -1 (por ejemplo, r = 0.8 o -0.4) indican que hay una variación alrededor de la línea de mejor ajuste. Cuanto más cerca sea el valor de r a 0, mayor será la variación alrededor de la línea de mejor ajuste. Las diferentes relaciones y sus coeficientes de correlación se muestran en el diagrama a continuación:

Recuerde que estos valores son pautas y si una asociación es fuerte o no también dependerá de lo que esté midiendo.

No, las dos variables deben medirse en una escala de intervalo o relación. Sin embargo, ambas variables no necesitan medirse en la misma escala (por ejemplo, una variable puede ser una relación y otra puede ser intervalo). Puede encontrar más información sobre los tipos de variables en nuestros tipos de guía variable. Si tiene datos ordinales, querrá utilizar la correlación de orden de rango de Spearman o una correlación TAU de Kendall en lugar de la correlación de Productment-Moment de Pearson.

¿Qué pasa si el coeficiente de correlación es mayor a 1?

Veo que la covarianza es similar al producto de las desviaciones estándar, pero no puedo entender cómo. Mi problema es que no entiendo cómo nos dice esta fórmula cuán fuerte es la conexión entre 2 variables.

Ok, voy a suponer que reconoces la fórmula de una covarianza, pero ese dicho «desigualdad de Cauchy-Schwartz» no será útil. Asi que
$$ mathrm {cov} [x, y] = frac {1} {n-1} sum_ {i = 1}^n (x_i- bar x) (y_i- bar y). $$

Lo más similar que $ x $ y $ y $ podrían ser que fueran idénticos: $ y_i = x_i $. En ese caso, la covarianza es

Ok, ¿es importante el escalar una de las variables? No: si duplica $ y $, termina con un 2 en el numerador y $ 2^2 = 4 $ dentro de la raíz cuadrada para $ mathrm {var} [y] $; La correlación sigue siendo 1.

Por lo tanto, no hay forma de que la correlación sea mayor que 1, y es igual a 1 cuando las dos variables son idénticas o cuando uno es un múltiplo positivo del otro, o (más en general) cuando uno es un múltiplo positivo del Otro más una diferencia constante: es decir, una relación en línea recta.

Lo más opuesto a que $ x $ y $ y $ podría ser que $ y = -x $: cuando $ x $ sube, $ y $ cae por la misma cantidad. El mismo tipo de cálculos muestran que la correlación es entonces $ -1 $; También es $ -1 $ cuando uno es un múltiplo negativo del otro más una diferencia constante, es decir, una relación de línea recta

Cualquier cosa que haga para ganar $ (x_i- bar x) (y_i- bar y) $ más grande también hará al menos uno de $ (x_i- bar x)^2 $ y $ (y_i- bar y)^ 2 $ más grande. Puede hacer que el numerador de la correlación sea tan grande como desee, pero el denominador también será grande y el máximo seguirá siendo $ 1 $.

¿Qué significa un valor de 1 en el coeficiente de correlación?

Exactamente –1. Una relación lineal descendente (negativa) perfecta

–0.70. Una fuerte relación lineal cuesta abajo (negativa)

–0.30. Una relación lineal descendente (negativa) débil

+0.30. Una relación lineal cuesta arriba (positiva) débil

+0.70. Una relación lineal cuesta arriba (positiva)

Exactamente +1. Una relación lineal cuesta arriba (positiva) perfecta

Si el diagrama de dispersión no muestra que hay al menos una relación lineal, la correlación no significa mucho. ¿Por qué medir la cantidad de relación lineal si no hay gran parte de una?

Sin embargo, puede pensar en esta idea de ninguna relación lineal de dos maneras: 1) Si no existe una relación en absoluto, calcular la correlación no tiene sentido porque la correlación solo se aplica a las relaciones lineales, y 2) si existe una relación fuerte pero No es lineal, la correlación puede ser engañosa, porque en algunos casos existe una relación curva fuerte. Por eso es fundamental ver primero el plan de dispersión.

La figura anterior muestra ejemplos de cómo se ven varias correlaciones, en términos de la fuerza y la dirección de la relación. La figura (a) muestra una correlación de casi +1, la figura (b) muestra una correlación de –0.50, la figura (c) muestra una correlación de +0.85 y la figura (d) muestra una correlación de +0.15.

Comparar las figuras (a) y (c), verá la figura (a) es casi una línea recta cuesta arriba perfecta, y la figura (c) muestra un patrón lineal cuesta arriba muy fuerte (pero no tan fuerte como la figura (a)). La figura (b) está bajando cuesta abajo, pero los puntos están algo dispersos en una banda más amplia, que muestra una relación lineal, pero no tan fuerte como en las figuras (a) y (c). La figura (d) no muestra mucho de nada que suceda (y no debería, ya que su correlación está muy cerca de 0).

¿Qué significa una correlación alta?

Todos sabemos que la correlación no implica causalidad, pero ¿el alto coeficiente de correlación significa algo? La razón por la que le pregunto esto es que si uno parece lo suficientemente fuerte, se puede encontrar todo tipo de correlación entre cualquier conjunto de datos en el mercado de valores («tortura los datos hasta que confiesa»), por lo que ahora creo que el coeficiente de correlación de alta correlación no significa cualquier cosa en absoluto.

Excepto por la situación en la que podemos rastrear la causalidad entre dos asuntos, ¿hay alguna otra situación por la cual el coeficiente de alto correlación significa algo?

Tome un ejemplo específico, si veo que el stock A y el stock B tienen un coeficiente de correlación perfecto (después de una extensa minería de datos) y no puedo averiguar la razón por la cual, o ninguna causa entre ellos, y cuando el stock A aumenta, debería ¿Concluir (con un alto porcentaje de nivel de confianza) que las acciones B también aumentarán? En lo que respecta a las acciones B, ¿qué inferencia puedo extraer del aumento o la caída de las acciones por precio?

La correlación entre dos variables significa que las dos variables están correlacionadas: una tiende a ser mayor cuando la otra es más alta y menor cuando la otra es más baja. La correlación puede deberse a alguna tercera variable, o puede no. Puede deberse a un caso atípico, o puede no, etc.

La correlación de la serie temporal (como sus dos acciones) a menudo se debe a una tercera variable: tiempo. Los precios de las acciones tienden a sincronizar entre sí.

Y, si «ampliamente datos mía», incluso el ruido aleatorio producirá algunas correlaciones muy fuertes. Si observa, digamos, las correlaciones de 1000 acciones entre sí, entonces tiene correlaciones 1000*999/500. Puede ver cuántos estarían (digamos) por encima de .9, incluso si todos los precios fueran completamente del conocimiento de las propiedades del coeficiente de correlación (error estándar) o de la simulación.

¿Qué es el coeficiente de correlación de Pearson y cómo se calcula?

¿Qué nos dice el coeficiente de correlación de Pearson?

¿Cómo determinar el coeficiente de correlación de Pearson?

¿Qué pasa si el coeficiente de correlación es mayor a 1?

¿Qué significa un valor de 1 en el coeficiente de correlación?

¿Qué significa una correlación alta?

Más posts relacionados:

Correlación lineal múltiple: cómo determinar si existe una relación entre variables

Cómo crear un diagrama de correlación en Microsoft Excel

Deja una respuesta Cancelar la respuesta