Coeficiente de correlacion de Pearson: la formula para encontrar la relacion entre dos variables

La fórmula del coeficiente de correlación de Pearson es la siguiente,

  • r = coeficiente de Pearson
  • n = número de pares de la acción
  • ∑xy = suma de productos de las acciones emparejadas
  • ∑x = suma de los puntajes X
  • ∑y = suma de los puntajes Y
  • ∑x2 = suma de las puntuaciones de los cuadros x
  • ∑y2 = suma de los puntajes al cuadrado

Los pasos para calcular el coeficiente de correlación de Pearson son los siguientes.

  • r = coeficiente de Pearson
  • n = número de pares de la acción
  • ∑xy = suma de productos de las acciones emparejadas
  • ∑x = suma de los puntajes X
  • ∑y = suma de los puntajes Y
  • ∑x2 = suma de las puntuaciones de los cuadros x
  • ∑y2 = suma de los puntajes al cuadrado
  • Descubra el número de pares de variables, que se denota por n. Supongamos que X consta de 3 variables – 6, 8, 10. Supongamos que Y consiste en las 3 variables correspondientes 12, 10, 20.
  • Enumere las variables en dos columnas.
  • Descubra el producto de X e Y en la tercera columna.
  • Descubra la suma de valores de todas las variables x y todas las variables Y. Escriba los resultados en la parte inferior de la primera y segunda columna. Escriba la suma de x*y en la tercera columna.
  • Encuentre X2 e Y2 en las columnas 4 y quinta y su suma en la parte inferior de las columnas.
  • Usando este método, se puede determinar la dirección de correlación, es decir, si la correlación entre dos variables es negativa o positiva.
  • El coeficiente de correlación de Pearson R no es suficiente para notar la diferencia entre las variables dependientes y las variables independientes, ya que el coeficiente de correlación entre las variables es simétrica. Por ejemplo, si una persona está tratando de conocer la correlación entre el alto estrés y la presión arterial, entonces uno podría encontrar el alto valor de la correlación, lo que muestra que el alto estrés causa la presión arterial. Ahora, si la variable se cambia, entonces el resultado, en ese caso, también será el mismo, lo que demuestra que el estrés es causado por la presión arterial, lo que no tiene sentido. Por lo tanto, el investigador debe ser consciente de los datos que está utilizando para realizar el análisis.
  • Usando este método, uno no puede obtener la información sobre la pendiente de la línea, ya que solo establece si alguna relación entre las dos variables existe o no.
  • Es probable que el coeficiente de correlación de Pearson se malinterprete, especialmente en el caso de datos homogéneos.
  • En comparación con los otros métodos del cálculo, este método lleva mucho tiempo llegar a los resultados.
  • Los valores pueden variar desde el valor +1 hasta el valor -1, donde el +1 indica la relación positiva perfecta entre las variables consideradas, el -1 indica la relación negativa perfecta entre las variables consideradas y un valor 0 indica que ninguna relación existe entre las variables consideradas.
  • Es independiente de la unidad de medición de las variables. Por ejemplo, si la unidad de medición de una variable está en años, mientras que la unidad de medición de la segunda variable está en kilogramos, incluso entonces, el valor de este coeficiente no cambia.
  • El coeficiente de correlación entre las variables es simétrica, lo que significa que el valor del coeficiente de correlación entre Y y X o X e Y seguirá siendo el mismo.
  • El coeficiente de correlación de Pearson es el tipo de coeficiente de correlación que representa la relación entre las dos variables, que se miden en el mismo intervalo o la misma escala de relación. Mide la fuerza de la relación entre las dos variables continuas.

    ¿Cómo calcular el coeficiente de correlación de Pearson?

    Los primeros resultados en XLSTAT son las estadísticas descriptivas de todas las variables (promedio, desviación estándar, etc.). La matriz de correlación seguida de los intervalos Deconfiance (95%) se muestran en las tablas a continuación:
    Los coeficientes de correlación varían entre -1 y 1. Un valor positivo indica una correlación positiva. Un valor negativo refleja una correlación negativa. Un valor cercano a cero refleja la ausencia de una correlación lineal.

    Por ejemplo, la factura y el par de tamaño se caracteriza por una correlación positiva y fuerte (0.924). Por el contrario, podemos concluir que cuanto más los clientes pasen tiempo en el sitio, menos gastan dinero (-0.914).

    Tenga en cuenta que la variable de tamaño fue excluida por salidas ya que su suma del R2 con todas las otras variables es mínima.
    Todos los coeficientes son significativos en el umbral de significado de 0.05 (P <0.05). Esto significa que el riesgo de rechazar la hipótesis nula cuando es verdadera es inferior al 5%. Esto se confirma por la tabla de valores p anteriores (todos los valores p son inferiores a 0.0001). Los coeficientes de determinación corresponden a los coeficientes de correlación al cuadrado. Miden la fuerza de la correlación, ya sean negativas o positivas. Aquí, utilizando la opción "Filtrar las variables", hemos elegido representar solo las 4 variables cuya suma de R2 con otras variables es la más alta. Además, ordenamos las variables con el BEA (algoritmo de energía de enlace). Este método aplica una permutación en las líneas y columnas de una matriz cuadrada para colocar las columnas cuyas líneas tienen valores similares uno al lado del otro. El mapa de correlación anterior se basa en una escala de colores que van desde azul hasta rojo (chaud en frío) para la visualización de correlaciones. El color azul corresponde a una correlación negativa cercana a -1 (ex: tiempo dedicado al sitio de factura VS) y el color rojo corresponde a una correlación positiva cercana a 1 (ex: tamaño vs factura).

    La matriz gráfica anterior muestra un histograma variable (en la diagonal) y una nube de puntos para todos los pares posibles de variables.

    El histograma revela las características de la distribución de una variable. La nube de puntos refleja el signo y la fuerza de una correlación. Para el signo, podemos usar el color de los puntos, así como la pendiente de la regresión correcta. Para la fuerza, es suficiente observar la dispersión de los puntos alrededor de la derecha. Por ejemplo, podemos sugerir que el tamaño tiene una relación lineal muy baja con los otros atributos (última columna de la matriz).

    ¿Cómo se calcula coeficiente de correlación de Pearson?

    El coeficiente de correlación determina la fuerza de
    correlación entre dos variables y
    y se calcula utilizando la fórmula
    = ∑ – ∑ ∑  ∑ – ∑  ∑ – ∑ , 
    donde es el número de valores emparejados de
    y .

    El coeficiente de correlación de Pearson se utiliza para datos bivariados continuos en
    para determinar la resistencia y dirección de la correlación lineal entre el
    Dos conjuntos de datos.

    Si lee más ampliamente sobre el tema del coeficiente de correlación de Pearson,
    Encontrarás otra forma de la fórmula, que es
    = √ , 
    donde ,  y
     se definen como
    =  – ∑  , =  – ∑  , =  –∑ ∑ .

    En el siguiente ejemplo, calcularemos la correlación del momento del producto
    coeficiente cuando estadísticas sumarias, como los valores de la suma de cada uno de los
    , , ,
    , y , así como el valor de
    , se dan.

    Dado que el valor de se encuentra en el intervalo
    [−1,1], la respuesta
    −0.864 es apropiado:
    = −0.864.

    Primero, necesitamos calcular las estadísticas de resumen
    ,  y :
    =  – ∑  = 792− (78) 8 = 31.5, =  – ∑  = 735 – ( – 73) 8 = 68.875, =  –∑ ∑ = −752− (78) ( – 73) 8 = −40.25.

    ¿Cómo se calcula el coeficiente de Pearson en Excel?

    Por ejemplo, la probabilidad de una moneda que aterriza en la cabeza es .5, lo que significa que si voltea la moneda un número infinito de veces, aterrizará en la cabeza la mitad del tiempo.

    Dado que hacer algo es imposible un número infinito de veces, la frecuencia relativa a menudo se usa como una estimación de probabilidad. Si voltea una moneda 1000 veces y obtiene 507 cabezas, la frecuencia relativa, .507, es una buena estimación de la probabilidad.

    La bondad de chi-cuadrado de las pruebas de ajuste a menudo se usa en genética. Una aplicación común es verificar si dos genes están vinculados (es decir, si el surtido es independiente). Cuando los genes están vinculados, el alelo heredado para un gen afecta el alelo heredado para otro gen.

    A partir de esto, puede calcular las frecuencias fenotípicas esperadas para 100 guisantes:

    Dado que hay cuatro grupos (redondos y amarillos, redondos y verdes, arrugados y amarillos, arrugados y verdes), hay tres grados de libertad.

    Para una prueba de importancia en α = .05 y df = 3, el valor crítico χ2 es 7.82.

    El valor de χ2 es mayor que el valor crítico, por lo que rechazamos la hipótesis nula de que la población de descendencia tiene una probabilidad igual de heredar todas las combinaciones genotípicas posibles. Existe una diferencia significativa entre las frecuencias genotípicas observadas y esperadas (p <.05).

    Los datos respaldan la hipótesis alternativa de que la descendencia no tiene la misma probabilidad de heredar todas las combinaciones genotípicas posibles, lo que sugiere que los genes están vinculados

    ¿Qué es el coeficiente de correlación de Pearson y explique su fórmula?

    En estadísticas, el índice de correlación de Pearson (también llamado coeficiente de correlación lineal [1] o coeficiente de correlación de Pearson o coeficiente de correlación de Bravais-Parson) entre dos variables estadísticas es un índice que expresa una posible relación linealidad entre ellos. [1] Según la desigualdad de Cauchy -Schwarz, tiene un valor entre +1 { splawyle +1} y −1, { displayStyle -1,} donde +1 { displayStyle +1} corresponde a la correlación lineal positiva perfecta, 0 { DisplayStyle 0} corresponde a una ausencia de correlación lineal y −1 { DisplayStyle -1} corresponde a la correlación lineal negativa perfecta. Fue desarrollado por Karl Pearson por una idea introducida por Francis Galton en 1880; La fórmula matemática fue derivada y publicada por Augustte Bravais en 1844. [2] [3] [4] El nombre del coeficiente también es un ejemplo de la ley de Stigler.

    Además, para la correlación directa (y de manera similar para lo contrario) se destaca:

    • Si 0 <| ρxy | <0.3 { SPLASTYLE 0 < Left | rho _ {xy} right | <0.3} Tenemos una correlación débil;
    • Si 0.3 <| ρxy | <0.7 { displaysle 0.3 < izquierdo | rho _ {xy} right | <0.7} Hay una correlación moderada;
    • Si | ρxy |> 0.7 { splatyle izquierda | rho _ {xy} right |> 0.7} Hay una fuerte correlación.

    Si las dos variables son independientes, entonces el índice de correlación vale 0. La conclusión opuesta no vale: en otras palabras, la incorporación es una condición necesaria pero no suficiente para la independencia. Por ejemplo dada la distribución

    Tenemos que x { splatyle x} e y { splatyle y} no son independientes, ya que están vinculados por la relación y = x2 { splatyle y = x^{2}}, pero ρxy = 0 { displaystyle rho _ {xy} = 0}.

    ¿Qué es correlación de Pearson ejemplos?

    Ya hemos presentado el principio de regresión lineal. Permite calcular una tendencia entre una variable explicativa x y una variable para explicar Y. Estas variables deben ser variables cuantitativas.

    El análisis de regresión busca establecer una línea que resume la evolución de Y en función de los valores de X. Esta línea maximiza la predicción (lineal) minimiza los residuos. Ya hemos introducido la siguiente figura en el capítulo introductorio a los análisis cuantitativos

    • Estos coeficientes de regresión sintetizan el modelo, es decir, describen matemáticamente el derecho.
    • B representa la pendiente de la derecha
    • A es una constante y representa la brecha en comparación con 0

    Entonces hay 2 coeficientes que miden la relación y el alcance del modelo:

    • Estos coeficientes de regresión sintetizan el modelo, es decir, describen matemáticamente el derecho.
    • B representa la pendiente de la derecha
    • A es una constante y representa la brecha en comparación con 0
  • La correlación de Pearson (R) sintetiza la fuerza de la relación
  • R al cuadrado (R2) representa la varianza explicada
  • Queremos responder a la pregunta: ¿La edad del maestro explica las actividades de exploración fuera de la clase? ¿Es más probable que sean maestros mayores que organizan actividades fuera de la clase?

    • Estos coeficientes de regresión sintetizan el modelo, es decir, describen matemáticamente el derecho.
    • B representa la pendiente de la derecha
    • A es una constante y representa la brecha en comparación con 0
  • La correlación de Pearson (R) sintetiza la fuerza de la relación
  • R al cuadrado (R2) representa la varianza explicada
  • Variable independiente X: Edad del maestro
  • Variable dependiente Y: frecuencia de actividades de exploración organizadas fuera de la clase
  • El resumen del modelo de regresión producido por SPSS se presenta de la siguiente manera. Podemos observar que hay una baja correlación (r = 0.316) y que la relación es significativa (.027)

    Artículos Relacionados:

    Más posts relacionados:

    Deja una respuesta

    Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *