Rangos entre -1 y +1 y cuantifica la dirección y la resistencia de la asociación lineal entre las dos variables. La correlación entre dos variables puede ser positiva (es decir, niveles más altos de una variable están asociadas con niveles más altos del otro) o negativos (es decir, niveles más altos de una variable están asociados con niveles más bajos de la otra).
El signo del coeficiente de correlación indica la dirección de la asociación. La magnitud del coeficiente de correlación indica la resistencia de la asociación.
Por ejemplo, una correlación de r = 0.9 sugiere una asociación fuerte y positiva entre dos variables, mientras que una correlación de r = -0.2 sugiere una asociación débil y negativa. Una correlación cercana a cero no sugiere una asociación lineal entre dos variables continuas.
Es importante tener en cuenta que puede haber una asociación no lineal entre dos variables continuas, pero el cálculo de un coeficiente de correlación no detecta esto. Por lo tanto, siempre es importante evaluar los datos cuidadosamente antes de calcular un coeficiente de correlación. Las pantallas gráficas son particularmente útiles para explorar asociaciones entre variables.
La siguiente figura muestra cuatro escenarios hipotéticos en los que se traza una variable continua a lo largo del eje X y el otro a lo largo del eje y.
- El escenario 1 representa una fuerte asociación positiva (r = 0.9), similar a lo que podríamos ver para la correlación entre el peso al nacer y la longitud del nacimiento infantiles.
¿Cómo se calcula el coeficiente de correlación?
El coeficiente de correlación, observado convencionalmente ρ { displaystyle rho}, permite medir la intensidad y el significado de la relación que existe entre dos series de variables. Siempre es entre -1 (correlación negativa) y +1 (correlación positiva). Si el coeficiente de correlación está cerca de 1, la serie evoluciona en la misma dirección, si está cerca de -1, evolucionan en dirección opuesta. También sucede que no están vinculados y, por lo tanto, completamente independientes entre sí: es cuando el coeficiente es de alrededor de 0. Su cálculo es más o menos fácil, se puede hacer a mano, programando una calculadora o incluso más simple, usando un Calculadora en línea específica.
- Tome el ejemplo de cuatro pares de datos (x, y) que podrían presentarse de la siguiente manera:
- Según el país, la calificación cambia. En Francia, aunque esto no es una generalidad para todos los editores de ejercicios, usamos ρ { displaystyle rho} y σ { displaystyle sigma}, en otro lugar, preferimos escribir r { displaystyle r} y s { displaystyle s }. Hay otras fórmulas para calcular este coeficiente, pero el resultado es afortunadamente idéntico.
- Tomemos nuestro ejemplo. Tiene todos los datos, todo lo que tiene que hacer es hacer la aplicación digital prestando atención y reemplazo y en cálculos:
- El coeficiente de correlación es positivo aquí, puede concluir que existe una correlación positiva entre las dos variables (x e y). Claramente, esto significa que si X aumenta, también aumenta allí.
- El coeficiente de correlación, dijimos, está cerca de +1, puede concluir que las dos variables están muy correlacionadas. Si estuviera haciendo un gráfico, vería que todos los puntos de coordenadas (x, y) casi formarían una línea recta.
- Ir a este sitio. Es cierto que está en inglés, pero es muy fácil de usar. El primer campo horizontal alojará su primera variable (x), la segunda, abajo, la segunda (y). Cada valor se separará del siguiente por una coma (sin espacio), excepto al final. Si recupera nuestro ejemplo, escribirá en el primer campo: 1, 3, 5, 7.
- En este otro sitio, ingresa los valores de la primera variable en el campo izquierdo y los del segundo en el de la derecha. Incluso puede importar sus valores desde un libro de trabajo de Excel. Todo se explica.
- Usando las flechas de navegación, mueva el cursor a la sección XSTAT, presione borrar, luego ingrese. La columna X debe estar vacía.
- Siempre usando las flechas de navegación, mueva el cursor en la sección YSTAT, presione Borrar, luego ingrese. La columna de la recuperación se convierte en virgen.
- Ingrese todos los valores de la primera variable (x).
- Una vez que todos los valores de las entradas x, use las flechas de navegación para llenar la columna de la y, llamada ystat.
- Una vez que todos los datos han ingresado, solo tiene que salir de la función presionando la tecla de salida, la pantalla se vacía, pero sus datos, por supuesto, se mantienen.
- Ingrese la función STAT, luego presione la tecla Calc. En el TI-86, debes hacer 2statatf1.
- Opta por cálculos de regresión lineal. En un «Ti-86», debe presionar la tecla F3, se indica la mención de LINR. Luego aparezca en la pantalla, la mención de Linr _, el cursor está parpadeando.
- Ahora debe ingresar los nombres de las dos variables que se compararán: las llamaremos XSTAT y YSTAT.
- En su TI-86, seleccione la lista de nombres presionando la secuencia 2nDlistf3.
- En la línea en la parte inferior de la pantalla, verá las variables disponibles. Elija XStat presionando F1 o F2, escriba una coma, luego presione Ystat.
- Por lo tanto, si decide estudiar la correlación de que existe, en un grupo de niños menores de 12 años, entre sus edades y sus tamaños, imagina fácilmente que la correlación es muy fuerte. De hecho, en este grupo de edad, casi todos los niños crecen en las mismas proporciones y a la misma velocidad.
- Como ejemplo de correlación negativa, podríamos, por ejemplo, comparar el número de horas dedicadas por un golfista a entrenar y sus resultados (por). Cuanto más entrena, menos necesita hacer un curso de 18 agujeros.
- Finalmente, si compara el tamaño de los zapatos de un grupo de personas y sus posibilidades de ganar un título universitario, existe una gran posibilidad de que la correlación sea casi cero.
- Por acuerdo, el promedio de una variable se escribe con el nombre codificado de la variable superada por una barra (x̅, lectura x bar). A menudo también, el promedio es llamado por la letra griega μ (MU). Como hay al menos dos variables y, por lo tanto, dos promedios, se especifican indicando en el índice la variable: μx { displayStyle mu _ {x}}, a veces μ (x) { splatyle mu (x)}.
- Por convención, la desviación estándar está representada por la pequeña letra griega σ { displayStyle Sigma} (Sigma), a la que agregamos en el nombre de la variable: la desviación estándar de los datos x está escrita σx { displayStyle Sigma _ {X}}.
- Tomemos como ejemplo la serie estadística de valores X: (1.2, 5.6, 9.10). La suma de la X está escrita:
- ∑x = 1+2+5+6+9+10 = 33 { displayStyle sum {x} = 1+2+5+9+10 = 33}
- El coeficiente de correlación a veces se llama «coeficiente de correlación de productos de productos Pearson», fue desarrollado por el matemático británico Karl Pearson.
- Cualquier coeficiente de correlación superior a 0,8 o menos de -0.8 indica una fuerte correlación de las dos series. Por el contrario, cualquier coeficiente inferior a 0.5 o mayor que -0.5 demuestra la baja correlación de la serie comparativa.
- Una fuerte correlación simplemente muestra que dos criterios están estrechamente vinculados, pero no atribuyen a un coeficiente que no le pertenece. Entonces, si se comparó, utilizando una muestra de personas, sus tamaños y sus tamaños, hay una buena posibilidad de que entre los dos criterios una correlación fuerte: las personas altas a menudo tienen grandes pies. Sin embargo, eso no significa que si creces, necesariamente tendrás pies grandes, también no es porque tus pies crezcan que tu tamaño hará lo mismo. Lo ves, un coeficiente de correlación sigue siendo constante y no puede pasar por un factor de causa y efecto.
El equipo de gestión de contenido de Wikihow examina cuidadosamente el trabajo del equipo editorial para garantizar que cada elemento esté de acuerdo con nuestros estándares de alta calidad. Este artículo fue consultado 62,805 veces.
¿Dónde se utiliza el coeficiente de correlación?
El coeficiente de correlación de muestra (R) es una medida de la cercanía de la asociación de los puntos en una gráfica de dispersión a una línea de regresión lineal basada en esos puntos, como en el ejemplo anterior para el ahorro acumulado con el tiempo. Los valores posibles del coeficiente de correlación varían de -1 a +1, con -1 que indican una correlación negativa perfectamente lineal, es decir, inversa, (inclinada hacia abajo) y +1 que indica una correlación positiva perfectamente lineal (inclinando hacia arriba).
Un coeficiente de correlación cercano a 0 sugiere poca, si alguna, correlación. La gráfica de dispersión sugiere que la medición de IQ no cambia con el aumento de la edad, es decir, no hay evidencia de que el coeficiente intelectual esté asociado con la edad.
Las ecuaciones a continuación muestran los cálculos sedes para calcular «R». Sin embargo, no necesita recordar estas ecuaciones. Usaremos R para hacer estos cálculos por nosotros. Sin embargo, las ecuaciones dan una idea de cómo se calcula «R».
donde cov (x, y) es la covarianza, es decir, hasta dónde se observa cada par (x, y) de la media de x y la media de y, simultáneamente, y sx2 y sy2 son las variaciones de muestra para x e y .
No tiene que memorizar ni usar estas ecuaciones para los cálculos manuales. En cambio, usaremos R para calcular los coeficientes de correlación. Por ejemplo, podríamos usar el siguiente comando para calcular el coeficiente de correlación para la edad y el totchol en un subconjunto del estudio de Framingham Heart de la siguiente manera:
La siguiente tabla proporciona algunas pautas sobre cómo describir la fuerza de los coeficientes de correlación, pero estas son solo pautas para la descripción. Además, tenga en cuenta que incluso las correlaciones débiles pueden ser estadísticamente significativas, como aprenderá en breve.
¿Cómo se aplica la correlación?
Además de proporcionar características para manejar datos, la biblioteca PANDAS proporciona herramientas para analizarlo y desarrollar estadísticas diferentes. Entre estas funciones, está el método «.corr ()». Se utiliza para aplicar la fórmula de correlación de Pearson en los datos. Se puede aplicar a un DataFrama en su conjunto, así como a una columna para compararlo con otro.
Por defecto, el método «corr ()» sin parámetro se aplica a los datos completos. Ella devolverá un marco de datos con el que se comparan todas las columnas. Solo los datos digitales se seleccionan para el cálculo de las correlaciones.
Es posible comparar solo dos columnas entre ellas. Esto debe llamarse el método corr () de una de las columnas e indicar como un parámetro la columna con la que queremos calcular la fórmula de correlación.
persona ['edad']. corr (persona ['peso']) -0.360300
También es posible definir otro método para calcular la correlación. Esto debe indicar el parámetro «Método». Este parámetro acepta como un valor «Pearson» (su valor predeterminado), «Kendall» o «Spearman». También podemos indicar una función que hemos escrito usted mismo. Para hacer esto, la función debe aceptar dos tablas en una dimensión en los parámetros y devolver un número flotante.
Además de proporcionar características para manejar datos, la biblioteca PANDAS proporciona herramientas para analizarlo y desarrollar estadísticas diferentes. Entre estas funciones, está el método «.corr ()». Se utiliza para…
Artículos Relacionados:
