¿Qué es la correlación en estadística?

La correlación se utiliza para probar las relaciones entre variables cuantitativas o variables categóricas. En otras palabras, es una medida de cómo están relacionadas las cosas. El estudio de cómo se correlacionan las variables se llama análisis de correlación.

Algunos ejemplos de datos que tienen una alta correlación:

Su ingesta calórica y su peso.
El color de sus ojos y los colores de los ojos de sus parientes.
La cantidad de tiempo su estudio y su promedio de calificaciones.

Algunos ejemplos de datos que tienen una baja correlación (o ninguna):

Su ingesta calórica y su peso.
El color de sus ojos y los colores de los ojos de sus parientes.
La cantidad de tiempo su estudio y su promedio de calificaciones.

Su preferencia sexual y el tipo de cereal que come.

El nombre de un perro y el tipo de galleta de perro que prefieren.

El costo de un lavado de autos y cuánto tiempo lleva comprar un refresco dentro de la estación.

Las correlaciones son útiles porque si puede descubrir qué variables de relación tienen, puede hacer predicciones sobre el comportamiento futuro. Saber lo que posee el futuro es muy importante en las ciencias sociales como el gobierno y la atención médica. Las empresas también utilizan estas estadísticas para presupuestos y planes de negocios.

Un coeficiente de correlación es una forma de poner un valor a la relación. Los coeficientes de correlación tienen un valor de entre -1 y 1. Un «0» significa que no hay relación entre las variables, mientras que -1 o 1 significa que existe una correlación negativa o positiva perfecta (la correlación negativa o positiva aquí se refiere a el tipo de gráfico que producirá la relación). Gráficos que muestran una correlación de -1, 0 y +1

¿Qué es la correlación estadística?

En 2012, el
New England Journal of Medicine
Publicado un artículo que afirma que el consumo de chocolate podría mejorar la función cognitiva. La base de esta conclusión fue que el número de premios Nobel en cada país se correlacionó fuertemente con el consumo per cápita de chocolate en ese país. Cuando leí este documento, me sorprendió que lo hiciera a través de la revisión por pares, porque estaba claro para mí que los autores habían cometido dos errores comunes que veo en la literatura biomédica cuando los investigadores realizan un análisis de correlación.

La correlación describe la fuerza de la relación lineal entre dos fenómenos observados (para mantener las cosas simples, me concentro en la relación lineal más comúnmente utilizada, o la correlación de Pearson, aquí). Por ejemplo, el aumento en el valor de una variable, como el consumo de chocolate, puede ser seguido por el aumento en el valor del otro, como los laureados Nobel. O la correlación puede ser negativa: el aumento en el valor de una variable puede ser seguido por la disminución del valor del otro. Debido a que es posible correlacionar dos variables cuyos valores no se pueden expresar en las mismas unidades, por ejemplo, ingresos per cápita y incidencia de cólera, su relación se mide calculando un número sin unidad, el
coeficiente de correlación. El coeficiente de correlación varía en valor de –1 a +1. Cuanto más cerca sea la magnitud de 1, más fuerte es la relación.

La marcada simplicidad de un coeficiente de correlación oculta la considerable complejidad para interpretar su significado. Un error en el
New England Journal of Medicine
El documento es que los autores cayeron en una falacia ecológica, cuando se alcanza una conclusión sobre los individuos en función de los datos a nivel de grupo. En este caso, los autores calcularon el coeficiente de correlación en el nivel agregado (el país), pero luego usaron erróneamente ese valor para llegar a una conclusión sobre el nivel individual (comer chocolate mejora la función cognitiva). Los datos precisos a nivel individual eran completamente desconocidos: nadie había recopilado datos sobre cuánto chocolate consumían los laureados Nobel, o incluso si consumían alguno. No fui el único en notar este error. Muchos otros científicos escribieron sobre este caso de análisis erróneo. El químico Ashutosh Jogalekar escribió una crítica exhaustiva sobre su
Científico americano
Blog
La curiosa función de onda, y Beatrice A. Golomb de la Universidad de California, San Diego, incluso probaron esta hipótesis con un equipo de coautores, señalando que no hay vínculo.

Independientemente de las críticas de la comunidad científica a este documento, muchas agencias de noticias informaron sobre los resultados de este artículo. El documento nunca se retractó, y hasta la fecha se ha citado 23 veces. Incluso cuando se retraen los documentos erróneos, los informes de noticias sobre ellos permanecen en Internet y pueden continuar difundiendo información errónea. Si estas conclusiones defectuosas que reflejan los conceptos erróneos estadísticos pueden aparecer incluso en el
New England Journal of Medicine, me preguntaba, ¿con qué frecuencia aparecen en la literatura biomédica en general?

El ejemplo de consumo de chocolate y ganadores del Premio Nobel me lleva a otra, una mala interpretación aún más común del análisis de correlación: la idea de que la correlación implica causalidad. Calcular un coeficiente de correlación no explica la naturaleza de un acuerdo cuantitativo; Solo evalúa la intensidad de ese acuerdo. Los dos factores pueden mostrar una relación no porque estén influenciados entre sí, sino porque ambos están influenciados por el mismo factor oculto, en este caso, tal vez la riqueza de un país afecta el acceso al chocolate y la disponibilidad de educación superior. La correlación ciertamente puede apuntar a una posible existencia de causalidad, pero no es suficiente para probarlo.

¿Qué es la correlación en estadística?

La correlación estadística es una técnica estadística que se utiliza para ver si se vinculan dos variables.

Por ejemplo, considere el ingreso y el gasto de una familia como variables. Es bien sabido que el aumento o la disminución de los ingresos y los gastos van al mismo tiempo. Por lo tanto, ambos están vinculados en el sentido de que el cambio en una de estas dos variables se acompaña de un cambio en la otra variable.

Nuevamente, los precios y la demanda de productos son variables relacionadas; Cuando la demanda de aumentos de precios tiende a disminuir y viceversa.

Si el cambio en una variable está acompañado de un cambio en el otro, se dice que las variables están correlacionadas. Por lo tanto, podemos decir que los ingresos y gastos familiares, el precio y la demanda, están correlacionados.

La correlación es una herramienta poderosa que proporciona esta información esencial.

En el caso de los ingresos y los gastos familiares, es fácil ver que evolucionan aumentando o cayendo juntos en la misma dirección. Esto se llama una correlación positiva.

En el caso del precio y la demanda, el cambio ocurre en la dirección opuesta de modo que si se produce un aumento en una variable, se acompaña de una disminución en la otra. Esto se llama una correlación negativa.

La correlación estadística se mide por lo que se llama coeficiente de correlación (R). Su valor numérico varía de 1.0 a -1.0. Esto nos da una indicación de la fuerza de la relación.

¿Dónde interviene la correlación estadística?

Definición 1: La covarianza (muestra) entre dos muestras {x1,…, xn} y {y1,…, yn} es una medida de la asociación lineal entre dos variables x e y en función de las muestras correspondientes, y está definida por el fórmula

Observación: La covarianza es similar a la varianza, excepto que la covarianza se define para dos variables (x e y arriba), mientras que la varianza se define solo para una variable. De hecho, cov (x, x) = var (x).

La covarianza puede considerarse como la suma de los partidos y los desajustes entre los pares de elementos de datos para X e Y: se produce una coincidencia cuando ambos elementos en la pareja están en el mismo lado de su media; Un desajuste ocurre cuando un elemento en el par está por encima de su media y el otro está por debajo de su media.

La covarianza es positiva cuando los partidos superan los desajustes y son negativos cuando los desajustes superan los partidos. El tamaño de la covarianza en el valor absoluto indica la intensidad de la relación lineal entre x e y: cuanto más fuerte sea la relación lineal, mayor será el valor de la covarianza.

El tamaño de la covarianza está influenciado por la escala de los elementos de datos, por lo que para eliminar el factor de escala, el coeficiente de correlación se usa como una métrica libre de escala de la relación lineal.

Definición 2: El coeficiente de correlación (muestra) entre las dos muestras es una medida libre de escala de asociación lineal y la fórmula dada por la fórmula

Cuando es necesario, escribimos R como rxy para mostrar explícitamente las dos variables.

¿Qué es concepto de correlación?

La matriz de correlación de un vector variable de automóvil, cada uno de los cuales tiene una varianza (terminada), es la matriz cuadrada cuyo término genérico está dado por:
X → = (x1 ⋮ xp) { splatyle { vec {x}} = { begin {pmatrix} x_ {1} \ vdots \ x_ {p} end {pMatrix}}}}}}

Las dos series no están relacionadas linealmente si es cero. Las dos series están mejor correlacionadas, más se acerca 1 oa -1; r^p { splatyle { hat {r}} _ {p}} r^p { seploastyle { hat {r}} _ {{P}}
Aplicada a una matriz de correlación, la prueba esférica de Bartlett le permite juzgar si los coeficientes adicionales de Diagonal son globalmente diferentes de Scratch.

Es lo mismo que 1 en caso de que una de las variables sea una función creciente que crece de la otra variable, en -1 en caso de que una variable sea una función similar y decreciente. Los valores intermedios proporcionan información sobre el grado de dependencia lineal entre las dos variables. Cuanto más el coeficiente esté cerca de los valores extremos -1 y 1, más fuerte es la correlación lineal entre las variables; Simplemente usamos la expresión «fuertemente relacionada» para calificar las dos variables. Una correlación igual a 0 significa que las variables no están correlacionadas linealmente, aún pueden estar relacionadas, no linealmente, como se puede ver en la tercera línea de la imagen junto.

El coeficiente de correlación no es sensible a las unidades de cada una de las variables. Por lo tanto, por ejemplo, el coeficiente de correlación lineal entre la edad y el peso de un individuo será el mismo si la edad se mide en semanas, meses o años.

Por otro lado, este coeficiente de correlación es extremadamente sensible a la presencia de valores atípicos o extremos (estos valores se denominan «desviados») en nuestro conjunto de datos (valores muy lejos de la mayoría de los demás, que pueden considerarse como excepciones).

¿Qué es correlación y ejemplo?

La correlación y la causalidad son dos conceptos estadísticos ciertamente relativamente cercanos, ¡pero no para confundirse! Cuando hay una correlación entre dos variables, simplemente significa que existe una relación entre estas dos variables. Esta relación puede ser:

Positivo: cuando las dos variables se mueven en la misma dirección o;
Negativo: cuando las dos variables se mueven en una dirección opuesta.

La noción de causalidad se refiere al enlace de causa y efecto entre dos variables. Existe, por lo tanto, la causalidad, cuando el movimiento de una variable causa («causa») el de otra variable.

¡Por lo tanto, una correlación no implica necesariamente una causalidad! Es importante distinguir las dos nociones porque la naturaleza de la relación entre dos fenómenos puede tener un fuerte impacto en las políticas públicas que se llevarán a cabo.

«Cuando esté enfermo, no debe ir al hospital: la probabilidad de morir en una cama de hospital es 10 veces más grande que en su cama en casa».

Aquí está cómo, hace unos años, el humorista Coluche insistió, de una broma, en la oposición entre las nociones de correlación y causal.

Existe, por supuesto, una correlación positiva entre ser ingresado en el hospital y encontrar la muerte, ¡pero no hay causalidad entre los dos! De hecho, las personas admitidas en el hospital tienen una mayor probabilidad de morir, pero solo porque están enfermas.

¿Qué es la regresión y correlación en estadística?

El objetivo principal de la regresión es dibujar una línea que predice el cambio promedio en

Y por unidad X. Si todos los puntos de datos caían exactamente en línea recta, esto sería un asunto trivial. Sin embargo, debido a que la mayoría de los puntos no caerán exactamente en la línea, elegir una línea para inferencias estadísticas es un esfuerzo complicado.

Para decidir sobre la «mejor» línea que describe los datos, modelamos el valor esperado de

Y para un valor establecido de x (e (y | x)) de modo que:(Y | x) = a + bx

donde A representa la intersección de la línea y B representa la pendiente de la línea.

Al reconocer la ecuación anterior como una ecuación para una línea, la intersección (a) es donde la línea cruza el

El eje y y la pendiente (b) representa la inclinación de la línea (cambio en y por unidad x). Para determinar la intersección y la pendiente de la línea de regresión, medimos la distancia de cada punto de datos desde la línea. Esto se llama residual, representado con el símbolo EI («Epsilon»). Cada punto de datos ahora se puede representar con la ecuación:= a + bx + ei

Nuestra estrategia es determinar la línea de regresión que minimiza la suma de los residuos al cuadrado (min se²). Este es el

Criterio de mínimos cuadrados.

El parámetro B se llama coeficiente de regresión, o la pendiente de la línea de regresión. La mejor estimación de esta pendiente, denotada

b, es dado por la fórmula:ssxy / ssxxSSXY representa la suma de los productos cruzados (ver arriba) y SSXX representa la suma de los cuadrados para la variable X.

¿Qué son las correlaciones en estadística?

Siempre que queramos verificar la asociación entre dos o más variables para determinar si existe una relación entre ellas, se calcula la correlación.

Con el aumento de una dieta rica en grasas saturadas, ¿también aumenta la probabilidad de desarrollar enfermedades cardiovasculares?

¿Está la ausencia de un grado asociado con una percepción de un salario más bajo?

Todas estas preguntas se responden con un estudio de correlación. Se usa cuando queremos estudiar fenómenos cuantitativos.

Cuando hablamos de correlación, debemos considerar el tipo de relación existente entre dos variables y la forma de la relación.

La relación puede ser lineal o no lineal. El lineal se presenta en el plano cartesiano en forma de línea recta, el no lineal tiene una tendencia curvilínea (parábola o hipérbola).

En cuanto a la forma de una relación, son una entidad y dirección distinguidas.

Positivo: también llamado concordancia, es el caso en el que las variables A y B crecen simultáneamente.
Negativo: también definido como discrepancia, ocurre cuando una variable crece mientras que la otra disminuye.
Nada: es el caso de la incorporación, cuando las dos variables no tienden a crecer o disminuir simultáneamente.

En una representación cartesiana, cuando la relación es positiva, los datos tienden a distribuirse en una línea recta en crecimiento en la que X e Y crecen simultáneamente. En el caso de una relación negativa, los datos tienden a distribuirse en una línea recta decreciente, en la que, si bien la X tiene un signo positivo y, por lo tanto, crece, la y disminuye y viceversa. Finalmente, cuando la relación es neutral, o nada, los datos se distribuyen en orden aleatorio en una tabla de dispersión, también conocida como gráfica de escocés.

¿Qué es análisis de regresión y correlación lineal?

Si las variaciones de X e Y son diferentes entre sí, los dos índices tomarán valores que, aunque positivos o negativos, serán diferentes entre sí.

Esto se debe a que el denominador del índice de correlación tiene en cuenta tanto la variabilidad de X como la de Y. El denominador del coeficiente de regresión, por otro lado, tiene en cuenta solo la varianza de la variable explicativa/independiente.

Por esta razón, el índice de correlación solo puede variar entre -1 y +1, mientras que el coeficiente de regresión puede adquirir cualquier valor.

Esta es también la razón por la cual si invertir x con y la correlación no cambia, mientras que el coeficiente B será diferente. El índice de correlación es, de hecho, un tipo de análisis simétrico, mientras que la regresión es un análisis asimétrico.

Evaluar la presencia de una relación entre el peso y el nivel de colesterol es igual a evaluar si existe una relación entre el nivel de colesterol y el peso. Y ambos coeficientes le permiten hacer este análisis.

Preguntarse si el peso (x) afecta el nivel de colesterol (y) o puede pronunciarlo, en cambio, es diferente de preguntar si el nivel de colesterol (x) afecta el peso de un individuo (y) o puede pronunciarlo.

En estas situaciones, debe usar el coeficiente de regresión y prestar atención a los usos variables como X y cuáles como Y porque los resultados que obtendrán probablemente serán diferentes entre sí.

De la misma manera, si desea evaluar si hay una relación lineal positiva o negativa entre el estrés y las horas dedicadas a hacer actividad física, puede usar ambos coeficientes.

¿Qué es la correlación en estadística?

¿Qué es la correlación estadística?

¿Qué es la correlación en estadística?

¿Dónde interviene la correlación estadística?

¿Qué es concepto de correlación?

¿Qué es correlación y ejemplo?

¿Qué es la regresión y correlación en estadística?

¿Qué son las correlaciones en estadística?

¿Qué es análisis de regresión y correlación lineal?

Más posts relacionados:

Unidad de observación estadística: ¿Qué es y cómo se usa?

Aprende a elegir el muestreo adecuado para tu investigación: guía de muestreo en estadística inferencial

Deja una respuesta Cancelar la respuesta