Ejemplo de correlación: aprenda a calcular la relación entre dos variables

La correlación significa asociación: más precisamente es una medida de la medida en que están relacionadas dos variables. Hay tres posibles resultados de un estudio correlacional: una correlación positiva, una correlación negativa y sin correlación.

  • Una correlación positiva es una relación entre dos variables en la que ambas variables se mueven en la misma dirección. Por lo tanto,
    Cuando una variable aumenta a medida que aumenta la otra variable, o una variable disminuye mientras que la otra disminuye. Un ejemplo de correlación positiva sería la altura y el peso. Las personas más altas tienden a ser más pesadas.
  • Una correlación negativa es una relación entre dos variables en la que un aumento en una variable se asocia con una disminución en la otra. Un ejemplo de correlación negativa sería la altura por encima del nivel y la temperatura del mar. A medida que sube la montaña (aumento de altura) se hace más frío (disminución de la temperatura).
  • Existe una correlación cero cuando no hay relación entre dos variables. Por ejemplo, no hay relación entre la cantidad de té borracho y el nivel de inteligencia.

Una correlación se puede expresar visualmente. Esto se hace dibujando un dispersión (también conocido como diagrama de dispersión, gráfico de dispersión, gráfico de dispersión o diagrama de dispersión).

Un ScatterGram es una pantalla gráfica que muestra las relaciones o asociaciones entre dos variables numéricas (o co-variables), que se representan como puntos (o puntos) para cada par de puntaje.

Un dispersión indica la fuerza y ​​la dirección de la correlación entre las co-variables.

¿Qué es una correlación?

La correlación es una medida estadística que indica la medida en que dos o más variables fluctúan entre sí. Una correlación positiva indica la medida en que esas variables aumentan o disminuyen en paralelo; Una correlación negativa indica la medida en que una variable aumenta a medida que la otra disminuye.

Un coeficiente de correlación es una medida estadística, del grado en que los cambios en el valor de una variable predicen el cambio al valor de otro. Cuando la fluctuación de una variable predice de manera confiable una fluctuación similar en otra variable, a menudo hay una tendencia a pensar que eso significa que el cambio en uno causa el cambio en el otro. Sin embargo, la correlación no implica causalidad. Puede haber, por ejemplo, un factor desconocido que influye en ambas variables de manera similar. Distinguir entre correlación y causalidad puede ser valioso cuando se trata de patrones de datos del consumidor y proporcionar información valiosa. El ejemplo de cerveza y pañales se usa con frecuencia para resaltar esto en el contexto del marketing.

Aquí hay un ejemplo: varios estudios informan una correlación positiva entre la cantidad de observación de los niños de televisión y la probabilidad de que se conviertan en matones. La cobertura de los medios a menudo cita tales estudios para sugerir que ver mucha televisión hace que los niños se conviertan en matones. Sin embargo, los estudios solo informan una correlación, no de causalidad. Es probable que algún otro factor, como la falta de supervisión de los padres, sea el factor influyente.

¿Cómo se expresa la correlación?

El grado de correlación entre dos variables se expresa en el coeficiente de correlación. Su valor puede variar entre -1 y +1. 0 significa: sin coherencia lineal, +1: coherencia lineal positiva perfecta y -1: coherencia lineal negativa perfecta. Cuanto más lejos de 0 el coeficiente de correlación está lejos de 0, más fuerte es la correlación.

Las correlaciones se pueden usar en la práctica para identificar relaciones y hacer predicciones. Los ejemplos son la correlación entre los resultados en dos años consecutivos de pruebas citadas en la educación primaria, y la correlación entre el precio y la economía solicitada. Si se sabe que estas variables están relacionadas, se puede usar una variable para predecir la otra. Por ejemplo, es útil que una compañía eléctrica sepa cuánta energía se usa algún día, lo que se puede prever si se puede conocer la correlación entre la temperatura y el consumo de energía doméstica.

Sin embargo, un cierto grado de correlación estadística no siempre significa que en realidad exista una causalidad entre las dos variables. Si no hay razón para sospechar una correlación (por ejemplo, entre el color de los ojos y el crimen), la correlación probablemente no significa nada. Si las correlaciones ocurren entre cientos de secciones, un informe examinado de vientos será estadísticamente significativo (si se prueba en el nivel del 5%), si el informe relevante en la población de la cual está diseñada la muestra no existe.

Una correlación (significativa) tampoco sugiere una relación causal. Si se encuentra una correlación entre la alta agresión en los niños y la cantidad de horas mirando la televisión, por lo tanto, no se muestra que los niños se vuelven agresivos al ver televisión. Es igualmente posible que los niños que tienen más probabilidades de ser más agresivos en su preparación también pueden elegir ver la televisión con más frecuencia como una actividad de ocio, o que una tercera variable (por ejemplo, contexto social) sea responsable de la relación entre la televisión y agresión. Entonces, en este caso, solo hay una relación estadística, y no una relación causal. Un claro ejemplo es la correlación entre la distancia entre la tierra y el cometa de Halley y el precio de la gasolina. Esta correlación es muy fuerte y está claro que no hay una relación causal. En estadísticas, una fuerte correlación nunca debe ser una razón para comenzar a reflejar una relación causal.

¿Dónde se aplica la correlación?

La correlación se utiliza para medir la asociación lineal entre dos variables.

Un coeficiente de correlación siempre adquiere un valor entre -1 y 1 donde:

  • -1 indica una correlación lineal perfectamente negativa entre dos variables
  • 0 indica que no hay correlación lineal entre dos variables
  • 1 indica una correlación lineal perfectamente positiva entre dos variables

Una pregunta que los estudiantes a menudo tienen es: ¿cuándo debo usar la correlación?

La respuesta corta: use la correlación cuando desee cuantificar la relación lineal entre dos variables y ninguna de las variables representa una respuesta o una variable de «resultado».

Los siguientes ejemplos ilustran cuándo debe y no debe usar la correlación en la práctica.

Supongamos que un profesor quiere comprender la relación lineal entre los puntajes de los exámenes de matemáticas y los puntajes de los exámenes de ciencias para los estudiantes en su clase.

Por ejemplo, ¿los estudiantes que obtienen puntajes en el examen de matemáticas también obtienen un puntaje alto en el examen de ciencias? ¿O los estudiantes que obtienen un puntaje más alto en matemáticas tienden a anotar bajos en ciencias?

En este escenario, podría calcular la correlación entre los puntajes del examen de matemáticas y los puntajes del examen de ciencias porque simplemente quiere comprender la relación lineal entre las dos variables y ninguna de las variables puede considerarse una variable de respuesta.

Supongamos que calcula el coeficiente de correlación de Pearson y considera que es R = 0.78. Esta es una fuerte correlación positiva, lo que significa que los estudiantes que obtienen un puntaje alto en matemáticas también tienden a anotar en la ciencia.

¿Dónde se aplica la correlación y regresion lineal?

Las herramientas estadísticas utilizadas para las pruebas de hipótesis, que describen la cercanía de la asociación y trazan una línea a través de los puntos, son la correlación y la regresión lineal. Desafortunadamente, creo que las descripciones de correlación y regresión en la mayoría de los libros de texto son innecesariamente confusas. Algunos libros de texto de estadísticas tienen correlación y regresión lineal en capítulos separados, y hacen que parezca que siempre es importante elegir una técnica u otra. Creo que esto enfatiza demasiado las diferencias entre ellos. Otros libros confunden la correlación y la regresión juntos sin explicar realmente cuál es la diferencia.

Existen diferencias reales entre la correlación y la regresión lineal, pero afortunadamente, generalmente no importan. La correlación y la regresión lineal dan exactamente el mismo valor (p ) para la prueba de hipótesis, y para la mayoría de los experimentos biológicos, ese es el único resultado realmente importante. Entonces, si está principalmente interesado en el valor (P ), no necesita preocuparse por la diferencia entre correlación y regresión.

En su mayor parte, trataré la correlación y la regresión lineal como diferentes aspectos de un solo análisis, y puede considerar la correlación/regresión lineal como una sola prueba estadística. Tenga en cuenta que mi enfoque es probablemente diferente de lo que verá en otro lugar.

La principal diferencia entre la correlación y la regresión es que en la correlación, muestra ambas variables de medición al azar de una población, mientras que en la regresión elige los valores de la variable independiente ( (x )). Por ejemplo, digamos que es un antropólogo forense, interesado en la relación entre la longitud del pie y la altura del cuerpo en los humanos. Si encuentra un pie cortado en una escena del crimen, le gustaría poder estimar la altura de la persona de la que se cortó. Mide la longitud del pie y la altura del cuerpo de una muestra aleatoria de humanos, obtiene un valor significativo de (p ) y calcula (r^2 ) para ser (0.72 ). Esta es una correlación, porque tomó medidas de ambas variables en una muestra aleatoria de personas. El (r^2 ) es, por lo tanto, una estimación significativa de la fuerza de la asociación entre la longitud del pie y la altura del cuerpo en humanos, y puede compararla con otros valores (r^2 ). Es posible que desee ver si el (r^2 ) para pies y altura es más grande o más pequeño que el (r^2 ) para manos y altura, por ejemplo.

Como ejemplo de regresión, supongamos que ha decidido que la antropología forense es demasiado desagradable, por lo que ahora está interesado en el efecto de la temperatura del aire en la velocidad de carrera en lagartos. Puses algunos lagartijas en una cámara de temperatura establecida en (10^{ circ} c ), los persigue y registras qué tan rápido se ejecutan. Haces lo mismo para (10 ​​) temperaturas diferentes, que van a (30^{ circ} c ). Esta es una regresión, porque decidiste qué temperaturas usar. Probablemente aún querrás calcular (r^2 ), solo porque los valores altos son más impresionantes. Pero no es una estimación muy significativa de nada sobre lagartos. Esto se debe a que el (r^2 ) depende de los valores de la variable independiente que eligió. Para exactamente la misma relación entre la temperatura y la velocidad de la carrera, un rango de temperaturas más estrecho daría un (r^2 ) más pequeño. Aquí hay tres gráficos que muestran algunos datos simulados, con la misma dispersión (desviación estándar) de valores (y ) en cada valor de (x ). Como puede ver, con un rango más estrecho de valores (x ), el (r^2 ) se hace más pequeño. Si realizó otro experimento sobre la humedad y la velocidad de funcionamiento en sus lagartijas y obtuvo un (r^2 ) más bajo, no se puede decir que la velocidad de correr está más fuertemente asociada con la temperatura que con la humedad; Si hubiera elegido un rango de temperaturas más estrecho y una gama más amplia de humididades, la humedad podría haber tenido un (r^2 ) más grande que la temperatura.

¿Cuándo se aplica el coeficiente de correlación?

Probar la importancia del coeficiente de correlación requiere que se cumplan ciertos supuestos sobre los datos. La premisa de esta prueba es que los datos son una muestra de puntos observados tomados de una población más grande. No hemos examinado a toda la población porque no es posible o factible hacerlo. Estamos examinando la muestra para llegar a una conclusión sobre si la relación lineal que vemos entre X e Y en los datos de la muestra proporciona evidencia lo suficientemente fuerte como para que podamos concluir que existe una relación lineal entre X e Y en la población.

La ecuación de la línea de regresión que calculamos a partir de los datos de la muestra ofrece la mejor línea de ajuste para nuestra muestra particular. Queremos usar esta línea de mejor ajuste para la muestra como una estimación de la línea de mejor ajuste para la población. Examinar el diagrama de dispersión y probar la importancia del coeficiente de correlación nos ayuda a determinar si es apropiado hacerlo.

Los supuestos subyacentes a la prueba de significancia son:

  • Existe una relación lineal en la población que modela el valor promedio de Y para valores variables de x. En otras palabras, el valor esperado de Y para cada valor particular se encuentra en una línea recta en la población. (No conocemos la ecuación de la línea de la población. Nuestra línea de regresión de la muestra es nuestra mejor estimación de esta línea en la población).
  • Los valores Y para cualquier valor X en particular se distribuyen normalmente sobre la línea. Esto implica que hay más valores Y dispersos más cerca de la línea que los dispersos más lejos. La suposición (1) implica que estas distribuciones normales se centran en la línea: las medias de estas distribuciones normales de los valores Y se encuentran en la línea.
  • Las desviaciones estándar de los valores de la población sobre la línea son iguales para cada valor de x. En otras palabras, cada una de estas distribuciones normales de Yvalues ​​tiene la misma forma y se extiende por la línea.
  • Los errores residuales son mutuamente independientes (sin patrón).
  • Los datos se producen a partir de una muestra aleatoria bien diseñada o un experimento aleatorizado.

Los valores Y para cada valor x se distribuyen normalmente sobre la línea con la misma desviación estándar. Para cada valor x, la media de los valores Y se encuentra en la línea de regresión. Más valores Y se encuentran cerca de la línea que los dispersos más lejos de la línea.

La regresión lineal es un procedimiento para ajustar una línea recta del formulario
[latex] displayStyle hat {{y}} = {a}+{b} {x} [/latex] a datos. Las condiciones para la regresión son:

  • Existe una relación lineal en la población que modela el valor promedio de Y para valores variables de x. En otras palabras, el valor esperado de Y para cada valor particular se encuentra en una línea recta en la población. (No conocemos la ecuación de la línea de la población. Nuestra línea de regresión de la muestra es nuestra mejor estimación de esta línea en la población).
  • Los valores Y para cualquier valor X en particular se distribuyen normalmente sobre la línea. Esto implica que hay más valores Y dispersos más cerca de la línea que los dispersos más lejos. La suposición (1) implica que estas distribuciones normales se centran en la línea: las medias de estas distribuciones normales de los valores Y se encuentran en la línea.
  • Las desviaciones estándar de los valores de la población sobre la línea son iguales para cada valor de x. En otras palabras, cada una de estas distribuciones normales de Yvalues ​​tiene la misma forma y se extiende por la línea.
  • Los errores residuales son mutuamente independientes (sin patrón).
  • Los datos se producen a partir de una muestra aleatoria bien diseñada o un experimento aleatorizado.
  • Lineal: en la población, hay una relación lineal que modela el valor promedio de y para diferentes valores de x.
  • Artículos Relacionados:

    Más posts relacionados:

    Deja una respuesta

    Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *