¿Qué es el análisis de correlación y cómo puede mejorar tu estrategia de marketing?

El análisis de correlación en la investigación es un método estadístico utilizado para medir la fuerza de la relación lineal entre dos variables y calcular su asociación. En pocas palabras, el análisis de correlación calcula el nivel de cambio en una variable debido al cambio en el otro. Una alta correlación apunta a una fuerte relación entre las dos variables, mientras que una baja correlación significa que las variables están débilmente relacionadas.

Cuando se trata de la investigación de mercado, los investigadores utilizan el análisis de correlación para analizar los datos cuantitativos recopilados a través de métodos de investigación como encuestas y encuestas en vivo. Intentan identificar la relación, los patrones, las conexiones significativas y las tendencias entre dos variables o conjuntos de datos.

Existe una correlación positiva entre dos variables cuando un aumento en una variable conduce al aumento en el otro. Por otro lado, una correlación negativa significa que cuando una variable aumenta, la otra disminuye y viceversa.

Uno de los conceptos estadísticos más relacionados con este tipo de análisis es el coeficiente de correlación.

El coeficiente de correlación es la unidad de medición utilizada para calcular la intensidad en la relación lineal entre las variables involucradas en un análisis de correlación, esto es fácilmente identificable ya que se representa con el símbolo R y generalmente es un valor sin unidades que se encuentra entre 1 y 1.

La correlación entre dos variables puede ser una correlación positiva, una correlación negativa o ninguna correlación. Veamos ejemplos de cada uno de estos tres tipos:

  • Correlación positiva: una correlación positiva entre dos variables significa ambas variables se mueven en la misma dirección. Un aumento en una variable conduce a un aumento en la otra variable y viceversa. Por ejemplo, pasar más tiempo en una cinta de correr quema más calorías.

¿Cuál es la importancia del análisis de correlación?

El análisis de correlación puede revelar relaciones significativas entre diferentes métricas o grupos de métricas. La información sobre esas conexiones puede proporcionar nuevas ideas y revelar interdependencias, incluso si las métricas provienen de diferentes partes del negocio.

Si se muestra que hay una fuerte correlación entre dos variables o métricas, y una de ellas se está observando actuando de una manera particular, entonces puede concluir que el otro también está siendo afectado de manera similar. Esto ayuda a agrupar las métricas relacionadas para reducir la necesidad de procesamiento individual de datos.

En la detección de anomalías, trabajar con una gran cantidad de métricas y la superficie de las métricas anómalas correlacionadas ayuda a dibujar relaciones que no solo reducen el tiempo de detección (TTD), sino que también admite el tiempo acortado a la remediación (TTR). Como la toma de decisiones basada en datos se ha convertido en la norma, la detección temprana y robusta de anomalías es crítica en todos los dominios de la industria, ya que la detección tardía afecta negativamente la experiencia y los ingresos del cliente.

Otro beneficio importante del análisis de correlación en la detección de anomalías es reducir la fatiga de alerta filtrando anomalías irrelevantes (basadas en la correlación) y la agrupación de anomalías correlacionadas en una sola alerta. Las tormentas de alerta y los falsos positivos son desafíos importantes que las organizaciones hoy en día, obteniendo cientos, incluso miles de alertas separadas de múltiples sistemas, cuando muchos de ellos provienen del mismo incidente.

El análisis de correlación ayuda a reducir significativamente los costos asociados con el tiempo dedicado a investigar alertas sin sentido o duplicadas. Además, el tiempo ahorrado se puede gastar en iniciativas más estratégicas que agregan valor a la organización.

¿Qué mide el análisis de correlación?

El análisis de correlación es mucho más complicado
En el caso de más de dos variables. En el ejemplo dado,
Observamos la edad, los ingresos, el número de niños y el
Gastos de 50 clientes. Entonces hay 4 variables. Los coeficientes de
correlación a ser calculada preocupación:

· edad e ingresos sucesivamente, el número de niños,
gastos (3 coeficientes);

· < gastos (2 coeficientes);

· el número de niños y los gastos (1 coeficiente).

El mismo razonamiento nos mostraría que para 10 variables,
Tenemos 45 coeficientes de correlación para calcular y que en el caso general, para
P Variables, el número de coeficientes de correlación es igual a P (P – 1) /2.
Para P = 20, esto da 190 coeficientes de correlación.

El problema no está en el cálculo, rápidamente resuelto por el
uso de la informática; Está en el diseño de los gráficos, que también están
muchos que los coeficientes de correlación, y en la interpretación global
Relaciones entre variables.

Hay un método específico para analizar este tipo de
Datos: Análisis en componentes principales, que
Explicamos rápidamente en el Capítulo 9.

Generalmente presentamos los coeficientes de correlación bajo
la forma de una tabla de doble entrada, cada línea y cada columna del
Tabla correspondiente a una variable. Tal pintura se llama matriz de correlación
y tiene varias propiedades, entre otras:

· < línea y la columna está compuesta por 1;

¿Qué debemos tener en cuenta al realizar un análisis de correlación?

La correlación es una medida de la relación lineal entre dos o más variables cuantitativas. Por lo general, cuantificamos el grado de relación entre las dos variables utilizando el valor del coeficiente de correlación que varía de -1 a +1. Si el coeficiente de correlación está cerca de +1, decimos que las variables están fuertemente correlacionadas positivamente, si el coeficiente de correlación está cerca de -1, decimos que están fuertemente correlacionadas negativamente, y si el coeficiente de correlación está cerca de 0, el Las variables no están correlacionadas. Por ejemplo, en la cifra a continuación, podemos concluir que el aumento en el gasto publicitario se correlaciona negativamente con los ingresos por ventas, el aumento en las horas de capacitación no se correlaciona con los ingresos por ventas y el aumento en las promociones de ventas (descuentos, regalos) se correlaciona positivamente con los ingresos por ventas .
En el último artículo, observamos la correlación y cómo calcular el coeficiente de correlación. En este artículo, hablaremos sobre algunas de las trampas comunes que se cometen al usar el análisis de correlación.

  • Correlación inversa: no hay orden sobre cómo se ingresan los datos para realizar el análisis de correlación. Por lo tanto, puede haber una causalidad en una dirección pero no en la otra. Por ejemplo, si realiza un análisis de correlación entre el número de horas de estudio frente a los grados, encontraremos una correlación razonablemente alta entre los dos. Puede estar bien concluir que un mayor número de horas de estudio causa mejores calificaciones, pero no sería apropiado concluir que las calificaciones más altas resulen en un mayor número de horas de estudio. La causalidad solo es aplicable en una dirección. Aquí hay algunos ejemplos que solo funcionan en una dirección:
  • Ver más televisión hace que los niños violen
  • El agua es mala porque es el ingrediente principal en herbicidas y pesticidas
  • Tercera variable: a veces, una tercera variable puede estar causando una correlación entre las dos variables. Por ejemplo, la temperatura se correlaciona directamente con las ventas de helados. Más escamas de helado ocurren en verano frente a los meses de invierno. Del mismo modo, más delitos fuera de puerta ocurren en los meses de verano en comparación con los meses de invierno ya que más personas están fuera de puerta. Entonces, si tuviéramos que realizar un análisis de correlación entre las ventas de helados y el crimen fuera de puerta, encontraríamos una correlación positiva. Sin embargo, no podemos concluir sobre la causalidad aquí y decir que las ventas de helado causan delitos exteriores. Solo podemos decir que el aumento de la temperatura causa un aumento en las ventas de helados o el aumento de la temperatura causa un aumento en el crimen fuera de puerta. Aquí hay algunos ejemplos de correlación de tercera variable:
  • Aumento de la población de la India El aumento de la población de China
  • Aumento de la tasa de criminalidad en una luna llena
  • Eventos casuales: a veces, los datos son aleatorios pero parecen exhibir un patrón o relación entre las dos variables. Si tuviera que recopilar más datos, entonces la conclusión probablemente sería diferente. Esto puede deberse a la mente humana atribuyendo patrones a los eventos cuando no existen ninguno. Aquí están algunos ejemplos:
  • La artritis empeora durante el clima frío
  • Si te mojas el cabello, puedes atrapar un resfriado
  • Los antojos embarazadas dependen del sexo del niño
    En conclusión, la correlación es una poderosa herramienta analítica que nos ayuda a determinar si se correlacionan dos variables. Los problemas generalmente surgen cuando intentamos inferir sobre la causalidad al observar los coeficientes de correlación. Necesitamos tener una precaución adicional y buscar un factor fuera del análisis estadístico para generar inferencias sobre la causalidad.
    Síguenos en LinkedIn para obtener las últimas publicaciones y actualizaciones.

¿Cómo interpretar análisis de correlación?

Use el gráfico de matriz para examinar las relaciones entre dos variables continuas. Además, busque valores atípicos en las relaciones. Los valores atípicos pueden influir en gran medida en los resultados del coeficiente de correlación de Pearson.

Determine si las relaciones son lineales, monotónicas o ninguno. Los siguientes son ejemplos de los tipos de formas que describen los coeficientes de correlación. El coeficiente de correlación de Pearson es apropiado para formas lineales. El coeficiente de correlación de Spearman es apropiado para formas monotónicas.

Los puntos caen al azar en la gráfica, lo que indica que no hay una relación lineal entre las variables.

Algunos puntos están cerca de la línea, pero otros puntos están lejos de ella, lo que indica solo una relación lineal moderada entre las variables.

Los puntos se acercan a la línea, lo que indica que existe una fuerte relación lineal entre las variables. La relación es positiva porque a medida que aumenta una variable, la otra variable también aumenta.

Los puntos se acercan a la línea, lo que indica que existe una fuerte relación negativa entre las variables. La relación es negativa porque, a medida que aumenta una variable, la otra variable disminuye.

En una relación monotónica, las variables tienden a moverse en la misma dirección relativa, pero no necesariamente a un ritmo constante. En una relación lineal, las variables se mueven en la misma dirección a una velocidad constante. Esta gráfica muestra que ambas variables aumentan simultáneamente, pero no a la misma velocidad. Esta relación es monotónica, pero no lineal. El coeficiente de correlación de Pearson para estos datos es 0.843, pero la correlación de Spearman es mayor, 0.948.

¿Cómo se mide la correlación?

Tomemos un ejemplo numérico para comprender mejor el problema.
Imaginemos que tenemos que lanzar 5 monedas y estar interesados
a variables aleatorias y, números de cabezas y cruz.
También consideramos otro lanzamiento de 5 monedas
Y llamamos y los resultados respectivos.
Podemos construir distribuciones dobles
Y
Aunque todos los marginales
son los mismos y, por lo tanto, todas las variables tienen
un valor de 2.5 esperado y una desviación estándar de 1.1, los dos
Las distribuciones son completamente diferentes (ver tabla
9.2).
Por ejemplo
(evento imposible),
tiempo

Tabla: distribuciones conjuntas del número de cabezas e
Número de cruces en el lanzamiento de 5 Monente (,)
en comparación con el de la cantidad de cabezas y cruces relacionadas
a dos monedas diferentes. En valores están en porcentaje.

La diferencia en importante entre las dos distribuciones
del ejemplo es que, mientras que en el primero en cualquier valor de
Solo uno puede estar asociado
valor de, en el segundo conocimiento
no cambiar el estado de incertidumbre en comparación con
: y yo soy
empleados (o relacionados);
y son independientes (o fluidos).
Este hecho se refleja en distribuciones condicionales,
que difieren en los dos casos. Por ejemplo
, tiempo
, y así

Tener que cuantificar el grado de correlación con solo uno
El número se utiliza el valor esperado del producto de desechos
En comparación con los pronósticos:

Se llama covarianza
y se indica con
CoV:Para entender por qué puede ser
adecuado 9.3
Para este propósito, piensa que

¿Cómo se mide la correlación entre dos variables?

Uno de los pasos más importantes en un proyecto de ciencia de datos es el que viene justo antes del desarrollo del modelo. Si tuviéramos que relacionarnos con el modelo CRISP-DM establecido en el artículo lo que es ciencia de datos, este paso correspondería a la «comprensión de datos». Se trata de ver cómo se comportan las diferentes variables del conjunto de datos, a través de gráficos y algunas estadísticas, por ejemplo, para encontrar patrones o identificar una correlación entre diferentes variables.

Una correlación es una relación entre diferentes variables. Este enlace puede provenir del hecho de que una variable depende de otra variable o que las dos variables dependen de una variable que no tenga en cuenta en sus estudios,…

En todos los casos, es importante identificar interdependencias entre variables antes del desarrollo del modelo. Porque esto puede guiarlo para elegir el modelo (algunos modelos están sesgados cuando se aplican a variables interdependientes, por ejemplo).

En este artículo nos interesará en el caso particular de la correlación lineal. Introduciremos un indicador muy interesante llamado Pearson Coeficiente.

El coeficiente Pearson o Pearson R es una medida que expresa cómo dos variables están correlacionadas linealmente. Es igual al cociente de covarianza de las dos variables y el producto de las dos desviaciones estándar. Eso es :

Por lo tanto, es un número real entre -1 y 1. e interpreta de la siguiente manera:

  • ρx, y = 0⇒

¿Cómo se lee la correlación?

Una matriz de correlación es una tabla que indica los coeficientes de conexión entre los factores. Cada celda de la tabla muestra la conexión entre los dos factores. Se utiliza una cuadrícula de conexión para describir la información, como una contribución a una investigación más en profundidad y como una indicación de los exámenes de recorte.

Las opciones clave que se tomarán durante la realización de una red de relaciones incluyen la decisión de la medición de la conexión, la codificación de los factores, el tratamiento de la información faltante y la introducción.

Por lo general, una imagen relacional es «cuadrada», con factores similares que aparecen en líneas y secciones. Indiqué un modelo a continuación. Esto muestra las relaciones entre el significado expreso de diferentes cosas para las personas. La línea de 1.00 que va de arriba a la izquierda en la base a la derecha es la inclinación principal, que muestra que cada factor en cualquier caso se conecta magníficamente consigo mismo. Esta red está equilibrada, con una conexión similar que apareció por encima del principio inclinado como una representación perfecta de las de la esquina primaria.

Hay tres grandes razones para calcular una matriz de correlación

Recopilar mucha información donde el objetivo es ver los dibujos. En nuestro modelo, el ejemplo detectable es que cada uno de los factores se relaciona excepcionalmente con el otro.

Incluir diferentes investigaciones. Por ejemplo, las personas usan regularmente las redes de conexión como contribución para el examen exploratorio del factor, la encuesta del factor de corroboración, los modelos de condiciones auxiliares y la recaída recta cuando se excluyen las cualidades faltantes.

Artículos Relacionados:

Más posts relacionados:

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *