Ecuación de regresión: cómo calcularla y qué significa

Para predecir una variable de otra requiere el uso de una extensión de la correlación lineal llamada regresión lineal. El análisis de regresión es un «caballo de batalla» en estadísticas aplicadas. Las matemáticas no son demasiado complicadas y la mayoría de los paquetes de software admiten el análisis de regresión. La regresión lineal extiende la idea del diagrama de dispersión utilizado en correlación y agrega una línea que mejor «se ajusta» a los datos. Debido a que es una extensión de la correlación lineal, la regresión lineal modela el componente lineal de la relación entre variables. Si la relación no tiene un componente lineal, la correlación será cercana a 0 y la regresión lineal tendrá poca o ninguna precisión predictiva.

yˆ (pronunciado hat y): representa el valor predicho de la variable dependiente (en este ejemplo, el valor predicho de la puntuación SUS).

B0: llamado intersección y, aquí es donde la línea cruzaría (o interceptaría) el eje y (en otras palabras, este es el valor predicho de y cuando x = 0).

B1: La pendiente de la línea predicha (qué tan empinada es).

X: representa un valor particular de la variable independiente (en este ejemplo, la puntuación UMUX-Lite).

E: Representa el error inevitable que contendrá la predicción.

Entonces, en este ejemplo, la ecuación de regresión indica que la puntuación SUS predicha es 10.22 (la intersección Y) más 0.874 (la pendiente) multiplicada por la puntuación UMUX-Lite (X).

La fórmula para calcular la pendiente de la línea de mejor ajuste es:

donde R es la correlación entre X e Y Sx y Sy son las desviaciones estándar de los valores X e Y.

¿Que metodo se utiliza para realizar la regresión?

Hay varios tipos de técnicas de regresión disponibles para hacer predicciones. Estas técnicas son impulsadas principalmente por tres métricas (número de variables independientes, tipo de variables dependientes y forma de la línea de regresión). Los discutiremos en detalle en las siguientes secciones.

Para los creativos, incluso puede cocinar nuevas regresiones, si siente la necesidad de usar una combinación de los parámetros anteriores, que las personas no han usado antes. Pero antes de comenzar eso, comprendamos las regresiones más utilizadas:

Es una de las técnicas de modelado más ampliamente conocida. La regresión lineal generalmente se encuentra entre los primeros temas que las personas eligen mientras aprenden modelado predictivo. En esta técnica, la variable dependiente es continua, las variables independientes pueden ser continuas o discretas, y la naturaleza de la línea de regresión es lineal.

La regresión lineal establece una relación entre la variable dependiente (y) y una o más variables independientes (x) utilizando una mejor línea recta de ajuste (también conocida como línea de regresión).

Está representado por una ecuación y = a + b*x + e, donde a es intersección, b es pendiente de la línea y E es un término de error. Esta ecuación se puede utilizar para predecir el valor de la variable objetivo en función de las variables predictoras dadas.

La diferencia entre la regresión lineal simple y la regresión lineal múltiple es que la regresión lineal múltiple tiene (> 1) variables independientes, mientras que la regresión lineal simple tiene solo 1 variable independiente. Ahora, la pregunta es «¿Cómo obtenemos la mejor línea de ajuste?».

¿Qué es el modelo de regresión?

Antes de «aventurarse» en el procesamiento de los modelos de regresión, es necesario observar su variable dependiente. Dependiendo de qué tipo de datos sean, siempre sabremos cómo identificar el modelo y, por lo tanto, conocer las ventajas y desventajas. Lo que encuentra a continuación es una lista de posibles modelos de regresión, establecidos de acuerdo con un orden de creciente dificultad. Si no es práctico con las estadísticas, el primero es siempre el más fácil y más común.

Cuando la variable dependiente es continua (cuantitativa continua), los principales modelos de regresión son:

Cuando la variable dependiente es una variable binaria (también llamada «ficticia») y, por lo tanto, solo puede tomar uno de los dos valores posibles (generalmente indicados con 0 y 1), los principales modelos de regresión son:

  • regresión logística
  • regresión probit
  • Modelo de mezcla finita
  • Regresión del núcleo.

En el caso de que la variable del empleado sea una variable que asuma valores discretos (que primero, segundo y tercero), los principales modelos de regresión son:

  • regresión logística
  • regresión probit
  • Modelo de mezcla finita
  • Regresión del núcleo.
  • Regresión logística ortodada
  • Orthode probit regresión
  • Regresión logística atordizada por rango
  • Regresión probit atordada de rango
  • Regresión de probit ortodada multinivel
  • Regresión logística ortodada multinivel
  • Regresión logística ortodada con modelos de mezcla finitos
  • Orthode probit regresión con modelos de mezcla finitos
  • Ortodia inflada cero regresión probit,…
  • Cuando la variable dependiente es una variable categórica (por ejemplo, mujer/hombre), los modelos de regresión son la regresión logística multinomial y la regresión probit multinomial.

    ¿Qué es la ecuación de correlación?

    Aunque la definición de correlación de la calle se aplica a dos elementos relacionados (como el género y la afiliación política), los estadísticos usan este término solo en el contexto de dos variables numéricas. El término formal para la correlación es el coeficiente de correlación. Se han creado muchas medidas de correlación diferentes; El utilizado en este caso se llama coeficiente de correlación de Pearson.

    son los medios de muestra de todos los valores X y todos los valores y, respectivamente; y SX y SY son las desviaciones estándar de muestra de todos los valores X e Y, respectivamente.

    Puede usar los siguientes pasos para calcular la correlación, r, a partir de un conjunto de datos:

    Encuentre la desviación estándar de todos los valores X (llámelo SX) y la desviación estándar de todos los valores Y (llámalo SY).

    Por ejemplo, para encontrar SX, usaría la siguiente ecuación:

    Para cada uno de los pares n (x, y) en el conjunto de datos, tome

    Divida el resultado por N – 1, donde n es el número de pares (x, y). (Es lo mismo que multiplicar por 1 sobre n – 1.)

      Por ejemplo, suponga que tiene el conjunto de datos (3, 2), (3, 3) y (6, 4). Usted calcula el coeficiente de correlación R a través de los siguientes pasos. (Tenga en cuenta que para estos datos los valores X son 3, 3, 6, y los valores Y son 2, 3, 4.)

    Deborah J. Rumsey, PhD, es profesora auxiliar y especialista en educación estadística en la Universidad Estatal de Ohio. Es autora de Statistics for Dummies, Statistics II para Dummies, Libro de trabajo de estadística para Dummies y Probabilidad para Dummies.

    ¿Qué significa y en la fórmula de correlación?

    Correlación, coeficiente de dicho también correlación lineal o índice de Bravais-Parson, un coeficiente que mide la intensidad de la correlación entre dos variables aleatorias o dos caracteres estadísticos cuantitativos X e Y, relacionados con la misma población. Está tan calculado:

    Donde σxy es la covarianza de las dos variables y σxσy es el producto de sus residuos cuadrados promedio.

    El coeficiente de correlación lineal varía de −1 a +1 (incluidos los extremos) y, en particular::

    • Si R> 0 hablamos de correlación positiva, y si R está cerca de 1 con valores «grandes» del primer carácter, tienden a estar asociados con valores «grandes» del segundo carácter;

    • Si R <0 hablamos de correlación negativa, y si R está cerca de −1 con valores "grandes" del primer carácter tiende a estar asociado con valores "pequeños" del segundo carácter.

    Si este valor está cerca de ± 1, por lo tanto, se puede decir que estos caracteres están asociados o relacionados: esto no significa necesariamente que la causa del otro sea, porque, por ejemplo, podría ocurrir que tienen una concusa común, pero ninguna de las Los dos son la causa directa del otro, o incluso que no hay un enlace lógico.

    Cuando R es lo mismo que ± 1, las dos variables x e y dependen de acuerdo con una ley lineal. Dado que el coeficiente de correlación es simétrico en comparación con las dos variables, es necesario elegir cuál de las dos variables debe considerarse dependiente del otro. Si considera Y como una variable dependiente, entonces la ley lineal es del tipo y = ax + b, donde a es positivo si r = 1, negativo si r = −1 (correlación lineal perfecta). En caso de independencia lineal entre x e y, r = 0 y se dirá que hay una ausencia de correlación. Sin embargo, el viceversa no es cierto: si de hecho r = 0 solo puede decirse que la covarianza de X e Y no es nada, pero esto no garantiza que las dos variables sean independientes; Por ejemplo, podrían estar relacionados no linealmente, sino de acuerdo con una ley cuadrada. Además, rigurosamente, el coeficiente de correlación es aplicable cuando las dos variables tienen una distribución normal o, al menos, simétrica y sin imagen. Por lo tanto, para muestras pequeñas, para las cuales no existen hipótesis de distribución paramétrica estándar, se utilizan otros indicadores de correlación, como el coeficiente de → correlación para los rangos.

    ¿Qué es la ecuación de correlación lineal?

    Vimos en una publicación anterior cómo obtener la ecuación de un derecho que resume una nube de puntos con el software R. ¿Cómo saber si este derecho es un buen resumen de la nube de puntos? La interpretación del coeficiente de regresión lineal es un primer elemento de respuesta.

    Según el artículo de Wikipedia, el coeficiente de regresión «proporciona información sobre el grado de dependencia lineal entre las dos variables. Cuanto más cerca sea el coeficiente cerca de los valores extremos -1 y 1, más fuerte es la correlación entre las variables […]. Una correlación igual a 0 significa que las variables no están correlacionadas. «Por lo tanto, es un indicador de dependencia entre dos variables cuantitativas. En resumen, cuando está cerca de 0, interpretamos que no hay una relación lineal entre las dos variables. Cuando está cerca de 1, hay una relación creciente y cuando está cerca de -1 hay una relación decreciente.

    La representación gráfica de Yi en función de Yi muestra que los puntos están casi alineados

    El comando cor () le permite mostrar directamente el coeficiente de correlación lineal de las distribuciones entre ellas. Como era de esperar, obtenemos un resultado muy cerca de 1

    Vemos aquí que está muy cerca de 1. Como es positivo, cuando una variable aumenta, la otra también.

    Ahora veamos cómo calcularlo paso a paso. El interés de estos cálculos primero radica en la familiarización con la manipulación de objetos en R, pero también constituye un medio para comprender lo que las órdenes listas para R. calcularemos un cierto número de valores intermedios. Para un método en Excel, el lector puede consultar a Monino et al. (2007).

    Artículos Relacionados:

    Más posts relacionados:

    Deja una respuesta

    Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *