Un modelo de regresión proporciona una función que describe la relación entre una o más variables independientes y una respuesta, dependiente o variable objetivo.
Por ejemplo, la relación entre altura y peso puede describirse mediante un modelo de regresión lineal. Un análisis de regresión es la base de muchos tipos de predicción y para determinar los efectos sobre las variables objetivo. Cuando escucha sobre los estudios sobre las noticias que hablan sobre la eficiencia del combustible, o la causa de la contaminación, o los efectos del tiempo de pantalla en el aprendizaje, a menudo se utiliza un modelo de regresión para respaldar sus afirmaciones.
Una regresión lineal es un modelo donde la relación entre entradas y salidas es una línea recta. Esto es lo más fácil de conceptualizar e incluso observar en el mundo real. Incluso cuando una relación no es muy lineal, nuestros cerebros intentan ver el patrón y unir un modelo lineal rudimentario a esa relación.
Un ejemplo puede ser el número de respuestas a una campaña de marketing. Si enviamos 1,000 correos electrónicos, podemos obtener cinco respuestas. Si esta relación se puede modelar utilizando una regresión lineal, esperaríamos obtener diez respuestas cuando enviemos 2,000 correos electrónicos. Su cuadro puede variar, pero la idea general es que asociamos un predictor y un objetivo, y asumimos una relación entre los dos.
Usando un modelo de regresión lineal, queremos estimar la correlación entre el número de correos electrónicos enviados y tasas de respuesta. En otras palabras, si el modelo lineal se ajusta a nuestras observaciones lo suficientemente bien, entonces podemos estimar que cuantos más correos electrónicos enviemos, más respuestas recibiremos.
Al hacer un reclamo como este, ya sea relacionado con el ejercicio, la felicidad, la salud o cualquier cantidad de reclamos, generalmente hay un modelo de regresión detrás de escena para apoyar el reclamo.
¿Qué es un modelo de regresión?
Un modelo de regresión es un modelo estadístico que estima la relación entre una variable dependiente y una o más variables independientes utilizando una línea (o un plano en el caso de dos o más variables independientes).
Se puede usar un modelo de regresión cuando la variable dependiente es cuantitativa, excepto en el caso de la regresión logística, donde la variable dependiente es binaria.
La estadística de prueba le dice cuán diferentes o más grupos son de la población general de la población, o cuán diferente es una pendiente lineal de la pendiente predicha por una hipótesis nula. Se utilizan diferentes estadísticas de prueba en diferentes pruebas estadísticas.
La significación estadística es arbitraria: depende del umbral, o valor alfa, elegido por el investigador. El umbral más común es P <0.05, lo que significa que es probable que los datos ocurran menos del 5% del tiempo bajo la hipótesis nula.
Cuando el valor p cae por debajo del valor alfa elegido, entonces decimos que el resultado de la prueba es estadísticamente significativo.
Su elección de la prueba t depende de si está estudiando un grupo o dos grupos y si le importa la dirección de la diferencia en los medios grupales.
Si está estudiando un grupo, use una prueba t pareada para comparar la media del grupo con el tiempo o después de una intervención, o use una prueba t de una muestra para comparar la media del grupo con un valor estándar. Si está estudiando dos grupos, use una prueba t de dos muestras.
Si desea saber solo si existe una diferencia, use una prueba de dos colas. Si desea saber si un grupo de grupo es mayor o menor que el otro, use una prueba de cola de cola izquierda o de cola derecha.
¿Qué es un modelo de regresión lineal y para qué se utiliza?
Después de la primera parte de la semana pasada «The Econometrics for Dummies: Introducción» (si no comprende nada sobre la economía, por lo tanto, comience con este artículo), el Capitán continúa este archivo hoy al explicar más detalles el principio de regresión lineal con varios Variables, además de la noción de variable indicadora (variable Dumy en inglés).
Continuaremos con nuestro modelo que intenta explicar el precio de un automóvil (nuestra variable dependiente «Y») en función de las variables explicativas (x1, x2, d1). La variable X1 corresponde en el artículo anterior al peso de un automóvil. La variable X2 representa el consumo de combustible del automóvil y la variable D1 es una variable indicadora, tomando el valor 0 si el automóvil es un automóvil doméstico (por lo tanto, estadounidense en nuestro ejemplo) o 1 si el automóvil es un automóvil extraño. Por lo tanto, nuestro modelo se ve así:
El último término? corresponde al término error, que representa la desviación entre lo que el modelo y la realidad predichos. Como antes, nuestro objetivo aquí será determinar (1) las variables significativas, es decir para ver si los diferentes coeficientes son diferentes en 0, (2) el valor de la constante alfa y los diferentes coeficientes «beta» que permiten minimizar El error entre nuestro derecho de regresión lineal estimada y los valores reales de y y finalmente (3) la precisión de nuestro modelo, utilizando, entre otras cosas, el «R-cuadrado».
¿Cómo explicar un modelo de regresión lineal?
La regresión lineal se utiliza en estadísticas para establecer una relación entre una variable Y (empleado) y una variable X (explicativa), también llamada Regret. También se compone de un coeficiente de regresión para cada una de las variables explicativas presentes más una para la intersección y, finalmente, a partir de un término de error o término residual.
Pero, ¿qué significa analizar la relación lineal entre dos variables? Significa que, como la variable independiente X está creciendo, la variable dependiente de Y crece (o disminuye) como si estuviera en línea recta, por lo tanto constantemente.
A partir del número de variables explicativas presentes, se pueden deleitar dos modelos de regresión lineal diferentes:
- Modelo de regresión lineal simple: solo hay un regresor, por lo que la relación es entre dos variables
- Modelo de regresión lineal múltiple (o multivariante): hay más de un regreso, por lo que el efecto se analiza que las variables más independientes (x1, x2,…, xi) tienen en la y.
Dado que, como hemos visto, la regresión lineal se basa en la ecuación de la línea, vemos qué es una línea recta.
Como recordará de las lecciones de matemáticas de las escuelas intermedias, para definir la línea recta generalmente se dice que:
- Modelo de regresión lineal simple: solo hay un regresor, por lo que la relación es entre dos variables
- Modelo de regresión lineal múltiple (o multivariante): hay más de un regreso, por lo que el efecto se analiza que las variables más independientes (x1, x2,…, xi) tienen en la y.
Sin embargo, una vez que su definición teórica se ha subrayado, para dibujarla, sin embargo, necesita saber desde qué punto comienza y, sobre todo, su pendiente, es decir, qué está inclinado.
¿Cómo interpretar un modelo de regresión lineal en R?
La regresión es una forma increíblemente común de análisis utilizado tanto por aficionados como por profesionales. ¿Porqué es eso? Porque es una de las herramientas más robustas para comprender las relaciones entre variables. Además, también nos permite la capacidad de hacer predicciones en datos previamente invisibles. La mayoría de las personas han tomado un curso de estadísticas y han ejecutado un modelo de regresión lineal simple. Supongo que la mayoría de las personas, dada una salida modelo, podrían elegir la intersección Y y los coeficientes variables. Si bien estas piezas de información son increíblemente importantes, ¿qué pasa con todos los demás datos que se devuelven cuando ejecutamos un modelo?
¿Hay otras cosas que deberíamos considerar? ¿Qué nos dicen los otros valores?
Realizaremos una inmersión profunda en cada una de las métricas anteriores con el objetivo de comprender profundamente lo que cada métrica nos dice sobre el modelo, a diferencia de las tuercas y los pernos de cómo calcular cada número. Para hacer esto, utilizaremos un conjunto de datos de la Asociación Nacional de Baloncesto (NBA). Este conjunto de datos incluye información salarial y puntos anotados durante la temporada para cada jugador en la temporada 2017-2018. Investigaremos la relación entre los puntos anotados en una temporada y el salario de un jugador. ¿Podemos predecir el salario de un jugador mirando cuántos puntos anotan? A continuación se muestra una vista previa del conjunto de datos:
Comenzaremos ejecutando un modelo de regresión simple con salario como nuestra variable dependiente y puntos como nuestra variable independiente. La salida de este modelo de regresión está a continuación:
Ahora que tenemos un modelo y la salida, pasemos por esta salida paso a paso para que podamos comprender mejor cada sección y cómo nos ayuda a determinar la efectividad del modelo.
¿Cómo interpretar la pendiente de la línea de regresión?
- Interpreta la pendiente de una línea como el cambio en (y ) cuando (x ) cambia por 1.
Un problema común cuando aprendemos sobre la ecuación de una línea en álgebra es establecer la pendiente como un número, pero no tenemos idea de lo que representa en el mundo real. La pendiente de una línea es el aumento sobre la carrera. Si la pendiente viene dada por un valor entero o decimal, siempre podemos ponerla sobre el número 1. En este caso, la línea aumenta por la pendiente cuando se ejecuta 1. «Ejecuta 1» significa que el valor X aumenta en 1 unidad. Por lo tanto, la pendiente representa cuánto cambia el valor y cuando el valor x cambia en 1 unidad. En las estadísticas, especialmente el análisis de regresión, el valor X tiene un significado de la vida real y también lo hace el valor y.
Se realizó un estudio para ver la relación entre el tiempo que lleva, (x ), completar un título universitario y la deuda de préstamos estudiantiles incurridos, (y ). Se encontró que la ecuación de la línea de regresión era:
Interpreta la pendiente de la línea de regresión en el contexto del estudio.
Primero, tenga en cuenta que la pendiente es el coeficiente frente al (x ). Por lo tanto, la pendiente es 14,329. A continuación, la pendiente es el aumento sobre la carrera, por lo que ayuda a escribir la pendiente como una fracción:
El aumento es el cambio en (y ) y (y ) representa la deuda de préstamos estudiantiles. Por lo tanto, el numerador representa un aumento de $ 14,329 de la deuda de préstamos estudiantiles. La ejecución es el cambio en (x ) y (x ) representa el tiempo que lleva completar un título universitario. Por lo tanto, el denominador representa un aumento de 1 año para completar un título universitario. Podemos armar todo esto e interpretar que la pendiente nos dice que
Artículos Relacionados: