Normalmente, la regresión lineal se divide en dos tipos: regresión lineal múltiple y regresión lineal simple. Entonces, para una mejor autorización, discutiremos estos tipos en detalle.
En este tipo de regresión lineal, siempre intentamos descubrir la relación entre dos o más variables o entradas independientes y la variable o salida dependiente correspondiente y las variables independientes pueden ser continuas o categóricas.
Este análisis de regresión lineal es muy útil de varias maneras como ayuda a prever las tendencias, los valores futuros y, además, predecir los impactos de los cambios.
En una regresión lineal simple, nuestro objetivo es revelar la relación entre una sola variable independiente o puede decir la entrada, y una variable o salida dependiente correspondiente. Podemos discutir esto en una línea simple como y = β0 +β1x +ε
Aquí, Y habla de la salida o variable dependiente, β0 y β1 son dos constantes oscuras que hablan de la intercepción y el coeficiente que es pendiente por separado, y el término de error es ε epsilon.
También podemos discutir esto en forma de gráfico y aquí hay una muestra de gráfico de modelo de regresión lineal simple. Por lo tanto, en todo este blog, aprenderá muchas cosas nuevas sobre la regresión lineal simple en detalle.
Se puede describir como un método de análisis estadístico que puede usarse para estudiar la relación entre dos variables cuantitativas. (Lea también: Análisis de datos estadísticos)
Principalmente, hay dos cosas que se pueden encontrar utilizando el método de regresión lineal simple:
Fuerza de la relación entre el dúo de variables. (Por ejemplo, la relación entre el calentamiento global y la fusión de los glaciares)
¿Cuándo es una regresión lineal?
En una relación de causa y efecto, el
La variable independiente es la causa y la
La variable dependiente es el efecto.
La regresión lineal de mínimos cuadrados es un método
para predecir el valor de una variable dependiente y,
basado en el valor de una variable independiente
X.
Nota: Su navegador no admite el video HTML5. Si ve esta página web en un navegador diferente
(por ejemplo, una versión reciente de Edge, Chrome, Firefox u Opera), puede ver un tratamiento de video de esta lección.
En este tutorial de estadísticas de AP, nos centramos en el caso en el que solo hay uno
variable independiente. Esto se llama regresión simple. En otro tutorial (ver
Tutorial de regresión), cubrimos
Regresión múltiple, que maneja dos o más variables independientes.
Consejo: la próxima lección presenta un
ejemplo de regresión lineal simple
que muestra cómo
Aplique el material cubierto en esta lección. Ya que
Esta lección es un poco densa, puede beneficiarse también por
leyendo la próxima lección.
La regresión lineal simple es apropiada cuando lo siguiente
Las condiciones están satisfechas.
- La variable dependiente y tiene una relación lineal
a la variable independiente X. para verificar esto,
Asegúrate de que el xy
disperso es lineal y que el
La trama residual muestra un patrón aleatorio. (No se preocupe. Cubriremos las parcelas residuales en un
Lección futura). - Para cada valor de x, la distribución de probabilidad de y tiene el
misma desviación estándar σ. Cuando esta condición es
Satisfecho, la variabilidad de los residuos será relativamente
constante en todos los valores de x, que se verifica fácilmente en
una trama residual.
¿Cuando una regresión es lineal?
Las ciencias exactas se basan en el concepto de relaciones repetibles, que se pueden establecer de la siguiente manera: en las mismas condiciones, las mismas causas producen los mismos efectos. Tenga en cuenta que x la medición de las causas, y la de los efectos, la conexión entre y y x se escribe de acuerdo con la relación funcional y = f c (x): a un valor dado de x corresponde un valor bien definido de y.
Sin embargo, para muchos fenómenos (especialmente industriales), un estudio exhaustivo de todos los factores es imposible, debido a su gran número o su complejidad. Como resultado, la reproducibilidad de las condiciones, de una experiencia a otra, no se puede garantizar. A partir de esta observación, las estadísticas permitirán extender la noción de relación funcional repetible, a la de correlación donde la relación entre X e Y se ve empañada por una cierta dispersión debido a la variabilidad de las condiciones experimentadas: escribiremos y = = F (x)+ε, donde ε es una variable aleatoria.
El problema es estudiar la influencia de una variable X cuantitativa x en otra variable cuantitativa Y. La primera a menudo se llama variable explicativa (o incluso exógena) y la segunda se llama variable explicada (o incluso endógena). Para resolver este problema, hemos llevado a cabo un experimento que consiste en tomar una muestra de N individuos, y en medir en cada uno de ellos los valores tomados por cada una de las dos variables. En la vista, por ejemplo, para estudiar la influencia del contenido de carbono de un acero en su resistencia a la tracción, estas dos variables se midieron en 100 tubos de ensayo. Por lo tanto, tenemos una muestra de n parejas de observaciones (xi, yi) que se puede representar en un gráfico, en el plan r², donde cada punto I, de abscisa xi y ordenada yi, corresponde a un par de observaciones. Pueden surgir varios casos.
Los puntos se alinean en una curva que, en la hipótesis más simple, es un derecho. Se dice que la relación entre y y x es funcional: cuando se da el valor de x, el de y se determina sin ambigüedad. Este es el caso ideal que, experimentalmente, nunca se hace de una manera perfecta.
Las medidas siempre están contaminadas con alguna imprecisión. Los puntos luego forman una nube. Pero tiene una orientación que sugiere, por ejemplo, que cuando X aumenta, el valor promedio también aumenta.
¿Qué se necesita para hacer una regresión lineal?
La regresión lineal es una técnica estadística para modelar relaciones entre diferentes variables (dependientes e independientes). Utilizado para describir y analizar los valores o datos, la regresión lineal tiene como objetivo llevar a cabo predicciones o pronósticos.
En general, la regresión lineal utiliza el método de estimación por los cuadrados menos ordinarios (MCO) que establecen una ecuación lineal al reducir la suma de los valores residuales puestos en el cuadrado.
Los análisis de regresión y correlación son parte de técnicas analíticas multivariadas. Se utilizan en campos muy diferentes (ciencias naturales, estadísticas, finanzas y marketing digital) para analizar y predecir parcialmente todo tipo de acciones, eventos o cantidades.
La regresión lineal utiliza una técnica de estimación elegida, una variable dependiente y una o más variables explicativas para formar una ecuación lineal estimando los valores de la variable dependiente. Esto supone que existe una relación causal entre las dos variables.
Por ejemplo: está buscando determinar cómo funcionan sus inversiones publicitarias en el nivel de sus ventas. Para hacer esto, utilizaremos una regresión lineal para examinar la relación entre las dos variables (inversiones y ventas). Servirá como un pronóstico si esta relación está claramente representada.
¿Qué es regresión lineal y ejemplos?
La regresión lineal es un algoritmo de aprendizaje supervisado que compara variables de entrada (x) y salida (y) basadas en datos etiquetados. Se utiliza para encontrar la relación entre las dos variables y predecir resultados futuros basados en relaciones pasadas.
Por ejemplo, un estudiante de ciencias de datos podría construir un modelo para predecir las calificaciones obtenidas en una clase basada en las horas que estudian los estudiantes individuales. El estudiante ingresa una parte de un conjunto de resultados conocidos como datos de capacitación. El científico de datos entrena el algoritmo refinando sus parámetros hasta que entrega resultados que corresponden al conjunto de datos conocido. El resultado debe ser una ecuación de regresión lineal que puede predecir los resultados de los futuros estudiantes en función de las horas que estudian.
La ecuación crea una línea, de ahí el término lineal, que mejor se ajusta a las variables x e y proporcionadas. La distancia entre un punto en el gráfico y la línea de regresión se conoce como error de predicción. El objetivo es crear una línea que tenga la menor cantidad de errores posible.
También puede escuchar el término «regresión logística». Es otro tipo de algoritmo de aprendizaje automático utilizado para problemas de clasificación binaria utilizando un conjunto de datos que se presenta en un formato lineal. Se usa cuando la variable dependiente tiene dos opciones categóricas, que deben ser mutuamente excluyentes. Por lo general, hay múltiples variables independientes, útiles para analizar preguntas complejas con construcción «o».
Completar una regresión lineal simple en un conjunto de datos da como resultado una línea en un gráfico que representa la relación entre la variable independiente X y la variable dependiente Y. La regresión lineal simple predice el valor de la variable dependiente basada en la variable independiente.
¿Qué son los modelos de regresión?
El análisis de regresión es un método confiable para identificar qué variables tienen un impacto en un tema de interés. El proceso de realizar una regresión le permite determinar con confianza qué factores importan más, qué factores pueden ignorarse y cómo estos factores se influyen entre sí.
Para comprender completamente el análisis de regresión, es esencial comprender los siguientes términos:
- Variable dependiente: este es el factor principal que está tratando de comprender o predecir.
- Variables independientes: estos son los factores que hipotetiza tienen un impacto en su variable dependiente.
En el ejemplo de capacitación de la aplicación anterior, la satisfacción de los asistentes con el evento es nuestra variable dependiente. Los temas cubiertos, la duración de las sesiones, los alimentos proporcionados y el costo de un boleto son nuestras variables independientes.
Para realizar un análisis de regresión, deberá definir una variable dependiente que hipotetiza está siendo influenciada por una o varias variables independientes.
Luego deberá establecer un conjunto de datos integral para trabajar. Administrar encuestas a su público de interés es una forma excelente de establecer este conjunto de datos. Su encuesta debe incluir preguntas que aborden todas las variables independientes que le interesan.
Continuemos usando nuestro ejemplo de capacitación en aplicación. En este caso, queremos medir los niveles históricos de satisfacción con los eventos de los últimos tres años más o menos (o por mucho tiempo que considere estadísticamente significativo), así como cualquier información posible con respecto a las variables independientes.
¿Qué tipos de modelos de regresión conoce?
Los modelos lineales son el tipo de regresión más antiguo. Fue diseñado para que los estadísticos puedan hacer los cálculos a mano. Sin embargo, OLS tiene varias debilidades, incluida una sensibilidad tanto a los valores atípicos como a la multicolinealidad, y es propenso al sobreajuste. Para abordar estos problemas, los estadísticos han desarrollado varias variantes avanzadas:
- La regresión de Ridge le permite analizar los datos incluso cuando está presente la multicolinealidad severa y ayuda a prevenir el sobreajuste. Este tipo de modelo reduce la gran varianza problemática que causa la multicolinealidad al introducir un ligero sesgo en las estimaciones. El procedimiento intercambia gran parte de la varianza a cambio de un pequeño sesgo, lo que produce estimaciones de coeficientes más útiles cuando hay multicolinealidad presente.
- La regresión de lazos (operador de contracción y selección menos absoluta) realiza una selección variable que tiene como objetivo aumentar la precisión de la predicción identificando un modelo más simple. Es similar a la regresión de cresta pero con selección de variables.
- La regresión de mínimos cuadrados parciales (PLS) es útil cuando tiene muy pocas observaciones en comparación con el número de variables independientes o cuando sus variables independientes están altamente correlacionadas. PLS disminuye las variables independientes a un número menor de componentes no correlacionados, similar al análisis de componentes principales. Luego, el procedimiento realiza una regresión lineal en estos componentes en lugar de los datos originales. PLS enfatiza el desarrollo de modelos predictivos y no se utiliza para las variables de detección. A diferencia de OLS, puede incluir múltiples variables dependientes continuas. PLS utiliza la estructura de correlación para identificar efectos más pequeños y modelos de patrones multivariados en las variables dependientes.
La regresión no lineal también requiere una variable dependiente continua, pero proporciona una mayor flexibilidad para adaptarse a las curvas que la regresión lineal.
Al igual que OLS, la regresión no lineal estima los parámetros al minimizar el SSE. Sin embargo, los modelos no lineales utilizan un algoritmo iterativo en lugar del enfoque lineal de resolverlos directamente con las ecuaciones de matriz. Lo que esto significa para usted es que debe preocuparse por qué algoritmo usar, especificando buenos valores iniciales y la posibilidad de no converger en una solución o converger en un mínimo local en lugar de un SSE mínimo global. ¡Y eso se suma a especificar la forma funcional correcta!
La mayoría de los modelos no lineales tienen una variable independiente continua, pero es posible tener más de uno. Cuando tiene una variable independiente, puede graficar los resultados utilizando una gráfica de línea ajustada.
Mi consejo es ajustar un modelo con regresión lineal primero y luego determinar si el modelo lineal proporciona un ajuste adecuado al verificar las gráficas residuales. Si no puede obtener un buen ajuste con una regresión lineal, intente un modelo no lineal porque puede adaptarse a una variedad más amplia de curvas. Siempre te recomiendo que pruebes primero OLS porque es más fácil realizar e interpretar.
¿Cuál es el mejor modelo de regresión?
Si usted es un principiante en ciencia de datos o estadísticas con algunos antecedentes sobre regresión lineal y está buscando formas de evaluar sus modelos, entonces esta guía podría ser para usted.
Este artículo discutirá las siguientes métricas para elegir el «mejor» modelo de regresión lineal: R-cuadrado (R²), error absoluto medio (MAE), error cuadrado medio (MSE), error cuadrado de raíz media (RMSE), criterio de información de Akaike (AIC), y variantes corregidas de estos que explican el sesgo. Se asumirá un conocimiento de la regresión lineal. Espero que disfrutes leyendo este artículo, encontrarlo útil y aprender algo nuevo :)
El valor R², también conocido como coeficiente de determinación, nos dice cuánto los datos predichos, denotados por Y_HAT, explican los datos reales, denotados por y. En otras palabras, representa la fuerza del ajuste, sin embargo, no dice nada sobre el modelo en sí: no le dice si el modelo es bueno, si los datos que ha elegido están sesgados, o incluso si lo ha elegido el método de modelado correcto¹. Mostraré esto usando ejemplos a continuación.
Nota: Teóricamente es posible tener r² <0, sin embargo, surgen para los ajustes visiblemente terribles y, como tal, no se discutirán en este artículo.
Puede estar pensando, si R² no representa lo bueno que es el modelo, ¿qué significa «fuerza de ajuste»? Significa que, en promedio, sus valores predichos (y_hat) no se desvían mucho de sus datos reales (y). Los ejemplos a continuación ilustrarán esto.
Artículos Relacionados:
- Aprende el proceso de regresión lineal para mejorar tus predicciones
- Ejemplos de regresión lineal: cómo aplicar este modelo de machine learning
- Aprende a aplicar modelos de regresión lineal con estos ejemplos prácticos
- Aprende a identificar y aplicar los 6 tipos de regresión más utilizados en el mundo de los negocios
