- y es el valor predicho de la variable dependiente (y) para cualquier valor dado de la variable independiente (x).
- B0 es la intersección, el valor predicho de y cuando el x es 0.
- B1 es el coeficiente de regresión: cuánto esperamos que y cambie a medida que X aumenta.
- X es la variable independiente (la variable que esperamos está influyendo en Y).
- E es el error de la estimación, o cuánta variación hay en nuestra estimación del coeficiente de regresión.
La regresión lineal encuentra la línea de mejor línea de ajuste a través de sus datos buscando el coeficiente de regresión (B1) que minimiza el error total (e) del modelo.
Si bien puede realizar una regresión lineal a mano, este es un proceso tedioso, por lo que la mayoría de las personas usan programas estadísticos para ayudarlos a analizar rápidamente los datos.
R es un programa estadístico libre, poderoso y ampliamente utilizado. Descargue el conjunto de datos para probarlo usted mismo usando nuestro ejemplo de ingresos y felicidad.
Este código toma los datos que ha recopilado datos = ingresos. Data y calcula el efecto que el ingreso variable independiente tiene sobre la felicidad variable dependiente utilizando la ecuación para el modelo lineal: lm ().
Para ver los resultados del modelo, puede usar la función Resumen () en R:
Esta función toma los parámetros más importantes del modelo lineal y los coloca en una tabla, que se ve así:
Esta tabla de salida primero repite la fórmula que se utilizó para generar los resultados («llamar»), luego resume los residuos del modelo («residuos»), que dan una idea de qué tan bien el modelo se ajusta a los datos reales.
¿Qué es la regresión lineal simple?
Los modelos de regresión lineal se utilizan para mostrar o predecir la relación entre dos variables o factores. El factor que se está predicho (el factor que resuelve la ecuación) se llama variable dependiente. Los factores que se utilizan para predecir el valor de la variable dependiente se denominan variables independientes.
En la regresión lineal, cada observación consta de dos valores. Un valor es para la variable dependiente y un valor es para la variable independiente. En este modelo simple, una línea recta se aproxima a la relación entre la variable dependiente y la variable independiente.
Cuando se utilizan dos o más variables independientes en el análisis de regresión, el modelo ya no es simple lineal. Esto se conoce como regresión múltiple.
Los dos factores que están involucrados en el análisis de regresión lineal simple se designan x e y. La ecuación que describe cómo Y está relacionada con X se conoce como modelo de regresión.
El modelo de regresión lineal simple está representado por:
El modelo de regresión lineal contiene un término de error representado por ε. El término de error se usa para tener en cuenta la variabilidad en y que no puede explicarse por la relación lineal entre x e y. Si ε no estuviera presente, eso significaría que conocer X proporcionaría suficiente información para determinar el valor de y.
También hay parámetros que representan la población que se está estudiando. Estos parámetros del modelo están representados por β0 y β1.
¿Qué es la regresión lineal simple y para qué sirve?
La regresión lineal es un modelado lineal que permite establecer estimaciones en el futuro a partir de la información del pasado. En este modelo de regresión lineal, hay varias variables, una de las cuales es una variable explicativa y las otras que se explican variables. Esta herramienta se utiliza para análisis técnicos del mercado de valores, pero también para la gestión del presupuesto. A menudo se calcula con el método cuadrado más pequeño que reduce los errores al agregar información.
- Corresponde a la variable dependiente
- X1 y x2 corresponden a las variables explicativas
- E corresponde al error de estimación
- ß0 ß1 y ß2 corresponden a los coeficientes que reducen el error E
Benoist Rousseau se graduó de la Universidad de París-Sorbonne en la historia económica contemporánea y la certificación profesional de los actores del mercado financiero de AMF. Fue profesor de historia durante 12 años antes de convertirse en comerciante en su propia cuenta. Ex asesor de inversiones financieras, también es escritor. Su trabajo «convertirse en comerciante profesional» ha sido ventas número 1 en la categoría de mercado de valores durante muchos meses. Orador regular en finanzas televisivas y varios medios, es seguido por más de 150,000 personas en las redes sociales.
Lo uso cuando voy a la proyección de los costos de nuestros propios. Tomo las cantidades de los productos fabricados en el pasado, así como sus respectivos costos y utilizo el método cuadrado de SO para establecer una relatina lineal entre el costo y las unidades de productos manufacturados. Por lo tanto, puedo usar esta relación para predecir el costo de la próxima producción si hemos estimado la cantidad que se producirá, podemos estimar el costo de nuestra próxima producción. Por lo tanto, este método nos ayuda a preparar el presupuesto. Por supuesto, hacer un presupuesto es entrar en el ejercicio de estimación.
¿Qué características tiene un modelo de regresión lineal simple?
El análisis de regresión se usa comúnmente para modelar la relación entre una única variable dependiente y y uno o más predictores. Cuando tenemos un predictor, lo llamamos regresión lineal «simple»:
Es decir, el valor esperado de Y es una función de línea recta de X. Las betas se seleccionan eligiendo la línea que minimiza la distancia al cuadrado entre cada valor Y y la línea de mejor ajuste. Se eligen los betas de tal manera que minimicen esta expresión:
- HOMOSCEDASticidad: la varianza del residual es la misma para cualquier valor de X.
- Independencia: las observaciones son independientes entre sí.
- Normalidad: para cualquier valor fijo de x, y normalmente se distribuye.
Revisaremos cómo evaluar estos supuestos más adelante en el módulo.
Comencemos con una regresión simple. En R, los modelos se ajustan típicamente llamando a una función de ajuste de modelo, en nuestro caso LM (), con un objeto «Fórmula» que describe el modelo y un objeto «Data.Frame» que contiene las variables utilizadas en la fórmula. Una llamada típica puede parecer
y devolverá un objeto de modelo ajustado, aquí almacenado como myfunction. Este modelo ajustado se puede imprimir, resumir o visualizar posteriormente; Además, se pueden extraer los valores ajustados y los residuos, y podemos hacer predicciones sobre nuevos datos (valores de x) calculados utilizando funciones como resumen (), residuals (), predicto (), etc. A continuación, veremos cómo Para adaptarse a una regresión lineal simple.
¿Qué es el modelo de regresión lineal simple?
Regresión lineal
Simple es un método estadístico para encontrar una relación
lineal entre una variable explicativa (x ) y una variable a explicar
(y ). Este modelo consiste en considerar (y ) como una función afina de
(X ). En otras palabras, la regresión lineal tiene como objetivo encontrar un
Derecho ajustado a la nube de puntos (y ) en función de (x ).
En estos capítulos veremos en detalle el modelo lineal simple
así como su aplicación con R. utilizaremos los datos de
entrometerse
Disponible en Github. Puede descargar el conjunto de datos con
La función read_csv () disponible en el paquete Readr de la siguiente manera:
Para el conjunto de datos entrante tomaremos como variable
exógeno (x ) el ingreso de los individuos (ingresos) y el nivel de
Felicidad (felicidad) como una variable endógena (y ). Esta elección no es
peligroso, porque en la regresión lineal, la variable independiente
debe ser determinista, es decir no tener un personaje
aleatorio mientras que la variable dependiente tiene una
Ruido aleatorio ( epsilon ).
Porque el promedio ( epsilon ) es cero, la ecuación
(3.2) es solo una estimación de un promedio
condicional:
El primer paso durante una regresión lineal es la representación
Gráfico de nubes de puntos. De hecho si la nube no es similar a
una línea, la regresión lineal no será el mejor modelo para
Nuestro conjunto de datos. En este libro usaremos el paquete
GGPLOT23 para nuestras representaciones gráficas.
¿Qué característica tiene el proceso de aprendizaje de la regresión lineal?
A juzgar por los atributos que constituyen una buena explicación, como se presenta en el capítulo de explicaciones amigables para los humanos, los modelos lineales no crean las mejores explicaciones.
Son contrastantes, pero la instancia de referencia es un punto de datos donde todas las características numéricas son cero y las características categóricas están en sus categorías de referencia.
Esta suele ser una instancia artificial y sin sentido que es poco probable que ocurra en sus datos o realidad.
Hay una excepción:
Si todas las características numéricas están centradas en la media (característica menos media de característica) y todas las características categóricas están codificadas por el efecto, la instancia de referencia es el punto de datos donde todas las características toman el valor de la característica media.
Este también podría ser un punto de datos inexistente, pero al menos podría ser más probable o más significativo.
En este caso, los pesos multiplican los valores de características (efectos de características) explican la contribución al contraste de resultados predicho con la «instancia media».
Otro aspecto de una buena explicación es la selectividad, que se puede lograr en modelos lineales utilizando menos características o entrenando modelos lineales dispersos.
Pero de forma predeterminada, los modelos lineales no crean explicaciones selectivas.
Los modelos lineales crean explicaciones veraces, siempre que la ecuación lineal sea un modelo apropiado para la relación entre características y resultados.
Cuantas más no linealidades e interacciones hay, menos preciso será el modelo lineal y menos verdaderas serán las explicaciones.
La linealidad hace que las explicaciones sean más generales y simples.
La naturaleza lineal del modelo, creo, es el factor principal por el cual las personas usan modelos lineales para explicar las relaciones.
Los ejemplos de los modelos lineales que he elegido se ven bien y ordenados, ¿no?
Pero en realidad, es posible que no tenga un puñado de características, sino cientos o miles.
¿Y tus modelos de regresión lineal?
La interpretabilidad va cuesta abajo.
Incluso puede encontrarse en una situación en la que hay más características que instancias, y no puede ajustar un modelo lineal estándar.
La buena noticia es que hay formas de introducir escasez (= pocas características) en modelos lineales.
Lasso es una forma automática y conveniente de introducir escasez en el modelo de regresión lineal.
LASSO significa «operador de contracción y selección menos absoluto» y, cuando se aplica en un modelo de regresión lineal, realiza la selección de características y la regularización de los pesos de características seleccionadas.
Consideremos el problema de minimización que optimizan los pesos:
El término (|| BoldSymbol { beta} || _1 ), la norma L1 del vector de características, conduce a una penalización de grandes pesos.
Dado que se usa la norma L1, muchos de los pesos reciben una estimación de 0 y las otras se reducen.
El parámetro lambda ( ( lambda )) controla la resistencia del efecto de regularización y generalmente se ajusta por validación cruzada.
Especialmente cuando la lambda es grande, muchos pesos se convierten en 0.
Los pesos de características se pueden visualizar en función del término de penalización lambda.
Cada peso de la característica está representado por una curva en la siguiente figura.
¿Qué es una regresión lineal simple y múltiple?
La regresión lineal es uno de los algoritmos bien conocidos y bien entendidos en estadísticas y aprendizaje automático. Es uno de los algoritmos de aprendizaje automático basados en el aprendizaje supervisado.
La regresión lineal es un modelo estadístico que muestra la relación entre dos variables con la ecuación lineal.
Necesitará una regresión para responder si algunos factores influyen en el otro o cómo se relacionan las variables. Por ejemplo, puede usarlo para determinar en qué medida la experiencia o los salarios de impacto de género.
La regresión también es útil cuando desea pronosticar la función. Por ejemplo, puede tratar de predecir el consumo de electricidad de un hogar durante la próxima hora dada la temperatura al aire libre, la hora del día y el número de residentes en ese hogar.
La regresión se usa en muchos campos diferentes: economía, informática, ciencias sociales, etc.
El análisis de regresión es una técnica de modelado predictivo de forma que construye la relación entre dos o variables independientes y variables dependientes.
Por ejemplo, supongamos que desea predecir el precio de la casa y eso dependerá de varios factores como el tamaño de la trama, el número de habitaciones, el año que se construye, etc.
Las características dependientes se denominan variables o salidas dependientes.
Las características independientes se denominan variables o entradas independientes.
La regresión lineal en un término simple es responder una pregunta sobre «¿Cómo puedo usar X para predecir y?» Donde X es una información que tiene, y Y es una información que desea.
¿Qué es la regresión múltiple?
El análisis de regresión múltiple es una técnica estadística que analiza la relación entre dos o más variables y utiliza la información para estimar el valor de las variables dependientes. En la regresión múltiple, el objetivo es desarrollar un modelo que describa una variable dependiente y a más de una variable independiente.
En la regresión lineal, solo hay una variable independiente y dependiente involucrada. Pero, en el caso de la regresión múltiple, habrá un conjunto de variables independientes que nos ayudan a explicar mejor o predecir la variable dependiente Y.
donde x1, x2,… .xk son las k variables independientes e y es la variable dependiente.
El análisis de regresión múltiple permite controlar explícitamente para muchas otras circunstancias que influyen simultáneamente en la variable dependiente. El objetivo del análisis de regresión es modelar la relación entre una variable dependiente y una o más variables independientes. Deje que K represente el número de variables y denotado por x1, x2, x3, ……, xk. Dicha ecuación es útil para la predicción del valor para Y cuando se conocen los valores de x.
La regresión paso a paso es un proceso paso a paso que comienza mediante el desarrollo de un modelo de regresión con una única variable predictor y agrega y elimina la variable predictor de un paso a la vez. La regresión múltiple paso a paso es el método para determinar una ecuación de regresión que comienza con una única variable independiente y agregar variables independientes una por una. El método de regresión múltiple paso a paso también se conoce como método de selección de avance porque comenzamos sin variables independientes y agregamos una variable independiente a la ecuación de regresión en cada una de las iteraciones. Hay otro método llamado método de eliminación hacia atrás, que comienza con un conjunto completo de variables y elimina una variable independiente en cada una de las iteraciones.
Artículos Relacionados: