Modelos de regresión: una introducción

Los problemas de regresión prevalecen en el aprendizaje automático, y el análisis de regresión es la técnica más utilizada para resolverlos. Se basa en el modelado de datos e implica determinar la mejor línea de ajuste que pasa a través de todos los puntos de datos con la distancia más corta posible entre la línea y cada punto de datos. Si bien existen otras técnicas para el análisis de regresión, la regresión lineal y logística es las más utilizadas. En última instancia, el tipo de modelo de análisis de regresión que adoptamos estará determinado por la naturaleza de los datos.

Aprendamos más sobre el análisis de regresión y las diversas formas de modelos de regresión.

Las técnicas de modelado predictivo, como el análisis de regresión, se pueden utilizar para determinar la relación entre las variables dependientes de un conjunto de datos (objetivo) e independientes. Se usa ampliamente cuando las variables dependientes e independientes están vinculadas de manera lineal o no lineal, y la variable objetivo tiene un conjunto de valores continuos. Por lo tanto, los enfoques de análisis de regresión ayudan a establecer relaciones causales entre variables, series de tiempo de modelado y pronósticos. El análisis de regresión, por ejemplo, es la mejor manera de examinar la relación entre las ventas y los gastos de publicidad para una corporación.

El análisis de regresión se utiliza para uno de los dos propósitos: predecir el valor de la variable dependiente cuando se conoce información sobre las variables independientes o que predice el efecto de una variable independiente en la variable dependiente.

Existen numerosos enfoques de análisis de regresión disponibles para hacer predicciones. Además, la elección de la técnica está determinada por varios parámetros, incluido el número de variables independientes, la forma de la línea de regresión y el tipo de variable dependiente.

¿Cuáles son los modelos de regresión?

El análisis de regresión es un conjunto de métodos estadísticos utilizados para la estimación de las relaciones entre una variable dependiente y una o más variables independientes. Se puede utilizar para evaluar la fuerza de la relación entre variables y para modelar la relación futura entre ellas.

El análisis de regresión incluye varias variaciones, como lineales, múltiples lineales y no lineales. Los modelos más comunes son lineales simples y múltiples. El análisis de regresión no lineal se usa comúnmente para conjuntos de datos más complicados en los que las variables dependientes e independientes muestran una relación no lineal.

El análisis de regresión ofrece numerosas aplicaciones en diversas disciplinas, incluidas las finanzas.

El análisis de regresión lineal se basa en seis supuestos fundamentales:

Las variables dependientes e independientes muestran una relación lineal entre la pendiente y la intersección.
La variable independiente no es aleatoria.
El valor del residual (error) es cero.
El valor del residual (error) es constante en todas las observaciones.
El valor del residual (error) no está correlacionado en todas las observaciones.
Los valores residuales (error) siguen la distribución normal.

La regresión lineal simple es un modelo que evalúa la relación entre una variable dependiente y una variable independiente. El modelo lineal simple se expresa utilizando la siguiente ecuación:

Las variables dependientes e independientes muestran una relación lineal entre la pendiente y la intersección.
La variable independiente no es aleatoria.
El valor del residual (error) es cero.
El valor del residual (error) es constante en todas las observaciones.
El valor del residual (error) no está correlacionado en todas las observaciones.
Los valores residuales (error) siguen la distribución normal.

Y – Variable dependiente

¿Cuántos tipos de modelos de regresión hay?

Los tipos de análisis de regresión que vamos a estudiar aquí son:

Regresión lineal simple
Regresión lineal múltiple
Regresión polinómica
Regresión logística
Regresión de cresta
Regresión de lazo
Regresión lineal bayesiana

Hay algunos algoritmos que usamos para entrenar un modelo de regresión para crear predicciones con valores continuos.

Regresión lineal simple
Regresión lineal múltiple
Regresión polinómica
Regresión logística
Regresión de cresta
Regresión de lazo
Regresión lineal bayesiana

Regresión del árbol de decisión

Regresión al azar del bosque

Hay varios tipos diferentes de modelos de regresión para crear predicciones. Estas técnicas son impulsadas principalmente por tres atributos principales: uno el número de variables independientes, en segundo lugar del tipo de variables dependientes y, por último, la forma de la línea de regresión.

La regresión lineal es la forma más básica de algoritmos de regresión en el aprendizaje automático. El modelo consta de un solo parámetro y una variable dependiente tiene una relación lineal. Cuando aumenta el número de variables independientes, se llama modelos de regresión lineal múltiple.

Denotamos regresión lineal simple mediante la siguiente ecuación que se proporciona a continuación.

Donde M es la pendiente de la línea, C es una intersección, y E representa el error en el modelo.

El límite de decisión de mejor ajuste se determina variando los valores de M y C para diferentes combinaciones. La diferencia entre los valores observados y el valor predicho se denomina error predictor. Los valores de M y C se seleccionan para un error de predictor mínimo.

¿Qué son modelos de regresión lineal y para qué son útiles?

Simplemente, la regresión lineal es un método estadístico para estudiar relaciones entre una variable dependiente de la variable independiente X e Y.

Para decirlo en otras palabras, es el modelado matemático que le permite hacer predicciones y pronósticos para el valor de Y dependiendo de los diferentes valores de X.

La variable dependiente también se conoce como variable de respuesta
Las variables independientes también son variables explicativas o predictoras conocidas

En la realidad, puede tener solo una variable independiente X que afecta la variable dependiente Y. o puede tener casos en los que hay muchas variables independientes que afectan a Y.

Según este enfoque, hay dos tipos principales de regresión lineal:

La variable dependiente también se conoce como variable de respuesta
Las variables independientes también son variables explicativas o predictoras conocidas

Modelos de regresión lineal simples

Modelos de regresión lineal múltiples

Como puede suponer, la regresión lineal simple significa que solo hay una variable independiente X que cambia el resultado en diferentes valores para Y.

X – El valor de la variable independiente, y – El valor de la variable dependiente. Β0 – es una constante (muestra el valor de y cuando el valor de x = 0) β1 – el coeficiente de regresión (muestra cuánto cambia y cada unidad cambia en x)

¿Cuándo es apropiado el modelado de regresión lineal simple?

Es apropiado cuando se cumplen las siguientes condiciones:

La variable dependiente también se conoce como variable de respuesta
Las variables independientes también son variables explicativas o predictoras conocidas

Modelos de regresión lineal simples

Modelos de regresión lineal múltiples

Primero, debe estar seguro, la variable dependiente tiene una relación lineal con la variable independiente. ¿Cómo comprobar eso? Asegúrese de que el plan de dispersión XY sea lineal.

¿Qué son los modelos de regresión lineal?

Debe verificar dos hipótesis principales sobre residuos antes de llevar a cabo una regresión lineal:

Deben seguir una distribución normal
Deben ser independientes

Use las diversas pruebas ofrecidas en los resultados de la regresión lineal para verificar un posteriori de que las hipótesis subyacentes se han verificado correctamente.

La normalidad de los residuos se puede verificar mediante el análisis de ciertos gráficos o mediante el uso de la prueba Shapiro-Wilk (opción disponible en la prueba de asunción de las hipótesis).

La independencia de los residuos se puede verificar mediante el análisis de ciertos gráficos o utilizando la prueba Durbin-Watson.

Como se especificó anteriormente, la homoscedasticidad y la independencia de los residuos (términos de error) son hipótesis clave de regresión, donde, como recordatorio, se supone que son independientes, distribuidas de acuerdo con una ley normal de promedio cero y de varianza fija. XLSTAT permite corregir las matrices de covarianza para los efectos de la heteroscedasticidad y la autocorrelación que puede ocurrir en particular en los casos en que ocurre el tiempo (series cronológicas, datos longitudinales).

Se ofrecen diferentes métodos en XLSTAT para estas correcciones, como el estimador sugerido por Newey y West (1987).

A continuación se muestra una lista no exhaustiva de los resultados obtenidos para la regresión lineal con XLSTAT.

¿Qué tipo de modelos de regresión lineal existen?

Las regresiones lineales y logísticas suelen ser los primeros algoritmos de modelado que las personas aprenden para el aprendizaje automático y la ciencia de los datos. Ambos son geniales, ya que son fáciles de usar e interpretar. Sin embargo, su simplicidad inherente también viene con algunos inconvenientes y, en muchos casos, no son realmente la mejor opción del modelo de regresión. De hecho, hay varios tipos diferentes de regresiones, cada una con sus propias fortalezas y debilidades.

En esta publicación, veremos 5 de los tipos más comunes de algoritmos de regresión y sus propiedades. Pronto encontraremos que muchos de ellos están sesgados para trabajar bien en ciertos tipos de situaciones y con ciertos tipos de datos. ¡Al final, esta publicación le dará algunas herramientas más en su caja de herramientas de regresión y dará una mayor visión de los modelos de regresión en su conjunto!

La regresión es una técnica utilizada para modelar y analizar las relaciones entre variables y, a menudo, cómo contribuyen y están relacionadas con la producción de un resultado particular juntos. Una regresión lineal se refiere a un modelo de regresión que está completamente compuesto por variables lineales. Comenzando con el caso simple, la regresión lineal de una sola variable es una técnica utilizada para modelar la relación entre una variable independiente de entrada única (variable de características) y una variable dependiente de la salida utilizando un modelo lineal, es decir, una línea.

El caso más general es una regresión lineal multvariable donde se crea un modelo para la relación entre múltiples variables de entrada independientes (variables de características) y una variable dependiente de la salida. El modelo permanece lineal en el sentido de que la salida es una combinación lineal de las variables de entrada. Podemos modelar una regresión lineal multvariable como la siguiente:

Donde a_n son los coeficientes, x_n son las variables y B es el sesgo. Como podemos ver, esta función no incluye ninguna no linealidad y, por lo tanto, solo es adecuado para modelar datos linealmente separables. Es bastante fácil de entender, ya que simplemente estamos ponderando la importancia de cada variable de característica X_N utilizando los pesos de coeficientes A_N. Determinamos estos pesos A_N y el sesgo B usando un descenso de gradiente estocástico (SGD). ¡Mira la ilustración a continuación para obtener una imagen más visual!

Modelos de regresión: una introducción

¿Cuáles son los modelos de regresión?

¿Cuántos tipos de modelos de regresión hay?

¿Qué son modelos de regresión lineal y para qué son útiles?

¿Qué son los modelos de regresión lineal?

¿Qué tipo de modelos de regresión lineal existen?

Más posts relacionados:

Análisis de forma: cómo optimizar tu web para un mejor rendimiento

Los 3 pasos indispensables para analizar e interpretar correctamente tus datos y resultados

Deja una respuesta Cancelar la respuesta