Ecuación de regresión lineal: cómo optimizar su modelo de datos

La regresión lineal intenta modelar la relación entre dos variables ajustando un lineal
ecuación a datos observados. Se considera que una variable es una variable explicativa y la
Otro se considera una variable dependiente. Por ejemplo, un modelador podría querer relacionar
Los pesos de los individuos a sus alturas utilizan un modelo de regresión lineal.

Antes de intentar ajustar un modelo lineal a los datos observados, un modelador debe determinar primero
Si existe o no una relación entre las variables de interés. Esto no lo hace
necesariamente implica que una variable causa a la otra (por ejemplo, las puntuaciones SAT más altas lo hacen
no causar calificaciones universitarias más altas), pero que existe una asociación significativa entre
Las dos variables. Un diagrama de dispersión puede ser una herramienta útil en
determinar la fuerza de la relación entre dos variables. Si parece que no hay
asociación entre las variables explicativas y dependientes propuestas (es decir, el diagrama de dispersión lo hace
no indicar ninguna tendencia creciente o decreciente), luego ajuste de un modelo de regresión lineal a
Los datos probablemente no proporcionarán un modelo útil. Una valiosa medida numérica de asociación
Entre dos variables se encuentra el coeficiente de correlación, que es un valor
entre -1 y 1 que indica la fuerza de la asociación de los datos observados para el
dos variables.

Una línea de regresión lineal tiene una ecuación de la forma y = a + bx,
donde x es la variable explicativa e y es la variable dependiente.
La pendiente de la línea es B, y A es la intersección (el valor de
y cuando x = 0).

El método más común para ajustar una línea de regresión es el método de mínimos cuadrados. Este método
calcula la línea de mejor ajuste para los datos observados minimizando la suma de los cuadrados de la
Desviaciones verticales de cada punto de datos a la línea (si un punto se encuentra en la línea ajustada exactamente,
entonces su desviación vertical es 0). Porque las desviaciones se cuadran primero, luego se suman, allí
No hay cancelaciones entre valores positivos y negativos.El conjunto de datos «televisores, médicos y esperanza de vida» contiene, entre otras variables,
El número de personas por televisor y el número de personas por médico para 40 países.
Dado que ambas variables probablemente reflejan el nivel de riqueza en cada país, es razonable
Suponga que hay alguna asociación positiva entre ellos. Después de eliminar 8 países con
Los valores faltantes del conjunto de datos, los 32 países restantes tienen un coeficiente de correlación
de 0.852 para el número de personas por televisor y número de personas por médico.
El valor r² es 0.726 (el cuadrado del coeficiente de correlación), lo que indica que
El 72.6% de la variación en una variable puede explicarse por la otra. (Nota: ver
correlación para más detalles.) Suponga que elegimos considerar el número
de las personas por televisor como la variable explicativa y el número de personas por médico como
la variable dependiente. Usar el comando Minitab «Regress» da los siguientes resultados:

La ecuación de regresión es People.phys. = 1019 + 56.2 personas.

¿Cómo se calcula el coeficiente de regresión lineal?

La regresión va un paso más allá de la correlación en la identificación del
relación entre dos variables. Crea una ecuación
Esos valores se pueden predecir dentro del rango enmarcado por los datos.
Esto se conoce como interpolación.
Ir más allá de las observaciones está lleno de peligro
y se conoce como extrapolación.
Sin embargo, hacerlo para determinar el déficit federal o
Los niveles de financiación de pensiones necesarios son aplicaciones importantes.

Dado que la discusión está en lineal
Las correlaciones y los valores predichos deben estar lo más cerca posible de
Los datos, la ecuación se llama la línea de mejor ajuste o
línea de regresión. La línea de regresión lleva el nombre del trabajo
Galón
DO en las características del gen que volvieron (retrocedieron) a un valor medio.
Es decir, los padres altos tenían hijos más cercanos al promedio.

La pendiente es un concepto importante, por lo que lo haremos
Revise algunos hechos importantes aquí.

En resumen, si y = mx + b, entonces m es la pendiente y
B es la intersección y (es decir, el valor de y cuando x = 0). Con frecuencia
Las ecuaciones lineales se escriben en forma estándar con coeficientes enteros
(AX + BY = C). Tales relaciones deben convertirse en
Forma de pendiente-intersección (y = mx + b) para usar fácilmente en el
calculadora gráfica.
Otra forma de una ecuación para una línea se llama forma de pendiente de punto
y es el siguiente:
y – y1 = m (x –
x1). La pendiente, m, es como se define arriba, x e y
son nuestras variables, y (x1, y1) es un punto en la línea.

Es importante comprender la diferencia entre
Pendías positivas, negativas, cero y indefinidas.
En resumen, si el
la pendiente es positiva, y aumenta a medida que X aumenta y la función se ejecuta
«cuesta arriba» (yendo de izquierda a derecha). Si la pendiente es negativa, y disminuye como
X aumenta y la función funciona cuesta abajo. Si la pendiente es cero, y
no cambia, por lo tanto, es constante una línea horizontal. Las líneas verticales son problemáticas
En eso no hay cambios en x. Por lo tanto, nuestra fórmula no está definida debido a la división
por cero. Algunos calificarán esta condición de pendiente infinita,
Pero tenga en cuenta que no podemos decir
¡Si es un infinito positivo o negativo!
Por lo tanto, el término bastante confuso no pendiente también está en uso común para esta situación.

¿Cómo se calcula el coeficiente de regresion lineal?

Con una regresión lineal simple, solo hay dos coeficientes de regresión: B0 y B1. Solo hay dos
Ecuaciones normales. Encontrar una solución de mínimos cuadrados implica
Resolver dos ecuaciones con dos incógnitas: una tarea que se maneja fácilmente con álgebra ordinaria.

Con una regresión múltiple, las cosas se vuelven más complicadas. Hay K variables independientes y regresión K + 1
coeficientes. Hay ecuaciones normales K + 1. Encontrar una solución de mínimos cuadrados implica resolver K + 1
Ecuaciones con K + 1 incógnitas. Esto se puede hacer con álgebra ordinaria, pero es difícil de manejar.

Para manejar las complicaciones de la regresión múltiple, usaremos álgebra matriz.

Para seguir la discusión en esta página, debe comprender un pequeño álgebra de matriz. Específicamente, deberías ser
Familiarizado con la adición de matriz, sustracción de matriz y multiplicación de matriz. Y debes saber sobre Matrix
Transposición e inversos de matriz.

Con una regresión múltiple, hay una variable dependiente y variables dependientes de K. La ecuación de regresión es:

donde ŷ es el valor predicho de la variable dependiente, BK son los coeficientes de regresión,
y XK es el valor de la variable independiente k.

Para expresar la ecuación de regresión en forma de matriz, necesitamos definir tres matrices: Y, B y X.

Aquí, el conjunto de datos consta de n registros. Cada registro incluye puntajes para 1 variable dependiente y k variables independientes.
Y es un vector n x 1 que contiene valores predichos de la variable dependiente; Y B es un
Vector K + 1 x 1 que contiene coeficientes de regresión estimados. Matrix X tiene una columna de 1 columnas de 1
valores para cada variable independiente en la ecuación de regresión.

¿Qué es coeficientes de la regresión lineal?

En finanzas, la regresión es una herramienta de soporte de decisiones para realizar ciertas inversiones. Permite evaluar los activos y comprender las relaciones entre las diferentes variables, en particular para comprender cuáles son los principales factores que pesan en la determinación de un precio. Por lo tanto, a menudo, la variable dependiente corresponde al precio, mientras que las variables x son factores que probablemente modifiquen el precio, como las tasas de interés. Cuanto más importante sea este coeficiente en valor absoluto, más probabilidades es de variar el precio.

Técnicamente, este derecho se dibuja entre los diferentes puntos que corresponden a un valor x y un valor Y en un punto de referencia. Se dibuja utilizando el método de mínimo cuadrado, es decir, al encontrar los coeficientes del derecho para que la suma de los cuadrados de las diferencias entre cada punto original y el punto de la derecha que pase por el mismo ordenado se minimice. El software de procesamiento de datos como Excel calcula muy rápidamente estos coeficientes a partir de un conjunto de datos.

Esta «aproximación promedio» es muy representativa de la situación y la evolución de los precios cuando los puntos se unen y hacen una tendencia, pero a veces es más difícil obtener una curva de tendencia muy representativa cuando los datos están más explotados.

En el modelo CAPM, realizamos una regresión del rendimiento esperado de un activo E (RA) en la tasa de interés sin riesgo (RF) y sobre la rentabilidad esperada del mercado (E (RM)). El coeficiente beta de los activos, que está frente a la rentabilidad esperada del mercado, corresponde a la pendiente de la regresión. Escribimos así:

E (RM): RF es la prima de riesgo del mercado, es lo que lleva a variar y pese más o menos en la rentabilidad esperada de los activos de acuerdo con el valor de Beta. Aquí, por lo tanto, es el rendimiento de una acción que se retrocede en relación con el de un índice más amplio.

¿Qué es la regresión lineal ejemplos?

La siguiente tabla muestra algunos datos de los primeros días de la compañía de ropa italiana Benetton. Cada fila de la tabla muestra las ventas de Benetton por un año y la cantidad gastada en publicidad ese año. En este caso, nuestro resultado de interés son las ventas, es lo que queremos predecir. Si usamos la publicidad como la variable predictor, la regresión lineal estima que las ventas = 168 + 23 publicidad. Es decir, si el gasto publicitario aumenta en un millón de euros, se espera que las ventas aumenten en 23 millones de euros, y si no hubiera publicidad, esperaríamos ventas de 168 millones de euros.

Volviendo al ejemplo de Benetton, podemos incluir una variable año en la regresión, lo que da el resultado de que ventas = 323 + 14 publicidad + 47 años. La interpretación de esta ecuación es que cada millón adicional de gastos de publicidad conducirán a 14 millones de euros adicionales de ventas y que las ventas crecerán debido a factores no publicitarios en 47 millones de euros por año.

Estimar una regresión es algo relativamente simple. El fuerte de uso de la regresión es evitar usar una regresión que está mal. A continuación se presentan diagnósticos de regresión estándar para la regresión anterior.

La estimación de columna etiquetada muestra los valores utilizados en las ecuaciones antes. Estas estimaciones también se conocen como coeficientes y parámetros. La columna de error estándar cuantifica la incertidumbre de las estimaciones. El error estándar para la publicidad es relativamente pequeño en comparación con la estimación, lo que nos dice que la estimación es bastante precisa, como lo indica la T alta (que es estimada / estándar) y el pequeño valor p. Además, la estadística R-cuadrado de 0.98 es muy alta, lo que sugiere que es un buen modelo.

Ecuación de regresión lineal: cómo optimizar su modelo de datos

¿Cómo se calcula el coeficiente de regresión lineal?

¿Cómo se calcula el coeficiente de regresion lineal?

¿Qué es coeficientes de la regresión lineal?

¿Qué es la regresión lineal ejemplos?

Más posts relacionados:

Análisis de forma: cómo optimizar tu web para un mejor rendimiento

Los 3 pasos indispensables para analizar e interpretar correctamente tus datos y resultados

Deja una respuesta Cancelar la respuesta