Prueba de hipótesis en la regresión lineal simple: cómo optimizar su análisis

La prueba de hipótesis utiliza la estadística de prueba, que es un resumen numérico de un conjunto de datos que reduce los datos a un valor que se puede usar para realizar la prueba de hipótesis.

Elegimos el tipo de estadística de prueba basada en la variable predictor: cuantitativa o categórica. A continuación se presentan algunas de las estadísticas de prueba utilizadas para datos cuantitativos

Gran tamaño de muestra
Desviación estándar de población conocida
Tamaño de muestra menos de 30
Desviación estándar de población desconocida
Cuando quieras comparar 3 o más variables
Requiere la transformación de características para realizar una prueba de hipótesis
Prueba de independencia
Bondad de ajuste

El estadístico z se usa cuando la muestra sigue una distribución normal. Se calcula en función de los parámetros de población como la media y la desviación estándar. Se usa una prueba de muestra Z cuando queremos comparar una media de muestra con una media de población

Se utiliza dos pruebas de muestra Z cuando queremos comparar la media de dos muestras

La estadística T se usa cuando la muestra sigue una distribución T y se desconocen los parámetros de población. La distribución T es similar a una distribución normal, es más corta que la distribución normal y tiene una cola más plana.

Para muestras que involucran tres o más grupos, preferimos la prueba F. La realización t-prueba en múltiples grupos aumenta las posibilidades de error de tipo 1. ANOVA se usa en tales casos.

El análisis de varianza (ANOVA) puede determinar si las medias de tres o más grupos son diferentes. ANOVA utiliza pruebas F para probar estadísticamente la igualdad de medios.

¿Qué es la prueba de hipótesis en la regresión lineal simple?

En relación con el aprendizaje automático, la regresión lineal se define como una técnica de modelado predictivo que nos permite construir un modelo que puede ayudar a predecir las variables de respuesta continua en función de una combinación lineal de variables explicativas o predictoras. Mientras entrenan modelos de regresión lineal, debemos confiar en las pruebas de hipótesis en relación con la determinación de la relación entre la respuesta y las variables predictoras. En el caso del modelo de regresión lineal, se realizan dos tipos de pruebas de hipótesis. Son pruebas t y pruebas F. En otras palabras, hay dos tipos de estadísticas que se utilizan para evaluar si existen modelos de regresión lineal que representan la respuesta y las variables predictoras. Son estadísticas T y estadísticas F. Como científicos de datos, es de suma importancia determinar si la regresión lineal es la elección correcta del modelo para nuestro problema particular y esto se puede realizar realizando pruebas de hipótesis relacionadas con la respuesta de regresión lineal y las variables predictoras. Muchas veces, se encuentra que estos conceptos no son muy claros con muchos científicos de datos. En esta publicación de blog, discutiremos la regresión lineal y las pruebas de hipótesis relacionadas con las estadísticas T y las estadísticas F. También proporcionaremos un ejemplo para ayudar a ilustrar cómo funcionan estos conceptos.

Un modelo de regresión lineal se puede definir como la aproximación de función que representa una variable de respuesta continua en función de una o más variables predictoras. Al construir un modelo de regresión lineal, el objetivo es identificar una ecuación lineal que mejor predice o modele la relación entre la respuesta o la variable dependiente y una o más variables predictoras o independientes.

Hay dos tipos diferentes de modelos de regresión lineal. Son los siguientes:

Modelos de regresión lineal simples o univariados: estos son modelos de regresión lineal que se utilizan para construir una relación lineal entre una respuesta o una variable dependiente y una variable predictor o independiente. La forma de la ecuación que representa un modelo de regresión lineal simple es y = mx+b, donde m es los coeficientes de la variable predictor y b es sesgo. Al considerar la línea de regresión lineal, M representa la pendiente y B representa la intersección.
Modelos de regresión lineal múltiples o multivariables: estos son modelos de regresión lineal que se utilizan para construir una relación lineal entre una respuesta o una variable dependiente y más de una variable predictor o independiente. La forma de la ecuación que representa un modelo de regresión lineal múltiple es Y = B0 + B1X1 + B2X2 +… + BNXN, donde BI representa los coeficientes de la variable predictor IPI. En este tipo de modelo de regresión lineal, cada variable predictor tiene su propio coeficiente que se utiliza para calcular el valor predicho de la variable de respuesta.

Mientras entrenan modelos de regresión lineal, el requisito es determinar los coeficientes que pueden dar como resultado la línea de regresión lineal mejor ajustada. El algoritmo de aprendizaje utilizado para encontrar los coeficientes más apropiados se conoce como regresión de mínimos cuadrados. En el método de regresión de mínimos cuadrados, los coeficientes se calculan utilizando la función de error de mínimos cuadrados. El objetivo principal de este método es minimizar o reducir la suma de los residuos cuadrados entre los valores de respuesta reales y predichos. La suma de los residuos cuadrados también se llama la suma residual de cuadrados (RSS). El resultado de ejecutar el método de regresión de mínimos cuadrados son los coeficientes que minimizan la función de costo de regresión lineal.

¿Qué es una prueba de hipótesis sobre la regresión lineal?

Los problemas en esta sección están diseñados para revisar las pruebas de hipótesis para los parámetros de pendiente, así como para brindarle alguna práctica en modelos con una variable cualitativa de tres grupos (que cubriremos con más detalle en la Lección 8). Consideramos las pruebas para:

Si un subconjunto (más de uno pero menos) de los parámetros de pendiente es 0 (por ejemplo, (h_ {0} colon beta_ {2} = beta_ {3} = 0 ) contra la alternativa (( H_ {a} colon beta_ {2} ne 0 ) o ( beta_ {3} ne 0 ) o ambos ≠ 0)
Si todos los parámetros de pendiente son 0 (por ejemplo, (h_ {0} colon beta_ {1} = beta_ {2} = beta_ {3} ) = 0 contra la alternativa (h_ {a} colon ) al menos uno de los ( beta_ {i} ) no es 0)

(Tenga en cuenta la especificación correcta de las hipótesis alternativas para las dos últimas situaciones).

Un grupo de investigadores estaba interesado en estudiar los efectos de tres reguladores de crecimiento diferentes (tratar, denotar 1, 2 y 3) en el rendimiento de la remolacha azucarera (y = rendimiento, en libras). Planearon plantar las remolachas en 30 parcelas diferentes y luego tratar al azar 10 parcelas con el primer regulador de crecimiento, 10 parcelas con el segundo regulador de crecimiento y 10 parcelas con el tercer regulador de crecimiento. Sin embargo, un problema es que la cantidad de nitrógeno disponible en las 30 gráficas diferentes varía naturalmente, lo que da una ventaja potencialmente injusta a las parcelas con niveles más altos de nitrógeno disponible. Por lo tanto, los investigadores también midieron y registraron el nitrógeno disponible ( (x_ {1} ) = nit, en libras/acre) en cada gráfico. Están interesados en comparar los rendimientos medios de la remolacha azucarera sometidos a los diferentes reguladores de crecimiento después de tener en cuenta el nitrógeno disponible. El conjunto de datos de remolachas azucareras contiene los datos del experimento del investigador.

El gráfico muestra una tendencia lineal positiva similar dentro de cada categoría de tratamiento, lo que sugiere que es razonable formular un modelo de regresión múltiple que colocaría tres líneas paralelas a través de los datos.

¿Qué prueba o pruebas usa para demostrar la adecuación del modelo de regresión?

Imagen del autor

Parece que hoy en día cuando todos están tanto en todo tipo de algoritmos de aprendizaje automático elegantes, pocas personas todavía les importa preguntar: ¿Cuáles son los supuestos clave requeridos para la regresión de mínimos cuadrados ordinarios (OLS)? ¿Cómo puedo probar si mi modelo satisface estos supuestos? Sin embargo, como la regresión lineal simple es posiblemente el enfoque de modelado más popular en cada campo de las ciencias sociales, creo que vale la pena hacer un resumen rápido de los supuestos fundamentales para OLS y realizar algunas pruebas mediante la construcción de un modelo de regresión lineal utilizando el clásico Boston Datos de alojamiento.

Los supuestos de Gauss-Markov aseguran que los coeficientes de regresión de OLS sean las mejores estimaciones lineales imparciales o azul.

Linealidad en los parámetros
Muestreo aleatorio: los datos observados representan una muestra aleatoria de la población

Es importante tener en cuenta que OLS es imparcial (es decir, E (β*) = β) cuando se satisfacen los supuestos 1–4. La heterocedasticidad no tiene efecto sobre el sesgo o la consistencia de los estimadores de OLS, pero significa que los estimadores de OLS ya no son azules y las estimaciones de los errores estándar son incorrectos.

El conjunto de datos de precios de la vivienda de Boston consta de 506 observaciones de 14 atributos:

Crimena: tasa de criminalidad per cápita por ciudad Zn: proporción de tierras residenciales zonas por lotes de más de 25,000 pies cuadrados Indus: Proporción de acres comerciales no reales por ciudad Chas: variable ficticia de Charles River (= 1 si el río del tracto límite; 0 de lo contrario) NOX: concentración de óxidos nítricos (piezas por 10 millones) RM: Número promedio de habitaciones por edad de vivienda: proporción de unidades ocupadas por el propietario construidas antes de 1940 DIS: distancias ponderadas a cinco centros de empleo de Boston Rad: Índice de accesibilidad al impuesto de carreteras radiales: Tasa de impulso de propiedad de valor completo por USD 10,000 Ptratio: relación alumno-maestro por ciudad negra: 1000 (b-0.63) ² donde b es la proporción de negros por la ciudad LSTAT: porcentaje del estado más bajo de la población Medv: valor medio de casas ocupadas por el propietario en USD 1000

¿Qué es la prueba de hipótesis en regresión lineal múltiple?

En esta lección, hacemos nuestro primer (¿y último?) Gran salto en el curso. Pasamos del modelo de regresión lineal simple con un predictor al modelo de regresión lineal múltiple con dos o más predictores. Es decir, usamos el adjetivo «simple» para denotar que nuestro modelo solo tiene predictor, y usamos el adjetivo «múltiple» para indicar que nuestro modelo tiene al menos dos predictores.

En la configuración de regresión múltiple, debido a la cantidad potencialmente grande de predictores, es más eficiente usar matrices para definir el modelo de regresión y los análisis posteriores. Esta lección considera algunas de las fórmulas de regresión múltiple más importantes en forma de matriz. Si no está seguro de nada de esto, puede ser un buen momento para echar un vistazo a esta revisión de álgebra matriz.

La buena noticia es que todo lo que aprendió sobre el modelo de regresión lineal simple se extiende, con la mayoría de la modificación menor, al modelo de regresión lineal múltiple. Piénselo: ¡no tienes que olvidar todas las cosas buenas que aprendiste! En particular:

Los modelos tienen supuestos similares de «línea». La única diferencia real es que, mientras que en una regresión lineal simple pensamos en la distribución de errores a un valor fijo del predictor único, con regresión lineal múltiple tenemos que pensar en la distribución de errores en un conjunto fijo de valores para todos los predictores . Todos los procedimientos de verificación de modelos que aprendimos anteriormente son útiles en el marco de regresión lineal múltiple, aunque el proceso se involucra más, ya que ahora tenemos múltiples predictores. Exploraremos este problema más en la Lección 6.
El uso e interpretación de R2 (que denotaremos R2 en el contexto de la regresión lineal múltiple) sigue siendo el mismo. Sin embargo, con una regresión lineal múltiple también podemos hacer uso de un valor R2 «ajustado», que es útil para fines de construcción de modelos. Exploraremos esta medida más a fondo en la Lección 11.
Con una generalización menor de los grados de libertad, utilizamos pruebas t e intervalos T para los coeficientes de la pendiente de regresión para evaluar si un predictor está significativamente relacionado linealmente con la respuesta, después de controlar los efectos de todos los predictores opther en el modelo .
Con una generalización menor de los grados de libertad, utilizamos intervalos de confianza para estimar la respuesta media y los intervalos de predicción para predecir una respuesta individual. Los exploraremos más en la Lección 6.

Para el modelo de regresión lineal simple, solo hay un parámetro de pendiente sobre el cual se puede realizar pruebas de hipótesis. Para el modelo de regresión lineal múltiple, hay tres pruebas de hipótesis diferentes para pendientes que uno podría realizar. Están:

Los modelos tienen supuestos similares de «línea». La única diferencia real es que, mientras que en una regresión lineal simple pensamos en la distribución de errores a un valor fijo del predictor único, con regresión lineal múltiple tenemos que pensar en la distribución de errores en un conjunto fijo de valores para todos los predictores . Todos los procedimientos de verificación de modelos que aprendimos anteriormente son útiles en el marco de regresión lineal múltiple, aunque el proceso se involucra más, ya que ahora tenemos múltiples predictores. Exploraremos este problema más en la Lección 6.
El uso e interpretación de R2 (que denotaremos R2 en el contexto de la regresión lineal múltiple) sigue siendo el mismo. Sin embargo, con una regresión lineal múltiple también podemos hacer uso de un valor R2 «ajustado», que es útil para fines de construcción de modelos. Exploraremos esta medida más a fondo en la Lección 11.
Con una generalización menor de los grados de libertad, utilizamos pruebas t e intervalos T para los coeficientes de la pendiente de regresión para evaluar si un predictor está significativamente relacionado linealmente con la respuesta, después de controlar los efectos de todos los predictores opther en el modelo .
Con una generalización menor de los grados de libertad, utilizamos intervalos de confianza para estimar la respuesta media y los intervalos de predicción para predecir una respuesta individual. Los exploraremos más en la Lección 6.

Una prueba de hipótesis para probar que un parámetro de pendiente es 0

¿Cómo analizar la regresión lineal múltiple?

La idea principal de la regresión lineal múltiple es llenar la falta de información que determine una distorsión en la identificación correcta de la variable Y. En otras palabras, la regresión con más regresores permite, obviamente, si los datos están disponibles, para medir el efecto de una variable XI específica en la variable Y, manteniendo constantes las otras variables independientes.

Formalmente, el modelo de regresión lineal múltiple incluye más regresorix y asocia un coeficiente βi. El coeficiente β1, por ejemplo, representa la variación esperada de la variable dependiente de Y asociada con una variación unitaria de X1, manteniendo constantes a los otros regresores. Todos los regresores se interpretan de esta manera.

Los coeficientes del modelo de regresión lineal múltiple se pueden estimar a través del estimador de OLS clásico (mínimos cuadrados ordinarios), también conocido como el «estimador de los cuadrados ordinarios mínimos». Los mínimos cuadrados ordinarios son un método muy efectivo para estimar la intersección y la pendiente de la tarifa de regresión. De hecho, este estimador determina los coeficientes beta al elegir a quienes minimizan la suma de los cuadrados de errores.

Dado que los estimadores de OLS son confiables (es decir, no distorsionados), es necesario que respeten cuatro contrataciones:

El promedio condicional de errores es cero;
Las variables están aleatorias de forma independiente e idéntica (i.i.d.);

Como hemos visto, la regresión lineal múltiple es un excelente modelo estadístico para comprender cómo y en qué extensión más variable determinan la variabilidad de Y. Debe usarse con mucho cuidado: omitir el control de las contrataciones del estimador OLS puede dar lugar a resultados distorsionados. Y, quiero agregar, distorsiones fácilmente identificables por expertos estadísticos. Esto digo esto a aquellos que están llevando a cabo su primera regresión lineal múltiple. Muy a menudo, los trabajos estadísticos para la tesis o para las publicaciones se «rechazan», porque aquellos que controlan la corrección de los resultados se dan cuenta de que las conclusiones numéricas se obtienen violando la contratación de OLS.

¿Cuál es la hipotesis nula en una regresión lineal?

Priscilla Erickson de Kenyon College recopiló datos sobre una muestra aleatoria estratificada de 116 gorriones de Savannah en Kent Island. El peso (en gramos) y la longitud del ala (en mm) se obtuvieron para aves de nidos que se redujeron, controlaron o se agrandaron. ¿Es la longitud del ala un predictor lineal significativo de peso para los gorriones de Savannah? (Tweaked un poco de Cannon et al. 2013 [Capítulo 1])

Hipótesis nula: la pendiente de la población del peso de modelado de la línea de regresión de mínimos cuadrados en función de la longitud del ala es cero.

Hipótesis alternativa: la pendiente de la población del peso de modelado de la línea de regresión de mínimos cuadrados en función de la longitud del ala no es cero.

Hipótesis nula: no hay asociación entre la longitud del ala y el peso para los gorriones de la sabana.

Hipótesis alternativa: existe una asociación entre la longitud del ala y el peso para los gorriones de la sabana.

(H_0: beta_1 = 0 ), donde ( beta_1 ) representa la pendiente de población del peso de modelado de la línea de regresión de mínimos cuadrados en función de la longitud del ala.
(H_a: beta_1 ne 0 )

Es importante establecer el nivel de significancia antes de comenzar la prueba utilizando los datos. Establezcamos el nivel de significancia en 5% aquí.

El diagrama de dispersión a continuación muestra la relación entre la longitud del ala y el peso.

QPLOT (x = WingLength, y = peso, data = gorrión, geom = "punto")

Estamos buscando ver si la longitud de ala es un predictor lineal significativo de peso. Según la trama, parece razonable adivinar que rechazaremos la hipótesis nula aquí.

¿Cuál es la hipotesis nula al probar un coeficiente de regresion simple?

La regresión lineal es una técnica que podemos usar para comprender la relación entre una o más variables predictoras y una variable de respuesta.

Si solo tenemos una variable predictor y una variable de respuesta, podemos usar una regresión lineal simple, que utiliza la siguiente fórmula para estimar la relación entre las variables:

ŷ: El valor de respuesta estimado.
β0: el valor promedio de y cuando x es cero.
β1: el cambio promedio en Y asociado con un aumento de una unidad en x.
X: El valor de la variable predictor.

La regresión lineal simple utiliza las siguientes hipótesis nulas y alternativas:

ŷ: El valor de respuesta estimado.
β0: el valor promedio de y cuando x es cero.
β1: el cambio promedio en Y asociado con un aumento de una unidad en x.
X: El valor de la variable predictor.

H0: β1 = 0

HA: β1 ≠ 0

La hipótesis nula establece que el coeficiente β1 es igual a cero. En otras palabras, no existe una relación estadísticamente significativa entre la variable predictor, X y la variable de respuesta, y.

La hipótesis alternativa establece que β1 no es igual a cero. En otras palabras, existe una relación estadísticamente significativa entre X e Y.

Si tenemos múltiples variables predictoras y una variable de respuesta, podemos usar una regresión lineal múltiple, que utiliza la siguiente fórmula para estimar la relación entre las variables:

ŷ: El valor de respuesta estimado.
β0: el valor promedio de y cuando x es cero.
β1: el cambio promedio en Y asociado con un aumento de una unidad en x.
X: El valor de la variable predictor.

H0: β1 = 0

HA: β1 ≠ 0

ŷ: El valor de respuesta estimado.

β0: El valor promedio de y cuando todas las variables predictoras son iguales a cero.

βi: el cambio promedio en Y asociado con un aumento de una unidad en XI.

XI: El valor de la variable predictor XI.

¿Qué implica rechazar la siguiente hipótesis nula en el modelo de regresión lineal simple?

¿Estoy rechazando la hipótesis nula de que el coeficiente para esa variable es 0

Sí, siempre que sea el coeficiente de población ($ beta_i $) de lo que está hablando (obviamente, con respuesta continua, la estimación del coeficiente no es 0).

¿O estoy aceptando una hipótesis nula de que el coeficiente es! = 0?

Las hipótesis nulas generalmente serían nulas, ya sea ‘sin efecto’ o algún valor aceptado convencionalmente. En este caso, el coeficiente de población es 0 es un clásico ‘sin efecto’ nulo.

Más prosaicamente, al probar una hipótesis puntual contra una alternativa compuesta (una alternativa de dos lados en este caso), uno toma la hipótesis del punto como el nulo, porque ese es el que podemos calcular la distribución de la estadística de prueba (en general generalmente , el uso de un conjunto abierto para un nulo presenta ciertos problemas, incluso cuando ambos son compuestos). Con un par de hipótesis puntuales, una (al menos mecánicamente) es libre de hacer de cualquiera de los nulos (e incluso entonces uno generalmente querría hacer que sea más claramente «nulo» el nulo, si cualquiera de ellos lo es; es para elegir el ‘sin efecto’ o convencionalmente aceptado uno el nulo).

Cualquier ecuación de regresión viene dada por y = a + b*x + u, donde ‘a’ y ‘b’ son la intercepción y la pendiente de la mejor línea de ajuste y ‘u’ es el término de perturbación.
Imagina b = 0; La ecuación sería y = a + 0*x + u = a + u.
Observe que la ‘X’ ha desaparecido. Simplemente significa que no hay relación entre y y x.
Por lo tanto, la hipótesis de prueba sería, HO: B = 0; Ja: b! = 0

¿Cómo interpretar el coeficiente de regresión?

Anteriormente, vimos que el método de mínimos cuadrados se usa para adaptarse a la mejor línea de regresión.

La variación total en nuestros valores de respuesta se puede dividir en dos componentes: la variación explicada por nuestro modelo y la variación o ruido inexplicable.

La suma total de cuadrados, o SST, es una medida de la variación de cada valor de respuesta alrededor de la media de la respuesta. Para cada observación, esta es la diferencia entre el valor de respuesta y la respuesta media general.
La suma modelo de cuadrados, o SSM, es una medida de la variación explicada por nuestro modelo. Para cada observación, esta es la diferencia entre el valor predicho y la respuesta media general. Esta es la variación que atribuimos a la relación entre X e Y. Tenga en cuenta que a veces esto se informa como SSR o suma de regresión de cuadrados.
La suma de error de los cuadrados, o SSE, es una medida del error aleatorio o de la variación inexplicable. Para cada observación, esta es la diferencia entre el valor de respuesta y el valor predicho. Esta es la variación que no se explica por nuestro modelo de regresión. Esto también se conoce como suma de errores al cuadrado.

Toda la variación en nuestra respuesta se puede dividir en la suma modelo de cuadrados o la suma de error de los cuadrados.

Otra forma de pensar en las sumas de cuadrados es considerar un triángulo correcto. La suma total de los cuadrados se puede descomponer en un error y sumas de modelos de cuadrados. Compare las sumas de cuadrados para el Modelo 1 y el Modelo 2. En el Modelo 1, más de la variación total en la respuesta no es explicada que en el Modelo 2. En otras palabras, el Modelo 2 explica más de la variación total en la respuesta que el Modelo 1.

¿Cómo se aplica la regresión lineal simple?

El modelo de regresión se utiliza para estimar con la mayor precisión posible del valor de la respuesta variable, comenzando a partir de los valores de las variables explicativas.

La regresión lineal es una extensión del análisis de la correlación lineal. Al igual que el análisis de correlación, la regresión lineal permite analizar la relación entre variables. De hecho, le permite estudiar tanto su dirección como su importancia. Además, la regresión le permite cuantificar qué, en promedio, aumentará o disminuirá la Y como la puntuación de la puntuación de una variable explicativa.

Si tiene claro el análisis de una regresión lineal simple, verá que la extensión del caso múltiple será fácil de entender.

La construcción de un modelo de regresión lineal múltiple tiene dos objetivos: permite cuantificar la relación entre la variable dependiente (la y) y un conjunto de variables explicativas (la x). Además, le ayuda a predecir cuál es el valor de y para ciertos valores de X. y tiene dos objetivos:

Cuantifique la relación entre la variable de respuesta (y) y un conjunto de regresores (la x)
Predecir cuál es el valor de y para ciertos valores de la X. En otras palabras, analice cuál, cuánto y cómo los regresores contribuyen a la explicación de la varianza de la respuesta variable.

La regresión se puede aplicar a muchas áreas: desde la medicina hasta la sociología, desde la psicología hasta la economía, desde las ciencias del motor hasta las de la educación.

¿Qué es y para qué sirve la regresión lineal simple?

La regresión lineal simple es un tipo de algoritmos de regresión que modela la relación entre una variable dependiente y una sola variable independiente. La relación que se muestra por un modelo de regresión lineal simple es lineal o una línea recta inclinada, por lo tanto, se llama regresión lineal simple.

El punto clave en la regresión lineal simple es que la variable dependiente debe ser un valor continuo/real. Sin embargo, la variable independiente se puede medir en valores continuos o categóricos.

El algoritmo de regresión lineal simple tiene principalmente dos objetivos:

Modele la relación entre las dos variables. Como la relación entre ingresos y gastos, experiencia y salario, etc.
Pronecir nuevas observaciones. Tales como el pronóstico del tiempo de acuerdo con la temperatura, los ingresos de una empresa según las inversiones en un año, etc.

El modelo de regresión lineal simple se puede representar utilizando la siguiente ecuación:

y = a0+ a1x+ ε

A0 = Es la intersección de la línea de regresión (se puede obtener colocando x = 0) a1 = es la pendiente de la línea de regresión, lo que dice si la línea está aumentando o disminuyendo. ε = el término de error. (Para un buen modelo será insignificante)

Ejemplo del estado de problemas para regresión lineal simple:

Aquí estamos tomando un conjunto de datos que tiene dos variables: salario (variable dependiente) y experiencia (variable independiente). Los objetivos de este problema son:

Modele la relación entre las dos variables. Como la relación entre ingresos y gastos, experiencia y salario, etc.
Pronecir nuevas observaciones. Tales como el pronóstico del tiempo de acuerdo con la temperatura, los ingresos de una empresa según las inversiones en un año, etc.

Queremos averiguar si hay alguna correlación entre estas dos variables.