Cómo hacer una regresión lineal en R

Esta publicación trata sobre la implementación del modelo de regresión lineal simple para principiantes de ML en paso a paso con una explicación detallada.

Si es nuevo en el aprendizaje automático, consulte esta publicación para obtener una idea clara sobre el aprendizaje automático y sus conceptos básicos.

¿Cuál es la lógica detrás del modelo de regresión lineal simple?

Como su nombre lo indica, la regresión lineal sigue el modelo matemático lineal para determinar el valor de una variable dependiente del valor de una variable independiente dada. ¿Recuerdas la ecuación lineal de la escuela?

donde y es la variable dependiente, m es pendiente, x es la variable independiente y C es la intercepción para una línea dada.

También tenemos un modelo de regresión múltiple donde se utilizan múltiples variables independientes para calcular una variable dependiente.

He usado el cuaderno Jupyter para la implementación. Cualquier IDE de Python se puede usar de su elección. Así que vamos a rodar…

Paso 1

Ya hay bibliotecas desarrolladas en Python para la implementación de modelos de aprendizaje automático.

La primera biblioteca llamada matplotlib se usa para trazar el gráfico en el último paso. «PLT» se usa como nombre variable para usar esta biblioteca en código anticipado.

Sklearn es la Biblioteca oficial de aprendizaje automático en Python para diversas implementación del modelo.

Numpy se usa para convertir datos en matrices para uso real por la biblioteca Sklearn.

Nuestro conjunto de datos está en un tipo de archivo .csv. La variable PD PANBLE se usa para acceder al conjunto de datos con la función read_csv ().

¿Cómo se calcula la regresión lineal?

Si bien es posible calcular la regresión lineal a mano, implica muchas sumas y cuadrados, ¡sin mencionar sumas de cuadrados! Entonces, si pregunta cómo encontrar coeficientes de regresión lineal o cómo encontrar la línea de regresión de mínimos cuadrados, la mejor respuesta es usar un software que lo haga por usted. Las calculadoras de regresión lineal determinan la línea de mejor ajuste minimizando la suma de los términos de error al cuadrado (la diferencia al cuadrado entre los puntos de datos y la línea).

La calculadora anterior gráfica y generará un modelo de regresión lineal simple para usted, junto con la prueba de la relación y la ecuación del modelo. Tenga en cuenta que Y es su variable dependiente: la que finalmente está interesada en predecir (por ejemplo, costo de los hogares). X es simplemente una variable utilizada para hacer esa predicción (ecuación de pies cuadrados de casas).

Regístrese para obtener más información sobre cómo realizar una regresión lineal y otros análisis estadísticos comunes.

  • La interpretación de regresión lineal del coeficiente de pendiente, M, es «el cambio estimado en y para un aumento de 1 unidades de X».
  • La interpretación del parámetro de intercepción, b, es «el valor estimado de y cuando x es igual a 0.»

La primera parte de los resultados contiene los mejores valores de ajuste de los términos de pendiente y intersección y. Estas estimaciones de parámetros construyen la línea de regresión del mejor ajuste. Puede ver cómo encajan en la ecuación en la parte inferior de la sección de resultados. Nuestra guía puede ayudarlo a aprender más sobre la interpretación de pendientes de regresión, intercepciones e intervalos de confianza.

¿Qué es el r2 en una regresión lineal?

La prueba de chi-cuadrado de Pearson utiliza una medida de bondad de ajuste, que es la suma de las diferencias entre las frecuencias de resultados observadas y esperadas (es decir, recuentos de observaciones), cada uno cuadrado y dividido por la expectativa:

El valor resultante se puede comparar con una distribución de chi-cuadrado para determinar la bondad del ajuste. La distribución de chi-cuadrado tiene (k-c) grados de libertad, donde K es el número de celdas no vacías y C es el número de parámetros estimados (incluidos los parámetros de ubicación y escala y parámetros de forma) para la distribución más uno. Por ejemplo, para una distribución de Weibull de 3 parámetros, c = 4.

Por ejemplo, para probar la hipótesis de que una muestra aleatoria de 100 personas ha sido extraída de una población en la que hombres y mujeres son iguales en frecuencia, el número observado de hombres y mujeres se compararía con las frecuencias teóricas de 50 hombres y 50 mujeres . Si hubiera 44 hombres en la muestra y 56 mujeres, entonces

Si la hipótesis nula es verdadera (es decir, hombres y mujeres son elegidos con igual probabilidad en la muestra), la estadística de prueba se extraerá de una distribución de chi-cuadrado con un grado de libertad. Aunque uno podría esperar dos grados de libertad (uno para hombres y mujeres), debemos tener en cuenta que el número total de hombres y mujeres está limitado (100) y, por lo tanto, solo hay un grado de libertad (2 – 1 ). En otras palabras, si se sabe que el recuento masculino se determina el recuento femenino, y viceversa.

La consulta de la distribución de chi-cuadrado para 1 grado de libertad muestra que la probabilidad acumulativa de observar una diferencia más que χ2 = 1.44 { DisplayStyle Chi ^{2} = 1.44} si los hombres y las mujeres son igualmente numerosos en la población es aproximadamente 0.23. Esta probabilidad es mayor que los criterios convencionalmente aceptados para la significación estadística (una probabilidad de .001-.05), por lo que normalmente no rechazaríamos la hipótesis nula de que el número de hombres en la población es el mismo que el número de mujeres (es decir, Consideraríamos nuestra muestra dentro del rango de lo que esperaríamos para una proporción masculina/femenina 50/50).

¿Cómo se construye un modelo de regresión lineal?

El análisis de regresión es un poderoso proceso estadístico para encontrar las relaciones dentro de un conjunto de datos, con el enfoque clave en las relaciones entre las variables independientes (predictores) y una variable dependiente (resultado). Se puede usar para construir modelos para inferencia o predicción. Entre varios métodos de análisis de regresión, la regresión lineal establece la base y se usa bastante para varias aplicaciones del mundo real.

En esta publicación, buscaremos construir un modelo de regresión lineal para la inferencia. El conjunto de datos que utilizaremos son los datos de cargos de seguro obtenidos de Kaggle. Este conjunto de datos consta de 1.338 observaciones y 7 columnas: edad, sexo, IMC, niños, fumadores, región y cargos.

  • ¿Existe una relación entre los cargos médicos y otras variables en el conjunto de datos?

Comencemos con la construcción de un modelo lineal. En lugar de una regresión lineal simple, donde tienes un predictor y un resultado, iremos con una regresión lineal múltiple, donde tienes más de un predictores y un resultado.

Los coeficientes en esta ecuación lineal denotan la magnitud de la relación aditiva entre el predictor y la respuesta. En palabras más simples, manteniendo todo lo demás fijo, un cambio de unidad en X1 conducirá a un cambio de β1 en el resultado, y así sucesivamente.

Nuestro primer paso es encontrar si hay alguna relación entre el resultado y los predictores.

La hipótesis nula sería que no hay relación entre ninguno de los predictores y la respuesta, que se puede probar calculando la estadística F. El valor p de la estadística F se puede usar para determinar si la hipótesis nula puede ser rechazada o no.

¿Cómo se construye la regresión lineal multiple?

“Para predecir el resultado de múltiples variables de entrada. Duh! ”. Pero, ¿es eso? Bueno, mantén ese pensamiento.

Considere esto, suponga que debe estimar el precio de una determinada casa que desea comprar. Usted conoce el área del piso, la edad de la casa, su distancia desde su lugar de trabajo, la tasa de criminalidad del lugar, etc.

Ahora, algunos de estos factores afectarán positivamente el precio de la casa. Por ejemplo, más el área, cuanto más sea el precio. Por otro lado, factores como la distancia del lugar de trabajo y la tasa de criminalidad pueden influir negativamente en su estimación de la casa (a menos que sea un criminal rico con interés en el aprendizaje automático que busca un escondite, sí, no lo creo).

Las desventajas de la regresión lineal simple → ejecutar regresiones lineales simples separadas conducirán a diferentes resultados cuando estemos interesados ​​en solo una. Además de eso, puede haber una variable de entrada que esté correlacionada o dependiente de algún otro predictor. Esto puede causar predicciones incorrectas y resultados insatisfactorios.

Aquí es donde entra en la imagen la regresión lineal múltiple.

Aquí, Y es la variable de salida, y los términos X son las variables de entrada correspondientes. Observe que esta ecuación es solo una extensión de regresión lineal simple, y cada predictor tiene un coeficiente de pendiente correspondiente (β).

El primer término β (βO) es la constante de intercepción y es el valor de y en ausencia de todos los predictores (es decir, cuando todos los términos x son 0). Puede o no tener importancia en un problema de regresión dado. Generalmente está ahí para dar un empujón relevante a la línea/plano de regresión.

¿Qué es y cómo se realiza una regresión lineal?

La regresión lineal es un algoritmo de aprendizaje automático basado en el aprendizaje supervisado. Realiza una tarea de regresión. Modelos de regresión Un valor de predicción objetivo basado en variables independientes. Se utiliza principalmente para descubrir la relación entre variables y pronósticos. Los diferentes modelos de regresión difieren en función de: el tipo de relación entre variables dependientes e independientes que están considerando, y el número de variables independientes que se utilizan.

La regresión lineal realiza la tarea para predecir un valor variable dependiente (y) basado en una variable independiente dada (x). Entonces, esta técnica de regresión encuentra una relación lineal entre X (entrada) e Y (salida). Por lo tanto, el nombre es regresión lineal. En la figura anterior, X (entrada) es la experiencia laboral y y (salida) es el salario de una persona. La línea de regresión es la mejor línea de ajuste para nuestro modelo.

Mientras capacita el modelo, se nos da: X: datos de entrenamiento de entrada (univariado – una variable de entrada (parámetro)) Y: etiquetas a los datos (aprendizaje supervisado)

Al entrenar el modelo, se ajusta a la mejor línea para predecir el valor de y para un valor dado de x. El modelo obtiene la mejor línea de ajuste de regresión al encontrar los mejores valores θ1 y θ2. θ1: intercepción θ2: coeficiente de x

Una vez que encontramos los mejores valores θ1 y θ2, obtenemos la mejor línea de ajuste. Entonces, cuando finalmente estamos utilizando nuestro modelo para la predicción, predecirá el valor de y para el valor de entrada de x.

¿Cómo actualizar los valores θ1 y θ2 para obtener la mejor línea de ajuste?

¿Cómo hacer un análisis de regresión?

El modelo de regresión Crear se utiliza para modelar la relación entre dos o más variables explicativas y una variable de respuesta ajustando una ecuación lineal a los datos observados. Cada valor de la variable independiente (x) está asociado con un valor de la variable dependiente (y).

Una organización ambiental está estudiando la causa de las emisiones de gases de efecto invernadero por país de 1990 a 2015. Crear modelo de regresión se puede utilizar para crear una ecuación que pueda estimar la cantidad de emisiones de gases de efecto invernadero por país en función de variables explicativas como la población y
Producto interno bruto (PIB).

Use los siguientes pasos para ejecutar la capacidad de análisis del modelo de regresión Crear:

  • Cree un mapa, gráfico o tabla utilizando el conjunto de datos con el que desea crear un modelo de regresión.
  • Haga clic en el botón Acción.
  • Haz una de las siguientes:
  • Si su tarjeta es un gráfico o una tabla, haga clic en cómo se relaciona en el panel de análisis.
  • Si su tarjeta es un mapa, haga clic en la pestaña Buscar respuestas y haga clic en cómo está relacionado.
  • Haga clic en Crear modelo de regresión.
  • Para elegir una capa, seleccione el conjunto de datos con el que desea crear un modelo de regresión.
  • Para elegir una variable dependiente, elija el campo que desee explicar con su modelo. El campo debe ser un número o tasa/relación.
  • Haga clic en Seleccionar variables explicativas para mostrar un menú de campos disponibles.
  • Seleccione los campos para usar como variables explicativas (también llamadas variables independientes).

Artículos Relacionados:

Más posts relacionados:

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *