¿Qué es la regresión lineal y para qué sirve?

La regresión lineal se usa para encontrar una relación lineal entre el objetivo y uno o más predictores. Hay dos tipos de regresión lineal, simple y múltiple.

La regresión lineal simple es útil para encontrar una relación entre dos variables continuas. Uno es una variable predictor o independiente y otra es la respuesta o la variable dependiente. Busca una relación estadística pero no una relación determinista. Se dice que la relación entre dos variables es determinista si una variable puede ser expresada con precisión por la otra. Por ejemplo, usando la temperatura en el grado Celsius, es posible predecir con precisión Fahrenheit. La relación estadística no es precisa para determinar la relación entre dos variables. Por ejemplo, relación entre altura y peso.

La idea central es obtener una línea que mejor se adapte a los datos. La mejor línea de ajuste es la que el error de predicción total (todos los puntos de datos) es lo más pequeño posible. El error es la distancia entre el punto a la línea de regresión.

Tenemos un conjunto de datos que contiene información sobre la relación entre «número de horas estudiadas» y «marcas obtenidas». Se han observado muchos estudiantes y se registran sus horas de estudio y grado. Estos serán nuestros datos de capacitación. El objetivo es diseñar un modelo que pueda predecir marcas si se les da el número de horas estudiadas. Usando los datos de entrenamiento, se obtiene una línea de regresión que dará un error mínimo. Esta ecuación lineal se usa para cualquier datos nuevos. Es decir, si damos un número de horas estudiadas por un estudiante como entrada, nuestro modelo debe predecir su marca con un error mínimo.

¿Qué utilidad tiene la recta de regresión?

Para responder preguntas utilizando el análisis de regresión, primero debe ajustarse y verificar que tenga un buen modelo. Luego, miras a través de los coeficientes de regresión y los valores P. Cuando tiene un valor p bajo (típicamente <0.05), la variable independiente es estadísticamente significativa. Los coeficientes representan el cambio promedio en la variable dependiente dado un cambio de una unidad en la variable independiente (IV) mientras se controla las otras IV.

Por ejemplo, si su variable dependiente es el ingreso y su IV incluye IQ y Educación (entre otras variables relevantes), puede ver una producción como esta:

Los bajos valores p indican que tanto la educación como el coeficiente intelectual son estadísticamente significativos. El coeficiente para IQ indica que cada punto de IQ adicional aumenta sus ingresos en un promedio de aproximadamente $ 4.80 mientras controla todo lo demás en el modelo. Además, una unidad adicional de educación aumenta las ganancias promedio en $ 24.22 mientras mantiene constantes las otras variables.

El uso del análisis de regresión le brinda la capacidad de separar los efectos de preguntas de investigación complicadas. Puede desenredar los fideos de espagueti modelando y controlando todas las variables relevantes, y luego evaluar el papel que juega cada uno.

Primero, felicidades y muchas gracias en este maravilloso sitio web, lo que hace que las estadísticas se vean un poco más fáciles y comprensibles. Es un gran recurso, tanto para estudiantes como para profesionales. Gracias de nuevo.

¿Cuándo utilizar regresion lineal simple?

Debe usar una regresión lineal simple en el siguiente escenario:

  • Desea usar una variable en una predicción de otra, o desea cuantificar la relación numérica entre dos variables
  • La variable que desea predecir (su variable dependiente) es continua
  • Tiene una variable independiente o una variable que está utilizando como predictor

Aclaremos esto para ayudarlo a saber cuándo usar una regresión lineal simple

Está buscando una prueba estadística para predecir una variable usando otra. Esta es una pregunta de predicción. Otros tipos de análisis incluyen examinar la fuerza de la relación entre dos variables (correlación) o examinar las diferencias entre los grupos (diferencia).

La variable que desea predecir debe ser continua. Continua significa que su variable de interés básicamente puede asumir cualquier valor, como frecuencia cardíaca, altura, peso, número de barras de helado que puede comer en 1 minuto, etc.

Los tipos de datos que no son continuos incluyen datos ordenados (como el lugar de finalización en una carrera, las mejores clasificaciones comerciales, etc.), datos categóricos (género, color de ojos, raza, etc.) o datos binarios (comprados el producto o no , tiene la enfermedad o no, etc.).

La regresión lineal simple se usa cuando hay una variable predictor medida en un solo punto en el tiempo.

Si tiene más de una variable independiente, debe usar otra variante de regresión lineal llamada regresión lineal múltiple, y si tiene una variable independiente pero se mide para el mismo grupo en múltiples puntos, entonces debe usar una mixta Modelo de efectos.

¿Cuándo se usa una regresión lineal simple?

La regresión lineal simple se utiliza para descubrir la mejor relación entre una variable de entrada única (predictor, variable independiente, función de entrada, parámetro de entrada) y variable de salida (predicción, variable dependiente, función de salida, parámetro de salida) siempre que ambas variables sean continuas en naturaleza. Esta relación representa cómo una variable de entrada está relacionada con la variable de salida y cómo está representada por una línea recta.

Para comprender este concepto, echemos un vistazo a las parcelas de dispersión. Los diagramas o gráficos de dispersión proporcionan una representación gráfica de la relación de dos variables continuas.

  • La dirección
  • La fuerza
  • La linealidad

Las características anteriores son entre la variable Y y la variable X. La gráfica de dispersión anterior nos muestra que la variable Y y la variable X poseen una fuerte relación lineal positiva. Por lo tanto, podemos proyectar una línea recta que pueda definir los datos de la manera más precisa posible.

Si la relación entre la variable X y la variable Y es fuerte y lineal, concluimos que la variable independiente particular X es la variable de entrada efectiva para predecir la variable dependiente Y.

Para verificar la colinealidad entre la variable X y la variable Y, tenemos el coeficiente de correlación (R), que le dará un valor numérico de correlación entre dos variables. Puede tener una correlación fuerte, moderada o débil entre dos variables. Mayor El valor de «r», mayor la preferencia dada para la variable de entrada particular x para predecir la variable de salida Y. Pocas propiedades de «r» se enumeran de la siguiente manera:

  • La dirección
  • La fuerza
  • La linealidad
  • Rango de r: -1 a +1
  • ¿Cuándo se usa la regresión lineal y que supuestos debe cumplir?

    Una nota sobre el tamaño de la muestra. En la regresión lineal, la regla general del tamaño de la muestra es que el análisis de regresión requiere al menos 20 casos por variable independiente en el análisis.

    En el software a continuación, es realmente fácil realizar una regresión y la mayoría de las suposiciones son precargadas e interpretadas para usted.

    Alinear el marco teórico, la recopilación de artículos, sintetizar brechas, articular una metodología y plan de datos claros, y escribir sobre las implicaciones teóricas y prácticas de su investigación son parte de nuestros servicios integrales de edición de tesis.

    • Rastree todos los cambios, luego trabaje con usted para lograr una escritura académica.
    • Apoyo continuo para abordar los comentarios del comité, reduciendo las revisiones.

    Primero, la regresión lineal necesita que la relación entre las variables independientes y dependientes sea lineal. También es importante verificar los valores atípicos ya que la regresión lineal es sensible a los efectos atípicos. La suposición de linealidad se puede probar mejor con gráficos de dispersión, los siguientes dos ejemplos representan dos casos, donde no hay poca linealidad presente.

    En segundo lugar, el análisis de regresión lineal requiere que todas las variables sean multivariadas normales. Esta suposición se puede verificar mejor con un histograma o una trama Q-Q. La normalidad se puede verificar con una prueba de bondad de ajuste, por ejemplo, la prueba de Kolmogorov-Smirnov. Cuando los datos no se distribuyen normalmente, una transformación no lineal (por ejemplo, la transformación logarítmica) podría solucionar este problema.

    Artículos Relacionados:

    Más posts relacionados:

    Deja una respuesta

    Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *