La regresión lineal es el siguiente paso hacia arriba después de la correlación. Se usa cuando queremos predecir el valor de una variable en función del valor de otra variable. La variable que queremos predecir se denomina variable dependiente (o a veces, la variable de resultado). La variable que estamos utilizando para predecir el valor de la otra variable se llama variable independiente (o a veces, la variable predictor). Por ejemplo, puede usar la regresión lineal para comprender si el rendimiento del examen se puede predecir en función del tiempo de revisión; si el consumo de cigarrillos puede predecirse en función de la duración del tabaquismo; Etcétera. Si tiene dos o más variables independientes, en lugar de solo una, debe usar una regresión múltiple.
Esta guía de «inicio rápido» le muestra cómo realizar una regresión lineal utilizando estadísticas de SPSS, así como interpretar e informar los resultados de esta prueba. Sin embargo, antes de presentarle este procedimiento, debe comprender los diferentes supuestos que sus datos deben cumplir para que la regresión lineal le brinde un resultado válido. Discutimos estos supuestos a continuación.
Cuando elige analizar sus datos utilizando regresión lineal, parte del proceso implica verificar para asegurarse de que los datos que desea analizar realmente se pueden analizar utilizando regresión lineal. Debe hacer esto porque solo es apropiado usar regresión lineal si sus datos «pasan» siete supuestos que se requieren para la regresión lineal para darle un resultado válido. En la práctica, la verificación de estos siete supuestos solo agrega un poco más de tiempo a su análisis, lo que requiere que haga clic en algunos botones más en las estadísticas de SPSS al realizar su análisis, así como pensar un poco más sobre sus datos, pero lo es. No es una tarea difícil.
Antes de presentarle estos siete supuestos, no se sorprenda si, al analizar sus propios datos utilizando estadísticas de SPSS, se violan uno o más de estos supuestos (es decir, no se cumplen). Esto no es raro cuando se trabaja con datos del mundo real en lugar de ejemplos de libros de texto, que a menudo solo le muestran cómo llevar a cabo una regresión lineal cuando todo sale bien. Sin embargo, no te preocupes. Incluso cuando sus datos faltan ciertos supuestos, a menudo hay una solución para superar esto. Primero, echemos un vistazo a estos siete suposiciones:
- Asunción #1: Su variable dependiente debe medirse en el nivel continuo (es decir, es una variable de intervalo o relación). Los ejemplos de variables continuas incluyen el tiempo de revisión (medido en horas), inteligencia (medida usando la puntuación IQ), el rendimiento del examen (medido de 0 a 100), peso (medido en kg), etc. Puede obtener más información sobre las variables de intervalos y relaciones en nuestro artículo: tipos de variables.
- Asunción #2: Su variable independiente también debe medirse a nivel continuo (es decir, es una variable de intervalo o relación). Vea la bala anterior para ver ejemplos de variables continuas.
- Asunción #3: Debe haber una relación lineal entre las dos variables. Si bien hay varias formas de verificar si existe una relación lineal entre sus dos variables, sugerimos crear un diagrama de dispersión utilizando estadísticas SPSS donde puede trazar la variable dependiente contra su variable independiente y luego inspeccionar visualmente el diagrama de dispersión para verificar la linealidad. Su diagrama de dispersión puede verse como uno de los siguientes:
- Si la relación que se muestra en su diagrama de dispersión no es lineal, deberá ejecutar un análisis de regresión no lineal, realizar una regresión polinómica o «transformar» sus datos, que puede hacer utilizando estadísticas de SPSS. En nuestras guías mejoradas, le mostramos cómo: (a) crear un diagrama de dispersión para verificar la linealidad al realizar una regresión lineal utilizando estadísticas de SPSS; (b) interpretar diferentes resultados de diagrama de dispersión; y (c) transformar sus datos utilizando estadísticas SPSS si no hay una relación lineal entre sus dos variables.
- Asunción #4: No debe haber valores atípicos significativos. Un valor atípico es un punto de datos observado que tiene un valor variable dependiente que es muy diferente al valor predicho por la ecuación de regresión. Como tal, un valor atípico será un punto en un diagrama de dispersión que está (verticalmente) lejos de la línea de regresión que indica que tiene un gran residuo, como se resalta a continuación:
- El problema con los valores atípicos es que pueden tener un efecto negativo en el análisis de regresión (por ejemplo, reducir el ajuste de la ecuación de regresión) que se utiliza para predecir el valor de la variable dependiente (resultado) en función de la variable independiente (predictor). Esto cambiará el resultado que produce las estadísticas de SPSS y reducirá la precisión predictiva de sus resultados. Afortunadamente, cuando se utiliza estadísticas de SPSS para ejecutar una regresión lineal en sus datos, puede incluir fácilmente criterios para ayudarlo a detectar posibles valores atípicos. En nuestra guía de regresión lineal mejorada, nosotros: (a) le mostramos cómo detectar valores atípicos utilizando «diagnóstico de casos», que es un proceso simple cuando se usa estadísticas de SPSS; y (b) discutir algunas de las opciones que tiene para tratar con valores atípicos.
- Asunción #5: Debe tener la independencia de las observaciones, que puede verificar fácilmente el uso de la estadística de Durbin-Watson, que es una prueba simple para ejecutar utilizando estadísticas de SPSS. Explicamos cómo interpretar el resultado de la estadística de Durbin-Watson en nuestra guía de regresión lineal mejorada.
- Asunción #6: Sus datos deben mostrar homoscedasticidad, que es donde las variaciones a lo largo de la línea de mejor ajuste siguen siendo similares a medida que avanza a lo largo de la línea. Si bien explicamos más sobre lo que esto significa y cómo evaluar la homoscedasticidad de sus datos en nuestra guía de regresión lineal mejorada, eche un vistazo a los tres diagramas de dispersión a continuación, que proporcionan tres ejemplos simples: dos de los datos que fallan el supuesto (llamado heteroscedasticidad) y uno de los datos que cumple con esta suposición (llamada homoscedasticidad):
- Si bien estos ayudan a ilustrar las diferencias en los datos que cumplen o viola la suposición de homoscedasticidad, los datos del mundo real pueden ser mucho más desordenados e ilustrar diferentes patrones de heterocedasticidad. Por lo tanto, en nuestra guía de regresión lineal mejorada, explicamos: (a) algunas de las cosas que deberá considerar al interpretar sus datos; y (b) posibles formas de continuar con su análisis si sus datos no cumplen con esta suposición.
- Asunción #7: Finalmente, debe verificar que los residuos (errores) de la línea de regresión se distribuyan aproximadamente normalmente (explicamos estos términos en nuestra guía de regresión lineal mejorada). Dos métodos comunes para verificar esta suposición incluyen el uso de un histograma (con una curva normal superpuesta) o un gráfico P-P normal. Nuevamente, en nuestra guía de regresión lineal mejorada, nosotros: (a) le mostramos cómo verificar esta suposición utilizando estadísticas de SPSS, ya sea que use un histograma (con curva normal superpuesta) o gráfico P-P normal; (b) explicar cómo interpretar estos diagramas; y (c) proporcionar una posible solución si sus datos no cumplen con esta suposición.
Puede verificar los supuestos #3, #4, #5, #6 y #7 utilizando estadísticas SPSS. Los supuestos #3 deben verificarse primero, antes de pasar a los supuestos #4, #5, #6 y #7. Sugerimos probar los supuestos en este orden porque los supuestos #3, #4, #5, #6 y #7 requieren que ejecute el procedimiento de regresión lineal en las estadísticas de SPSS primero, por lo que es más fácil lidiar con estos después de verificar la suposición #1 y 2. Solo recuerde que si no ejecuta las pruebas estadísticas en estos supuestos correctamente, los resultados que obtiene al ejecutar una regresión lineal podría no ser válido. Es por eso que dedicamos una serie de secciones de nuestra guía de regresión lineal mejorada para ayudarlo a hacerlo bien. Puede obtener más información sobre nuestro contenido mejorado en su conjunto en nuestras características: la página de descripción general, o más específicamente, aprende cómo ayudamos a probar los supuestos en nuestras características: la página de supuestos.
¿Qué es regresión en SPSS?
La técnica de regresión se utiliza para evaluar la fuerza de una relación entre una (s) variable (s) dependiente (s) dependiente y independiente. Ayuda a predecir el valor de una variable dependiente de una o más variable independiente. El análisis de regresión ayuda a predecir cuánta varianza se contabiliza en una sola respuesta (variable dependiente) por un conjunto de variables independientes.
- Regresión bivariada
- Regresión múltiple
La regresión bivariada es similar a la correlación bivariada, porque ambos están diseñados para situaciones en las que solo hay dos variables. Sin embargo, se creó una regresión múltiple para casos en los que hay tres o más variables. Los diferentes tipos de regresión son como la correlación, ya que se utilizan para evaluar la relación entre las variables. Esto puede hacerle pensar que la regresión es otra forma de medir la correlación, sin embargo, hay una diferencia en la correlación y la regresión en su propósito, el etiquetado de las variables y los tipos de pruebas inferenciales aplicadas.
- Regresión bivariada
- Regresión múltiple
El análisis de regresión más simple se llama regresión bivariada. Dos variables están involucradas en la regresión bivariada. Una es la variable dependiente que se debe predecir, la otra es una variable independiente que explica la varianza en la variable dependiente. El propósito de este tipo de regresión puede ser predicción o explicación; Sin embargo, la regresión bivariada se usa con mayor frecuencia para ver qué tan bien se pueden predecir puntajes en la variable dependiente a partir de los datos de la variable independiente.
Predecir el valor de una variable de una o más otras variables
El análisis de regresión se usa para predecir los valores de una variable dependiente dados los valores de una o más variables independientes calculando una ecuación de regresión. Por ejemplo, a un gerente de marketing le gustaría predecir si la variación en las ventas puede explicarse en términos de variación en el gasto de publicidad?
¿Qué es y para qué sirve la regresion?
¿Qué es la regresión? La regresión es una técnica de análisis estadístico que permite investigar las relaciones de dependencia entre la variabilidad variable. A diferencia de la correlación, por lo tanto, la regresión le permite estudiar relaciones de causa-efecto.
Cuando entre dos variables hay un informe de dependencia, puede intentar predecir el valor de una variable de acuerdo con el valor tomado del otro.
- Regresión lineal simple. La regresión lineal simple se refiere a la relación causa-efecto existente entre solo dos variables; Este es el caso de cuándo se supone una relación causal entre una variable independiente (x) en la que actuamos, y el empleado (y) en el que desea producir un efecto. Al construir un modelo de regresión lineal, es posible predecir Y de acuerdo con X.
- Regresiónmultipla. Estudios de regresión múltiple La influencia de dos o más variables explicativas en una variable de empleado; Es decir, cómo este último está determinado por al menos otras dos variables. Por ejemplo, la tendencia a comprar un determinado producto podría depender del precio y la calidad percibida. En este caso, el precio y la calidad del producto percibido representan variables capaces de predecir el comportamiento de compra.
Por supuesto, es raro que pueda identificar todas las variables capaces de explicar el progreso de otro. Para comprender cuánto las variables incluidas en el modelo de regresión múltiple pueden predecir la variable dependiente (en el ejemplo anterior, el comportamiento de compra), se observa el valor del «cuadrado R» o el índice de bondad de adaptación. Esto indica qué tan fuerte es la capacidad predictiva del modelo obtenido, es decir, cuánto las variables independientes (la x) logran predecir los valores de la variable dependiente (la y).
El índice R cuadrado varía de 0 a 1. Si el índice es igual 0, indica un modelo cuyas variables predictivas no explican la variable dependiente en absoluto. Por el contrario, si el valor del cuadrado R es 1, las variables incluidas en el modelo de regresión múltiple explican completamente dependiente del lavado.
Como puede adivinar el ejemplo que se muestra anteriormente, saber cómo llevar a cabo el análisis de regresión es muy importante para trabajar en el sector de investigación de mercado y basar los pronósticos en los datos objetivos. En una investigación de 2022, surgió que el análisis estadístico y la capacidad de interpretar los resultados emergentes son algunas de las habilidades clave para aquellos que desean operar en este sector.
¿Cómo hacer un modelo de regresión lineal en SPSS?
La Compañía X hizo que 10 empleados hicieran un IQ y una prueba de desempeño laboral. Los datos resultantes, parte de los cuales se muestran a continuación, se encuentran en la regresión lineal simple.sav.
Lo principal que la compañía X quiere descubrir es
¿IQ predice el desempeño laboral? Y -si así, ¿cómo?
Responderemos estas preguntas ejecutando un análisis de regresión lineal simple en SPSS.
Un gran punto de partida para nuestro análisis es un diagrama de dispersión. Esto nos dirá si el IQ y los puntajes de rendimiento y su relación, si tiene algún sentido en primer lugar. Crearemos nuestro cuadro de
Dialogsspatter/punto gráfico
Y luego seguiremos las capturas de pantalla a continuación.
- un título que dice lo que mi audiencia está básicamente mirando y
- Un subtítulo que dice qué encuestados u observaciones se muestran y cuántas.
Caminar a través de los diálogos dio como resultado la sintaxis a continuación. Así que vamos a ejecutarlo.
Derecha. En primer lugar, no vemos nada extraño en nuestro diagrama de dispersión. Parece haber una correlación moderada entre el coeficiente intelectual y el rendimiento: en promedio, los encuestados con puntajes de coeficiente intelectual más altos parecen funcionar mejor. Esta relación parece más o menos lineal.
Ahora agregemos una línea de regresión a nuestro diagrama de dispersión. Haga clic con el botón derecho y seleccionando Editar Contentin en la ventana separada se abre una ventana del editor de gráficos. Aquí simplemente hacemos clic en el icono «Agregar línea de ajuste al total» como se muestra a continuación.
Por defecto, SPSS ahora agrega una línea de regresión lineal a nuestro diagrama de dispersión. El resultado se muestra a continuación.
Ahora tenemos algunas primeras respuestas básicas a nuestras preguntas de investigación. R2 = 0.403 indica que IQ representa alrededor del 40.3% de la varianza en los puntajes de rendimiento. Es decir, IQ predice el rendimiento bastante bien en esta muestra.
Pero, ¿cómo podemos predecir mejor el desempeño laboral de IQ? Bueno, en nuestro plan de dispersión es el rendimiento (que se muestra en el eje y) y X es IQ (que se muestra en el eje x). Entonces eso será
Rendimiento = 34.26 + 0.64 * IQ.
Entonces, para un solicitante de empleo con una puntuación de IQ de 115, predeciremos 34.26 + 0.64 * 115 = 107.86 como su puntaje de rendimiento futuro más probable.
Correcto, eso nos da una idea básica sobre la relación entre el coeficiente intelectual y el rendimiento y la presenta visualmente. Sin embargo, aún faltan mucha información, significación estadística e intervalos de confianza. Así que vamos a buscarlo.
¿Cuándo aplicar regresión lineal?
Primero, no digo que la regresión lineal sea mejor que el aprendizaje profundo.
En segundo lugar, si sabe que está específicamente interesado en aplicaciones relacionadas con el aprendizaje profundo como la visión por computadora, el reconocimiento de imágenes o el reconocimiento de voz, este artículo probablemente sea menos relevante para usted.
Pero para todos los demás, quiero dar mis pensamientos sobre por qué creo que es mejor que el análisis de regresión de aprendizaje sobre el aprendizaje profundo. ¿Por qué? Porque el tiempo es un recurso limitado y cómo asigna su tiempo determinará qué tan lejos está en su viaje de aprendizaje.
Y así, voy a dar mis dos centavos sobre por qué creo que deberías aprender el análisis de regresión antes del aprendizaje profundo.
En términos más generales, el análisis de regresión se refiere a un conjunto de métodos estadísticos que se utilizan para estimar las relaciones entre variables dependientes e independientes.
Sin embargo, una gran idea errónea es que el análisis de regresión se refiere únicamente a la regresión lineal, que no es el caso. Hay tantas técnicas estadísticas dentro del análisis de regresión que son extremadamente poderosas y útiles. Esto me lleva a mi primer punto:
La regresión lineal y las redes neuronales son modelos que puede usar para hacer predicciones dadas algunas entradas. Pero más allá de hacer predicciones, el análisis de regresión le permite hacer muchas cosas más que incluyen, entre otras,:
- El análisis de regresión le permite comprender la fuerza de las relaciones entre las variables. Utilizando mediciones estadísticas como R cuadrado R / R cuadrado ajustado, el análisis de regresión puede decirle cuánto de la variabilidad total en los datos explica su modelo.
¿Cuándo se puede aplicar una regresión lineal?
El análisis de regresión es quizás las estadísticas más utilizadas en las ciencias sociales. La regresión permite evaluar las relaciones entre dos atributos de o más entidades. La identificación y la medición de las relaciones permiten comprender mejor lo que está sucediendo en un solo lugar, predecir dónde es probable que ocurra otro evento o examinar los orígenes de este o aquel evento. La regresión lineal generalizada crea un modelo de la variable o el proceso que está tratando de comprender o prever que se pueda usar para examinar y cuantificar las relaciones entre las entidades.
Esta nueva herramienta ArcGIS Pro 2.3 incluye la función cuadrada ordinaria más baja. Esta herramienta incluye los modelos adicionales totales (peces) y binarios (logísticos) que aumentan el campo de sus posibles aplicaciones.
La regresión lineal generalizada puede tener varias aplicaciones, que incluyen:
- ¿Qué variables proporcionan efectivamente el volumen de llamadas para servicios de emergencia? Sobre la base de proyecciones futuras, ¿cuál es la demanda esperada en términos de recursos para los servicios de emergencia?
- ¿Qué variables están asociadas con una baja tasa de natalidad?
Para ejecutar la herramienta de regresión lineal generalizada, especifique las características de entrada (entradas en la entrada) con un campo que representa una variable dependiente (variable dependiente) y uno o más campos que representan la (s) explicación (s) explicativa (s)] o explicativa variable (s). Posiblemente, las características de distancia (entidades de distancia). Estos campos deben ser digitales e incluir una gama de valores. Las entidades que incluyen valores faltantes en variables dependientes o explicativas se excluirán del análisis. Sin embargo, puede usar la herramienta, ingresar los valores faltantes para ingresar el conjunto de datos antes de ejecutar la herramienta de regresión lineal generalizada. Luego elija un modelo de tipo (tipo de modelo) según los datos que analice. Es importante usar un modelo adecuado para sus datos. Los tipos de modelos y cómo determinar el modelo adecuado para sus datos se presentan a continuación.
¿Qué es el modelo de regresión lineal?
La regresión lineal consiste en dibujar un derecho lo más cerca posible de los puntos cuando estos últimos forman una nube con una forma alargada y sugieren una relación estadística explicativa (ver gráfico a continuación). La variable puede dar lugar a un porcentaje. Ejemplo: el número de fumadores que dependen del número de años vendido.
Una regresión lineal simple consiste en identificar la ecuación de una línea que explica la distribución de una nube de puntos. Podemos escribirlo: y = ax + b. El objetivo es encontrar los valores de A (la pendiente) y B (el orden originalmente).
Para aplicarse, una regresión lineal implica varios requisitos previos: variables continuas (fechas, horas, peso, precio, velocidad…). También debe haber una relación lineal entre las dos variables estudiadas, por ejemplo, el aumento en una acción en el mercado de valores y la posición tomada por los compradores de este valor.
¿Cómo interpretar los resultados de una regresión lineal?
La regresión lineal permite correlacionar diferentes variables. Los resultados obtenidos siguen siendo predicciones o incluso estimaciones. Por lo tanto, existe un área de incertidumbre, a pesar de la confiabilidad del sistema. Por lo tanto, la interpretación debe considerar el modelo lineal como un apoyo para la asistencia de toma de decisiones y no como una verdad establecida.
Es posible realizar una regresión lineal usando Excel. Después de instalar la extensión XLSTAT, debe iniciar el comando, seleccionar la pestaña «Modelado de datos», luego la función «Regresión lineal». La configuración se realiza de la siguiente manera:
- Definir las variables dependientes y explicativas,
Artículos Relacionados: