Antes de sumergirse en el análisis de regresión, debe construir un conocimiento fundamental de los conceptos y relaciones estadísticas.
Comience con lo básico. ¿Qué relación pretende explorar? Intente formatear su respuesta así: «Quiero entender el impacto de [la variable independiente] en [la variable dependiente]».
La variable independiente es el factor que podría afectar la variable dependiente. Por ejemplo, «Quiero entender el impacto de la satisfacción de los empleados en las ventas de productos».
En este caso, la satisfacción del empleado es la variable independiente, y las ventas de productos son la variable dependiente. Identificar las variables dependientes e independientes es el primer paso hacia el análisis de regresión.
Una de las reglas cardinales de explorar estadísticamente las relaciones es nunca asumir la correlación implica causalidad. En otras palabras, solo porque dos variables se mueven en la misma dirección no significa que una causó que la otra ocurriera.
Si se correlacionan dos o más variables, sus movimientos direccionales están relacionados. Si dos variables se correlacionan positivamente, significa que a medida que una sube o baja, también lo hace el otro. Alternativamente, si dos variables se correlacionan negativamente, una sube mientras la otra baja.
La resistencia de una correlación se puede cuantificar calculando el coeficiente de correlación, a veces representado por R. El coeficiente de correlación cae entre uno negativo y uno positivo.
La causalidad significa que una variable provocó que la otra ocurriera. Probar una relación causal entre las variables requiere un verdadero experimento con un grupo de control (que no recibe la variable independiente) y un grupo experimental (que recibe la variable independiente).
¿Qué es un análisis de regresión?
El análisis de regresión es un método estadístico para analizar diferentes factores y la comprensión que puede influir en un objetivo (por ejemplo, el éxito de un lanzamiento de productos, crecimiento empresarial, una nueva campaña de marketing) y qué factores pueden ser ignorados.
También puede ayudar a los líderes a comprender cómo las variables dadas se afectan entre sí, incluidos los factores externos y los resultados. Por ejemplo, al pronosticar el desempeño financiero, el análisis de regresión puede determinar cómo los cambios en ciertos impulsores dentro del negocio pueden influir en los ingresos o gastos en el futuro. Puede encontrar que existe una alta correlación entre el número de vendedores empleados por la compañía, los clientes potenciales generados y las oportunidades cerradas. Sin embargo, cuando aumentan los clientes potenciales, pero el número de vendedores empleados se mantiene constante, ya no afecta las oportunidades cerradas. Sin embargo, a medida que aumenta el número de vendedores, aumenta los clientes potenciales y las oportunidades cerradas.
Los modelos de regresión le permiten determinar en qué datos de datos centrarse para lograr un resultado específico. Por ejemplo, contratar a más vendedores en lugar de aumentar los clientes potenciales generados por vendedor.
El análisis de regresión comienza con variables que se clasifican en dos tipos: variables independientes y dependientes. Su selección depende de los resultados que está analizando.
Las variables dependientes también se llaman variables de respuesta, variables de resultado o variables del lado izquierdo (aparecen en el lado izquierdo de una ecuación de regresión.
¿Qué es y para qué sirve un análisis de regresión?
Una de las principales aplicaciones del análisis de regresión es la proyección con diferentes escenarios. Esto, teniendo en cuenta el grado de influencia (en estadísticas, hablamos de correlación) en la variable dependiente.
Es decir, el objetivo del análisis es construir una función que haga posible estimar el valor futuro de la variable estudiada.
Desde otro punto de vista, la regresión permite el cálculo de una esperanza condicional (promedio). Para esto, los valores de las variables independientes se toman como datos.
Cabe señalar que cuando se tiene en cuenta una sola variable independiente, hablamos de una regresión lineal simple. Por otro lado, si se incluyen más factores, sería una regresión lineal múltiple.
El análisis de regresión tiene aplicaciones en la vida cotidiana. Esto, del estudio de accidentes de tráfico en un área geográfica determinada para verificar si se recomienda un curso de acuerdo con la tasa de abandono, por ejemplo.
Una crítica común de este tipo de modelo de predicción matemática es que no es óptima porque tiende a confundir la correlación y la causalidad.
Esto significa que, por ejemplo, se puede establecer una relación matemática entre el crecimiento económico y la frecuencia de precipitación en un país. Sin embargo, si no hay una base teórica que conecta estas variables, el estudio no es relevante porque es una relación falaz.
¿Que predice el análisis de regresión?
La investigación relacionada con la aptitud cardiorrespiratoria a menudo utiliza el análisis de regresión para predecir el estado cardiorrespiratorio o los resultados futuros. Leer estos estudios puede ser tedioso y difícil a menos que el lector tenga una comprensión profunda de los procesos utilizados en el análisis. Esta característica busca «simplificar» el proceso de análisis de regresión para la predicción para ayudar a los lectores a comprender este tipo de estudio más fácilmente. Se proporcionan ejemplos del uso de esta técnica estadística para facilitar una mejor comprensión.
Las pruebas de ejercicio máximas calificadas que miden directamente el consumo máximo de oxígeno (VO2MAX) no son prácticas en la mayoría de las clínicas de fisioterapia porque requieren equipos y personal caros capacitados para administrar las pruebas. Realizar estas pruebas en la clínica también puede requerir supervisión médica; Como resultado, los investigadores han tratado de desarrollar modelos de ejercicio y no ejercicio que permitan a los médicos predecir VO2Max sin tener que realizar una medición directa de la absorción de oxígeno. En la mayoría de los casos, los investigadores utilizan el análisis de regresión para desarrollar sus modelos de predicción.
El análisis de regresión es una técnica estadística para determinar la relación entre una sola variable dependiente (criterio) y una o más variables independientes (predictor). El análisis produce un valor predicho para el criterio resultante de una combinación lineal de los predictores. Según Pedhazur, 15 El análisis de regresión tiene 2 usos en literatura científica: predicción, incluida la clasificación y la explicación. Lo siguiente proporciona una breve revisión del uso del análisis de regresión para la predicción. Se da énfasis específico a la selección de las variables predictoras (evaluando la eficiencia y precisión del modelo) y la validación cruzada (evaluando la estabilidad del modelo). La discusión no pretende ser exhaustiva. Para una explicación más exhaustiva del análisis de regresión, se alienta al lector a consultar uno de los muchos libros escritos sobre esta técnica estadística (por ejemplo, Fox; 5 Kleinbaum, Kupper y Muller; 12 Pedhazur; 15 y Weisberg16). Los ejemplos del uso del análisis de regresión para la predicción se extraen de un estudio de Bradshaw et al.3 En este estudio, el propósito declarado de los investigadores era desarrollar una ecuación para la predicción de la aptitud cardiorrespiratoria (CRF) basada en el no ejercicio (N- Ex) datos.
El primer paso en el análisis de regresión es determinar la variable de criterio. Pedhazur15 sugiere que el criterio tiene cualidades de medición aceptables (es decir, confiabilidad y validez). Bradshaw et al3 usó VO2max como el criterio de elección para su modelo y lo midió utilizando una prueba de ejercicio graduada máxima (GXT) desarrollada por George.6 George 6 indicó que su protocolo para las pruebas se comparó favorablemente con el Protocolo Bruce en términos de capacidad predictiva y predictiva tenía buena fiabilidad test-retest (ICC = .98 –.99). El American College of Sports Medicine indica que la medición de VO2Max es el «estándar de oro» para medir la aptitud cardiorrespiratoria.1 Estos hechos respaldan que el criterio seleccionado por Bradshaw et al3 fue apropiado y cumple con los requisitos de confiabilidad y validez aceptables.
Una vez que se ha seleccionado el criterio, se deben identificar las variables predictoras (selección del modelo). El objetivo de la selección del modelo es minimizar el número de predictores que explican la varianza máxima en el criterio.15 En otras palabras, el modelo más eficiente maximiza el valor del coeficiente de determinación (R2). Este coeficiente estima la cantidad de varianza en la puntuación de criterio explicada por una combinación lineal de las variables predictoras. Cuanto mayor sea el valor para R2, menos error o varianza inexplicable y, por lo tanto, la mejor predicción. R2 depende del coeficiente de correlación múltiple (R), que describe la relación entre las puntuaciones de criterios observadas y predichas. Si no hay diferencia entre las puntuaciones predichas y observadas, R es igual a 1.00. Esto representa una predicción perfecta sin error y sin varianza inexplicable (R2 = 1.00). Cuando R es igual a 0.00, no hay relación entre los predictor (s) y el criterio y no se ha explicado la varianza en las puntuaciones (R2 = 0.00). Las variables elegidas no pueden predecir el criterio. El objetivo de la selección del modelo es, como se indicó anteriormente, desarrollar un modelo que resulte en el valor estimado más alto para R2.
¿Qué es lo que muestran los análisis de regresión y de correlación?
Una vez hecho esto, se abrirá una ventana desde la cual podemos seleccionar nuestras herramientas de análisis.
Seleccionamos la herramienta «Regresión» y presionamos «OK». Se abrirá una ventana como la de la imagen a continuación.
Ahora seleccionamos el intervalo de entrada Y y X: para y seleccionamos todos los valores de la columna «B», «Variable dependiente». Para la x seleccionamos todos los valores de la columna «A», «Variable independiente».
Aclaración: no podemos seleccionar las celdas que contienen el texto, sino solo aquellas que contienen valores numéricos. Una buena molestia para nosotros que amamos seleccionar columnas enteras de Tipo A: A…:/
En «Opciones de salida», seleccionamos «Nueva hoja de trabajo» y recompensamos «OK».
Nuestro resultado será similar al de la imagen a continuación.
Como puede ver, Excel nos proporcionó todo el análisis No está mal, ¿eh?
Para comprender si el procedimiento se ha completado correctamente, observa el valor de «R al cuadrado»; Excel lo llama eso, aunque siempre lo he llamado «pintando».
En este caso, «R Image» es «0,997872»: el mismo valor redondeado, que encontramos en nuestro diseñador gráfico.
Los valores de los datos de «intercepción» y «variable x 1» corresponden a los reportados en nuestro gráfico. ¡Parece que hemos visto el procedimiento!
Le aconsejo que siempre lo revise de esta manera porque es fácil confundirse usando una herramienta de análisis no deseada.
Artículos Relacionados:
