donde es el valor predicho o esperado de la variable dependiente, X1 a XP son P distintas de las variables independientes o predictoras, B0 es el valor de y cuando todas las variables independientes (x1 a XP) son iguales a cero, y B1 a BP son Los coeficientes de regresión estimados. Cada coeficiente de regresión representa el cambio en Y en relación con un cambio de una unidad en la variable independiente respectiva. En la situación de regresión múltiple, B1, por ejemplo, es el cambio en Y en relación con un cambio de una unidad en X1, manteniendo constantes todas las demás variables independientes (es decir, cuando las variables independientes restantes se mantienen en el mismo valor o se fijan). Nuevamente, se pueden realizar pruebas estadísticas para evaluar si cada coeficiente de regresión es significativamente diferente de cero.
Como se sugiere en la página anterior, se puede utilizar un análisis de regresión múltiple para evaluar si existe una confusión y, dado que nos permite estimar la asociación entre una variable independiente dada y el resultado que mantiene a todas las demás variables constantes, la regresión lineal múltiple también proporciona una forma de proporcionar una forma de proporcionar una forma de proporcionar una forma. de ajustar (o contabilizar) variables potencialmente confusas que se han incluido en el modelo.
Supongamos que tenemos un factor de riesgo o una variable de exposición, que denotamos X1 (por ejemplo, x1 = obesidad o x1 = tratamiento), y una variable de resultado o dependiente que denotamos Y. Podemos estimar una ecuación de regresión lineal simple relacionada con el factor de riesgo (la variable independiente) a la variable dependiente de la siguiente manera:
donde B1 es el coeficiente de regresión estimado que cuantifica la asociación entre el factor de riesgo y el resultado.
¿Cómo estimar la ecuación de regresión?
Letting xij = ϕj (xi) { displaystyle x_ {ij} = phi _ {j} (x_ {i})} y colocando las variables independientes y dependientes en las matrices x { displaystyle x} y y { displaystyle y} , respectivamente, podemos calcular los mínimos cuadrados de la siguiente manera. Tenga en cuenta que d { displaystyle d} es el conjunto de todos los datos. [12] [13]
En algunos casos, hay una solución de forma cerrada para un problema de mínimos cuadrados no lineales, pero en general no lo existe. En el caso de la solución de ninguna forma cerrada, se utilizan algoritmos numéricos para encontrar el valor de los parámetros β { displaystyle beta} que minimiza el objetivo. La mayoría de los algoritmos implican elegir valores iniciales para los parámetros. Luego, los parámetros se refinan iterativamente, es decir, los valores se obtienen por aproximación sucesiva:
- La función del modelo, F, en LLSQ (mínimos cuadrados lineales) es una combinación lineal de parámetros de la forma f = xi1β1+xi2β2+⋯ ⋯ { displaystyle f = x_ {i1} beta _ {1}+x_ {i2} beta _ {2}+ cdots} El modelo puede representar una línea recta, una parábola o cualquier otra combinación lineal de funciones. En NLLSQ (mínimos cuadrados no lineales), los parámetros aparecen como funciones, como β2, eβx { displayStyle beta ^{2}, e ^{ beta x}} y así sucesivamente. Si los derivados ∂f/∂βj { displaystyle parcial f/ parcial beta _ {j}} son constantes o dependen solo de los valores de la variable independiente, el modelo es lineal en los parámetros. De lo contrario, el modelo no es lineal.
- Necesita valores iniciales para los parámetros para encontrar la solución a un problema NLLSQ; LLSQ no los requiere.
- Los algoritmos de solución para NLLSQ a menudo requieren que el jacobiano pueda calcularse de manera similar a LLSQ. Las expresiones analíticas para las derivadas parciales pueden ser complicadas. Si las expresiones analíticas son imposibles de obtener las derivadas parciales deben calcularse mediante aproximación numérica o se debe hacer una estimación del jacobiano, a menudo a través de diferencias finitas.
- La no convergencia (falla del algoritmo para encontrar un mínimo) es un fenómeno común en NLLSQ.
- LLSQ es globalmente cóncavo, por lo que la no convergencia no es un problema.
- Resolver NLLSQ suele ser un proceso iterativo que debe terminar cuando se cumple un criterio de convergencia. Las soluciones LLSQ se pueden calcular utilizando métodos directos, aunque los problemas con grandes cantidades de parámetros generalmente se resuelven con métodos iterativos, como el método Gauss -Seidel.
- En LLSQ, la solución es única, pero en NLLSQ puede haber mínimos múltiples en la suma de cuadrados.
- Bajo la condición de que los errores no están correlacionados con las variables predictoras, LLSQ produce estimaciones imparciales, pero incluso bajo esa condición, las estimaciones de NLLSQ generalmente están sesgadas.
Estas diferencias deben considerarse siempre que se busque la solución a un problema de mínimos cuadrados no lineales. [12]
Considere un ejemplo simple extraído de la física. Una primavera debe obedecer la ley de Hooke que establece que la extensión de un resorte y es proporcional a la fuerza, F, se aplica a ella.
¿Qué es una ecuación de estimación?
En esta ilustración empírica, su objetivo es analizar el efecto de una variable explicativa en una variable de resultado binaria aplicando la metodología GEE. Dado el requisito de un gran tamaño de muestra para ejecutar GEES, los datos longitudinales anticipados se utilizan para el análisis (seis olas: 1998, 2000, 2002, 2004, 2006 y 2008). El tema del estudio es el efecto del matrimonio actual sobre la presencia de discapacidad. Dado este enfoque de investigación, la variable de resultado binaria es la puntuación de discapacidad, con 1 = discapacitado funcional y 0 = no está funcionalmente deshabilitado. Esta variable dicotómica se crea a partir del recuento ADL indicado anteriormente. Específicamente, un sujeto se define como funcionalmente discapacitado si informa algún grado de dificultad relacionada con la salud para realizar actividades de la vida diaria, dada por ADL_COUNT> 0. Como se mencionó anteriormente, el recuento de ADL consta de cinco elementos de tarea (vestido, baño de baño /ducharse, comer, cruzar el tiempo y entrar/salir de la cama). La puntuación binaria ADL se mide en los seis puntos de tiempo y se llama ADL_BIN en el análisis. La probabilidad de discapacidad se denota por PR (YIJ = 1), donde I y J indican sujeto I en el punto de tiempo j. Existen enfoques más apropiados para medir la discapacidad en la literatura del envejecimiento y los estudios de salud; Sin embargo, la cuestión de medición de este indicador de salud actualmente no es motivo de preocupación dada el enfoque en una ilustración de una técnica estadística. El factor de tiempo se especifica como una variable continua, para lo cual solo se considera el componente lineal dados los resultados de un análisis de datos preliminar. La principal variable explicativa, el estado civil, medido en seis ondas y nombradas casadas en el análisis, es la variable dicotómica previamente especificada, con 1 = actualmente casada y 0 = else. Como se especifica en el modelo mixto lineal en el recuento de ADL, se crea una interacción entre el tiempo y el casado. Las tres covariables centradas, «Age_mean», «Educ_mean» y «Female_mean», continúan siendo utilizadas como variables de control.
En la aplicación de GEES para este análisis, se especifica el enlace logit para indicar la asociación entre las covariables y el resultado binario. El modelo logit en este contexto está escrito como
donde μij es la expectativa marginal de la puntuación de discapacidad funcional para el sujeto I en el punto de tiempo j, y el vector covariable Xij contiene seis covariables: tiempo, casado, tiempo × casado, edad_mean, educ_mean y femenino_mean. En la ecuación, la probabilidad de registro es la variable de resultado transformada, que se supone que está linealmente asociada con las covariables. El modelo de regresión logit se describirá más a fondo en el Capítulo 10, tanto en general como con consideración específica al análisis de datos longitudinales.
¿Que estimadores se utilizan para valorar un modelo de regresión múltiple?
El análisis de regresión lineal múltiple es una extensión del análisis de regresión lineal simple, utilizada para evaluar la asociación entre dos o más variables independientes y una única variable dependiente continua. La ecuación de regresión lineal múltiple es la siguiente:
En dónde es el valor predicho o esperado de la variable dependiente, X1 a XP son P distintas de las variables independientes o predictoras, B0 es el valor de y cuando todas las variables independientes (x1 a XP) son iguales a cero, y B1 a BP son los coeficientes de regresión estimados. Cada coeficiente de regresión representa el cambio en Y en relación con un cambio de una unidad en la variable independiente respectiva. En la situación de regresión múltiple, B1, por ejemplo, es el cambio en Y en relación con un cambio de una unidad en X1, manteniendo constantes todas las demás variables independientes (es decir, cuando las variables independientes restantes se mantienen en el mismo valor o se fijan). Nuevamente, se pueden realizar pruebas estadísticas para evaluar si cada coeficiente de regresión es significativamente diferente de cero.
El análisis de regresión múltiple también se utiliza para evaluar si existe la confusión. Dado que el análisis de regresión lineal múltiple nos permite estimar la asociación entre una variable independiente dada y el resultado que mantiene constantes todas las demás variables, proporciona una forma de ajustar (o explicar) variables potencialmente confusas que se han incluido en el modelo.
Supongamos que tenemos un factor de riesgo o una variable de exposición, que denotamos X1 (por ejemplo, x1 = obesidad o x1 = tratamiento), y una variable de resultado o dependiente que denotamos Y. Podemos estimar una ecuación de regresión lineal simple relacionada con el factor de riesgo (la variable independiente) a la variable dependiente de la siguiente manera:
donde B1 es el coeficiente de regresión estimado que cuantifica la asociación entre el factor de riesgo y el resultado.
¿Qué tipos de variables se ajustan a un modelo de regresión lineal múltiple?
Recuerde que el método de mínimos cuadrados se utiliza para encontrar la línea de mejor ajuste para los datos observados. La ecuación de regresión de mínimos cuadrados estimados tiene la suma mínima de los errores al cuadrado, o las desviaciones, entre la línea ajustada y las observaciones.
Cuando tenemos más de un predictor, este mismo enfoque de mínimos cuadrados se utiliza para estimar los valores de los coeficientes del modelo. Por ejemplo, cuando tenemos dos predictores, la línea de regresión de mínimos cuadrados se convierte en un plano, con dos coeficientes de pendiente estimados.
Se estima que los coeficientes encuentran la suma mínima de las desviaciones cuadradas entre el plano y las observaciones.
Esto se extiende a más de dos predictores, pero encontrar la solución de mínimos cuadrados se vuelve mucho más complicada y requiere álgebra de matriz. Afortunadamente, la mayoría de los paquetes de software estadístico pueden ajustar fácilmente múltiples modelos de regresión lineal.
Volvamos a visitar los datos de limpieza una vez más, centrándose en solo dos predictores, OD e ID. Vemos que tanto OD como ID están positivamente correlacionados con la eliminación. Y también vemos que están correlacionados entre sí. Esto significa que las piezas con diámetros externos más grandes también tienden a tener diámetros internos más grandes.
En nuestros modelos individuales, OD e ID son predictores significativos de eliminación, con valores p muy pequeños.
Aquí, ajustamos un modelo de regresión lineal múltiple para la eliminación, con OD e ID como predictores. Observe que los coeficientes para los dos predictores han cambiado. El coeficiente para OD (0.559) está bastante cerca de lo que vemos en el modelo de regresión lineal simple, pero es ligeramente más alto. Pero, ¡mira el coeficiente para la identificación! Ahora es negativo y ya no es significativo.
¿Qué medida se utiliza para evaluar el ajuste de un modelo de regresión?
2. Error cuadrado medio (MSE)/Root Media Square Error (RMSE)
R cuadrado mide cuánta variabilidad en la variable dependiente puede explicarse por el modelo. Es el cuadrado del coeficiente de correlación (R) y es por eso que se llama R Square.
El cuadrado R se calcula por la suma del error cuadrado de predicción dividido por la suma total del cuadrado que reemplaza la predicción calculada con la media. El valor cuadrado es entre 0 y 1 y un valor mayor indica un mejor ajuste entre la predicción y el valor real.
R Square es una buena medida para determinar qué tan bien el modelo se ajusta a las variables dependientes. Sin embargo, no tiene en cuenta el problema de sobreajuste. Si su modelo de regresión tiene muchas variables independientes, debido a que el modelo es demasiado complicado, puede encajar muy bien en los datos de entrenamiento, pero funciona mal para probar datos. Es por eso que se introduce el cuadrado R ajustado porque penalizará variables independientes adicionales agregadas al modelo y ajustará la métrica para evitar problemas de sobreajuste.
Del modelo de muestra, podemos interpretar que el modelo puede explicar alrededor del 79% de la variabilidad dependiente, y el cuadrado R ajustado es más o menos lo mismo que el cuadrado R, lo que significa que el modelo es bastante robusto.
Si bien R Square es una medida relativa de qué tan bien el modelo se ajusta a las variables dependientes, el error cuadrado medio es una medida absoluta de la bondad para el ajuste.
MSE se calcula por la suma del error cuadrado del error de predicción, que es la salida real menos la salida predicha y luego se divide por el número de puntos de datos. Le brinda un número absoluto sobre cuánto se desvían sus resultados predichos del número real. No puede interpretar muchas ideas de un solo resultado, pero le brinda un número real para compararse con otros resultados del modelo y ayudarlo a seleccionar el mejor modelo de regresión.
¿Cómo analizar un modelo de regresión lineal multiple?
La regresión lineal múltiple es la forma más común del análisis de regresión. Como análisis predictivo, se usa una regresión lineal múltiple para describir los datos y explicar la relación entre una variable dependiente y dos o más variables independientes.
En el centro del análisis de regresión lineal múltiple se encuentra la tarea de ajustar una sola línea a través de una gráfica de dispersión. Más específicamente, la regresión lineal múltiple se ajusta a una línea a través de una nube multidimensional de puntos de datos. La forma más simple tiene una de las variables dependientes y dos independientes. La forma general de la regresión lineal múltiple se define como i = 1… n.
A veces, la variable dependiente también se llama variable endógena, variable de criterio, variable pronóstica o regresión. Las variables independientes también se llaman variables exógenas, variables predictoras o regresores.
Alinear el marco teórico, la recopilación de artículos, sintetizar brechas, articular una metodología y plan de datos claros, y escribir sobre las implicaciones teóricas y prácticas de su investigación son parte de nuestros servicios integrales de edición de tesis.
- Rastree todos los cambios, luego trabaje con usted para lograr una escritura académica.
- Apoyo continuo para abordar los comentarios del comité, reduciendo las revisiones.
El análisis de regresión lineal múltiple consiste en algo más que ajustar una línea lineal a través de una nube de puntos de datos. Consiste en tres etapas: 1) analizar la correlación y direccionalidad de los datos, 2) estimar el modelo, es decir, ajustar la línea y 3) evaluar la validez y la utilidad del modelo.
¿Cómo interpretar un modelo de regresión lineal?
La intersección (a veces llamada «constante») en un modelo de regresión representa el valor medio de la variable de respuesta cuando todas las variables predictoras en el modelo son iguales a cero.
Este tutorial explica cómo interpretar el valor de intercepción tanto en la regresión lineal simple como en los modelos de regresión lineal múltiple.
Un modelo de regresión lineal simple toma la siguiente forma:
- ŷ: El valor predicho para la variable de respuesta
- β0: el valor medio de la variable de respuesta cuando x = 0
- β1: el cambio promedio en la variable de respuesta para un aumento de una unidad en x
- X: el valor para la variable predictor
En algunos casos, tiene sentido interpretar el valor de la intersección en un modelo de regresión lineal simple pero no siempre. Los siguientes ejemplos ilustran esto.
Supongamos que nos gustaría ajustar un modelo de regresión lineal simple utilizando horas estudiadas como una variable predictor y una puntuación del examen como variable de respuesta.
Recopilamos estos datos para 50 estudiantes en un curso universitario determinado y se ajustamos al siguiente modelo de regresión:
El valor para el término de intercepción en este modelo es 65.4. Esto significa que el puntaje promedio del examen es 65.4 cuando el número de horas estudiadas es igual a cero.
Esto tiene sentido interpretar ya que es plausible que un estudiante estudie durante cero horas en preparación para un examen.
Ejemplo 2: Intercept no tiene sentido interpretar
Supongamos que nos gustaría ajustar un modelo de regresión lineal simple que use peso (en libras) como variable predictor y altura (en pulgadas) como variable de respuesta.
¿Cómo se analiza un análisis de regresión?
Una de las principales aplicaciones del análisis de regresión es la proyección con diferentes escenarios. Esto, teniendo en cuenta el grado de influencia (en estadísticas, esto se conoce como correlación) en la variable dependiente.
Es decir, el objetivo del análisis es construir una función que le permita estimar el valor futuro de la variable de estudio.
Desde otro punto de vista, la regresión permite el cálculo de una expectativa condicionada (promedio). Con este fin, los valores de las variables independientes se toman como datos.
Cabe señalar que al tener en cuenta una sola variable independiente, hablamos de regresión lineal simple. Por otro lado, si se incluyen múltiples factores, sería una regresión lineal múltiple.
El análisis de regresión tiene aplicaciones para la vida cotidiana. Esto, del estudio de accidentes de tráfico en un área geográfica determinada para verificar si se recomienda un plan de estudios en función de la tasa de abandono, por ejemplo.
Un común crítico a este tipo de modelo de pronóstico matemático es que no es óptimo, ya que tiende a confundir la correlación con la causalidad.
Esto significa que, por ejemplo, es posible establecer una relación matemática entre el crecimiento económico y la frecuencia de la lluvia en un país. Sin embargo, si no hay una base teórica que conecte estas variables, el estudio es irrelevante porque es una relación espuria.
Echemos un vistazo a un ejemplo muy simple de análisis de regresión. Supongamos que una empresa quiere calcular la demanda de un cierto bien.
Artículos Relacionados: