Aprende a realizar regresion lineal multiple en estadistica inferencial con estos sencillos pasos

Regresión y correlación
El análisis son técnicas estadísticas
utilizado ampliamente en geografía física para examinar
Relaciones causales entre variables. Regresión
y la correlación mide el grado de relación entre
dos o más variables en dos diferentes pero relacionadas
maneras. En el análisis de regresión, una única variable dependiente, y,
se considera una función de uno o más independiente
variables, x1, x2,
y así. Los valores de las variables dependientes e independientes
se supone que se determina en un
manera aleatoria. Además, formas paramétricas de regresión
Análisis suponga que para cualquier valor dado del
Variable independiente, valores de la variable dependiente
normalmente se distribuyen sobre alguna media. Solicitud
de este procedimiento estadístico a dependiente y
Las variables independientes producen una ecuación que «se aproxima»
La relación funcional entre las observaciones de datos.

El análisis de correlación mide el grado
de asociación entre dos o más variables. Métodos paramétricos
de análisis de correlación suponga que para cualquier par o
conjunto de valores tomados bajo un conjunto determinado de condiciones,
La variación en cada una de las variables es aleatoria y sigue
un patrón de distribución normal. Utilización de la correlación
El análisis sobre variables dependientes e independientes produce
una estadística llamada correlación
coeficiente (r). La plaza de esta
Parámetro estadístico (el coeficiente
de determinación R2)
describe qué proporción de la variación en el dependiente
La variable se asocia con la regresión de
una variable independiente.

El análisis de varianza se utiliza para probar
la importancia de la variación en
la variable dependiente que se puede atribuir a la regresión de
una o más variables independientes. Empleo de esto
El procedimiento estadístico produce un
Valor F que se compara con un crítico
Valores F para un nivel particular de estadística
probabilidad. Obteniendo un valor F calculado significativo
indica que los resultados de la regresión y la correlación
son de hecho ciertos y no la consecuencia del azar.

En un análisis de regresión simple, uno depende
La variable se examina en relación con solo
uno independiente
variable. El análisis está diseñado para derivar
una ecuación para la línea que mejor modela la relación
entre las variables dependientes e independientes.
Esta ecuación tiene la forma matemática:

donde, y es el valor de lo dependiente
variable, x es el valor de lo independiente
variable, a es
la intersección de la línea de regresión en el eje y
Cuando x = 0 y B es
La pendiente de la línea de regresión.

La siguiente tabla contiene al azar
recopilados datos sobre la precipitación de la temporada de crecimiento y
Rendimiento de pepino (Tabla 3H-1). Es razonable
para sugerir que la cantidad de agua recibida en un campo
durante la temporada de crecimiento influirá en el rendimiento
de pepinos que crecen en él. Podemos usar estos datos para
ilustrar cómo se lleva a cabo el análisis de regresión. En
Esta tabla, la precipitación es nuestra variable independiente
y no se ve afectado por la variación en el rendimiento del pepino.
Sin embargo, el rendimiento del pepino está influenciado por la precipitación,
y, por lo tanto, se designa como la variable y en el
análisis.

¿Qué es la regresión lineal en estadistica inferencial?

El análisis de regresión lineal se utiliza para comprender la relación entre dos variables (x e y) en un conjunto de datos como una forma de estimar la variable desconocida para realizar proyecciones futuras en eventos y objetivos.

El objetivo principal del análisis de regresión es estimar los valores de una variable aleatoria (z) en función de los valores de sus variables conocidas (o fijas) (x e y). Esto generalmente se representa por una trama de dispersión, como la siguiente.

Una ventaja clave del uso de la regresión dentro de su análisis es que proporciona una mirada detallada a los datos e incluye una ecuación que puede usarse para el análisis predictivo y la optimización de datos en el futuro.

A → se refiere a la intersección y, el valor de y cuando x = 0

Otra prueba de análisis inferencial es el análisis de correlación, que se utiliza para comprender la medida en que dos variables dependen entre sí. Este análisis esencialmente prueba la fuerza de la relación entre dos variables, y si su correlación es fuerte o débil.

La correlación entre dos variables también puede ser negativa o positiva, dependiendo de las variables. Las variables se consideran «no correlacionadas» cuando un cambio en uno no afecta al otro.

Un ejemplo de esto sería el precio y la demanda. Esto se debe a que un aumento en la demanda provoca un aumento correspondiente en el precio. El precio aumentaría porque más consumidores quieren algo y están dispuestos a pagar más por ello.

En general, el objetivo del análisis de correlación es encontrar el valor numérico que muestra la relación entre las dos variables y cómo se mueven juntas. Al igual que la regresión, esto generalmente se hace utilizando el software de visualización de datos para crear un gráfico.

¿Qué es regresión lineal en estadística inferencial?

Además, se puede utilizar una regresión lineal simple para explorar la capacidad predictiva del modelo. La regresión lineal simple nos proporcionará información sobre el modelo en su conjunto y la contribución relativa de la variable independiente que componen el modelo. En otras palabras, la regresión lineal simple nos dice cuánto de la varianza en nuestra variable dependiente puede explicarse por nuestra variable independiente. También nos da una indicación de la contribución relativa de nuestra variable independiente.

Para ponerlo en pocas palabras, se usa una regresión lineal simple

Probar si una variable independiente está haciendo una contribución única significativa a la predicción de la variable dependiente.
Para explorar la capacidad predictiva del modelo
Evaluar qué tan bien una variable independiente puede explicar una variable dependiente.

Suposiciones: antes de realizar este análisis, debemos verificar varios supuestos, como normalidad, linealidad, homoscedasticidad, independencia de observaciones y valores atípicos.

2. El coeficiente de determinación (R CUADRADO): Basado en R Square, podemos decir cuándo de la varianza total en la variable dependiente se explica de manera única por una variable independiente.

Probar si una variable independiente está haciendo una contribución única significativa a la predicción de la variable dependiente.
Para explorar la capacidad predictiva del modelo
Evaluar qué tan bien una variable independiente puede explicar una variable dependiente.

El signo en frente indica si existe una correlación positiva o una correlación negativa entre las variables.

La correlación positiva es una relación entre dos variables en la que ambas variables se mueven en la misma dirección. Existe una correlación positiva cuando una variable disminuye a medida que disminuye la otra variable, o una variable aumenta mientras que la otra aumenta.

Una relación negativa es una relación entre dos variables en la que ambas variables se mueven en direcciones opuestas. La pendiente de una curva siempre es negativa. Una curva con una pendiente negativa siempre es una inclinación hacia abajo.

El tamaño del valor absoluto indica la fuerza de la relación.

1. Nivel de medición La escala de medición para las variables (IVS y DV) debe ser intervalo o relación (continua). Agradable a Pallant (2013), si nuestra variable independiente es variable dicotómica (con solo dos valores: por ejemplo, sexo) y sexo) y El nivel de medición de nuestra variable dependiente es el intervalo o la relación, podemos usar la correlación de Pearson.

¿Qué es la regresión lineal para qué sirve?

Los modelos de regresión lineal se utilizan para revelar o anticipar el vínculo entre dos factores o factores. El factor que se anticipa (el factor para el cual se entiende la condición) se conoce como la necesidad de la necesidad. Los componentes utilizados para predecir la estimación de la variable dependiente se conocen como variables independientes.

En general, no se informa buena información a toda la historia. El examen de recaídas se usa generalmente para investigar sobre la existencia de una relación entre los factores. En cualquier caso, el enlace no equivalente a la causalidad. De hecho, incluso una línea en una recaída directa y simple que corresponde bien a los objetivos de la información puede no decir algo autoritario sobre las circunstancias y la relación lógica de los resultados.

En la recaída directa básica, cualquier percepción tiene dos cualidades. Un valor es para la variable dependiente y un valor es para el factor libre.

Examen directo y simple de la recaída El tipo de examen de recaída menos complejo utiliza una variable subordinada y un factor libre. Dentro

Este modelo simple, una línea recta le permite abordar el enlace entre la variable necesaria y el factor libre.

En una regresión lineal simple, cada observación consta de dos valores. Un valor es para la variable dependiente y un valor es para la variable independiente.

¿Qué es el coeficiente de regresión lineal multiple?

Aquí estamos usando «K» para el número de variables predictoras, lo que significa que tenemos parámetros de regresión K+1 (los coeficientes ( beta )). Algunos libros de texto usan «P» para el número de parámetros de regresión y P – 1 para el número de variables predictoras.
Suponemos que el ( epsilon_ {i} ) tiene una distribución normal con media 0 y varianza constante ( sigma^{2} ). Estos son los mismos supuestos que utilizamos en regresión simple con un X-Variable.
El subíndice I se refiere al individuo (i^{ textrm {th}} ) individual o unidad en la población. En la notación de las variables X, el subíndice siguiente simplemente denota qué X-Variable es.
La palabra «lineal» en «regresión lineal múltiple» se refiere al hecho de que el modelo es lineal en los parámetros, ( beta_0, beta_1, ldots, beta_k. ) Esto simplemente significa que cada parámetro multiplica una x- Variable, mientras que la función de regresión es una suma de estos términos «Parámetros Times X-Variables». Cada variable X puede ser una variable predictor o una transformación de variables predictoras (como el cuadrado de una variable predictor o dos variables predictoras multiplicadas). Permitir la transformación no lineal de variables predictoras como esta permite que el modelo de regresión lineal múltiple represente relaciones no lineales entre la variable de respuesta y las variables predictoras. Exploraremos más transformaciones predictoras en la Lección 7. Tenga en cuenta que incluso ( beta_0 ) representa un término «parámetros de X-variables» si piensa en el x-variable que se multiplica por ( beta_0 ) como la función constante «1.»
Las estimaciones de los coeficientes ( beta ) son los valores que minimizan la suma de los errores al cuadrado para la muestra. La fórmula exacta para esto se da en la siguiente sección sobre notación de matriz.
La letra B se utiliza para representar una estimación de muestra de un coeficiente ( beta ). Así (b_ {0} ) es la estimación de muestra de ( beta_ {0} ), (b_ {1} ) es la estimación de muestra de ( beta_ {1} ), y así sucesivamente .
( textrm {mse} = frac { textrm {sse}} {n- (k+1)} ) Estimaciones ( sigma^{2} ), la varianza de los errores. En la fórmula, n = tamaño de muestra, k+1 = número de coeficientes ( beta ) en el modelo (incluida la intersección) y ( textrm {sse} ) = suma de errores cuadrados. Observe que la regresión lineal simple tiene una variable predictor K = 1, por lo que K+1 = 2. Por lo tanto, obtenemos la fórmula para MSE que introdujimos en ese contexto de un predictor.
(S = sqrt {MSE} ) estima σ y se conoce como error estándar de regresión o el error estándar residual.
En el caso de dos predictores, la ecuación de regresión estimada produce un plano (en oposición a una línea en la configuración de regresión lineal simple). Para más de dos predictores, la ecuación de regresión estimada produce un hiperplano.
Cada coeficiente ( beta ) representa el cambio en la respuesta media, e (y), por unidad de aumento en la variable predictor asociada cuando todos los demás predictores se mantienen constantes.
Por ejemplo, ( beta_1 ) representa el cambio en la respuesta media, e (y), por unidad de aumento en (x_1 ) cuando (x_2 ), (x_3 ),…, ((( x_k ) se mantienen constantes.
El término de intercepción, ( beta_0 ), representa la respuesta media, e (y), cuando todos los predictores (x_1 ), (x_2 ),…, (x_k ) son cero (que puede o no tener algún significado práctico).
Un valor ajustado (o predicho) se calcula como ( hat {y} _ {i} = b_ {0}+b_ {1} x_ {i, 1}+b_ {2} x_ {i, 2}+ ldots+b_ {k} x_ {i, k} ), donde los valores B provienen del software estadístico y los valores X son especificados por nosotros.
Un término residual (error) se calcula como (e_ {i} = y_ {i}- hat {y} _ {i} ), la diferencia entre un valor real y predicho de y.
Una gráfica de residuos versus valores ajustados idealmente debe parecerse a una banda aleatoria horizontal. Las desviaciones de este formulario indican dificultades con el modelo y/o los datos.
Otros análisis residuales se pueden hacer exactamente como lo hicimos en una regresión simple. Por ejemplo, es posible que deseemos examinar un gráfico de probabilidad normal (NPP) de los residuos. Las gráficas adicionales a considerar son gráficos de residuos versus cada X-variable por separado. Esto podría ayudarnos a identificar fuentes de curvatura o varianza no constante. Los gráficos de residuos versus variables X potenciales no incluidas en el modelo podrían ayudarnos a identificar variables X que deben incluirse. Exploraremos esto más en la Lección 6.

Coeficiente de determinación, R cuadrado y R-cuadrado ajustado

Aquí estamos usando «K» para el número de variables predictoras, lo que significa que tenemos parámetros de regresión K+1 (los coeficientes ( beta )). Algunos libros de texto usan «P» para el número de parámetros de regresión y P – 1 para el número de variables predictoras.
Suponemos que el ( epsilon_ {i} ) tiene una distribución normal con media 0 y varianza constante ( sigma^{2} ). Estos son los mismos supuestos que utilizamos en regresión simple con un X-Variable.
El subíndice I se refiere al individuo (i^{ textrm {th}} ) individual o unidad en la población. En la notación de las variables X, el subíndice siguiente simplemente denota qué X-Variable es.
La palabra «lineal» en «regresión lineal múltiple» se refiere al hecho de que el modelo es lineal en los parámetros, ( beta_0, beta_1, ldots, beta_k. ) Esto simplemente significa que cada parámetro multiplica una x- Variable, mientras que la función de regresión es una suma de estos términos «Parámetros Times X-Variables». Cada variable X puede ser una variable predictor o una transformación de variables predictoras (como el cuadrado de una variable predictor o dos variables predictoras multiplicadas). Permitir la transformación no lineal de variables predictoras como esta permite que el modelo de regresión lineal múltiple represente relaciones no lineales entre la variable de respuesta y las variables predictoras. Exploraremos más transformaciones predictoras en la Lección 7. Tenga en cuenta que incluso ( beta_0 ) representa un término «parámetros de X-variables» si piensa en el x-variable que se multiplica por ( beta_0 ) como la función constante «1.»
Las estimaciones de los coeficientes ( beta ) son los valores que minimizan la suma de los errores al cuadrado para la muestra. La fórmula exacta para esto se da en la siguiente sección sobre notación de matriz.
La letra B se utiliza para representar una estimación de muestra de un coeficiente ( beta ). Así (b_ {0} ) es la estimación de muestra de ( beta_ {0} ), (b_ {1} ) es la estimación de muestra de ( beta_ {1} ), y así sucesivamente .
( textrm {mse} = frac { textrm {sse}} {n- (k+1)} ) Estimaciones ( sigma^{2} ), la varianza de los errores. En la fórmula, n = tamaño de muestra, k+1 = número de coeficientes ( beta ) en el modelo (incluida la intersección) y ( textrm {sse} ) = suma de errores cuadrados. Observe que la regresión lineal simple tiene una variable predictor K = 1, por lo que K+1 = 2. Por lo tanto, obtenemos la fórmula para MSE que introdujimos en ese contexto de un predictor.
(S = sqrt {MSE} ) estima σ y se conoce como error estándar de regresión o el error estándar residual.
En el caso de dos predictores, la ecuación de regresión estimada produce un plano (en oposición a una línea en la configuración de regresión lineal simple). Para más de dos predictores, la ecuación de regresión estimada produce un hiperplano.
Cada coeficiente ( beta ) representa el cambio en la respuesta media, e (y), por unidad de aumento en la variable predictor asociada cuando todos los demás predictores se mantienen constantes.
Por ejemplo, ( beta_1 ) representa el cambio en la respuesta media, e (y), por unidad de aumento en (x_1 ) cuando (x_2 ), (x_3 ),…, ((( x_k ) se mantienen constantes.
El término de intercepción, ( beta_0 ), representa la respuesta media, e (y), cuando todos los predictores (x_1 ), (x_2 ),…, (x_k ) son cero (que puede o no tener algún significado práctico).
Un valor ajustado (o predicho) se calcula como ( hat {y} _ {i} = b_ {0}+b_ {1} x_ {i, 1}+b_ {2} x_ {i, 2}+ ldots+b_ {k} x_ {i, k} ), donde los valores B provienen del software estadístico y los valores X son especificados por nosotros.
Un término residual (error) se calcula como (e_ {i} = y_ {i}- hat {y} _ {i} ), la diferencia entre un valor real y predicho de y.
Una gráfica de residuos versus valores ajustados idealmente debe parecerse a una banda aleatoria horizontal. Las desviaciones de este formulario indican dificultades con el modelo y/o los datos.
Otros análisis residuales se pueden hacer exactamente como lo hicimos en una regresión simple. Por ejemplo, es posible que deseemos examinar un gráfico de probabilidad normal (NPP) de los residuos. Las gráficas adicionales a considerar son gráficos de residuos versus cada X-variable por separado. Esto podría ayudarnos a identificar fuentes de curvatura o varianza no constante. Los gráficos de residuos versus variables X potenciales no incluidas en el modelo podrían ayudarnos a identificar variables X que deben incluirse. Exploraremos esto más en la Lección 6.

Como en una regresión lineal simple, (r^2 = frac {SSR} {ssto} = 1- frac {sse} {ssto} ), y representa la proporción de variación en (y ) (sobre su media ) «explicado» por el modelo de regresión lineal múltiple con predictores, (x_1, x_2,… )

Si comenzamos con un modelo de regresión lineal simple con una variable predictor, (x_1 ), entonces agregue una segunda variable predictor, (x_2 ), (SSE ) disminuirá (o permanecerá igual) mientras (SSTO ) permanece constante, y así (r^2 ) aumentará (o permanecerá igual). En otras palabras, (r^2 ) siempre aumenta (o permanece igual) ya que se agregan más predictores a un modelo de regresión lineal múltiple, incluso si los predictores agregados no están relacionados con la variable de respuesta. Por lo tanto, por sí mismo, (r^2 ) no se puede usar para ayudarnos a identificar qué predictores deben incluirse en un modelo y cuáles deben excluirse.

Una medida alternativa, ajustada (r^2 ), no necesariamente aumenta a medida que se agregan más predictores y se pueden usar para ayudarnos a identificar qué predictores deben incluirse en un modelo y cuáles deben excluirse. Ajustado (r^2 = 1- izquierdo ( frac {n-1} {n- (k+1)} right) (1-r^2) ) y, aunque no tiene una interpretación práctica, es útil para tales fines de construcción de modelos. En pocas palabras, al comparar dos modelos utilizados para predecir la misma variable de respuesta, generalmente preferimos el modelo con el valor más alto de (r^2 ) ajustado – consulte la Lección 11 para obtener más detalles.

Dentro de un modelo de regresión múltiple, es posible que deseemos saber si una variable X particular está haciendo una contribución útil al modelo. Es decir, dada la presencia de las otras variables X en el modelo, ¿una variable X particular nos ayuda a predecir o explicar la variable Y? Por ejemplo, supongamos que tenemos tres variables X en el modelo. La estructura general del modelo podría ser

¿Cómo interpretar los resultados de una regresión lineal multiple?

Use una tabla de pareto de los efectos para comparar la magnitud relativa y la significación estadística de los términos. El gráfico aparece cuando el modelo deja grados de libertad por error.

Minitab traza los términos en orden decreciente de sus valores absolutos. La línea de referencia en el gráfico indica qué términos son significativos. Por defecto, Minitab utiliza un nivel de significancia de 0.05 para dibujar la línea de referencia.

En estos resultados, los efectos para 3 términos son estadísticamente significativos (α = 0.05). Los efectos significativos son la concentración de formaldehído (A), la relación catalizador (B) y la temperatura (C). El efecto para el tiempo (d) no es estadísticamente significativo porque la barra no se extiende más allá de la línea roja.

El mayor efecto es la relación de catalizador (b) porque la barra se extiende más lejos. El efecto para el tiempo (d) es el más pequeño porque la barra se extiende menos.

Valor p ≤ α: la asociación es estadísticamente significativa

Si el valor p es menor o igual al nivel de significancia, puede concluir que existe una asociación estadísticamente significativa entre la variable de respuesta y el término.

Valor p> α: la asociación no es estadísticamente significativa

Si el valor p es mayor que el nivel de significancia, no puede concluir que existe una asociación estadísticamente significativa entre la variable de respuesta y el término. Es posible que desee volver a colocar el modelo sin el término.

Si hay múltiples predictores sin una asociación estadísticamente significativa con la respuesta, puede reducir el modelo eliminando los términos uno a la vez. Para obtener más información sobre la eliminación de términos del modelo, vaya a la reducción del modelo.

¿Cómo se define el análisis de regresión múltiple?

Un análisis de regresión múltiple es una evaluación de la regresión múltiple en estadísticas, que es una extensión de la regresión lineal. En estadísticas, la regresión lineal es el proceso que predice el valor de una variable donde ese valor depende de otra variable para influir en él. Esto hace que la variable predictiva sea una variable dependiente, ya que depende de otra variable para afectarla. En la regresión múltiple, dos o más variables externas afectan el valor de la variable dependiente. El análisis de regresión múltiple es simplemente un método para evaluar la información que proviene de medir datos utilizando la regresión.

Las variables (x1), (x2) y así sucesivamente (xp) representan los valores predictivos, o variables independientes, causando un cambio en Y. Es importante tener en cuenta que cada factor X representa un valor predictivo distinto.

La variable (B0) representa el valor Y cuando todas las variables independientes (x1 a xp) son iguales a cero.

Las variables (B1) a (BP) representan los coeficientes de regresión.

El análisis de regresión múltiple es una herramienta muy útil en una amplia gama de aplicaciones. Desde análisis de negocios, marketing y ventas hasta aplicaciones ambientales, médicas y tecnológicas, el análisis de regresión múltiple ayuda a los profesionales a evaluar diversos datos que respalden objetivos, procesos y resultados en muchas industrias. Aquí hay varias formas en que el análisis de regresión múltiple puede beneficiar a un negocio u organización:

Realizar un análisis de regresión múltiple es útil para determinar qué factores están afectando diferentes aspectos de los procesos de una empresa. Por ejemplo, los ingresos pueden ser un tipo de valor Y, donde diferentes variables independientes como el número de ventas y el costo de los bienes vendidos afectan los ingresos comerciales. Con el análisis de regresión múltiple, los analistas pueden identificar las actividades individuales que afectan las métricas específicas que desean medir, dándoles una mejor visión de cómo mejorar la eficiencia y la productividad.

¿Cuándo utilizar regresión lineal multiple?

La regresión lineal múltiple se utiliza para modelar la relación entre una variable de respuesta continua y variables explicativas continuas o categóricas.

Recuerde que la regresión lineal simple se puede utilizar para predecir el valor de una respuesta basado en el valor de una variable predictor continua. Dependiendo del contexto, la respuesta y las variables predictoras pueden ser mencionadas por otros nombres. Para simplificar, generalmente seguiremos con los términos respuesta y predictor a lo largo de esta discusión.

Volvamos a un ejemplo anterior. Usando los datos de limpieza, utilizamos una regresión lineal simple para modelar la relación entre la respuesta, la eliminación y el predictor, OD. Encontramos que un aumento de 1 unidades en OD se asocia con un aumento de 0.53 unidades en la eliminación. Pero, ¿qué hacemos si tenemos más de una variable predictor? Para el ejemplo de limpieza, tenemos tres predictores potenciales, OD, ID y ancho. ¿Cómo podemos extender nuestro análisis de eliminación para tener en cuenta los predictores adicionales? Una opción sería ajustar modelos de regresión separados para los diferentes predictores.

Continuando con este ejemplo, aprendemos que existe una relación significativa entre la eliminación y la identificación, y que para un aumento de 1 unidades en ID, la eliminación aumenta en 0.65 unidades en promedio. También aprendemos que no existe una relación significativa entre la eliminación y el ancho. En otras palabras, no hay asociación entre los cambios en el ancho y los cambios en la eliminación.

Sin embargo, ajustar modelos de regresión lineal simples para cada predictor ignora la información en las otras variables.

¿Cuándo se utiliza la regresión lineal múltiple?

Debe usar una regresión lineal múltiple en el siguiente escenario:

Desea usar una variable en una predicción de otra, o desea cuantificar la relación numérica entre dos variables
La variable que desea predecir (su variable dependiente) es continua
Tiene más de una variable independiente, o una variable que está utilizando como predictor
No tiene medidas repetidas de la misma unidad de observación
Tienes una variable dependiente

Aclaremos esto para ayudarlo a saber cuándo usar una regresión lineal múltiple

Está buscando una prueba estadística para predecir una variable usando otra. Esta es una pregunta de predicción. Otros tipos de análisis incluyen examinar la fuerza de la relación entre dos variables (correlación) o examinar las diferencias entre los grupos (diferencia).

La variable que desea predecir debe ser continua. Continua significa que su variable de interés básicamente puede asumir cualquier valor, como frecuencia cardíaca, altura, peso, número de barras de helado que puede comer en 1 minuto, etc.

Los tipos de datos que no son continuos incluyen datos ordenados (como el lugar de finalización en una carrera, las mejores clasificaciones comerciales, etc.), datos categóricos (género, color de ojos, raza, etc.) o datos binarios (comprados el producto o no , tiene la enfermedad o no, etc.).

La regresión lineal múltiple se usa cuando hay dos o más variables predictoras medidas en un solo punto en el tiempo.

¿Qué podemos obtener al utilizar el modelo de regresión lineal múltiple?

Suponemos que el ( epsilon_ {i} ) tiene una distribución normal con media 0 y varianza constante ( sigma^{2} ). Estos son los mismos supuestos que utilizamos en regresión simple con un X-Variable.
El subíndice I se refiere al individuo (i^{ textrm {th}} ) individual o unidad en la población. En la notación de las variables X, el subíndice siguiente simplemente denota qué X-Variable es.
La palabra «lineal» en «regresión lineal múltiple» se refiere al hecho de que el modelo es lineal en los parámetros, ( beta_0, beta_1, ldots, beta_ {p-1} ). Esto simplemente significa que cada parámetro multiplica una variable X, mientras que la función de regresión es una suma de estos términos «Parámetros Times X-variables». Cada variable X puede ser una variable predictor o una transformación de variables predictoras (como el cuadrado de una variable predictor o dos variables predictoras multiplicadas). Permitir la transformación no lineal de variables predictoras como esta permite que el modelo de regresión lineal múltiple represente relaciones no lineales entre la variable de respuesta y las variables predictoras. Exploraremos más transformaciones predictoras en la lección 9. Tenga en cuenta que incluso ( beta_0 ) representa un término «parámetro de x-variable» si piensa en el x-variable que se multiplica por ( beta_0 ) como que se está la función constante «1.»
El modelo incluye variables X P-1, pero los parámetros de regresión P (beta) debido al término de intercepción ( beta_0 ).
Las estimaciones de los parámetros ( beta ) son los valores que minimizan la suma de los errores al cuadrado para la muestra. La fórmula exacta para esto se da en la siguiente sección sobre notación de matriz.
La letra B se utiliza para representar una estimación de muestra del parámetro ( beta ). Así (b_ {0} ) es la estimación de muestra de ( beta_ {0} ), (b_ {1} ) es la estimación de muestra de ( beta_ {1} ), y así sucesivamente .
( textrm {mse} = frac { textrm {sse}} {n-p} ) Estimaciones ( sigma^{2} ), la varianza de los errores. En la fórmula, n = tamaño de muestra, p = número de parámetros ( beta ) en el modelo (incluida la intersección) y ( textrm {sse} ) = suma de errores cuadrados. Observe que para la regresión lineal simple p = 2. Por lo tanto, obtenemos la fórmula para MSE que introdujimos en ese contexto de un predictor.
(S = SQRT {MSE} ) Estimaciones ( Sigma ) y se conoce como error estándar de regresión o el error estándar residual.
En el caso de dos predictores, la ecuación de regresión estimada produce un plano (en oposición a una línea en la configuración de regresión lineal simple). Para más de dos predictores, la ecuación de regresión estimada produce un hiperplano.
Cada parámetro ( beta ) representa el cambio en la respuesta media, e (y), por unidad de aumento en la variable predictor asociada cuando todos los demás predictores se mantienen constantes.
Por ejemplo, ( beta_1 ) representa el cambio estimado en la respuesta media, e (y), por unidad de aumento en (x_1 ) cuando (x_2 ), (x_3 ),…, , , , , , (x_ {p-1} ) se mantienen constantes.
El término de intercepción, ( beta_0 ), representa la respuesta media estimada, e (y), cuando todos los predictores (x_1 ), (x_2 ),…, (x_ {p-1} ), son todos cero (que pueden o no tener algún significado práctico).
Un valor predicho se calcula como ( hat {y} _ {i} = b_ {0}+b_ {1} x_ {i, 1}+b_ {2} x_ {i, 2}+ ldots+b_ { p-1} x_ {i, p-1} ), donde los valores B provienen del software estadístico y los valores X son especificados por nosotros.
Un término residual (error) se calcula como (e_ {i} = y_ {i}- hat {y} _ {i} ), la diferencia entre un valor real y predicho de y.
Una gráfica de residuos (verticales) versus valores predichos (horizontales) idealmente debería parecerse a una banda aleatoria horizontal. Las desviaciones de este formulario indican dificultades con el modelo y/o los datos.
Otros análisis residuales se pueden hacer exactamente como lo hicimos en una regresión simple. Por ejemplo, es posible que deseemos examinar un gráfico de probabilidad normal (NPP) de los residuos. Las gráficas adicionales a considerar son gráficos de residuos versus cada X-variable por separado. Esto podría ayudarnos a identificar fuentes de curvatura o varianza no constante. Exploraremos esto más en la Lección 7.
Como en una regresión lineal simple, (r^2 = frac {SSR} {ssto} = 1- frac {sse} {ssto} ), y representa la proporción de variación en (y ) (sobre su media ) «explicado» por el modelo de regresión lineal múltiple con predictores, (x_1, x_2,… ).
Si comenzamos con un modelo de regresión lineal simple con una variable predictor, (x_1 ), entonces agregue una segunda variable predictor, (x_2 ), (SSE ) disminuirá (o permanecerá igual) mientras (SSTO ) permanece constante, y así (r^2 ) aumentará (o permanecerá igual). En otras palabras, (r^2 ) siempre aumenta (o permanece igual) ya que se agregan más predictores a un modelo de regresión lineal múltiple, incluso si los predictores agregados no están relacionados con la variable de respuesta. Por lo tanto, por sí mismo, (r^2 ) no se puede usar para ayudarnos a identificar qué predictores deben incluirse en un modelo y cuáles deben excluirse.
Una medida alternativa, ajustada (r^2 ), no necesariamente aumenta a medida que se agregan más predictores y se pueden usar para ayudarnos a identificar qué predictores deben incluirse en un modelo y cuáles deben excluirse. Ajustado (r^2 = 1- izquierdo ( frac {n-1} {n-p} right) (1-r^2) ), y, aunque no tiene una interpretación práctica, es útil para dicha construcción de modelos propósitos. En pocas palabras, al comparar dos modelos utilizados para predecir la misma variable de respuesta, generalmente preferimos el modelo con el valor más alto de (r^2 ) ajustado – consulte la Lección 10 para obtener más detalles.

Si la hipótesis nula anterior fuera el caso, entonces un cambio en el valor de (x_ {1} ) no cambiaría y, por lo que y y (x_ {1} ) no están relacionados linealmente (teniendo en cuenta (( x_2 ) y (x_3 )). Además, todavía nos dejarían con variables (x_ {2} ) y (x_ {3} ) están presentes en el modelo. Cuando no podemos rechazar la hipótesis nula anterior, debemos decir que no necesitamos variable (x_ {1} ) en el modelo dada que las variables (x_ {2} ) y (x_ {3} ) Will permanecer en el modelo. En general, la interpretación de una pendiente en la regresión múltiple puede ser complicada. Las correlaciones entre los predictores pueden cambiar los valores de pendiente dramáticamente de lo que serían en regresiones simples separadas.

Para realizar la prueba, el software estadístico informará los valores P para todos los coeficientes en el modelo. Cada valor p se basará en una estadística t calculada como

Tenga en cuenta que el valor hipotético generalmente es solo 0, por lo que esta parte de la fórmula a menudo se omite.