Aportes de la regresión lineal a la investigación aplicada

La buena investigación conductual a menudo requiere una interacción crítica entre la teoría y los datos. La teoría relevante ayuda a determinar los criterios apropiados y las variables que los predicen. A su vez, los resultados empíricos que se basan en una buena medición sirven para informar y refinar la teoría. Aunque la predicción es el objetivo principal de muchos esfuerzos de investigación aplicados, la teoría no está subordinada o divorciada de este objetivo. Con frecuencia, los investigadores insertarán múltiples predictores en un modelo de regresión para predecir el criterio (o criterios) de interés. En un sentido puramente práctico, la naturaleza sustantiva de los predictores en realidad puede ser menos importante que predecir lo que se valora (por ejemplo, desempeño laboral, riesgo de fumar). Pero sin teoría, uno puede verse abrumado fácilmente por infinitas posibilidades; Por lo tanto, la teoría es necesaria para guiar la búsqueda de las construcciones más apropiadas e importantes que se miden y modelan.

Determinar las variables más importantes en un modelo, que incluir (y excluir) en el modelo, y cuáles de las variables incluidas contribuyen más a la predicción, es crítico desde las perspectivas prácticas y teóricas. En el lado práctico, a menudo es esencial seleccionar un subconjunto de pruebas que sea de costo y tiempo eficiente, y que tenga una validez adecuada relacionada con los criterios. A menudo, uno puede seleccionar un pequeño subconjunto de predictores de un conjunto grande sin una pérdida práctica en la eficiencia predictiva (ver Madden y Bottenberg, 1963). Por el lado de la teoría, las buenas teorías son parsimoniosas, que contienen solo aquellas construcciones esenciales para comprender los fenómenos conductuales. En resumen, determinar la importancia relativa de las variables predictoras es importante para la construcción de modelos de regresión, tanto para el propósito práctico de la predicción como para la construcción de modelos teóricos para promover nuestra comprensión de los fenómenos conductuales.

Este artículo presenta un programa que calcula varios índices cuantitativos de la importancia relativa de los predictores en un modelo de regresión. Es importante tener en cuenta que los investigadores y profesionales a menudo determinan la importancia relativa de las variables predictoras por necesidad (por ejemplo, debido al tiempo de prueba limitado), incluso sin la ayuda de un método cuantitativo para hacerlo. Pero en lugar de confiar en la intuición humana para determinar la importancia variable, argumentamos que es necesario cuantificar la importancia relativa. Incluso la intuición experta puede ser defectuosa, inconsistente o poco confiable (ver Grove y Meehl, 1996, y Meehl, 1954, para los múltiples beneficios de los métodos estadísticos sobre la evaluación única para combinar información).

La importancia relativa se define como la contribución proporcional que cada predictor en un modelo de regresión lineal hace al modelo R2, considerando tanto su contribución única como su contribución cuando se combina con otras variables predictoras (Hoffman, 1960). Aunque no hay medidas inequívocas de importancia relativa cuando las variables predictoras están correlacionadas, algunos enfoques están bien motivados y se ha demostrado que proporcionan resultados significativos. Tenga en cuenta que el enfoque más típico para determinar la importancia relativa también es el menos informativo: después de seleccionar un conjunto de predictores y realizar un análisis de regresión lineal, muchos investigadores evalúan la importancia de los predictores en el modelo de regresión al examinar el tamaño del peso de regresión estandarizado asociado con cada variable (generalmente por globo ocular). Las variables con pesos más grandes se consideran más importantes que aquellas con pesos más pequeños.

¿Cómo se aplica la regresión lineal en la ingeniería?

· En lo más familiar: y = mx + b, tome nota de lo siguiente para evitar confusión.

Nota del estudiante: el estudiante debe poder distinguir entre x & x e también y e y, no que haga ninguna diferencia o distinción, aparte de los símbolos generalmente se «sobrecargados» y que X&Y puede significar cosas diferentes en diferentes contextos, El estudiante debe tener cuidado de saber qué «x» es cuál y cuál es «y» cuál es cuál.

Paso 5: «Valores de prueba en una tabla», Nota: Estos valores prueban la línea de tendencia para verificar que «mapea» y corresponde a los valores calculados en el paso 3: y el paso 4: (un buen estudiante siempre «verificará la espalda» Todo su trabajo, y no deja nada al azar o cree en nada de lo que se les dice, hasta que lo revisen, 100%)

Bueno, todo se ve bien, ¿verdad? Después de todos los deltas verticales [(y2-y1) = 0], por lo que si es cero, debe ser correcto. ¿Derecha? No exactamente. ¿Qué pasa entonces?

  • Simplemente porque trazamos una «línea» que tenía una delta vertical «equilibrada» no significa que no pudiéramos haber encontrado una multitud de líneas para satisfacer ese argumento matemáticamente «débil» de que la «suma del delta vertical = 0, Por lo tanto, demuestra que tenemos una línea de tendencia válida. No, los matemáticos rigurosos se reirían de eso y lo más probable es que demostrarían los millones de formas contrarias.
  • Nuestro modelo es ridículamente simple. Solo usamos 3 pares de datos. ¿Cómo sabemos que este algoritmo se mantendría debajo, 500 pares de datos, o tal vez 5 mil millones de pares de datos, no tenemos suficiente confianza, especialmente como dado por el valor R2 de 0.25, hemos calculado por el algoritmo para tener Mucha confianza en la línea de tendencia que hemos calculado, ni entendemos completamente el funcionamiento interno del cálculo de R2 para hacer cualquier tipo de determinación sobre la rigurosidad del resultado, por lo que también tenemos el valor de R2 en cuestión.

¿Cuándo es conveniente realizar una regresión lineal?

El analista de negocios particularmente aventurero, en un punto bastante temprano de su carrera, pasará un intento de predecir los resultados basados ​​en patrones que se encuentran en un conjunto particular de datos. Esa aventura generalmente se lleva a cabo en forma de regresión lineal, un método de pronóstico simple pero poderoso que se puede implementar rápidamente utilizando herramientas comerciales comunes (como Excel).

La nueva habilidad del analista de negocios: ¡el poder de predecir el futuro! -La cegará a las limitaciones de este método estadístico, y su inclinación a usarlo en exceso será profunda. Nada es peor que el análisis de lectura basado en un modelo de regresión lineal que es claramente inapropiada para la relación que se describe. Después de haber visto la sobre-la regresión causa confusión, estoy proponiendo esta guía simple para implementar una regresión lineal que, con suerte, debería salvar a los analistas de negocios (y las personas que consumen sus análisis) en algún momento.

El uso sensible de la regresión lineal en un conjunto de datos requiere que cuatro supuestos sobre ese conjunto de datos sean verdaderos:

  • La relación entre las variables es lineal.
  • Los datos son homoskedastic, lo que significa que la varianza en los residuos (la diferencia en los valores reales y predichos) es más o menos constante.
  • Los residuos son independientes, lo que significa que los residuos se distribuyen al azar y no están influenciados por los residuos en observaciones anteriores. Si los residuos no son independientes entre sí, se consideran autocorrelacionados.
  • Los residuos se distribuyen normalmente. Esta suposición significa que la función de densidad de probabilidad de los valores residuales normalmente se distribuye en cada valor x. Dejo esta suposición para el final porque no considero que sea un requisito difícil para el uso de la regresión lineal, aunque si esto no es cierto, se deben hacer algunas manipulaciones al modelo.

El primer paso para determinar si un modelo de regresión lineal es apropiado para un conjunto de datos es trazar los datos y evaluarlos cualitativamente. Descargue esta hoja de cálculo de ejemplo que preparé y eche un vistazo a la hoja de trabajo «mala»; Este es un conjunto de datos (inventado) que muestra el total de acciones (variable dependiente) experimentada para un elemento compartido en una red social, dada la cantidad de amigos (variable independiente) conectadas por el Sharer original. La intuición debe decirle que este modelo no escalará linealmente y, por lo tanto, se expresará con una ecuación cuadrática. De hecho, cuando se traza el gráfico (puntos azules a continuación), exhibe una forma cuadrática (curvatura) que obviamente será difícil de ajustar con una ecuación lineal (suposición 1 arriba).

¿Qué es la regresión lineal múltiple y en qué casos se aplica?

La regresión lineal múltiple es una extensión de la regresión lineal simple que nos permite tener en cuenta los efectos de otros predictores independientes (factores de riesgo) en el resultado de los intereses. Y como con la regresión lineal simple, la regresión se puede resumir con una ecuación matemática. Una ecuación para la regresión lineal múltiple tiene la forma general que se muestra a continuación.

Donde Y es un resultado de medición continua (por ejemplo, IMC), B0 es la «intercepción» o el valor inicial. X1, X2, X3, etc. son los valores de las variables predictoras independientes (es decir, factores de riesgo), y B1, B2, B3, etc. son los coeficientes para cada factor de riesgo.

  • La regresión lineal (tanto simple como múltiple) se puede usar cuando la variable de resultado (dependiente) se distribuye continuamente, es decir, una variable de medición.
  • Las variables independientes (predictores) pueden ser continuas, dicotómicas (sí/no), ordinales o categóricas (variables ficticias). Las variables dicotómicas deben codificarse como 1 si el factor es verdadero/presente y 0 si no. Las variables ordinales y categóricas (las llamadas «variables ficticias») están codificadas 1, 2, 3, 4, etc. (discutidas con más detalle más adelante en este módulo).
  • Tenga en cuenta que puede haber muchas más de 3 variables; El número total posible estará limitado solo por el tamaño de la muestra.

Aquí está el código y la salida resultante para el ejemplo anterior analizando los efectos del consumo de calorías y la edad en el IMC:

La sección llamada «coeficientes» muestra la estimación (es decir, el coeficiente) para la intersección y para cada uno de los dos predictores independientes (KCAL y edad). La última columna muestra los valores p para cada variable independiente y, en este caso, ambos son predictores independientes estadísticamente significativos del IMC. Además, el valor p al final de la última línea de salida es el valor p para el modelo en general, y eso también es muy significativo.

¿Cómo se aplica la regresión lineal múltiple?

Como en el caso de la regresión lineal simple, los coeficientes ( beta ) se pueden calcular a partir del método de mínimo cuadrado. En este modelo, cada coeficiente ( beta_i ) (excepto ( beta_0 )) es la derivada parcial de (y ) con respecto a un predictor (x_i ). En otras palabras, este coeficiente representa la diferencia promedio en (y ) asociada con una diferencia en una unidad de (x_i ) y sin diferencia en otros predictores.

Un modelo de regresión puede incluir varios predictores categóricos o digitales. Para este curso, presentaremos ejemplos que incluyen:

Un predictor categórico y un predictor digital (en un contexto experimental, este modelo se llama análisis de covarianza o ANCOVA);

dos predictores categóricos (ANOVA con dos factores);

La tabla de datos de compensación.csv se toma del libro de Crawley, estadísticas: una introducción usando R. Contiene datos sobre la masa de semillas producidas por una especie de planta (fruta) en función del tamaño de las raíces (raíz) y dependiendo sobre si la planta sufre o no pastoreo (pastoreo).

El gráfico muestra claramente la existencia de una relación lineal entre el tamaño de las raíces y la producción de semillas, así como el efecto del tratamiento: para el mismo tamaño de las raíces, el pasto reduce la producción de semillas. Tenga en cuenta que si no hubiéramos medido las raíces, uno podría pensar que el efecto del pasto es positivo.

Artículos Relacionados:

Más posts relacionados:

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *