En estadísticas, es difícil mirar un conjunto de números aleatorios en una tabla e tratar de darle sentido. Por ejemplo, el calentamiento global puede estar reduciendo las nevadas promedio en su ciudad y se le pide que prediga cuánta nieve cree que caerá este año. Mirando la siguiente tabla, puede adivinar en algún lugar alrededor de 10-20 pulgadas. Esa es una buena suposición, pero podrías hacer una mejor suposición, usando la regresión.
Esencialmente, la regresión es la «mejor suposición» al usar un conjunto de datos para hacer algún tipo de predicción. Está ajustando un conjunto de puntos a un gráfico. Hay una gran cantidad de herramientas que pueden ejecutar regresión para usted, incluido Excel, que utilicé aquí para ayudar a dar sentido a esos datos de nevadas:
Con solo mirar la línea de regresión que se ejecuta a través de los datos, puede ajustar un poco su mejor suposición. Puede ver que la suposición original (aproximadamente 20 pulgadas) estaba muy lejos. ¡Para 2015, parece que la línea estará en algún lugar entre 5 y 10 pulgadas! Eso podría ser «lo suficientemente bueno», pero la regresión también te da una ecuación útil, que para este gráfico es:
y = -2.2923x + 4624.4.
Lo que eso significa es que puede enchufar un valor X (el año) y obtener una estimación bastante buena de las nevadas para cualquier año. Por ejemplo, 2005:
y = -2.2923 (2005) + 4624.4 = 28.3385 pulgadas, que está bastante cerca de la cifra real de 30 pulgadas para ese año.
Lo mejor de todo es que puede usar la ecuación para hacer predicciones. Por ejemplo, ¿cuánta nieve caerá en 2017?
y = 2.2923 (2017) + 4624.4 = 0.8 pulgadas.
¿Qué indica el análisis de regresión simple?
El modelo de regresión simple supone una relación lineal, y = α + βx + ε, entre una variable dependiente y y una variable explicativa x, con el término de error ε que abarca factores omitidos. Las estimaciones de mínimos cuadrados A y B minimizan la suma de los errores al cuadrado cuando la línea ajustada se usa para predecir los valores observados de Y. El error estándar de estimación (ver) es nuestra estimación de la desviación estándar del término de error. Los errores estándar de las estimaciones A y B pueden usarse para construir intervalos de confianza para α y β y probar hipótesis nulas, con mayor frecuencia que el valor de β es cero (y y x no están relacionados linealmente). El coeficiente de determinación R2 compara la suma del modelo de los errores de predicción al cuadrado con la suma de las desviaciones al cuadrado de Y sobre su media, y puede interpretarse como la fracción de la variación en la variable dependiente que se explica por el modelo de regresión. El coeficiente de correlación es igual a la raíz cuadrada de R2.
Al igual que con el modelo de regresión simple, la precisión predictiva del modelo puede medirse por el coeficiente de determinación, R2, que compara la suma de los errores de predicción al cuadrado con la suma de las desviaciones cuadradas de Y sobre su media:
En nuestro modelo de consumo, R2 = 0.999, lo que indica que nuestro modelo de regresión múltiple explica un impresionante 99.9 por ciento de la variación en el consumo anual. El coeficiente de correlación múltiple R es la raíz cuadrada de R2.
¿Cómo se interpreta un modelo de regresión lineal simple?
La regresión lineal es el término más comentado para aquellos que trabajan en ML y análisis estadísticos. La regresión lineal, como su nombre lo indica, simplemente significa ajustar una línea a los datos que establece una relación entre una variable objetivo «Y» con las variables explicativas «X». Se puede caracterizar por la ecuación a continuación:
Tomemos un conjunto de datos de muestra que obtuve de un curso sobre Coursera llamado «Regresión lineal para estadísticas comerciales».
La interpretación de la primera fila es que el primer viaje tardó un total de 489.4 minutos en entregar 42 parcelas que conducen a través de un camión que tenía 3 años a una región B. Aquí, el tiempo que toma es nuestra variable objetivo y ‘Región A’,, ‘Truckage’ y ‘parcelas’ son nuestras variables explicativas. Dado que la columna «región» es una variable categórica, debe codificarse con un valor numérico.
Si tenemos números «n» de etiquetas en nuestra variable categórica, entonces se agregan columnas adicionales «N-1» para representar o codificar de manera única la variable categórica. Aquí, 1 en Regla indica que el viaje fue a la Región A y 0 indica que el viaje fue a la Región B.
Arriba está el resumen de la regresión lineal realizada en el conjunto de datos. Por lo tanto, de los resultados anteriores, nuestra ecuación lineal sería:
Actas = -33.1286 + 10.0171* parcelas + 3.21* camión + 106.84* Región A
B₁ = 10.0171: significa que tomará 10.0171 minutos adicionales para entregar si el número de parcelas aumenta en 1, otras variables permanecen constantes.
¿Cómo se interpreta el análisis de regresión?
Los coeficientes de regresión representan el cambio medio en la variable de respuesta para una unidad de cambio en la variable predictora mientras mantienen otros predictores en la constante del modelo. Este control estadístico que proporciona la regresión es importante porque aísla el papel de una variable de todas las otras en el modelo.
La clave para comprender los coeficientes es pensar en ellos como pendientes, y a menudo se llaman coeficientes de pendiente. Ilustraré esto en la trama de línea ajustada a continuación, donde usaré la altura de una persona para modelar su peso. Primero, la salida de la ventana de sesión de Minitab:
La gráfica de línea ajustada muestra los mismos resultados de regresión gráficamente.
La ecuación muestra que el coeficiente de altura en metros es de 106.5 kilogramos. El coeficiente indica que por cada medidor adicional de altura puede esperar que aumente el peso en un promedio de 106.5 kilogramos.
La línea azul ajustada muestra gráficamente la misma información. Si se mueve a la izquierda o a la derecha a lo largo del eje X por una cantidad que representa un cambio de altura de un metro, la línea ajustada aumenta o disminuye en 106.5 kilogramos. Sin embargo, estas alturas son de niñas de edad secundaria y varían de 1.3 m a 1.7 m. La relación solo es válida dentro de este rango de datos, por lo que en realidad no cambiaríamos hacia arriba o hacia abajo por un medidor completo en este caso.
Si la línea ajustada fuera plana (un coeficiente de pendiente de cero), el valor esperado para el peso no cambiaría sin importar qué tan arriba y abajo de la línea vaya. Por lo tanto, un valor p bajo sugiere que la pendiente no es cero, lo que a su vez sugiere que los cambios en la variable predictor están asociados con los cambios en la variable de respuesta.
¿Cómo se calcula la regresion simple?
Para preparar el escenario para discutir las fórmulas
Se usa para ajustar un modelo de regresión simple (un solo variable), vamos brevemente
Revise las fórmulas para la media
modelo, que puede considerarse como un solo constante (variable cero)
modelo de regresión. Puedes usar
Software de regresión para adaptarse a este modelo y producir toda la tabla estándar y
La salida del gráfico simplemente no seleccionando ninguna variable independiente.
Porque el modelo medio no explica ninguna de la varianza en el dependiente
Variable: simplemente lo mide.
La media de la muestra tiene la (no obvia)
propiedad que es el valor
que se minimiza la desviación media cuadrada de los datos y la misma
El criterio de mínimos cuadrados se utilizará más tarde para estimar la «media
efecto «de una variable independiente.
El error que comete el modelo medio
observación t
es, por lo tanto, la desviación de y de
Su valor promedio histórico:
El estandar
Error del modelo, denotado bys, es
Nuestra estimación de la desviación estándar
del ruido en y (la variación que se considera inexplicable).
Más pequeño es mejor, otras cosas son iguales: queremos que el modelo explique como
Gran parte de la variación como sea posible. En el modelo medio, el error estándar del
El modelo es solo la desviación estándar de la muestra de Y:
(Aquí y en otro lugar, Stdev.s denota la desviación estándar de la muestra de X, usando Excel
notación. El estándar de la población
la desviación es stdev.p.) Tenga en cuenta que el
El error estándar del modelo no es
la raíz cuadrada del valor promedio de los errores al cuadrado dentro del
Muestra histórica de datos. Más bien, la suma de los errores al cuadrado se divide porn-1 en lugar de n debajo de la raíz cuadrada
firmar porque esto se ajusta por el hecho de que un «grado de libertad para el error»
se ha utilizado estimando un parámetro de modelo (es decir, la media) de la
Muestra de n puntos de datos.
¿Qué mide la regresion simple?
Un modelo de regresión bien ajustado da como resultado valores predichos cercanos a los valores de datos observados.
El modelo medio, que utiliza la media para cada valor predicho, generalmente se utilizaría si no hubiera variables predictoras útiles. Por lo tanto, el ajuste de un modelo de regresión propuesto debería ser mejor que el ajuste del modelo medio.
Se utilizan tres estadísticas en la regresión de mínimos cuadrados ordinarios (OLS) para evaluar el ajuste del modelo: R-cuadrado, la prueba F general y el error cuadrado medio (RMSE). Los tres se basan en dos sumas de cuadrados: suma de cuadrados totales (SST) y suma de error de cuadrados (SSE).
SST mide cuán lejos están los datos de la media, y SSE mide cuán lejos están los datos de los valores predichos del modelo. Las diferentes combinaciones de estos dos valores proporcionan información diferente sobre cómo el modelo de regresión se compara con el modelo medio.
La diferencia entre SST y SSE es la mejora en la predicción del modelo de regresión, en comparación con el modelo medio. Dividir esa diferencia por SST da R-cuadrado. Es la mejora proporcional en la predicción del modelo de regresión, en comparación con el modelo medio. Indica la bondad del ajuste del modelo.
R-Squared tiene la propiedad útil de que su escala es intuitiva. Varía de cero a uno. Zero indica que el modelo propuesto no mejora la predicción sobre el modelo medio. Uno indica una predicción perfecta. La mejora en el modelo de regresión da como resultado aumentos proporcionales en R-cuadrado.
Artículos Relacionados:
