Aprende a calcular la ecuación de regresión estadística para mejorar tus análisis

Una ecuación de regresión se usa en las estadísticas para descubrir qué relación, si la hay, existe entre conjuntos de datos. Por ejemplo, si mide la altura de un niño cada año, puede encontrar que crecen aproximadamente 3 pulgadas al año. Esa tendencia (que crece tres pulgadas al año) se puede modelar con una ecuación de regresión. De hecho, la mayoría de las cosas en el mundo real (desde los precios de la gasolina hasta los huracanes) pueden modelarse con algún tipo de ecuación; Nos permite predecir eventos futuros.

Una línea de regresión es la línea de «mejor ajuste» para sus datos. Básicamente, dibuja una línea que mejor representa los puntos de datos. Es como un promedio de donde se alinean todos los puntos. En regresión lineal, la línea de regresión es una línea perfectamente recta: una línea de regresión lineal.

La línea de regresión está representada por una ecuación. En este caso, la ecuación es -2.2923x + 4624.4. Eso significa que si graficó la ecuación -2.2923x + 4624.4, la línea sería una aproximación aproximada para sus datos.
No es muy común que todos los puntos de datos realmente caigan en la línea de regresión. En la imagen de arriba, los puntos están ligeramente dispersos alrededor de la línea. En esta siguiente imagen, los puntos caen en la línea. La forma curva de esta línea es como resultado de la regresión polinomial, que se ajusta a los puntos a una ecuación polinomial. La regresión polinomial da como resultado una línea curva.

La regresión es útil ya que le permite hacer predicciones sobre los datos. El primer cuadro anterior va de 1995 a 2015. Si quisiera predecir lo que sucedería en 2022, podría conectarlo a la ecuación:
-2.2923 (2020) +4626.4 = -4.046.
Tener una lluvia negativa no tiene demasiado sentido, pero se puede decir que la lluvia disminuirá a 0 pulgadas en algún momento antes de 2022. Según esta línea de regresión particular, en realidad se prevé que suceda en algún momento de 2018:
-2.2923 (2018) +4626.4 = 0.5386
-2.2923 (2019) +4626.4 = -1.7537

¿Qué es ecuación y recta de regresión?

Como verá a continuación, una línea de regresión es una línea recta que
representa la relación entre un X-Variable y un
Y-variable. Recuerde que la ecuación de una línea recta es y = m x + b.
La cantidad m da la pendiente (elevación/ejecución) de la línea y la intersección y (la y
Coordinar en la que la línea recta cruza el eje y) viene dada por b.

La línea y = x tiene una pendiente de 1 y una intersección y de 0 mientras el
línea y = 3x -2 tiene una pendiente de 3 y una intersección y de -2. Qué
son la pendiente y la intersección y de la línea cuya ecuación es 3x –
2y + 4 = 3?

Los datos estadísticos a menudo consisten en pares de números relacionados, por ejemplo, altura y peso, ingresos y
Impuestos pagados, edad y presión arterial, o gastos de publicidad
e ingresos para una empresa. Puedes pensar en estos pares de números como el
coordenadas x e y de puntos en el avión. Puedes trazar
Estos puntos de datos en un sistema de coordenadas X-Y. Por ejemplo,
Uso del conjunto de datos de enfoque Elección de la gráfica de dispersión bajo los gráficos
menú, y luego seleccionando GPA de la escuela secundaria (HSGPA) como el X-Variable
y GPA acumulativo (CumgPA) a medida que el Y-Variable produce el
Siguiendo el diagrama de dispersión.

Claramente, no puedes dibujar una sola línea recta que pase
a través de todos estos puntos. Sin embargo, puedes dibujar una línea recta que se encuentra
se aproxima a la relación entre HSGPA y CumGPA.
Tal línea se muestra en el siguiente gráfico.

La ecuación de la línea de regresión se muestra en el
título. Discutiremos R-SQ más tarde. La línea muestra que
En general, a medida que aumenta HSGPA, CumGPA aumenta. ¿Cómo es la ecuación de esta línea de regresión?
¿determinado? El siguiente gráfico muestra cuatro puntos de datos dados (en negro). Los puntos
tener coordenadas (1,1), (2,3), (3,3) y
(4,5). Ninguna línea sola pasará a través de los cuatro puntos.
Sin embargo, puede intentar encontrar líneas que se acercan a los puntos.

¿Qué es la ecuación de la recta de regresión?

Una ecuación de regresión se utiliza en las estadísticas para averiguar qué relación existe, si existe, entre los conjuntos de datos. Por ejemplo, si mide la altura de un niño cada año, podría descubrir que crece aproximadamente 3 pulgadas por año. Esta tendencia (que crece tres pulgadas por año) se puede modelar utilizando una ecuación de regresión. De hecho, la mayoría de las cosas en el mundo real (desde los precios de la gasolina hasta los huracanes) pueden modelarse con alguna ecuación; Esto nos permite predecir eventos futuros.

Una línea de regresión es la línea «más adecuada» para sus datos. Básicamente, se dibuja una línea que mejor representa puntos de datos. Es como un promedio de donde se alinean todos los puntos. En regresión lineal, la línea de regresión es una línea perfectamente recta:

La línea de regresión está representada por una ecuación. En este caso, la ecuación es -2,2923X + 4624.4. Esto significa que si desea representar la ecuación -2,2923X + 4624.4, la línea sería una aproximación aproximada para los datos.

No es muy común que todos los puntos de datos realmente caigan en la línea de regresión. En la imagen de arriba, los puntos están ligeramente dispersos alrededor de la línea. En esta siguiente imagen, los puntos caen en la línea. La forma curva de esta línea es el resultado de la regresión polinomial, que se adapta a puntos en una ecuación polinomial.

Definiciones estadísticas> ¿Qué es una ecuación de regresión?

¿Qué es la recta de regresión y para qué sirve?

Se utiliza una ecuación de regresión en estadísticas para determinar las posibles relaciones entre los conjuntos de datos. Por ejemplo, si mide el tamaño de un niño cada año, puede ver que crece aproximadamente 5 cm por año. Esta tendencia (que aumenta en tres pulgadas por año) puede modelarse utilizando una ecuación de regresión. De hecho, la mayoría de las cosas en el mundo real (desde el precio de la gasolina hasta los huracanes) pueden modelarse utilizando una ecuación; Esto nos permite predecir eventos futuros.

Una línea de regresión es la línea «más apropiada» para sus datos. Básicamente, dibuja una línea que mejor representa puntos de datos. Es como un promedio de donde se alinean todos los puntos. En regresión lineal, la línea de regresión es una línea perfectamente recta:

La línea de regresión está representada por una ecuación. En este caso, la ecuación es -2,2923X + 4624.4. Esto significa que si representara gráficamente la ecuación -2,2923X + 4624.4, el derecho sería una aproximación gruesa para sus datos.

No es muy común que todos los puntos de datos tengan de hecho el derecho de regresión. En la imagen de arriba, los puntos están ligeramente dispersos alrededor de la línea. En la siguiente imagen, los puntos caen en la línea. La forma curva de esta línea es el resultado de una regresión polinomial, que ajusta los puntos en una ecuación polinomial.

Ecuación de regresión: qué es y cómo usarla

¿Cómo se calcula B0 y B1?

La fórmula matemática de la regresión lineal se puede escribir como y = b0 + b1*x + e, donde:

B0 y B1 se conocen como coeficientes o parámetros de regresión beta:
B0 es la intercepción de la línea de regresión; Ese es el valor predicho cuando x = 0.
B1 es la pendiente de la línea de regresión.

La siguiente figura ilustra el modelo de regresión lineal, donde:

B0 y B1 se conocen como coeficientes o parámetros de regresión beta:
B0 es la intercepción de la línea de regresión; Ese es el valor predicho cuando x = 0.
B1 es la pendiente de la línea de regresión.

La línea de regresión de mejor ajuste está en azul

La intersección (B0) y la pendiente (B1) se muestran en verde

Los términos de error (e) están representados por líneas rojas verticales

Desde la gráfica de dispersión anterior, se puede ver que no todos los puntos de datos caen exactamente en la línea de regresión ajustada. Algunos de los puntos están por encima de la curva azul y otros están debajo de ella; En general, los errores residuales (E) tienen aproximadamente cero.

La suma de los cuadrados de los errores residuales se denomina suma residual de cuadrados o RSS.

La variación promedio de los puntos alrededor de la línea de regresión ajustada se denomina error estándar residual (RSE). Esta es una de las métricas utilizadas para evaluar la calidad general del modelo de regresión ajustado. Cuanto más bajo sea el RSE, mejor será.

Dado que el término de error medio es cero, la variable de resultado Y puede estimarse aproximadamente de la siguiente manera:

Matemáticamente, los coeficientes beta (B0 y B1) se determinan para que el RSS sea lo más mínimo posible. Este método para determinar los coeficientes beta se llama técnicamente regresión de mínimos cuadrados o regresión de mínimos cuadrados ordinarios (OLS).

¿Qué significa B1 y B0 en estadística?

¿Qué son Bo y B1? Estos parámetros del modelo a veces se denominan TETA0 y TETA1. Básicamente, B0 representa la intersección y luego representa la pendiente de la línea de regresión.

Todos sabemos que la línea de regresión viene dada por y = b0+b1.x

Para comprender cómo se expresa y en función de X con estos parámetros del modelo y comprender cómo se selecciona la mejor línea de ajuste, en esta publicación se deriva la derivación paso a paso de la fórmula para B0 y B1.

Considere algunos problemas como se muestra a continuación, la mejor línea de regresión se selecciona con B0 = 19.969 y B1 = 0.00776, entonces, ¿cómo encontró el algoritmo este valor para B0, B1 para encontrar esta línea que es mejor en comparación con cualquier línea que pueda derivarse para Este problema en la mano.

Ejemplo de la mejor línea de ajuste instalada entre el predictor y la variable objetivo

Entonces, ¿cuál es la fórmula para B0 y B1 que le da a esta mejor línea de ajuste? ¿Esta fórmula solo da la mejor línea de ajuste?

Antes de sumergirnos en las matemáticas para derivar la fórmula para B0 y B1, discutamos primero los supuestos hechos en la regresión lineal.

una. Las variables siguen una tendencia lineal, es decir, la curva de regresión es de forma lineal

b. El término de error gaussiano es independiente y se centra después de la distribución gausiana con media de cero y varianza de Sigma²

C. Debido a que el error gaussiano es independiente después de la distribución gaussiana (como se indicó anteriormente), la variable de respuesta (y) también sigue la distribución de probabilidad gaussiana con los parámetros. es decir, dado que el error gaussiano es una variable aleatoria independiente, la variable de respuesta también es una variable aleatoria independiente

¿Cómo se calcula la nota de B1?

Calcular su puntaje en el examen de mascotas puede ser un poco confuso y muchos estudiantes me preguntan cómo hacerlo. Mi respuesta corta es siempre esta:

Hay dos «puntajes» diferentes en el examen de mascotas. El primero le muestra las marcas que obtiene para cada respuesta correcta y la segunda es su puntaje en la escala de inglés Cambridge que podemos calcular a partir de sus marcas. Su puntaje en la escala de inglés de Cambridge es lo que puede ver en su certificado y le muestra su nivel para cada una de las cinco partes del examen. Alcanza el nivel B1 con un puntaje entre 140-160.

En este artículo, vamos a echar un vistazo a ambos sistemas de puntuación para que comprenda cómo funciona y podrá calcular su propia puntuación.

La escala de inglés Cambridge es un nuevo sistema que hemos utilizado durante algunos años. Al principio, fue un poco confuso porque en el antiguo sistema aprobó el examen con el 60% o más y falló si tenía menos que eso.

En el nuevo sistema, la regla del 60% sigue siendo cierta, pero simplemente ya no usamos el porcentaje. En su lugar, suma todas sus marcas en la prueba para obtener su primer puntaje y luego transferir esto a la puntuación en la escala de Cambridge English. Esto es entonces lo que puede encontrar en su certificado.

La escala de inglés Cambridge es un sistema para dar los resultados de todos los diferentes exámenes (KET, PET, FCE, CAE, CPE) a los estudiantes que toman estas pruebas. Puede comparar los puntajes más fácilmente y ver los diferentes niveles de dificultad entre los exámenes.

¿Cómo se hace una regresión lineal?

Para muchos, la regresión lineal se considera el «mundo de hola» del aprendizaje automático. Es un punto de partida fantástico para resaltar las capacidades del aprendizaje automático y las encrucijadas que existen entre las estadísticas y la informática.

En general, la regresión lineal se usa para dar sentido a los datos que tenemos al revelar la relación subyacente entre las características de entrada y los valores objetivo de los datos. Una vez que descubrimos esta relación, tenemos el poder de hacer predicciones sobre nuevos datos que no hemos visto antes. ¿Sigue un poco confundido? No te preocupes, pasemos por un ejemplo :)

Saltemos a una situación hipotética; ¡Yo y tú estamos buscando una casa nueva! Supongamos que queremos averiguar cuánto cuesta una casa típica en una comunidad específica, ¿cómo adivinaría?

Lo más probable es que pese un número significativo de factores diferentes. Algunos podrían ser:

¿Cuál es el tamaño de la casa? (sq ft)
¿Qué estado/comunidad es?
¿Cuál es la tasa de criminalidad en la comunidad?
¿Qué tan cerca está de las carreteras y las tiendas?

Después de hablar con algunos agentes inmobiliarios y preguntarle a sus amigos, descubrimos que el precio está determinado por tres factores centrales: tamaño, delito y proximidad a las tiendas/mercados (recuerde, esto es hipotético… No sé nada sobre bienes raíces: )). En otras palabras, utilizando estos tres valores, deberíamos poder predecir el valor de cualquier casa.

Ahora que sabemos qué determina el precio de una casa, queremos revelar la relación subyacente entre estos factores y el valor objetivo, que en nuestro caso es el precio total de la casa. Con eso, nos enfrentamos a esta ecuación:

Precio de la casa = (? X tamaño) + (? X crimen) + (? X proximidad)

¿Cuándo se hace una regresión lineal?

La regresión lineal simple se utiliza para modelar la relación entre dos variables continuas. A menudo, el objetivo es predecir el valor de una variable de salida (o respuesta) en función del valor de una variable de entrada (o predictor).

A menudo estamos interesados en comprender la relación entre varias variables. Las diagramas de dispersión y las matrices de diagrama de dispersión se pueden usar para explorar posibles relaciones entre pares de variables. La correlación proporciona una medida de la asociación lineal entre pares de variables, pero no nos cuenta sobre relaciones más complejas. Por ejemplo, si la relación es curvilínea, la correlación podría ser casi cero.

Puede usar la regresión para desarrollar una comprensión más formal de las relaciones entre las variables. En la regresión, y en el modelado estadístico en general, queremos modelar la relación entre una variable de salida, o una respuesta, y una o más variables de entrada o factores.

Dependiendo del contexto, las variables de salida también pueden denominarse variables dependientes, resultados o simplemente variables y, y las variables de entrada pueden denominarse variables explicativas, efectos, predictores o variables X.

Podemos usar la regresión y los resultados del modelado de regresión, para determinar qué variables tienen un efecto en la respuesta o ayudan a explicar la respuesta. Esto se conoce como modelado explicativo.

También podemos usar la regresión para predecir los valores de una variable de respuesta en función de los valores de los predictores importantes. Esto generalmente se conoce como modelado predictivo. O bien, podemos usar modelos de regresión para la optimización, para determinar la configuración de los factores para optimizar una respuesta. Nuestro objetivo de optimización podría ser encontrar configuraciones que conduzcan a una respuesta máxima o a una respuesta mínima. O el objetivo podría ser alcanzar un objetivo dentro de una ventana aceptable.

Aprende a calcular la ecuación de regresión estadística para mejorar tus análisis

¿Qué es ecuación y recta de regresión?

¿Qué es la ecuación de la recta de regresión?

¿Qué es la recta de regresión y para qué sirve?

¿Cómo se calcula B0 y B1?

¿Qué significa B1 y B0 en estadística?

¿Cómo se calcula la nota de B1?

¿Cómo se hace una regresión lineal?

¿Cuándo se hace una regresión lineal?

Más posts relacionados:

Análisis de forma: cómo optimizar tu web para un mejor rendimiento

Los 3 pasos indispensables para analizar e interpretar correctamente tus datos y resultados

Deja una respuesta Cancelar la respuesta