La ecuación de regresión estimada, en estadísticas, una ecuación construida para modelar la relación entre variables dependientes e independientes.
Un modelo de regresión simple o múltiple se plantea inicialmente como una hipótesis con respecto a la relación entre las variables dependientes e independientes. El método de mínimos cuadrados es el procedimiento más utilizado para desarrollar estimaciones de los parámetros del modelo. Para una regresión lineal simple, las estimaciones de mínimos cuadrados de los parámetros del modelo β0 y β1 se denotan B0 y B1. Usando estas estimaciones, se construye una ecuación de regresión estimada: ŷ = B0 + B1X. El gráfico de la ecuación de regresión estimada para regresión lineal simple es una aproximación de línea recta a la relación entre y y x.
Como ilustración del análisis de regresión y el método de mínimos cuadrados, suponga que un centro médico universitario está investigando la relación entre el estrés y la presión arterial. Suponga que tanto una puntuación de prueba de estrés como una lectura de presión arterial se han registrado para una muestra de 20 pacientes. Los datos se muestran gráficamente en la figura, llamado diagrama de dispersión. Los valores de la variable independiente, la puntuación de la prueba de estrés, se dan en el eje horizontal, y los valores de la variable dependiente, la presión arterial, se muestran en el eje vertical. La línea que pasa a través de los puntos de datos es el gráfico de la ecuación de regresión estimada: ŷ = 42.3 + 0.49x. Las estimaciones del parámetro, B0 = 42.3 y B1 = 0.49, se obtuvieron utilizando el método de mínimos cuadrados.
Un uso primario de la ecuación de regresión estimada es predecir el valor de la variable dependiente cuando se dan valores para las variables independientes. Por ejemplo, dada a un paciente con una puntuación de prueba de estrés de 60, la presión arterial predicha es 42.3 + 0.49 (60) = 71.7. Los valores predichos por la ecuación de regresión estimada son los puntos en la línea en la figura, y las lecturas reales de la presión arterial están representadas por los puntos dispersos sobre la línea. La diferencia entre el valor observado de y y el valor de y predicho por la ecuación de regresión estimada se denomina residual. El método de mínimos cuadrados elige las estimaciones de parámetros de tal manera que se minimiza la suma de los residuos cuadrados.
¿Cómo se realiza una estimación mediante la ecuación de regresión?
Antes de comenzar a aprender sobre la regresión, regrese al álgebra y revise qué es una función. La definición de una función puede ser formal, como la de mi texto de cálculo de primer año: “Una función es un conjunto de pares ordenados de números (x, y) de modo que a cada valor de la primera variable (x) corresponde a un único valor de la segunda variable (y) ”(Thomas, 1960). [1]. Más intuitivamente, si existe una relación regular entre dos variables, generalmente hay una función que describe la relación. Las funciones se escriben en varios formularios. El más general es y = f (x), que simplemente dice que el valor de y depende del valor de x de alguna manera regular, aunque no se especifica la forma de la relación. La forma funcional más simple es la función lineal donde:
α y β son parámetros, permanecen constantes a medida que el cambio x e y. α es la intercepción y β es la pendiente. Si se conocen los valores de α y β, puede encontrar la Y que va con cualquier x colocando la X en la ecuación y la resolución. Puede haber funciones en las que una variable depende de los valores de los valores de dos o más variables donde X1 y X2 juntos determinan el valor de y. También puede haber funciones no lineales, donde el valor de la variable dependiente (y en todos los ejemplos que hemos usado hasta ahora) depende de los valores de una o más otras variables, pero los valores de las otras variables están cuadrados, o llevado a alguna otra potencia o raíz o multiplicada juntas, antes de que se determine el valor de la variable dependiente. La regresión le permite estimar directamente los parámetros solo en funciones lineales, aunque hay trucos que permiten que muchas formas funcionales no lineales se estimen indirectamente. La regresión también le permite probar para ver si existe una relación funcional entre las variables, al probar la hipótesis de que cada una de las pistas tiene un valor de cero.
Primero, consideremos el caso simple de una función de dos variables. Usted cree que y, la variable dependiente, es una función lineal de x, la variable independiente: y depende de x. Recoja una muestra de pares (x, y) y tráfico en un conjunto de ejes x, y. La idea básica detrás de la regresión es encontrar la ecuación de la línea recta que se acerca lo más posible a la mayor cantidad de puntos posible. Los parámetros de la línea dibujados a través de la muestra son estimadores imparciales de los parámetros de la línea que se acercarían lo más posible a la mayor cantidad posible de puntos en la población, si la población se hubiera reunido y trazada. De acuerdo con la convención de usar letras griegas para valores de población y letras romanas para valores de muestra, la línea dibujada a través de una población es:
En la mayoría de los casos, incluso si toda la población se hubiera reunido, la línea de regresión no pasaría por todos los puntos. La mayoría de los fenómenos con los que los investigadores de negocios tratan no son perfectamente deterministas, por lo que ninguna función predecirá o explicará perfectamente cada observación.
¿Qué es una ecuación de estimación en el análisis de regresión?
La adicción estrictamente sobre la regresión se puede definir de la siguiente manera. Las variables aleatorias son con una distribución dada de la probabilidad conjunta. Si se define una expectativa condicional para cada conjunto de valores
Entonces la función se llama regresión el valor de y para los valores, y su gráfico es una línea de regresión de o ecuación de regresión.
La dependencia de se manifiesta en la variación de los valores promedio de y cuando cambia. Aunque para cada conjunto fijo de valores, la cantidad sigue siendo una variable aleatoria con una cierta dispersión.
Para aclarar la cuestión de cuán exactamente el análisis de regresión establece la variación de y cuando cambia, el valor promedio de la varianza y se usa para diferentes conjuntos de valores (de hecho, estamos hablando de la medida de la dispersión de lo dependiente variable alrededor de la tarifa de regresión).
En la práctica, la tarifa de regresión se busca con mayor frecuencia como una función lineal (regresión lineal) que aborda mejor la curva deseada. Esto se realiza utilizando el método de cuadrados mínimos, cuando la suma de los cuadrados de las desviaciones realmente observadas por sus estimaciones se reduce al mínimo (nos referimos a estimaciones usando una línea recta que afirma representar la dependencia de la regresión deseada):
(M es el tamaño de la muestra). Este enfoque se basa en el hecho bien conocido de que la suma que aparece en la expresión anterior supone el valor mínimo con precisión debido al caso en el que.
¿Qué es la estimación de la ecuación de regresión múltiple?
La fórmula de regresión múltiple se utiliza en el análisis de la relación entre variables y fórmula independientes dependientes y múltiples, se representa por la ecuación y es igual a una más bx1 más cx2 más dx3 más e donde y es una variable dependiente, x1, x2, x3 son variables independientes independientes , a es intercepta, b, c, d son pendientes, y E es valor residual.
Múltiples regresiones son un método para predecir la variable dependiente con la ayuda de dos o más variables independientes. Mientras ejecuta este análisis, el objetivo principal del investigador es descubrir la relación entre la variable dependiente y las variables independientes. Para predecir la variable dependiente, se eligen múltiples variables independientes, lo que puede ayudar a predecir la variable dependiente. Se usa cuando la regresión lineal no puede cumplir con el propósito. El análisis de regresión ayuda en el proceso de validación de si las variables predictoras son lo suficientemente buenas como para ayudar a predecir la variable dependiente.
Intentemos comprender el concepto de análisis de regresiones múltiples con la ayuda de un ejemplo. Intentemos averiguar cuál es la relación entre la distancia cubierta por un conductor de Uber y la edad del conductor y la cantidad de años de experiencia del conductor.
En este ejemplo particular, veremos qué variable es la variable dependiente y qué variable es la variable independiente. La variable dependiente en esta ecuación de regresión es la distancia cubierta por el conductor de Uber, y las variables independientes son la edad del conductor y el número de experiencias que tiene al conducir.
Intentemos comprender el concepto de análisis de regresiones múltiples con la ayuda de otro ejemplo. Tratemos de averiguar cuál es la relación entre el GPA de una clase de estudiantes y la cantidad de horas de estudio y la altura de los estudiantes.
¿Qué es la línea de estimación?
Para analizar el caso de estimación fuera de línea, consideremos un tiempo instantáneo TF> μ. La información de datos de entrada/salida está disponible para k ≤ tf. Usando una ventana móvil de tamaño μ, el observador discreto analiza los datos y proporciona q^k. El método propuesto en las secciones anteriores garantiza, bajo la Sección 3, que q^k = qk, esta información es utilizada por el observador continuo. La dinámica de error se rige por la siguiente ecuación:
Las ganancias del observador LI, se calculan de modo que el estado estimado X^K converge hacia el estado del sistema XK para todas las condiciones iniciales, es decir:
La convergencia global de (17) se garantiza seleccionando las ganancias LI; i = 1, ⋯, s de manera tal que se satisface la condición de estabilidad de error establecida en (Daafouz et al., 2002). Consiste en encontrar matrices definidas positivas si y matrices fi y gi para i = 1, ⋯, s solución de las siguientes desigualdades:
con j = 1, ⋯, s. En este caso, las matrices li son dadas por
La estabilidad asintótica está garantizada por la función Lyapunov V = εt∑i = 1sξkipiε con pi = si – 1.
Muchas plantas industriales tienen retrasos inherentes al tiempo variable, cuya estimación en línea es de gran importancia por varias razones. Entre ellos, es posible recordar que las variaciones de retraso de tiempo pueden representar un síntoma de degradación del comportamiento del proceso, al igual que el caso de los procesos de molienda. Por lo tanto, monitorear el valor de retraso puede conducir fácilmente al desarrollo de procedimientos de diagnóstico eficientes [1]. Además, dado que los sistemas de retraso son difíciles de controlar con los reguladores de retroalimentación clásica, el conocimiento del retraso puede explotarse para mejorar el rendimiento del circuito cerrado al recurrir a los esquemas de compensación de retraso de tiempo, como el Predictor de Smith [2]. Sin embargo, se reconoce que estas técnicas predictivas, si se aplican con una estimación de retraso incorrecta, conducen a un bajo rendimiento de control, ver p. [3], [4]. Finalmente, debe recordarse que muchas reglas para el ajuste automático de reguladores de PI o PID simples y populares se basan en un modelo de proceso de primer orden simplificado o retraso de tiempo de segundo orden, como las reglas de Ziegler-Nichols o las relacionadas, ver, ver p.ej. [5], [6].
¿Qué es una estimación y tipo de ellas?
También se llama presupuesto, estimación preliminar. Este tipo de estimación se prepara en la etapa inicial de un proyecto. Para dar una idea clara al propietario (cliente) sobre la cantidad de costo necesario para el proyecto y obtener la aprobación de los organismos sancionadores necesarios (por ejemplo: de los bancos para obtener un préstamo). Se necesitan documentos tales como planes de dibujo del proyecto, detalles sobre la tierra, incluido el suministro de electricidad y agua y un informe claro completo para llevar a cabo la estimación. Comúnmente, la estimación aproximada se calcula con relevante para la experiencia anterior. Aquí el estimador ya conoce la tarifa para el área de 1M2 y con eso calcula la estimación de costos para el área recientemente propuesta (de una casa similar).
La estimación del área del zócalo se puede lograr multiplicando los valores de la longitud del zócalo, el ancho del zócalo y la tasa de área del zócalo. Aquí el área del zócalo se refiere como área de zócalo externo del edificio a nivel de piso. Simplemente también se puede afirmar como el área cubierta de techo de un edificio. La tasa de área de zócalo se deriva dividiendo el costo total de un edificio previamente construido por el área de zócalo del edificio previamente construido.
Estimación del área de zócalo = Área de zócalo x Tasa de área de zócalo.
Tasa de área de zócalo = costo total de un área de edificio / zócalo total de ese edificio.
Existen algunas restricciones para calcular el área de zócalo de un edificio y alguna área debe incluir o excluir al calcular. Entre eso, las áreas que pueden incluir son,
¿Qué es estimación de variables?
El método de dibujar estadísticamente una inferencia en los datos se denomina inferencia estadística. Por lo tanto, las pruebas de hipótesis y la inferencia son los factores más importantes involucrados. La teoría de la estimación es una parte de las estadísticas que extrae parámetros de observaciones que se corrompen con el ruido.
La estimación es una división de estadísticas y procesamiento de señal que determina los valores de los parámetros a través de datos empíricos medidos y observados. El proceso de estimación se lleva a cabo para medir y diagnosticar el valor real de una función o un conjunto particular de poblaciones. Se realiza sobre la base de observaciones en las muestras, que son una pieza combinada de la población o función objetivo. Se utilizan varias estadísticas para realizar la tarea de estimación.
Alinear el marco teórico, la recopilación de artículos, sintetizar brechas, articular una metodología y plan de datos claros, y escribir sobre las implicaciones teóricas y prácticas de su investigación son parte de nuestros servicios integrales de edición de tesis.
- Rastree todos los cambios, luego trabaje con usted para lograr una escritura académica.
- Apoyo continuo para abordar los comentarios del comité, reduciendo las revisiones.
Hay dos términos muy importantes que se utilizan en la estimación: el estimador y la estimación. Para comprender el concepto del estimador y la estimación en detalle, utilizaremos un ejemplo. Digamos que A1, A2, A3, etc., es una colección de muestras de algún grupo de cierta población con «X» como parámetro. Aquí, si t = t (a) es una estadística, entonces e (t (a)) = x. De estas ecuaciones podemos darnos cuenta de que se ha llevado a cabo una estimación de la estadística, donde el estadístico t es un estimador y el parámetro «x» es el estimador.
La estimación tiene muchas propiedades importantes para el estimador ideal. Estas propiedades incluyen naturaleza imparcial, eficiencia, consistencia y suficiencia.
¿Cómo se calcula la estimación?
Probablemente se pregunte qué considerar en la gestión de proyectos al calcular, etc. Para hacerlo correctamente, no es suficiente saber la fórmula: debe saber qué costos deben tenerse en cuenta para que sus estimaciones sean lo más precisas posible.
Este es un escenario similar al que analizamos en el caso de uso #1, solo al revés. Hemos completado el 90% del proyecto, pero usamos solo el 60% de sus fondos establecidos.
A partir de este ejemplo, vemos que actualmente estamos quemando los fondos a un ritmo mucho más bajo de lo que asumimos. La diferencia promedio es 90% – 40% = 50%.
Este ejemplo es un poco más complicado. Como puede ver, Sprint 3 se estimó primero (la columna estimada) y luego se asignaron personas específicas (la columna programada).
Como resultado, tenemos estimaciones y estimaciones de alto nivel basadas en asignaciones particulares de personas.
Primero, debemos entender si las asignaciones para Sprint 3 ya se han completado o no. Si no, el EAC para la estimación debe ser el trabajo máximo para Sprint 3, y el EAC para la asignación debe ser un punto de referencia en relación con el presupuesto actualmente quemado.
Para hacer esto, puede comparar el tiempo estimado para Sprint 3 con el tiempo asignado. En este caso, tenemos 600 horas de estimación y 493.5 horas planificadas entre el equipo.
Según esto, podemos concluir que aún no hemos asignado el proyecto total, por lo que este es el primer caso.
Etc para asignación = 47,081.25 – 2,241.96 = $ 44,839.29
¿Cómo se calcula la estimación de la media?
Hemos definido un lenguaje para describir las relaciones causales existentes entre el proceso interconectado que componen nuestro universo. ¿Hay alguna manera de describir el alcance de estas relaciones, para caracterizar más los efectos causales?
¿Cómo representamos relaciones causales entre los muchos procesos interconectados que comprenden nuestro universo?
En mi publicación anterior, presenté un modelo conveniente para describir las preguntas contrafactuales, que reflexionan sobre los posibles resultados que veríamos dado un cambio en una variable explicativa particular. Terminé la publicación con una formalización de los efectos de tratamiento promedio o la media aritmética de todos los efectos causales que una variable explicativa particular puede tener en las mediciones individuales de una variable de resultado. Desafortunadamente, como resultado del problema fundamental de la inferencia causal, no podemos medir directamente los efectos promedio del tratamiento. Esto se debe a que no podemos presenciar más de un resultado potencial, ya que no podemos establecer una variable explicativa en más de un valor. Mencioné que había una manera que podíamos estimar los efectos promedio del tratamiento y ahora puedo proceder a describir el método en detalle.
Recuerde que para estimar el efecto causal debido a una variable explicativa particular, debemos observar los datos con variación, entre las personas tratadas que recibieron tratamiento y individuos no tratados que no lo hicieron. Al considerar la estimación de los efectos promedio del tratamiento, será útil considerar también el efecto de tratamiento promedio del tratado (ATT) y el efecto de tratamiento promedio de los no tratados (ATU).
El primero es el efecto de tratamiento promedio para los individuos que se tratan, y para el cual una variable explicativa particular que describe su tratamiento xi color {#7a28cb} x_ixi es igual a 111. Esta última es el efecto de tratamiento promedio para las personas que son Sin tratar, y para el cual el XI Color {#7A28CB} X_IXI que describe su tratamiento es igual a 000. Formalmente, ATT se describe mediante la siguiente ecuación. En el cálculo de la media aritmética para individuos tratados, representamos el número de individuos que se tratan con NTN_TNT.
¿Cómo realizar una estimación en estadística?
Aunque la media de la muestra es un estimador imparcial de la media de la población, muy pocas muestras tienen una media exactamente igual a la media de la población. Aunque pocas muestras tienen una media exactamente igual a la media de la población M, el teorema del límite central nos dice que la mayoría de las muestras tienen una media cercana a la media de la población. Como resultado, si usa el teorema del límite central para estimar μ, rara vez estará exactamente correcto, pero rara vez estará muy equivocado. Los estadísticos han aprendido con qué frecuencia una estimación puntual será lo equivocado. Usando este conocimiento, puede encontrar un intervalo, un rango de valores que probablemente contiene la media de la población. Incluso puede elegir la gran probabilidad que desee tener, aunque para aumentar la probabilidad, el intervalo debe ser más amplio.
La mayoría de las veces, las estimaciones son estimaciones de intervalo. Cuando hace una estimación de intervalo, puede decir: «Estoy en el Z por ciento seguro de que la media de esta población es entre X e Y». Muy a menudo, escuchará a alguien decir que ha estimado que la media es un número «± mucho». Lo que han hecho se cita el punto medio del intervalo para el «número de algún número», de modo que el intervalo entre X e Y se puede dividir por la mitad con + «tanto» por encima del punto medio y, «tanto» a continuación. Por lo general, no le dicen que solo están «Z por ciento seguros». Hacer tal estimación no es difícil: es lo que Kevin hizo al final del último capítulo. Vale la pena pasar por los pasos cuidadosamente ahora, porque se siguen los mismos pasos básicos para hacer cualquier estimación de intervalo.
Al hacer cualquier estimación de intervalo, debe utilizar una distribución de muestreo. Al hacer una estimación de intervalo de la población media, la distribución de muestreo que usa es la distribución T.
El método básico es elegir una muestra y luego encontrar el rango de población significa que pondría el puntaje T de su muestra en la parte central de la distribución t. Para hacer esto un poco más claro, mire la fórmula para T:
donde n es el tamaño de su muestra y X y S se calculan a partir de su muestra. μ es lo que está tratando de estimar. Desde la tabla T, puede encontrar el rango de puntajes T que incluyen el 80 por ciento medio, o 90 por ciento, o cualquier por ciento, para los grados de libertad N-1. Elija el porcentaje que desee y use la tabla. Ahora tiene las puntuaciones T más bajas y más altas, X, S y N. Luego puede sustituir el puntaje T más bajo en la ecuación y resolver para μ para encontrar uno de los límites para μ si la puntuación T de su muestra está en el medio de la distribución. Luego sustituya el puntaje T más alto en la ecuación y encuentre el otro límite. Recuerde que desea dos μ porque desea poder decir que la media de la población es entre dos números.
¿Qué desarrolla el análisis de regresión para realizar estimaciones?
Si alguna vez se ha preguntado cómo dos o más datos se relacionan entre sí (por ejemplo, cómo el PIB se ve afectado por los cambios en el desempleo y la inflación), o si alguna vez le ha pedido que cree un pronóstico o analice predicciones basadas en predicciones. En las relaciones entre variables, entonces el análisis de regresión de aprendizaje valdría la pena su tiempo.
En este artículo, aprenderá los conceptos básicos de la regresión lineal simple, a veces llamada regresión de ‘mínimos cuadrados ordinarios’ u OLS, una herramienta comúnmente utilizada en el pronóstico y el análisis financiero. Comenzaremos aprendiendo los principios centrales de la regresión, primero aprendiendo sobre covarianza y correlación, y luego pasando a construir e interpretar una producción de regresión. El software comercial popular como Microsoft Excel puede hacer todos los cálculos y resultados de regresión por usted, pero aún es importante aprender la mecánica subyacente.
- La regresión lineal simple se usa comúnmente en el pronóstico y el análisis financiero, para que una empresa diga cómo un cambio en el PIB podría afectar las ventas, por ejemplo.
- Microsoft Excel y otro software pueden hacer todos los cálculos, pero es bueno saber cómo funciona la mecánica de la regresión lineal simple.
En el corazón de un modelo de regresión está la relación entre dos variables diferentes, llamadas variables dependientes e independientes. Por ejemplo, suponga que desea pronosticar ventas para su empresa y ha concluido que las ventas de su empresa suben y bajan dependiendo de los cambios en el PIB.
Las ventas que pronostica serían la variable dependiente porque su valor «depende» del valor del PIB y el PIB sería la variable independiente. Luego necesitaría determinar la fuerza de la relación entre estas dos variables para pronosticar las ventas. Si el PIB aumenta/disminuye en un 1%, ¿cuánto aumentará o disminuirán sus ventas?
¿Qué es la estimación mediante la línea de regresión?
El propósito del paso de estimación es encontrar estimaciones de β0 y β1 que producen un conjunto de valores de μy | X que, en cierto sentido, «mejor» se ajustan a los datos. Una forma de hacer esto sería poner una regla en el diagrama de dispersión y dibujar una línea que visualmente parece proporcionar el mejor ajuste. Ciertamente, este no es un método muy objetivo o científico ya que diferentes individuos probablemente definirían diferentes líneas de mejor ajuste. En su lugar, usaremos un método más riguroso.
donde el careto o el «sombrero» sobre un símbolo de parámetro indica que es una estimación. Tenga en cuenta que μˆy | x es una estimación de la media de y para cualquier x. Qué tan bien la estimación se ajusta a los valores observados reales de y puede medirse por las magnitudes de las diferencias entre las y observadas y los valores μˆy | x correspondientes, es decir, los valores individuales de (y – μˆy | x). Estas diferencias se llaman residuos. Dado que los residuos más pequeños indican un buen ajuste, la línea estimada de mejor ajuste debería ser la línea que produce un conjunto de residuos que tienen las magnitudes más pequeñas. Sin embargo, no existe una definición universal de «más pequeña» para una colección de valores; Por lo tanto, primero se debe definir algunos criterios arbitrarios pero con suerte útil para esta propiedad. Algunos criterios que se han empleado son los siguientes:
Minimice la suma de los valores absolutos de los residuos.
Artículos Relacionados:
