La regresión es una técnica de aprendizaje automático supervisada que se utiliza para predecir valores continuos. El objetivo final del algoritmo de regresión es trazar una línea de mejor ajuste o una curva entre los datos y la regresión lineal, la regresión logística, la regresión de la cresta, la regresión de lazo, la regresión polinómica son tipos de regresión.
El análisis de regresión se utiliza cuando desea predecir una variable dependiente continua de varias variables independientes. Si la variable dependiente es dicotómica, entonces la regresión logística debe usarse.
Dos métricas cruciales a considerar al evaluar sus predicciones son la varianza y el sesgo. El grado por el cual la aproximación de la función objetivo difiere cuando se utilizan diferentes datos de entrenamiento se conoce como varianza. La relación entre la entrada (propiedades) y las variables de salida está establecida por la función objetivo (temperatura prevista). La tendencia del algoritmo a aprender continuamente lo erróneo al no tener en cuenta todos los datos se conoce como sesgo. El sesgo debe ser bajo para que el modelo sea preciso.
En la disciplina del aprendizaje automático, el análisis de regresión es un concepto clave. Se clasifica como aprendizaje supervisado porque el algoritmo se enseña tanto las etiquetas de entrada como de salida. Al estimar cómo una variable influye en la otra, ayuda al establecimiento de un vínculo entre las variables. En el aprendizaje automático, la regresión se refiere a técnicas matemáticas que permiten a los científicos de datos pronosticar un resultado continuo (y) basado en los valores de una o más variables predictoras (x). Debido a su facilidad de aplicación en la predicción y el pronóstico, la regresión lineal es quizás el tipo de análisis de regresión más popular.
¿Qué son las técnicas de regresión?
Las técnicas de regresión consisten en encontrar una relación matemática entre las mediciones de dos variables, y y x, de modo que el valor de la variable y se puede predecir a partir de una medición de la otra variable, x. Sin embargo, las técnicas de regresión no deben considerarse como una fórmula mágica que puede adaptarse a una buena relación con los datos de medición en todas las circunstancias, ya que las características de los datos deben satisfacer ciertas condiciones. Al determinar la idoneidad de los datos de medición para la aplicación de técnicas de regresión, se recomienda práctica para dibujar un gráfico aproximado de los puntos de datos medidos, ya que este es a menudo el mejor medio para detectar aspectos de los datos que lo hacen inadecuado para el análisis de regresión. Dibujar un gráfico de datos indicará, por ejemplo, si algún punto de datos parece ser erróneo. Esto puede indicar que los errores humanos o el mal funcionamiento del instrumento han afectado los puntos de datos erróneos, y se supone que dichos puntos de datos se verificarán en busca de corrección.
Las técnicas de regresión no se pueden aplicar con éxito si la desviación de cualquier punto de datos particular de la línea a ajustar es mayor que el error máximo posible calculado para la variable medida (es decir, la suma predicha de todos los errores sistemáticos y aleatorios). La naturaleza de algunos conjuntos de datos de medición es tal que este criterio no puede satisfacerse, y cualquier intento de aplicar técnicas de regresión está condenado a la falla. En ese caso, el único curso de acción válido es expresar las mediciones en forma tabular. Esto se puede usar como una tabla de búsqueda x-y, desde la cual se pueden leer los valores de la variable y correspondiente a valores particulares de x. En muchos casos, este problema de grandes errores en algunos puntos de datos solo se hace evidente durante el proceso de intentar adaptarse a una relación por regresión.
Una verificación adicional que debe hacerse antes de intentar ajustar una línea o curva a mediciones de dos variables, x e y, es examinar los datos y buscar cualquier evidencia de que ambas variables estén sujetas a errores aleatorios. Es una condición clara para la validez de las técnicas de regresión que solo una de las variables medidas está sujeta a errores aleatorios, sin ningún error en la otra variable. Si existen errores aleatorios en ambas variables medidas, las técnicas de regresión no se pueden aplicar y el recurso debe realizarse en su lugar al análisis de correlación (cubierto más adelante en este capítulo). Los ejemplos simples de una situación en la que ambas variables en un conjunto de datos de medición están sujetos a errores aleatorios son mediciones de la altura y el peso humanos, y no se debe intentar que se ajuste a una relación entre ellas por regresión.
Habiendo determinado que la técnica es válida, el procedimiento de regresión es más simple si existe una relación de línea recta entre las variables, lo que permite que una relación de la forma y = a + bx se estima mediante regresión lineal de mínimos cuadrados. Desafortunadamente, en muchos casos, no existe una relación en línea recta entre puntos, que se muestra fácilmente al trazar puntos de datos sin procesar en un gráfico. Sin embargo, el conocimiento de las leyes físicas que rigen los datos a menudo pueden sugerir una forma alternativa adecuada de relación entre los dos conjuntos de mediciones variables, como una relación cuadrática o una relación polinomial de orden superior. Además, en algunos casos, las variables medidas se pueden transformar en una forma donde existe una relación lineal. Por ejemplo, supongamos que dos variables, y y x, están relacionadas de acuerdo con y = axc. Se puede derivar una relación lineal de esto, utilizando una transformación logarítmica, como log (y) = log (a) + clog (x).
¿Qué es regresión ejemplos?
En esta lección, aplicamos análisis de regresión a algunos
Datos ficticios, y mostramos cómo interpretar los resultados de nuestro análisis.
Nota: Su navegador no admite el video HTML5. Si ve esta página web en un navegador diferente
(por ejemplo, una versión reciente de Edge, Chrome, Firefox u Opera), puede ver un tratamiento de video de esta lección.
Nota: Los cálculos de regresión generalmente son manejados por un paquete de software o un
calculadora gráfica. Para esto
Ejemplo, sin embargo, haremos los cálculos «manualmente», ya que
Los detalles sangrientos tienen valor educativo.
El año pasado, cinco estudiantes seleccionados al azar tomaron una prueba de aptitud matemática
antes de comenzar su curso de estadística. Las estadísticas
El departamento tiene tres preguntas.
- ¿Qué ecuación de regresión lineal predice mejor el rendimiento de las estadísticas?
¿Basado en puntajes de aptitud matemática? - Si un estudiante hizo un 80 en la prueba de aptitud, qué
¿Grado esperaríamos que ella hiciera en estadísticas? - ¿Qué tan bien se ajusta la ecuación de regresión los datos?
En la tabla a continuación, la columna XI muestra puntajes en el
prueba de aptitud. Del mismo modo, la columna Yi muestra estadísticas
Los grados. Las últimas dos columnas muestran puntajes de desviaciones: la diferencia entre el
El puntaje del estudiante y el puntaje promedio en cada medición. Las últimas dos filas muestran sumas y media
puntajes que usaremos para realizar el análisis de regresión.
Y para cada estudiante, también necesitamos calcular los cuadrados de los puntajes de desviación (las dos últimas columnas en la tabla a continuación).
¿Que explica la regresión?
En este artículo, deseo presentar una regresión en términos lo más simples posible para que no lo recuerde como un concepto estadístico, más bien como una experiencia más identificable.
Regresión: tan elegante como suena puede considerarse «relación» entre dos cosas. Por ejemplo, imagine que permanece en el suelo y la temperatura es de 70 ° F. Empiezas a escalar una colina y a medida que subes, te das cuenta de que te sientes más frío y que la temperatura cae. Cuando llega a la colina que está a 500 metros por encima del nivel del suelo y mide la temperatura es de 60 ° F. Podemos concluir que la altura sobre el nivel del mar influye en la temperatura. Por lo tanto, hay una relación entre altura y temperatura. Esto se denomina «regresión» en estadísticas. La temperatura depende de la altura y, por lo tanto, es la variable «dependiente», mientras que la altura es la variable «independiente». Puede haber varios factores que influyen en la temperatura, como la humedad, la presión, incluso los niveles de contaminación del aire, etc. Todos estos factores tienen una relación con la temperatura que puede escribirse matemáticamente como una ecuación.
Cualquier ecuación, que es una función de las variables dependientes y un conjunto de pesos se denomina función de regresión.
y ~ f (x; w) donde «y» es la variable dependiente (en el ejemplo anterior, temperatura), «x» son las variables independientes (humedad, presión, etc.) y «w» son los pesos de la ecuación (co -eficientes de x términos).
donde 0.5, 2.15 y 0.76 son los pesos de la ecuación. Estos pesos se deben aprender estudiando la relación entre las variables dependientes e independientes.
¿Qué diferencia hay entre la regresión simple y múltiple?
La regresión lineal simple y múltiple son a menudo los primeros modelos utilizados para investigar las relaciones en los datos. Si juegas con ellos durante el tiempo suficiente, eventualmente te darás cuenta de que pueden dar resultados diferentes.
Las relaciones que son significativas cuando se usan regresión lineal simple ya no se pueden ser cuando se usan regresión lineal múltiple y viceversa, las relaciones insignificantes en la regresión lineal simple pueden volverse significativas en la regresión lineal múltiple.
Darse cuenta de por qué esto puede ocurrir esto contribuirá en gran medida a mejorar su comprensión de lo que está sucediendo bajo la regresión lineal.
Al hacer una revisión rápida de la regresión lineal simple, intenta modelar los datos en forma de:
y si el término de pendiente es significativo, entonces para cada aumento de la unidad en x hay un aumento promedio en y por beta_1 que es poco probable que ocurra por casualidad.
Imagine que somos un negocio de helados tratando de descubrir qué impulsa las ventas y hemos medido 2 variables independientes: (1) temperatura y (2) la cantidad de personas que usan pantalones cortos que observamos caminar por la calle en 10 minutos.
Nuestra variable dependiente es: número de helados que vendemos.
y hacer una regresión lineal simple para encontrar una relación significativa entre las ventas y la temperatura. Esto tiene sentido.
Luego trazamos el número de cortos observados en contra de las ventas
Y haga otra regresión lineal simple para encontrar una relación significativa entre la cantidad de personas que usan pantalones cortos que observamos en 10 minutos y ventas de helados. Interesante… tal vez esto no tenga tanto sentido.
¿Cuándo se usa la regresión múltiple?
La regresión múltiple es una técnica estadística que puede usarse para analizar la relación entre una única variable dependiente y varias variables independientes. El objetivo del análisis de regresión múltiple es utilizar las variables independientes cuyos valores se sabe que predicen el valor del valor dependiente único. Cada valor predictor se pesa, los pesos que denotan su contribución relativa a la predicción general.
Aquí Y es la variable dependiente, y x1,…, xn son las n variables independientes. Al calcular los pesos, A, B1,…, BN, el análisis de regresión garantiza la predicción máxima de la variable dependiente del conjunto de variables independientes. Esto generalmente se hace mediante una estimación de mínimos cuadrados.
Este enfoque se puede aplicar para analizar datos multivariados de series temporales cuando una de las variables depende de un conjunto de otras variables. Podemos modelar la variable dependiente y en el conjunto de variables independientes. En cualquier momento en el instante, cuando se nos dan los valores de las variables independientes, podemos predecir el valor de y de la ecuación. 1.
En el análisis de series de tiempo, es posible realizar un análisis de regresión contra un conjunto de valores pasados de las variables. Esto se conoce como Autorregresión (AR). Consideremos n variables. Tenemos una serie temporal correspondiente a cada variable. En el momento T, el vector ZT representa los valores de las variables N. El modelo autorregresivo general supone que ZT puede representarse como:
donde cada AI (una matriz N × N) es el coeficiente de autorregresión. ZT es el vector de columna de longitud n, que denota los valores de las variables de la serie temporal en el tiempo t. P es el orden del filtro que generalmente es mucho menor que la longitud de la serie. El término de ruido o residual, ET, casi siempre se supone que es el ruido blanco gaussiano.
¿Qué estudia la regresión múltiple?
¿Cuáles son los hallazgos de este estudio exploratorio? Este ejemplo rápidamente realizado de una investigación utilizando análisis de regresión múltiple reveló un hallazgo interesante.
El número de horas dedicadas en línea se relaciona significativamente con la cantidad de horas dedicadas por un padre, específicamente la madre, con su hijo. Estos dos factores se correlacionan inversamente o negativamente.
La relación significa que cuanto mayor sea el número de horas que pasan la madre con su hijo para establecer un vínculo emocional más cercano, menos horas pasadas por su hijo usando Internet. El número de horas que pasan los niños en línea se relaciona significativamente con el número de horas de la madre que interactúa con sus hijos.
El número de horas que pasan los niños en línea se relaciona significativamente con el número de horas de la madre que interactúa con sus hijos.
Si bien este ejemplo de una investigación que utiliza un análisis de regresión múltiple puede ser un hallazgo significativo, el Bono madre-hijo representa solo un pequeño porcentaje de la varianza en las horas totales dedicadas al niño en línea. Esta observación significa que se deben abordar otros factores para resolver las largas horas de vigilia y el abandono de un estudio serio de lecciones por parte de los niños.
Pero establecer un estrecho vínculo entre madre e hijo es un buen comienzo. Realizar más investigaciones a lo largo de esta preocupación de investigación ayudará a fortalecer los hallazgos de este estudio.
El ejemplo anterior de una investigación que utiliza un análisis de regresión múltiple muestra que la herramienta estadística es útil para predecir el comportamiento de las variables dependientes. En el caso anterior, esta es la cantidad de horas que pasan en línea los estudiantes.
Artículos Relacionados:
