Como un conjunto fundamental de algoritmos en cualquier caja de herramientas de aprendizaje automático, la regresión lineal se puede resolver con una variedad de enfoques. Aquí discutimos. Con ejemplos de código, cuatro métodos y demuestran cómo deben usarse.
La regresión lineal es un algoritmo de aprendizaje automático supervisado. Predice una relación lineal entre una variable independiente (y), basada en las variables dependientes dadas (x), de modo que la variable independiente (y) tiene el costo más bajo.
Hay muchos métodos diferentes que podemos aplicar a nuestro modelo de regresión lineal para que sea más eficiente. Pero discutiremos los más comunes aquí.
- Descenso de gradiente
- Método de mínimo cuadrado / Método de ecuación normal
- Método Adams
- Descomposición de valor singular (SVD)
Uno de los métodos más comunes y fáciles para que los principiantes resuelvan problemas de regresión lineal es el descenso de gradiente.
Ahora, supongamos que tenemos nuestros datos trazados en forma de un gráfico de dispersión, y cuando aplicamos una función de costo, nuestro modelo hará una predicción. Ahora, esta predicción puede ser muy buena, o puede estar lejos de nuestra predicción ideal (lo que significa que su costo será alto). Entonces, para minimizar ese costo (error), aplicamos descenso de gradiente.
Ahora, el descenso de gradiente convergerá lentamente nuestra hipótesis hacia un mínimo global, donde el costo sería más bajo. Al hacerlo, tenemos que establecer manualmente el valor del alfa, y la pendiente de la hipótesis cambia con respecto al valor de nuestro alfa. Si el valor del alfa es grande, entonces tomará grandes pasos. De lo contrario, en el caso de un pequeño alfa, nuestra hipótesis convergería lentamente y a través de pequeños pasos pequeños.
¿Cuál es el metodo de regresión lineal?
La regresión lineal es un tipo básico y comúnmente utilizado de análisis predictivo. La idea general de regresión es examinar dos cosas: (1) ¿Un conjunto de variables predictoras hace un buen trabajo al predecir una variable de resultado (dependiente)? (2) ¿Qué variables en particular son predictores significativos de la variable de resultado, y de qué manera se indican por la magnitud y el signo de las estimaciones beta, impactan la variable de resultado? Estas estimaciones de regresión se utilizan para explicar la relación entre una variable dependiente y una o más variables independientes. La forma más simple de la ecuación de regresión con una variable dependiente y una independiente se define por la fórmula y = c + b*x, donde y = puntuación de variable dependiente estimada, c = constante, b = coeficiente de regresión y puntaje x = en el puntaje en el variable independiente.
Nombrar las variables. Hay muchos nombres para la variable dependiente de una regresión. Puede llamarse variable de resultado, variable de criterio, variable endógena o regresión y. Las variables independientes pueden llamarse variables exógenas, variables predictoras o regresores.
Tres usos principales para el análisis de regresión están (1) determinar la fuerza de los predictores, (2) pronosticar un efecto y (3) pronóstico de tendencias.
Alinear el marco teórico, la recopilación de artículos, sintetizar brechas, articular una metodología y plan de datos claros, y escribir sobre las implicaciones teóricas y prácticas de su investigación son parte de nuestros servicios integrales de edición de tesis.
¿Cuáles son los metodos de regresión?
La regresión logística se utiliza para encontrar la probabilidad de un evento. Queremos determinar el éxito o el fracaso de un evento. Usamos regresión logística cuando la variable dependiente debe parecer valores terminados (0/1, verdadero / falso, sí / no). Aquí, el valor de y va de 0 a 1.
- Se usa ampliamente para problemas de clasificación
- No requiere una relación lineal entre las variables dependientes e independientes
- Puede gestionar diferentes tipos de relaciones
- Para evitar el sobreajuste y el poco acorralado, es preferible incluir todas las variables significativas.
- Requiere muestras grandes porque las estimaciones de máxima probabilidad son menos potentes para muestras de bajo tamaño
- Las variables independientes no deben correlacionarse entre sí
- Si el valor de la variable dependiente es ordinal, se denomina regresión logística ordinal.
- Si la variable dependiente es múltiples de clase, se llama regresión logística multinomial.
La regresión de Crest es una técnica de análisis de datos de regresión de múltiples academyarity. Cuando se prueba la colección múltiple, las estimaciones de los cuadrados más pequeños no tienen sesgo, pero sus variaciones son importantes, pueden estar lejos del valor real. Al agregar un grado de sesgo a las estimaciones de regresión, la regresión máxima reduce los errores estándar. Esperamos que el efecto neto sea dar estimaciones más confiables.
- Se usa ampliamente para problemas de clasificación
- No requiere una relación lineal entre las variables dependientes e independientes
- Puede gestionar diferentes tipos de relaciones
- Para evitar el sobreajuste y el poco acorralado, es preferible incluir todas las variables significativas.
- Requiere muestras grandes porque las estimaciones de máxima probabilidad son menos potentes para muestras de bajo tamaño
- Las variables independientes no deben correlacionarse entre sí
- Si el valor de la variable dependiente es ordinal, se denomina regresión logística ordinal.
- Si la variable dependiente es múltiples de clase, se llama regresión logística multinomial.
El LASSO (el operador de selección y retirada más absoluto) penaliza el tamaño absoluto de los coeficientes de regresión. Además, es capaz de reducir la variabilidad y aumentar la precisión de los modelos de regresión lineal.
La regresión de Lasso difiere de la regresión de la cresta en el sentido de que usa valores absolutos en la función de penalización, en lugar de cuadrados. Esto conduce a valores penalizantes que tienen el efecto de hacer ciertas estimaciones de los parámetros perfectamente cero. Cuanto mayor sea la sanción aplicada, más las estimaciones se reducen a cero absoluto. Esto da como resultado una selección de variables en n variables.
¿Cómo se divide el modelo de regresión lineal?
La imagen clásica de regresión lineal, pero ¿sabías que las matemáticas detrás de ella son aún más sexys? Descubralo.
Antes de comenzar, debe comprender
- Dadas n entradas y salidas…
3. De modo que la mejor línea de ajuste busque minimizar la función de costo que llamamos S…
Para nuestra referencia, ingresaremos la línea de mejor ajuste en nuestra función de costo distribuyendo la resta, lo que resulta en…
Para minimizar nuestra función de costo, s, debemos encontrar dónde la primera derivada de S es igual a 0 con respecto a A y B. Cuanto más cercano A y B son 0, cuanto menos sea el error total para cada punto. Comencemos con la derivada parcial de un primero.
Use la regla de la cadena comenzando con el exponente y luego la ecuación entre los paréntesis. Aviso, tomar la derivada de la ecuación entre los paréntesis lo simplifica a -1.
Saquemos el -2 de la suma y dividamos ambas ecuaciones por -2.
Hagamos algo semi inteligente. Rompamos la suma en 3 partes y tiremos de la constante B fuera de la suma
Sustituyendo esto de nuevo y reorganizando B, danos…
¡Casi estámos allí! Lo último que debemos hacer es resolver para A, por lo que agregamos NA a ambos lados y dividimos por n.
¡Mira esto! Las dos sumas de y y x divididas por el número de observaciones son simplemente la media :). Entonces, después de todo ese trabajo, minimizar la función de costo de S con respecto a A es simplemente…
Hemos minimizado la función de costo de S con respecto a a. Encontremos la última parte que es s con respecto a b.
¿Qué es la regresión lineal y correlación?
Al investigar la relación entre dos o más variables numéricas, es importante saber la diferencia entre correlación y regresión. Las similitudes/diferencias y ventajas/desventajas de estas herramientas se discuten aquí junto con ejemplos de cada uno.
La correlación cuantifica la dirección y la fuerza de la relación entre dos variables numéricas, x e y, y siempre se encuentra entre -1.0 y 1.0. La regresión lineal simple se refiere a X a Y a través de una ecuación de la forma y = a + bx.
- Tanto cuantifican la dirección y la fuerza de la relación entre dos variables numéricas.
- Cuando la correlación (R) es negativa, la pendiente de regresión (b) será negativa.
- Cuando la correlación es positiva, la pendiente de regresión será positiva.
- La correlación al cuadrado (R2 o R2) tiene un significado especial en una regresión lineal simple. Representa la proporción de variación en y explicada por X.
- La regresión intenta establecer cómo X hace que Y cambie y los resultados del análisis cambiarán si se intercambian X e Y. Con la correlación, las variables X e Y son intercambiables.
- La regresión supone que X se soluciona sin error, como una cantidad de dosis o configuración de temperatura. Con la correlación, X e Y son típicamente tanto variables aleatorias*, como la altura y el peso o la presión arterial y la frecuencia cardíaca.
- La correlación es una sola estadística, mientras que la regresión produce una ecuación completa.
*La variable X se puede solucionar con correlación, pero los intervalos de confianza y las pruebas estadísticas ya no son apropiadas. Típicamente, la regresión se usa cuando X se fija.
¿Qué es la regresión lineal?
La regresión lineal es una técnica de análisis de datos que proporciona el valor de los datos desconocidos utilizando otro valor de datos relacionado y bien conocido. Modele matemáticamente la variable desconocida o dependiente y la variable conocida o independiente como ecuación lineal. Por ejemplo, suponemos que tenemos datos relacionados con los gastos y los ingresos del año pasado. Las técnicas de regresión lineal analizan estos datos y determinan que sus gastos son la mitad de sus ingresos. Luego calculan un gasto futuro desconocido a la mitad de un ingreso futuro bien conocido.
Los modelos de regresión lineal son relativamente simples y proporcionan una fórmula matemática fácil para interpretar para generar pronósticos. La regresión lineal es una técnica estadística consolidada y se aplica fácilmente al software y la tecnología de la información. Las empresas lo usan para convertir de manera confiable y predictamente los datos no procesados en inteligencia empresarial e información utilizable. Los científicos en muchos campos, incluida la biología y las ciencias conductuales, ambientales y sociales, usan regresión lineal para realizar análisis de datos preliminares y predecir tendencias futuras. Muchos métodos de ciencia de datos, como el aprendizaje automático y la inteligencia artificial, utilizan la regresión lineal para resolver problemas complejos.
Básicamente, una técnica de regresión lineal simple intenta rastrear un gráfico lineal entre dos variables de datos, X e Y. Como una variable independiente, X se remonta a lo largo del eje horizontal. Las variables independientes también son llamadas para variables explicativas o variables predictivas. La variable dependiente, y, se traza en el eje vertical. También es posible referirse a valores Y, como variables de respuesta o variables planificadas.
Para esta descripción general, consideramos la forma más simple del diseñador gráfico lineal entre Y y X; Y = C*x+m, donde C y M son constantes para todos los valores posibles de X e Y. Entonces, por ejemplo, suponga que el conjunto de datos de entrada para (x, y) es (1.5), (2.8) y (3.11). Para identificar el método de regresión lineal, debe cumplir con el siguiente procedimiento:
- Trace una línea recta y mida la correlación entre 1 y 5.
¿Qué es regresión y correlación en probabilidad y estadistica?
Data Science es un campo bastante interesante, y durante los últimos seis meses me embarqué en este estudio, ha sido emocionante y educativo. Gracias a un programa en el que me inscribí en la Escuela de Datos Gitgirl. En la última sesión, aprendimos sobre la introducción a las estadísticas, pero esta publicación se centra en la correlación, la regresión y un poco de probabilidad.
Es una técnica estadística que puede mostrar si se relacionan los pares de variables fuertemente relacionados. Existen varias técnicas de correlación diferentes, pero el tipo más común es la correlación de Pearson o Product-Moment.
El coeficiente de correlación lineal mide la resistencia y la dirección de una relación lineal entre dos variables. A veces se conoce como el coeficiente de correlación del momento del producto Pearson.
El valor de R es tal que -1≤ r≤+1. Las instancias de R son:
- Correlación positiva: si x e y tienen una fuerte correlación lineal positiva, R está cerca de +1. Los valores positivos indican una relación entre x e y tal que a medida que aumentan los valores de X, los valores para y también aumentan.
- Correlación negativa: si X e Y tienen una fuerte correlación lineal negativa, R está cerca de -1. Los valores negativos indican una relación entre x e y tal que a medida que aumentan los valores X, los valores para y disminuyen.
- Sin correlación: si no hay correlación lineal o una correlación lineal débil, R está cerca de 0. Un valor cercano a cero significa que no hay relación entre las variables.
- Una correlación perfecta de +o -1 ocurre solo cuando todos los puntos de datos se encuentran exactamente en línea recta. Si r = +1 (un ajuste positivo perfecto), la pendiente de la línea es positiva. Si r = -1 (ajuste negativo perfecto), la pendiente de la línea es negativa.
Artículos Relacionados:
