El coeficiente de determinación (R² o R cuadrado) es una medida estadística en un modelo de regresión que determina la proporción de varianza en la variable dependiente que puede explicarse por la variable independiente. En otras palabras, el coeficiente de determinación le dice a uno qué tan bien los datos se ajustan al modelo (la bondad del ajuste).
Aunque el coeficiente de determinación proporciona algunas ideas útiles con respecto al modelo de regresión, uno no debe depender únicamente de la medida en la evaluación de un modelo estadístico. No revela información sobre la relación causalidad entre las variables independientes y dependientes, y no indica la corrección del modelo de regresión. Por lo tanto, el usuario siempre debe sacar conclusiones sobre el modelo analizando el coeficiente de determinación junto con otras variables en un modelo estadístico.
El coeficiente de determinación puede tomar cualquier valor entre 0 a 1. Además, la métrica estadística se expresa con frecuencia en porcentajes.
La interpretación más común del coeficiente de determinación es qué tan bien el modelo de regresión se ajusta a los datos observados. Por ejemplo, un coeficiente de determinación del 60% muestra que el 60% de los datos se ajustan al modelo de regresión. En general, un coeficiente más alto indica un mejor ajuste para el modelo.
Sin embargo, no siempre es el caso de que un alto R cuadrado sea bueno para el modelo de regresión. La calidad del coeficiente depende de varios factores, incluidas las unidades de medida de las variables, la naturaleza de las variables empleadas en el modelo y la transformación de datos aplicados. Por lo tanto, a veces, un alto coeficiente puede indicar problemas con el modelo de regresión.
¿Cómo se interpreta el coeficiente de determinación R2?
La interpretación cuadrada de simplestres es qué tan bien el modelo de regresión se ajusta a los valores de datos observados. Tomemos un ejemplo para comprender esto.
Considere un modelo donde el valor R2 es del 70%. Aquí el significado R cuadrado sería que el modelo explica el 70% de los datos ajustados en el modelo de regresión. Por lo general, cuando el valor R2 es alto, sugiere un mejor ajuste para el modelo.
La corrección de la medida estadística no solo depende de R2, sino que puede depender de otros factores de varios factores como la naturaleza de las variables, las unidades sobre las que se miden las variables, etc. Por lo tanto, un alto valor R cuadrado no siempre es probable para el modelo de regresión y también puede indicar problemas.
Un valor R-cuadrado bajo es un indicador negativo para un modelo en general. Sin embargo, si consideramos los otros factores, un bajo valor R2 también puede terminar en un buen modelo predictivo.
R-cuadrado se puede evaluar utilizando la siguiente fórmula:
- Ssregresión: la suma de cuadrados explicada debido al modelo de regresión.
- Sstotal: la suma total de cuadrados.
La suma de los cuadrados debido a la regresión evalúa qué tan bien el modelo representa los datos ajustados y la suma total de cuadrados mide la variabilidad en los datos utilizados en el modelo de regresión.
Ahora volvamos a la situación anterior en la que tenemos dos factores: el número de horas de estudio por día y la puntuación en un examen particular para comprender el cálculo de R-cuadrado de manera más efectiva. Aquí, la variable objetivo está representada por la puntuación y la variable independiente por el número de horas de estudio por día.
¿Cuándo es significativo el R2?
Desafortunadamente, el coeficiente de determinación R2 y el coeficiente de correlación R deben ser las medidas mal utilizadas y malinterpretadas en el campo de las estadísticas. Para garantizar que no sea víctima de los errores más comunes, revisamos un conjunto de siete precauciones diferentes aquí. ¡Domústos y serás un maestro de las medidas!
El coeficiente de determinación R2 y el coeficiente de correlación r cuantifican la resistencia de una relación lineal. Es posible que R2 = 0% y R = 0, lo que sugiere que no existe una relación lineal entre X e Y, y sin embargo, existe una relación curva (o «curvilínea» perfecta).
Considere el siguiente ejemplo. La trama superior ilustra una relación perfecta, aunque curva, entre x e y, y sin embargo, r2 = 0% y r = 0. La línea de regresión estimada es perfectamente horizontal con la pendiente B1 = 0. Si no entendió que R2 y R Resume la fuerza de una relación lineal, probablemente malinterpretaría las medidas, concluyendo que no hay relación entre X e Y. Pero, ¡simplemente no es cierto! De hecho, hay una relación entre X e Y, simplemente no es lineal.
La trama inferior refleja mejor la relación curva entre X e Y. Hay una curva «cuadrática» a través de los datos para los cuales R2 = 100%. ¿Qué es todo esto? Aprenderemos cuando estudiamos regresión lineal múltiple más adelante en el curso de que el coeficiente de determinación R2 asociado con el modelo de regresión lineal simple para un predictor se extiende a un «coeficiente múltiple de determinación», denotó R2, para el modelo de regresión lineal múltiple con más de un predictor. (La R más minúscula y el mayúsculas se utilizan para distinguir entre las dos situaciones. El software estadístico generalmente no distingue entre los dos, llamando a ambas medidas «R2»). La interpretación de R2 es similar a la de R2, es decir, «R2 × El 100% de la variación en la respuesta se explica por los predictores en el modelo de regresión (que puede ser curvilíneo) «.
En resumen, el valor R2 del 100% y el valor R de 0 cuentan perfectamente la historia de la segunda trama. El coeficiente múltiple de determinación R2 = 100% nos dice que toda la variación en la respuesta Y se explica de manera curva por los predictores x y x2. El coeficiente de correlación r = 0 nos dice que si hay una relación entre x e y, no es lineal.
¿Qué significa un R-cuadrado bajo?
- Problemas con la estadística R-cuadrado
- Estadística R-cuadrado ajustado
Para comprender claramente los conceptos, abordaremos un problema de regresión simple. Aquí, estamos tratando de predecir las «calificaciones obtenidas» dependiendo de la cantidad de «tiempo dedicado a estudiar». El clima dedicado a estudiar será nuestra variable independiente y las marcas registradas en la prueba son la variable de objetivo dependiente de la nuestra.
Podemos trazar un gráfico de regresión simple para visualizar estos datos.
Los puntos amarillos representan los puntos de datos y la línea azul es nuestra línea de regresión prevista. Como puede ver, nuestro modelo de regresión no predice perfectamente todos los puntos de datos. Entonces, ¿cómo evaluamos las predicciones de la línea de regresión utilizando los datos? Bueno, podríamos comenzar determinando los valores residuales para los puntos de datos.
Residual para un punto en los datos es la diferencia entre el valor real y el valor predicho por nuestro modelo de regresión lineal.
Los gráficos residuales nos dicen si el modelo de regresión es adecuado para los datos o no. En realidad, es una suposición del modelo de regresión que no hay tendencia en las parcelas residuales. Para estudiar los supuestos de la regresión lineal en detalle, ¡sugiero pasar por este gran arte!
Usando valores residuales, podemos determinar la suma de los cuadrados de los residuos también conocidos como suma residual de cuadrados o RSS.
Cuanto más bajo sea el valor RSS, mejores serán las predicciones del modelo. O podemos decir que una línea de regresión es una línea de mejor ajuste si minimiza el valor de RSS. Pero hay un defecto en esto: RSS es una estadística de variante de escala. Dado que RSS es la suma de la diferencia cuadrada entre el valor real y predicho, el valor depende de la escala de la variable objetivo.
¿Qué es y cómo se interpretan el coeficiente de correlación y el coeficiente de determinación?
Echemos un vistazo a algunos ejemplos para que podamos obtener algo de práctica interpretando el coeficiente de determinación R2 y el coeficiente de correlación R.
Ejemplo 1. ¿Qué tan fuerte es la relación lineal entre las temperaturas en Celsius y las temperaturas en Fahrenheit? Aquí hay una gráfica de una ecuación de regresión estimada basada en N = 11 puntos de datos:
El software estadístico informa que R2 = 100% y R = 1.000. Ambas medidas nos dicen que existe una relación lineal perfecta entre la temperatura en grados centígrados y la temperatura en grados Fahrenheit. Sabemos que la relación es perfecta, a saber, que FahreReit = 32 + 1.8 × Celsius. No debería sorprendernos que R2 nos diga que el 100% de la variación en las temperaturas en Fahrenheit se explica por la temperatura en Celsius.
Ejemplo 2. ¿Qué tan fuerte es la relación lineal entre el número de historias que tiene un edificio y su altura? Uno pensaría que a medida que aumenta el número de historias, la altura aumentaría, pero no perfectamente. Algunos estadísticos compilaron datos en un conjunto de n = 60 edificios reportados en el Almanaque Mundial de 1994 (Bldgstories.txt). Informes de software estadístico R2 = 90.4% y R = 0.951 y produjo el siguiente gráfico:
El signo positivo de R nos dice que la relación es positiva, a medida que aumenta el número de historias, la altura aumenta, como esperábamos. Debido a que R está cerca de 1, nos dice que la relación lineal es muy fuerte, pero no perfecta. El valor R2 nos dice que el 90.4% de la variación en la altura del edificio se explica por el número de historias en el edificio.
¿Cómo se interpreta el coeficiente de correlación y determinacion?
El coeficiente de determinación es igual al coeficiente de correlación (R) al cuadrado. El coeficiente de correlación mide la fuerza de la relación entre dos variables: la variable dependiente (x) y la variable predictiva (y). Esta fuerza está entre -1 y 1. Por lo tanto, con R, es posible calcular R². Por otro lado, este cálculo no permite determinar el efecto que condujo a la adecuación o no a los datos con la regresión lineal. Otro método se basa en la calidad de los datos; Entre todos los datos registrados (TSS), hay aquellos que constituyen solo variantes residuales (RSS). Por lo tanto, el siguiente cálculo permite encontrar un coeficiente de determinación más adecuado y preciso:
El límite del coeficiente de determinación se encuentra en la adición de variables a una regresión lineal. Cuando agregamos demasiados, esto tiende a aumentar el valor de R², injustificadamente. En este caso, es útil referirse al «R² ajustado» que determinará la confiabilidad de la correlación y si se determina mediante la adición de variables.
En general, el coeficiente de determinación es una buena herramienta para estimar el vínculo entre la regresión lineal y las variables. Pero su uso sigue siendo limitado, ya que solo mide parcialmente la utilidad de una regresión lineal y el ajuste de los puntos con el modelo de regresión.
Ahora sabes todo sobre el coeficiente de determinación. DataScientTest le ofrece la oportunidad de ir más allá aprendiendo a dominar la gestión de un proyecto de datos de A a Z. Descubra nuestra capacitación, ¡no lo dudes!
¿Qué valores toma el coeficiente de determinación?
El coeficiente de determinación es una medición estadística que examina cómo las diferencias en una variable pueden explicarse por la diferencia en una segunda variable, al predecir el resultado de un evento dado.
- Los valores pueden variar de 0.00 a 1.00, o 0 a 100%.
- En términos de análisis de regresión, el coeficiente de determinación es una medida general de la precisión del modelo de regresión.
- En el análisis de regresión lineal simple, el cálculo de este coeficiente es cuadrar el valor R entre los dos valores, donde R es el coeficiente de correlación.
- Ayuda a describir qué tan bien encaja una línea de regresión (también conocida como bondad de ajuste). Un valor R2 de 0 indica que la línea de regresión no se ajusta al conjunto de puntos de datos y un valor de 1 indica que la línea de regresión se ajusta perfectamente al conjunto de puntos de datos.
- Por definición, R2 se calcula por uno menos la suma de cuadrados de residuos (sserror) divididos por la suma total de cuadrados (sstotal): r2 = 1 – (sserror / sstotal).
- En el caso de una regresión lineal múltiple, si las variables predictoras están demasiado correlacionadas entre sí (denominadas multicolinealidad), esto puede hacer que el coeficiente de determinación sea de mayor valor.
- Si, por cualquier razón, hay multicolinealidad en el modelo de regresión, se debe interpretar el R cuadrado ajustado (coeficiente de determinación ajustado). El R2 ajustado puede tomar valores negativos, pero siempre debe ser menor o igual al coeficiente de determinación. Nota: El R2will ajustado solo aumenta si se agregan más variables de predictores al modelo de regresión.
- Inversamente, el coeficiente de no determinación explica la cantidad de varianza inexplicada o no contabilizada entre dos variables, o entre un conjunto de variables (predictores) en una variable de resultado. Donde el coeficiente de no determinación es simplemente 1-R2.
Alinear el marco teórico, la recopilación de artículos, sintetizar brechas, articular una metodología y plan de datos claros, y escribir sobre las implicaciones teóricas y prácticas de su investigación son parte de nuestros servicios integrales de edición de tesis.
¿Qué mide el coeficiente de determinacion corregido?
Puede usar el coeficiente de determinación ajustado para determinar qué tan bien una ecuación de regresión múltiple «se ajusta» a los datos de la muestra. El coeficiente de determinación ajustado está estrechamente relacionado con el coeficiente de determinación (también conocido como R2) que utiliza para probar los resultados de una ecuación de regresión simple.
El coeficiente de determinación ajustado (también conocido como AjustedR2 o
pronunciado «R Bar Squared») es una medida estadística que muestra la proporción de variación explicada por la línea de regresión estimada.
La variación se refiere a la suma de las diferencias al cuadrado entre los valores de y y el valor medio de y, expresado matemáticamente como
R2 ajustado siempre adquiere un valor entre 0 y 1. Cuanto más cerrado R2 ajustado es a 1, mejor se ajusta o explica la ecuación de regresión estimada o explica la relación entre X e Y.
La diferencia clave entre R2 y R2 ajustado es que R2 aumenta automáticamente a medida que agrega nuevas variables independientes a una ecuación de regresión (incluso si no contribuyen con ningún nuevo poder explicativo a la ecuación). Por lo tanto, desea utilizar R2 ajustado con análisis de regresión múltiple. R2 ajustado aumenta solo cuando agrega nuevas variables independientes que aumentan el poder explicativo de la ecuación de regresión, por lo que es una medida mucho más útil de qué tan bien una ecuación de regresión múltiple se ajusta a los datos de la muestra que R2.
La siguiente ecuación muestra la relación entre R2 y R2 ajustados:
k = el número de variables independientes en la ecuación de regresión
Artículos Relacionados: