En estadísticas, el coeficiente de determinación, también denominado R2, es una herramienta que determina y evalúa la capacidad de un modelo estadístico para explicar y predecir los resultados futuros. En otras palabras, si tenemos una variable dependiente y y una variable independiente X en un modelo, entonces R2 ayuda a determinar la variación en y por variación x. Es uno de los resultados clave del análisis de regresión y se usa cuando queremos predecir el futuro o probar algunos modelos con información relacionada. El valor de R2 se encuentra entre 0 y 1 y superior, el valor de R2, mejor será la predicción y la fuerza del modelo. R2 es muy similar al coeficiente de correlación ya que el coeficiente de correlación mide la asociación directa de dos variables. R2 es básicamente un cuadrado de un coeficiente de correlación.
El coeficiente de determinación se calcula utilizando la fórmula que se proporciona a continuación
Coeficiente de determinación = (coeficiente de correlación) 2
Digamos que es un inversor muy requerido por el riesgo y que busca invertir dinero en el mercado de valores. No está seguro de en qué acciones invertir y también su apetito de riesgo es bajo. Por lo tanto, desea invertir en una acción que sea segura y que pueda imitar el rendimiento del índice. Su amigo, que es un inversor activo, ha preseleccionado 3 acciones para usted, en función de su información fundamental y técnica y desea elegir 2 acciones entre esas tres.
También ha recopilado información sobre sus rendimientos históricos durante los últimos 15 años.
El coeficiente de correlación se calcula utilizando la fórmula de Excel
¿Cómo se calcula el coeficiente de determinación?
El equipo editorial de hecho comprende un equipo diverso y talentoso de escritores, investigadores y expertos en la materia equipados con los datos y las ideas de hecho para ofrecer consejos útiles para ayudar a guiar su viaje profesional.
Las estadísticas inferenciales miden las probabilidades de los eventos que ocurren. Este campo de análisis matemático es aplicable a muchos campos profesionales, donde los profesionales aplican análisis estadísticos para medir las probabilidades y las correlaciones. El coeficiente de determinación es una medición estadística que es parte integral de comprender las correlaciones probables entre las variables. En este artículo, discutimos cuál es el coeficiente de determinación, cómo calcular el coeficiente de determinación y a qué se aplica, con un ejemplo de más información.
El coeficiente de determinación es una medición estadística que evalúa cómo los cambios en una variable afectan los cambios en otra variable. Es una medida de variación que ocurre en una y, ya que X cambia en un modelo de regresión lineal. Matemáticamente, el coeficiente de determinación es el cuadrado del coeficiente de correlación, que mide la relación o correlación de dos variables.
El coeficiente de correlación sustituye a la variable R, y el coeficiente de determinación es el cuadrado de R o R ** 2. Para encontrar el coeficiente de determinación, simplemente cuadra el coeficiente de correlación. El valor resultante varía entre cero y uno, que se convierte en un porcentaje para explicar qué porción de la variación en y ocurre debido a los cambios en x.
¿Qué es y cómo se determina el coeficiente de correlación y el coeficiente de determinación?
El coeficiente de determinación es una medida estadística que examina cómo las diferencias en una variable pueden explicarse por la diferencia en una segunda variable, cuando se espera el resultado de un evento dado. En otras palabras, este coeficiente, que se conoce más comúnmente como R-Cuadrato (o R 2), evalúa cuán fuerte es la relación lineal entre dos variables y es muy utilizada por los investigadores cuando lideran el análisis de las tendencias. Para mencionar un ejemplo de su aplicación, este coeficiente puede contemplar la siguiente pregunta: si una mujer está embarazada en un día determinado, ¿cuál es la probabilidad de que en el futuro pueda dar a luz en una fecha determinada? En este escenario, esta métrica tiene como objetivo calcular la correlación entre dos eventos relacionados: concepción y nacimiento.
- El coeficiente de determinación es una idea compleja centrada en el análisis estadístico de los modelos de datos.
- El coeficiente de determinación se utiliza para explicar cuánta variabilidad de un factor puede ser causada por su relación con otro factor.
- Este coeficiente se conoce comúnmente como cuadrado R (o R 2) y a veces se llama «bondad de adaptación».
- Esta medida se representa como un valor entre 0.0 y 1.0, donde un valor de 1.0 indica una adaptación perfecta y, por lo tanto, es un modelo altamente confiable para pronósticos futuros, mientras que un valor de 0.0 indica que el modelo no puede modelar cuidadosamente los datos a todos.
El coeficiente de determinación es una medida utilizada para explicar cuánta variabilidad de un factor puede ser causada por su relación con otro factor relacionado. Esta correlación, conocida como «bondad de adaptación», se representa como un valor entre 0.0 y 1.0. Un valor de 1.0 indica una adaptación perfecta y, por lo tanto, es un modelo altamente confiable para pronósticos futuros, mientras que un valor de 0.0 indica que el cálculo no puede modelar cuidadosamente los datos. Pero un valor de 0.20, por ejemplo, sugiere que el 20% de la variable dependiente está previsto por la variable independiente, mientras que un valor de 0.50 sugiere que el 50% de la variable del empleado está previsto por la variable independiente y así sucesivamente.
¿Qué evalúa el coeficiente de determinación?
El coeficiente de determinación es una estadística que evalúa la forma precisa de un modelo explica y predice los resultados futuros para una variable dependiente. Indica el porcentaje de cuánto se explica la variable por cambios en las variables independientes. Está simbolizado por R-cuadrado (R2).
El coeficiente de determinación a menudo se usa en la fabricación para determinar las relaciones de causa y efecto y predecir los costos. Por ejemplo, al realizar un análisis de regresión, un fabricante puede encontrar que el 70% del cambio en el costo total de la electricidad dentro de su instalación (la variable dependiente en este caso) se asoció con el cambio en las horas mensuales de la máquina de producción (el independiente variable). En este caso, el coeficiente de determinación es 0.70, o 70%.
Cuanto más cerca del valor del coeficiente de determinación sea 1, mejor será la relación o el ajuste entre los factores dependientes e independientes. El coeficiente de determinación varía entre 0 y 1:
- 0-0.10 indica que no hay una correlación muy débil y el modelo no explica los cambios
- 0.10-0.70 indica una correlación débil a media
- 0.70-1 indica que existe una fuerte correlación entre las variables dependientes e independientes
- Un valor de 1 indica que todos los cambios en la variable dependiente pueden determinarse por la variable independiente
Esta correlación se conoce como la «bondad del ajuste». Dado que un 1.0 es perfecto, el modelo es, por lo tanto, muy confiable. Se pueden explicar todas las variaciones, ya que indica que la variable dependiente siempre es predicha por la independiente. Esto se puede utilizar para realizar pronósticos futuros.
¿Qué mide coeficiente de determinación?
Variabilidad total en el valor y variabilidad explicada por el modelo + variabilidad inexplicable
Para obtener la variabilidad total, explicada e inexplicable, primero debemos calcular las desviaciones correspondientes. Arrastre el control deslizante en la imagen a continuación para ver cómo la desviación total ((y_i- bar {y}) ) se divide en explicado (( hat {y} _i- bar {y}) ) y sin explicación desviances ((y_i- hat {y} _i) ).
El desglose de la variabilidad en la ecuación anterior también se cumple para el modelo de regresión múltiple.
Para el caso específico cuando solo hay una variable independiente (x ) (es decir, regresión lineal simple), se puede mostrar que (r^2 = r^2 ), donde (r ) es coeficiente de correlación entre (X y Y).
Echemos un vistazo a la producción de Minitab del ejemplo de altura y peso (University_HT_WT.TXT) con el que hemos estado trabajando en esta lección.
Encuentre el coeficiente de determinación e interprete el valor.
El coeficiente de determinación, (R^2 ) es 0.5057 o 50.57%. Este valor significa que el 50.57% de la variación en el peso puede explicarse por altura.
Recuerde, para este ejemplo encontramos que el valor de correlación, (r ), es 0.711.
¿Qué indica el R2?
R-Squared es una medida de qué tan bien un modelo de regresión lineal «se ajusta» a un conjunto de datos. También comúnmente llamado coeficiente de determinación, R-cuadrado es la proporción de la varianza en la variable de respuesta que puede explicarse por la variable predictor.
El valor para R-cuadrado puede variar de 0 a 1. Un valor de 0 indica que la variable de respuesta no puede explicarse por la variable predictor en absoluto. Un valor de 1 indica que la variable de respuesta puede explicarse perfectamente sin error por la variable predictor.
En la práctica, es probable que nunca verá un valor de 0 o 1 para R-cuadrado. En cambio, es probable que encuentre algún valor entre 0 y 1.
Por ejemplo, supongamos que tiene un conjunto de datos que contiene el tamaño de la población y el número de flores en 30 ciudades diferentes. Se ajusta a un modelo de regresión lineal simple al conjunto de datos, utilizando el tamaño de la población como la variable predictor y las tiendas de flores como variable de respuesta. En la salida de los resultados de la regresión, ves que R2 = 0.2. Esto indica que el 20% de la varianza en el número de flores puede explicarse por el tamaño de la población.
Esto lleva a una pregunta importante: ¿es este un valor «bueno» para R-cuadrado?
La respuesta a esta pregunta depende de su objetivo para el modelo de regresión. A saber:
1. ¿Está interesado en explicar la relación entre el predictor (s) y la variable de respuesta?
2. ¿Está interesado en predecir la variable de respuesta?
¿Qué expresan los coeficientes de correlación y de determinación?
La correlación, $ R $, es una medida de asociación lineal entre dos variables. El coeficiente de determinación, $ r^2 $, es una medida de cuánto de la variabilidad en una variable puede ser «explicada por» variación en la otra.
Por ejemplo, si $ R = 0.8 $ es la correlación entre dos variables, entonces $ R^2 = 0.64 $. Por lo tanto, el 64% de la variabilidad en uno puede explicarse por diferencias en el otro. ¿Derecha?
Mi pregunta es, para el ejemplo establecido, ¿es correcta alguna de las siguientes afirmaciones?
La primera parte de esto es básicamente correcta, pero el modelo explica el 64% de la variación. En una regresión lineal simple: y ~ x, si $ r^2 $ es .64 significa que el 64% de la variación en y está determinada por la relación lineal entre y y x. es posible tener una relación fuerte con muy bajo $ r^2 $, si la relación es fuertemente no lineal.
Con respecto a sus dos preguntas numeradas, ninguna es correcta. De hecho, es posible que ninguno de los puntos pueda estar exactamente en la línea de regresión. Eso no es lo que se está mediante. Más bien, se trata de qué tan cerca está el punto promedio a la línea. Si todos o casi todos los puntos están cerca (incluso si ninguno está exactamente en la línea), entonces $ R^2 $ será alto. Si la mayoría de los puntos están lejos de la línea, $ R^2 $ será bajo. Si la mayoría de los puntos están cerca pero algunos están lejos, entonces la regresión es incorrecta (problema de los valores atípicos). Otras cosas también pueden salir mal.
Además, he dejado la noción de «lejos» bastante vaga. Esto dependerá de qué tan extendidas están las X. Hacer estas nociones precisas es parte de lo que aprendes en un curso de regresión; No entraré en eso aquí.
¿Cómo se calcula el coeficiente R?
El coeficiente de correlación de dos variables en un conjunto de datos es igual a su covarianza
dividido por el producto de sus desviaciones estándar individuales. Es un normalizado
Medición de cómo los dos están relacionados linealmente.
Formalmente, el coeficiente de correlación de la muestra se define por lo siguiente
Fórmula, donde SX y SY son las desviaciones estándar de muestra, y SXY es la muestra
covarianza.
Del mismo modo, el coeficiente de correlación de la población se define de la siguiente manera, donde
σx y σy son las desviaciones estándar de la población, y σxy es la población
covarianza.
Si el coeficiente de correlación está cerca de 1, indicaría que las variables son
Relacionado linealmente positivamente y la parcela de dispersión cae casi a lo largo de una línea recta con
pendiente positiva. Para -1, indica que las variables son negativamente linealmente
Relacionado y la trama de dispersión casi cae a lo largo de una línea recta con negativo
Pendiente. Y para cero, indicaría una relación lineal débil entre el
variables.
Encuentre el coeficiente de correlación de la duración de la erupción y el tiempo de espera en
el conjunto de datos fiel. Observe si hay alguna relación lineal entre el
variables.
Aplicamos la función COR para calcular el coeficiente de correlación de las erupciones y
esperando.
¿Cómo sacar los coeficientes en R?
En la práctica, se desconoce la intersección ( beta_0 ) y la pendiente ( beta_1 ) de la línea de regresión de la población. Por lo tanto, debemos emplear datos para estimar ambos parámetros desconocidos. A continuación, se utilizará un ejemplo del mundo real para demostrar cómo se logra esto. Queremos relacionar los puntajes de los exámenes con las proporciones de estudiantes y maestros medidos en las escuelas californianas. El puntaje de la prueba es el promedio de puntajes de lectura y matemáticos en todo el distrito para los alumnos de quinto grado. Nuevamente, el tamaño de la clase se mide como el número de estudiantes divididos por el número de maestros (la relación estudiante-maestro). En cuanto a los datos, el conjunto de datos de la Escuela de California (Caschools) viene con un paquete R llamado AER, un acrónimo de la economía aplicada con R (Kleiber y Zeileis 2022). Después de instalar el paquete con Install.Packages («AER») y adjuntarlo con Biblioteca (AER), el conjunto de datos se puede cargar utilizando la función Data ().
### Instale el paquete AER (una vez) ## Install.Packages ("AER") ## ### Cargue el Packagelibrary (AER)# Cargue el conjunto de datos en el trabajo de trabajo (cascos)
Una vez que se ha instalado un paquete, está disponible para su uso en más ocasiones cuando se invoca con biblioteca (), ¡no hay necesidad de ejecutar install.packages () nuevamente!
Es interesante saber con qué tipo de objeto estamos tratando.
class () Devuelve la clase de un objeto. Dependiendo de la clase de un objeto, algunas funciones (por ejemplo Plot () y Resumen ()) se comportan de manera diferente.
clase (cascos)#> [1] "data.frame"
¿Cómo se saca el valor de coeficiente?
Para responder a este problema, necesitamos multiplicar las expresiones juntas, teniendo en cuenta cómo multiplicarse correctamente como variables con exponentes. Para hacer esto, agregamos los exponentes si las variables similares se multiplican y restan los exponentes si las variables se dividen. Entonces, para los datos presentados:
Luego multiplicamos las expresiones restantes juntas. Cuando hacemos esto, multiplicaremos los coeficientes y combinaremos las diferentes variables en la expresión final. Por lo tanto:
Si bien este problema puede responderse multiplicando los tres binomiales, no es necesario. Hay tres formas de multiplicar un término de cada binomial de tal manera que se multiplicen dos términos y una constante; Encuentra los tres productos y agrégalos, como sigue:
Si ha encontrado un problema con esta pregunta, háganoslo saber. Con la ayuda de la comunidad podemos continuar
Mejorar nuestros recursos educativos.
Si cree que el contenido disponible por medio del sitio web (como se define en nuestros Términos de servicio) infringe uno
o más de sus derechos de autor, notifíquenos proporcionando un aviso por escrito («Aviso de infracción») que contiene
la
Información descrita a continuación al agente designado que se enumera a continuación. Si los tutores del equipo universitario toman medidas en respuesta a
un
Aviso de infracción, hará un intento de buena fe para contactar a la parte que puso dicho contenido a disposición de
Medios de la dirección de correo electrónico más reciente, si la hay, proporcionada por dicha parte a tutores universitarios.
Artículos Relacionados:
