El impacto de la relación entre variables en el rendimiento académico

El análisis de correlación busca identificar (por un solo
número) el grado en que existe una relación (lineal) entre los números en
conjuntos de pares de datos. La correlación
coeficiente de un conjunto de pares de datos con x- e y-means y respectivamente es

No necesita preocuparse por calcular este número; su
Fácil de usar una computadora para calcularla. La interpretación de este número es más importante: está en algún lugar
entre –1 y 1. El más cercano es
a 1, los más positivamente correlacionados son los conjuntos de números en el
sentido de que un aumento en X corresponde a un aumento proporcional en y;
De manera similar, con disminuciones en x correspondientes a proporcionales
disminuye en y. en el otro
mano, si r está cerca de –1, entonces los aumentos en x corresponden a
Las disminuciones en y y las disminuciones en x corresponden a aumentos en y,
Entonces decimos que X e Y están correlacionados negativamente. Finalmente, si R está cerca de cero, allí
es poca o cualquier relación entre las variables: decimos que no están correlacionadas.

Considere los gráficos anteriores de la «rollera de bola» y
Experimentos de «fertilizante»:

En el
Gráfico de tiempo de rodamiento versus ángulo de rampa a medida que aumenta el ángulo,
¿El tiempo de rodadura generalmente
aumentar,
¿Disminuir o cambiar de manera no relacionada?
Explique
Tu respuesta del gráfico.
los
El coeficiente de correlación para estos datos resulta ser -.84.Do esto de acuerdo con sus respuestas
arriba? Explicar.
En el
Gráfico de la altura de la planta frente a la concentración de fertilizantes, como la cantidad
de fertilizante por metro cuadrado aumenta, ¿la altura de la planta generalmente
aumentar,
¿Disminuir o cambiar de manera no relacionada?
Explique
Tu respuesta del gráfico.
los
El coeficiente de correlación para estos datos resulta ser .37. Esto está de acuerdo con sus respuestas
arriba? Explicar.
Considerar
el gráfico que representa el peso (lb.) versus altura (in.) Para
Jugadores en el equipo de fútbol de los Cincinnati Bengals del año pasado

Como el colmo de los jugadores
aumenta, ¿el peso generalmente

¿Cómo se llama la relación entre dos variables?

Al finalizar esta lección, debería poder hacer lo siguiente:

Comprender la relación entre la pendiente de la línea de regresión y la correlación,
Comprender el significado del coeficiente de determinación, R2,
Saber cómo determinar qué variable es una respuesta y cuál es una explicativa en una ecuación de regresión,
Comprender que la correlación mide la fuerza de una relación lineal entre dos variables,
Darse cuenta de cómo los valores atípicos pueden influir en una ecuación de regresión, y
Determine si las variables son categóricas o cuantitativas.

Anteriormente consideramos la distribución de una sola variable cuantitativa. Ahora estudiaremos la relación entre dos variables donde ambas variables son cualitativas, es decir, categóricas o cuantitativas. Cuando consideramos la relación entre dos variables, hay tres posibilidades:

Comprender la relación entre la pendiente de la línea de regresión y la correlación,
Comprender el significado del coeficiente de determinación, R2,
Saber cómo determinar qué variable es una respuesta y cuál es una explicativa en una ecuación de regresión,
Comprender que la correlación mide la fuerza de una relación lineal entre dos variables,
Darse cuenta de cómo los valores atípicos pueden influir en una ecuación de regresión, y
Determine si las variables son categóricas o cuantitativas.

Ambas variables son categóricas. Analizamos una asociación a través de una comparación de las probabilidades condicionales y representamos gráficamente los datos utilizando tablas de contingencia. Ejemplos de variables categóricas son la posición de género y clase.

Ambas variables son cuantitativas. Para analizar esta situación, consideramos cómo una variable, llamada variable de respuesta, cambios en relación con los cambios en la otra variable llamada variable explicativa. Gráficamente usamos diapasones para mostrar dos variables cuantitativas. Los ejemplos son la edad, la altura, el peso (es decir, las cosas que se miden).

Una variable es categórica y la otra es cuantitativa, por ejemplo, altura y género. Estos se comparan mejor mediante el uso de diagramas de caja de lado a lado para mostrar diferencias o similitudes en el centro y la variabilidad de la variable cuantitativa (por ejemplo, altura) en las categorías (por ejemplo, masculina y femenina).

¿Cómo hallar la relación entre dos variables?

(Imagen del autor)

Analizar y visualizar variables una a la vez no es suficiente. Para hacer varias conclusiones y análisis al realizar el análisis de datos exploratorios, necesitamos comprender cómo las variables en un conjunto de datos interactúan con respecto a la otra. Existen numerosas formas de analizar esta relación visualmente, uno de los métodos más comunes es el uso de gráficos de dispersión populares. Pero los gráficos de dispersión vienen con ciertas limitaciones que veremos en las secciones posteriores. Cuantitativamente, la covarianza y las correlaciones se utilizan para definir la relación entre variables.

Un diagrama de dispersión es una de las formas visuales más comunes cuando se trata de comprender la relación entre las variables de un vistazo. En la forma más simple, esta no es más que una gráfica de variable A contra la variable B: cualquiera de los dos trazados en el eje x y el restante en el eje Y

En el gráfico anterior, es fácil ver que parece haber una relación positiva entre las dos variables, es decir, a medida que uno aumenta el otro aumenta también. Un diagrama de dispersión con una relación negativa, es decir, a medida que una variable aumenta, la otra reduce puede tomar la forma de la imagen 2.

En general, los diagramas de dispersión son los mejores para analizar dos variables continuas. Visualizar dos variables discretas utilizando un diagrama de dispersión puede hacer que los puntos de datos se superpongan. Veamos cómo se vería un diagrama de dispersión en el caso de variables discretas.

En la imagen de arriba, no todos los puntos son visibles. Para superar esto, agregamos ruido aleatorio a los datos llamados «Jitter». El proceso, naturalmente, se llama jittering para permitir una visualización algo clara de esos puntos superpuestos.

¿Cómo se obtiene la relación entre dos variables?

Una de las variables se considera la respuesta o la variable que se explicará. También se llama una variable dependiente, y se representa en el eje de las ordenadas y.
La otra variable es la variable explicativa o predictiva o «explicativa variable» en inglés. También se llama variable independiente, y se representa en el eje de la abscisa x.

Como se dijo antes, la regresión lineal simple permite evaluar la existencia de un vínculo lineal entre dos variables. Por lo tanto, no solo evaluamos si la primera variable aumenta la segunda también aumenta, sino que si esta segunda variable aumenta linealmente dependiendo de la primera.

El principio de regresión lineal simple es encontrar el derecho (es decir, determinar su ecuación) que va lo más cerca posible de todos los puntos formados por las parejas (xi; yi), al girar el derecho en un punto de espuma (promedio de X; Memandar de y).

Para encontrar esta línea que se acerca lo más posible a todos los puntos, medimos la distancia al cuadrado entre cada punto y cada potencial derecho. El derecho que va lo más cerca posible de todos los puntos es lo que minimiza la suma de estas distancias al cuadrado. Esto se llama el método cuadrado más pequeño (o MCO para cuadrados ordinarios inferiores u OLS para mínimos cuadrados ordinarios). Estas distancias entre cada punto observadas y la derecha determinadas por los cuadrados más pequeños se denominan residuos del modelo de regresión. En la figura a continuación, solo se representan 3 residuos.

Cuando determina el derecho que va lo más cerca posible a todos los puntos (decimos que ajustamos una línea a los datos observados), también estimamos los parámetros A y B. Estas estimaciones también se pueden obtener de fórmulas derivadas del máximo Método de probabilidad:
El orden en el origen es el valor, de acuerdo con el derecho determinado, de la variable Y cuando la variable X toma el valor 0. Su estimación no tiene interés en evaluar si existe una relación lineal entre dos variables. El origen de origen está determinado por el método, pero no se utiliza, en ningún caso no está directamente para evaluar el vínculo entre dos variables.

¿Cuál es la relación entre las variables?

Esta correlación a menudo se reduce a la correlación lineal entre las variables cuantitativas, es decir, el ajuste de una variable en comparación con la otra por una relación afina obtenida por regresión lineal. Para esto, se calcula un coeficiente de correlación lineal [1], cociente de su covarianza por el producto de sus desviaciones estándar. Su signo indica si los valores más altos de uno corresponden «en promedio» a valores más altos o más bajos para el otro. El valor absoluto del coeficiente, siempre entre 0 y 1, no mide la intensidad del enlace sino la preponderancia de la relación afina en las variaciones internas de las variables. Un coeficiente cero no implica independencia, porque son posibles otros tipos de correlación.

Otros indicadores permiten calcular un coeficiente de correlación para las variables ordinales.

El hecho de que dos variables estén «fuertemente correlacionadas» no demuestra que existe una relación causal entre una y la otra. El contraejemplo más típico es que, de hecho, están vinculados por una causalidad común. Esta confusión se conoce bajo la expresión cum hoc ergo apropiado hoc.

La correlación es un concepto de biología. Es a través del trabajo de Francis Galton que la correlación se convierte en un concepto estadístico. Sin embargo, para Galton, el concepto de correlación no se define con precisión y lo asimila primero al derecho de regresión de un modelo de regresión lineal [2].

¿Cómo se relacionan las variables en un grafico?

Así como hay reglas de gramática en composición,
Hay reglas de gráficos que ayudan a visualizar los datos para su
audiencia. Un gráfico bien diseñado no debería necesitar mucha explicación porque
El gráfico en sí debe hacer que las tendencias en los datos visualmente aparentes. Un gráfico bien diseñado tampoco necesita una decoración innecesaria que no transmitiera información útil, como la profundidad en las barras en una parcela 2-D. Cada uno de los siguientes términos lleva un
significado importante.

Imagina que queremos hacer un gráfico de la cantidad
de lluvia que ocurre en diferentes épocas del año. La lluvia depende
En la época del año, pero la época del año no depende de la lluvia.
Por lo tanto, la lluvia es la variable dependiente y la época del año
es la variable independiente. En algunos gráficos, es posible que tenga más
que una variable dependiente, pero nunca más de una independiente
variable. Por ejemplo, puede superponerse a las parcelas de lluvia en el
desierto y lluvia en los trópicos contra la época del año, o podrías
Graph pulgadas de lluvia en 2005 y 2006 contra el tiempo de
año.

La variable independiente pertenece al eje x
(línea horizontal) del gráfico y la variable dependiente pertenece a
El eje y (línea vertical). Los ejes x e y se cruzan en un punto
referido como el origen, donde las coordenadas son (0,0). En
gráficos con solo valores positivos para x e y, el origen está en el
esquina inferior izquierda.

¿Cómo se puede representar gráficamente una relación entre dos variables?

Una gráfica de dispersión (también conocida como diagrama de dispersión) muestra la relación entre dos variables cuantitativas (numéricas). Estas variables pueden estar positivamente relacionadas, relacionadas negativamente o no relacionadas:

Cuando una variable aumenta, la otra variable tiende a aumentar.

Cuando una variable disminuye, la otra variable tiende a disminuir.

Cuando una variable aumenta o disminuye, la otra variable tiende a hacer lo contrario.

No se ve ninguna relación entre los cambios en las dos variables.

El diagrama de dispersión en la figura muestra la relación entre los retornos mensuales a Microsoft Stock y el índice Standard & Poor’s (S&P) 500 de 2008 a 2012:

Cada punto en el gráfico representa el regreso a Microsoft Stock y el retorno al índice S&P 500 durante un solo mes. La dirección general de estos puntos es desde la esquina inferior izquierda del gráfico hasta la esquina superior derecha, lo que indica que las dos variables tienen una relación positiva.

El gráfico contiene una línea de tendencia, que es una línea recta diseñada para acercarse lo más posible a todos los puntos en el diagrama. Si dos variables están positivamente relacionadas, la línea de tendencia tiene una pendiente positiva; Del mismo modo, si dos variables están relacionadas negativamente, la línea de tendencia tiene una pendiente negativa. Si dos variables no están relacionadas entre sí, la línea de tendencia tiene una pendiente cero (es decir, la línea de tendencia será plana).

En el caso de Microsoft y el índice S&P 500, la ecuación de la línea de tendencia es

¿Qué es un gráfico de variables?

Un buen experimento intenta controlar todas las variables, excepto las variables que se están manipulando para ver si se observa un cambio y se puede razonar una relación de causa y efecto.

La variable es una propiedad o condición que
puede cambiar.
Una variable puede o no causar un cambio significativo.

La variable manipulada es la variable que el experimentador decide cambiar para ver si hay o no un efecto.

La variable de respuesta es la variable que cambiará como resultado del cambio en la variable manipulada. Se observa y se mide para determinar la cantidad o la calidad
de cambio.

Cuando trazamos información en un gráfico, la variable manipulada siempre se traza en el eje x y el Variable Responding siempre se traza en el eje y.

La variable independiente es otro nombre para la variable manipulada. Es seleccionado independientemente por el experimentador para ser manipulado.

La variable dependiente es observada por el experimentador y responde a la variable manipulada o independiente, si hay una relación. Relaciones, que se pueden representar en una tabla o
grafico.

Antes de decidir usar un gráfico o gráfico, una persona necesita decidir si los datos son continuos o categóricos.

Los datos continuos se representan en un continuo con infinitas posibilidades. La temperatura, por ejemplo, está representada por números enteros, números decimales y fracciones.

Los datos categóricos están representados por un número limitado de ejemplos (discretos, finitos, no continuos). Si bien los datos categóricos son continuos o infinitos, cuando se agrupan en categorías, es categórico. Incluso si hay otra categoría. Ejemplos: Temperatura: caliente, mediano o frío. Color del vehículo: oscuro, medio, claro. Comidas favoritas de las personas… las categorías limitan las posibilidades.

¿Cómo se relacionan las variables en una relación lineal?

Describe mejor la relación entre dos variables (independientes y dependientes) comúnmente representadas por x e y. En el campo de las estadísticas, es uno de los conceptos más directos para entender.

Para una relación lineal, las variables deben dar una línea recta en un gráfico cada vez que se juntan los valores de x e y. Con este método, es posible comprender cómo la variación entre dos factores puede afectar el resultado y cómo se relacionan entre sí.

En la fórmula, M denota la pendiente. Mientras que B es la intersección y o el punto en el gráfico que cruza el eje Y con la coordenada X es cero. Si se dan los valores de M, X y B, se puede obtener fácilmente el valor de y. Lo mismo se puede trazar gráficamente para mostrar la relación lineal. Entendamos el proceso cuando los valores para las variables x e y se supusen de la siguiente manera en la siguiente suma:

x = 2, 4, 6, 8
y = 7, 13, 19, 25

Para calcular M, comience encontrando el patrón de diferencia entre los valores de x e y y luego póngalos como una fracción.

Poner los valores de los valores x e y en la ecuación anterior,

x = 2, 4, 6, 8
y = 7, 13, 19, 25

M = 13-7/4-2

M = 6/2

M = 3

El siguiente paso es encontrar el número hipotético (b) que se agrega o se reste en la fórmula para obtener el valor de y. Como tal,

x = 2, 4, 6, 8
y = 7, 13, 19, 25

M = 13-7/4-2

M = 6/2

M = 3

y = 3*2 + 1

y = 7.

Del mismo modo, calculando para el resto de los puntos obtenemos el siguiente gráfico.

Permítanos llevarlo a través de una explicación detallada de una ecuación o función lineal. Cuando se traza en un gráfico, generará una línea recta. Una ecuación lineal puede ocurrir en dos formas: pendiente-intersección y forma estándar.

¿Cuándo dos variables están relacionadas a través de una variable lineal?

Una relación lineal es aquella en la que aumentar o disminuir una variable n veces causará un aumento o disminución correspondiente de n veces en la otra variable también. En palabras más simples, si duplica una variable, la otra también se duplicará.

Para un material dado, si el volumen del material se duplica, su peso también se duplicará. Esta es una relación lineal. Si el volumen aumenta 10 veces, el peso también aumentará en el mismo factor.
Si toma el perímetro de un cuadrado y su lado, están relacionados linealmente. Si toma un cuadrado que tiene lados dos veces más grandes, el perímetro también se volverá dos veces más grande.
El costo de los objetos suele ser lineal. Si un cuaderno cuesta $ 1, entonces diez cuadernos costarán $ 10.
La fuerza de la gravedad entre la tierra y un objeto es de naturaleza lineal. Si la masa del objeto se duplica, la fuerza de la gravedad que actúa sobre él también será doble.

Como se puede ver en los ejemplos anteriores, una relación lineal puede describir varios fenómenos físicos muy importantes.

Además de estos procesos físicos, hay muchas correlaciones entre las variables que pueden ser aproximadas por una relación lineal. Esto simplifica enormemente un problema en cuestión porque una relación lineal es mucho más simple de estudiar y analizar que una no lineal.

La constante de proporcionalidad es un concepto importante que surge de una relación lineal. Al usar esta constante, podemos formular la fórmula real que describe una variable en términos de la otra.

¿Cómo se da la relación entre las variables?

Cuando las variables que componen la doble variable (x, y) son numéricas, es posible analizar un vínculo estadístico particular entre los caracteres, la correlación lineal.

Estudiar la correlación lineal significa investigar la existencia de un vínculo para que los cambios en un carácter correspondan a cambios en el otro carácter de acuerdo con una relación lineal.

Una primera forma de verificar la existencia de una correlación lineal entre dos caracteres cuantitativos x e y es representar una doble distribución (x, y) a través de un gráfico de dispersión (o diagrama de dispersión).

Un diagrama de dispersión es un gráfico en el que cualquier observación de la doble variable (xl, yl) se representa como un punto en los ejes cartesianos en los que:

Los valores de las variables X variables están asociados con el eje abscisa
Los valores de la variable Y están asociados con el orden de las órdenes

La evaluación de la forma de la nube de los puntos formados por los comentarios de la doble distribución permite evaluar la existencia de una relación lineal:

Los valores de las variables X variables están asociados con el eje abscisa
Los valores de la variable Y están asociados con el orden de las órdenes

Una nube redondeada sin una pendiente definida implica la ausencia de una correlación lineal significativa entre X e Y

Una nube alargada (así que «cigarro») implica la existencia de una correlación lineal positiva o negativa dependiendo de la inclinación de la forma supuesta

Como se puede observar, la forma alargada y la pendiente de la nube sugieren la existencia de una correlación lineal positiva.