Rango en R: cómo optimizar su código para mejores resultados

En R, el rango de lenguaje de programación es una forma eficiente de encontrar la diferencia entre los valores máximos y mínimos dentro de un vector o un marco de datos. Una función de rango () se define como el intervalo entre el valor de datos más grande (máximo) y más pequeño (mínimo) dentro de un vector o columna en un marco de datos en R.

Ahora, al aplicar la función Rango () en el vector X, puede encontrar los valores máximos (24) y mínimos (-1) del vector x.

rango (x)

[1] -1 24

NA es una palabra reservada que indica que el valor no está disponible o falta, es decir, «no disponible (na)», necesitamos cambiar la sintaxis agregando un parámetro na.rm al rango () cuyo valor puede ser verdadero o falso. En caso de que NA esté presente en un vector de entrada o estructura de datos, la función de rango no devuelve el resultado. Por lo tanto, NA.RM asignado a True eliminará la NA presente en la entrada mientras encuentra la función Range () y proporciona el resultado preciso.

Considere el mismo vector X con NA ocupado entre un conjunto dado de valores junto con INF, que es otra palabra reservada en R para mostrar infinito.

x = c (24,5, inf, 6,7,7, -1,0, na)

[1] na na

Desde la salida, es claramente visible que la entrada con NA no sea evaluada por un rango (). Aquí vamos con la sintaxis modificada para eliminar NA.

rango (x, na.rm = verdadero)

La salida después de la adición de Na.rm = True Inside Range () devuelve el valor más bajo (-1) y Highet Vale (Inf), lo que excluye la NA entre los valores del vector.;

¿Cómo sacar el rango en R?

Revisaremos seis ejemplos en esta sección y cubriremos el uso de vectores numéricos básicos a marcos de datos completos.

El siguiente código muestra cómo calcular el rango de un vector numérico:

arr <-c (-10, -15, 5, 19, 27, 0)
rango (arr)

-15 27

Tiene sentido como 27 es el valor más alto, mientras que -15 es el más pequeño.

No siempre trabajará con datos numéricos. Puede calcular el rango en cadenas, y la función devolverá los primeros y los últimos valores ordenados alfabéticamente:

arr_char <- c ("Bob", "Mike", "Kelly", "Sue")
rango (arr_char)

"Bob" "Sue"

Los datos del mundo real a menudo son desordenados y están llenos de valores faltantes. Tienden a estropear sus cálculos si no se manejan correctamente. Aquí hay un ejemplo:

arr <-c (-10, -15, na, 19, 27, 0)
rango (arr)

Na na

rango (arr, na.rm = verdadero)

Los errores de cálculo a veces pueden dar como resultado valores INF, ya sea positivos o negativos. Moren el cálculo del rango, ya que son el valor más pequeño o más grande de un vector:

arr <-c (-10, -15, inf, 19, 27, 0)
rango (arr)

-15 INF

Especificar finito = verdadero para excluir INF del cálculo del rango:

rango (arr, finito = true)

df <- iris
Cabeza (iris)

Puede calcular el rango de una columna de DataFrame específica de esta manera:

rango (df $ sepal.length)

4.3 7.9

Pero, ¿qué pasa si necesita el rango de todo el conjunto de datos? Bueno, solo puede calcularlo para columnas numéricas en este conjunto de datos:

Esto no le dice mucho: no sabe en qué columnas son los valores mínimos y máximos. Use la función SAPPLY () para obtener el rango de columnas individuales:

SAPPLY (DF_NUMERIC, FUNCIÓN (DF_NUMERIC) RANGO (DF_NUMERIC))

¿Cómo se calcula el rango en R?

La prueba compara la diferencia observada entre dos promedios con la diferencia esperada en el caso de la independencia estadística.

La prueba se usa típicamente en diseños experimentales: que para muestras independientes es adecuada en el caso del diseño con un grupo de control (con dos grupos sometidos a diferentes condiciones experimentales); Para los dibujos experimentales por primera vez, o cuando desea comparar los diferentes resultados de mediciones llevados a cabo en el mismo grupo, se usa la prueba de medios (prueba t de medios de dependencia).

Como parte del diseño estadístico (encuestas de muestra), es posible utilizar la prueba de muestras independientes para comparar el promedio entre grupos definidos por una variable categórica, como, por ejemplo, los salarios promedio entre hombres y mujeres.

Los grupos definidos por la variable independiente no deben tener numerosas y varianza demasiado diferentes (homosquesticalidad). La función test.t () realiza la corrección de Welch para grupos con grupos con diferentes variaciones, por lo tanto, esta suposición no debe controlarse necesariamente.

La hipótesis no es nada que no haya diferencia entre los grupos:

El valor t que se calcula (-13.922) es el de la diferencia entre la escuela secundaria, y no el de la escuela secundaria.

La hipótesis puede ser rechazada (p es igual a 0). La diferencia "real" que podemos esperar en la población es entre −3.8 y −2,9 (la muestra se toma con p = 0.95 por una población con diferencia incluida en este intervalo).

¿Qué es el rango R?

La cantidad de rango-glutamil transferasa (GGT) se determina tomando una muestra de sangre simple de una vena del brazo. No se requiere una preparación específica para la ejecución del análisis.

Si el alcohol se consume regularmente, la ingesta de alcohol en las 24 horas anteriores a la prueba puede causar un aumento temporal en el valor de los rangos GT. En este caso, el médico puede querer repetir la prueba para verificar el resultado.

Fumar también puede causar un aumento en las concentraciones de rango de GT.

Los niveles de rango de GT aumentan con la edad en las mujeres, pero no en los hombres, y siempre son ligeramente más altos en hombres que en mujeres.

Varias drogas aumentan la concentración del rango de GT en la sangre. Estos aumentos no indican daño hepático. Informe a su médico por cualquier receta o medicamento.

Por lo general, el médico no se preocupa por los resultados bajos o normales, ya que en este caso es poco probable que la persona tenga una enfermedad hepática.

El aumento de las concentraciones de rango de GT, por otro lado, indican que algo le está sucediendo al hígado pero no específicamente qué. En general, cuanto mayor sea el resultado, mayor será el daño.

Las altas concentraciones pueden deberse a enfermedades hepáticas, pero también a la insuficiencia cardíaca congestiva, el consumo de alcohol y el uso de muchos medicamentos, incluidos los medicamentos antiinflamatorios no esteroideos (AINE), hipocolesterolemización, antibióticos, antihistamínicos, agentes anti-agnatini, agentes anticonvulsivos. , antidepresivos y hormonas como la testosterona. Los anticonceptivos orales (píldora anticonceptiva) y el Clofibrated pueden reducir las concentraciones de GGT.

¿Qué es un rango R?

En R, la función de rango tiene el formato de rango (vector) y produce los valores más pequeños y más grandes del vector numérico que se está evaluando. El resultado es que tiene el cuadro de rango de valores cubierto por el conjunto de datos.

# rango en r
> x = c (5,2,7,9,4)
> rango (x)
[1] 2 9

Si examina el ejemplo, verá los resultados capturados con precisión el rango del vector: 2 para el mínimo, 9 para el máximo.

Cuando se trata del rango de valor de NA en R, tiene una opción lógica en forma de NA.RM. El parámetro NA.RM, que significa eliminar, puede ser verdadero o falso. Esto ayuda a protegerlo de los errores de valor faltante. Si la opción lógica es falsa, que es de forma predeterminada si se omite, la función devuelve un valor de NA tanto para el valor mínimo como para el valor máximo. Si es cierto, entonces, los valores de NA se descuentan.

Aquí, NA.RM es verdadero y el valor de NA se ignora, lo que resulta en un valores mínimos y máximos.

Aquí, tenemos el caso de aplicar la función de rango a un vector de caracteres. Cuando se aplica a los caracteres, un análisis de rango devuelve el primer y último de los caracteres en orden alfabético: el valor mínimo es el primer vector de caracteres en la lista, y el valor máximo es la última variable en la lista, alfabéticamente.

En este ejemplo, hay 2 E y 2 R, sin embargo, porque las duplicaciones de múltiples variables no importan que no tenga ningún efecto en las estadísticas resumidas.

Encontrar el rango de un conjunto de datos o DataFrame de manera efectiva le brinda sus límites. La función Range () en R le proporciona el número extremo visible en el máximo y min de la serie. Tenga en cuenta que estos pueden no representar necesariamente los límites del mundo real de una serie si su tamaño de muestra o tamaño de subgrupo es pequeño y / o valores extremos son muy raros. La mayoría de las muestras de boletos de lotería tienen pagos que van entre $ 0 y $ 100; Un pequeño puñado de muestras potenciales tiene pagos masivamente por encima de eso...

¿Cómo se determina el rango R?

Veamos los pasos a seguir para calcular una primera línea de especie integral.

1) Estudiamos la curva verificando su regularidad. Si la ecuación de la curva se expresa en forma cartesiana, entonces tendremos que determinar una parametrización y este es probablemente el paso más "complicado".

2) Una vez que se haya determinado la parametrización y el dominio, calcularemos el portador de derivados (o vector de velocidad) que se deriva en comparación con los componentes de.

Luego determinamos la regla del portador derivado, para obtener (raíz cuadrada de la suma de los cuadrados de los componentes del vector derivado).

La integral está solo en la variable, no deberíamos tener problemas en este paso. El condicional es imprescindible porque la dificultad para resolverlo depende en gran medida de cómo se presente la función Integranda.

Primero estudiamos la curva, que se expresa en forma cartesiana: debemos encontrar una parametrización adecuada. De la ecuación nos damos cuenta de que en el plan Oxy tendremos una circunferencia, la cuota Z dependerá de la X, por lo tanto, ya que este último aumentará este último. Una posible parametrización de esta curva en el espacio es:

Solo tenemos que determinar el intervalo en el que t. Observamos que la curva está contenida en general determinada por las condiciones y, lo cual es equivalente a solicitar que

En este punto tenemos toda la información que necesitamos para calcular la línea integral :)

¿Cómo se interpreta el rango en estadística?

La estadística de prueba le dice cuán diferentes o más grupos son de la población general de la población, o cuán diferente es una pendiente lineal de la pendiente predicha por una hipótesis nula. Se utilizan diferentes estadísticas de prueba en diferentes pruebas estadísticas.

La significación estadística es arbitraria: depende del umbral, o valor alfa, elegido por el investigador. El umbral más común es P <0.05, lo que significa que es probable que los datos ocurran menos del 5% del tiempo bajo la hipótesis nula.

Cuando el valor p cae por debajo del valor alfa elegido, entonces decimos que el resultado de la prueba es estadísticamente significativo.

Su elección de la prueba t depende de si está estudiando un grupo o dos grupos y si le importa la dirección de la diferencia en los medios grupales.

Si está estudiando un grupo, use una prueba t pareada para comparar la media del grupo con el tiempo o después de una intervención, o use una prueba t de una muestra para comparar la media del grupo con un valor estándar. Si está estudiando dos grupos, use una prueba t de dos muestras.

Si desea saber solo si existe una diferencia, use una prueba de dos colas. Si desea saber si un grupo de grupo es mayor o menor que el otro, use una prueba de cola de cola izquierda o de cola derecha.

Una prueba t mide la diferencia en las medias grupales divididas por el error estándar agrupado de las dos medias de grupo.

De esta manera, calcula un número (el valor T) que ilustra la magnitud de la diferencia entre los dos medios de grupo que se comparan, y estima la probabilidad de que esta diferencia exista puramente por casualidad (valor p).

¿Qué es SD en R?

Ya hemos visto cómo calcular el percentil y la varianza en la programación R. También hemos visto cómo calcular la media y el modo en R. Veamos cómo calcular la desviación estándar, pero antes de eso, comprendamos qué es SD.

La desviación estándar de una población es la raíz cuadrada de la varianza de la población. Es la medida de la distribución de los valores. Cuanto mayor sea la desviación estándar, mayor será la propagación de valores. Cuanto menor sea la desviación estándar, más cerca será la propagación de valores.

La desviación estándar es un modelo generalmente utilizado del grado de variación dentro de un conjunto de valores de datos. Una desviación estándar baja en relación con el valor medio de una muestra significa que las observaciones están estrechamente agrupadas; Los valores más grandes sugieren que las observaciones están más extendidas.

Para calcular la desviación estándar en R, use la función SD (). La desviación estándar de una variable de observación en R se calcula por la raíz cuadrada de su varianza.

El SD en R es una función incorporada que acepta el objeto de entrada y calcula la desviación estándar de los valores proporcionados en el objeto. La función SD () acepta un vector numérico y argumentos lógicos y devuelve la desviación estándar.

Si NA.RM es verdadero, entonces los valores faltantes se eliminan antes de que continúe el cálculo. Si el valor de entrada es una matriz o un marco de datos, se devuelve un vector de la desviación estándar de las columnas.

El símbolo de la desviación estándar de la población es σ (Sigma). Su fórmula es la siguiente.

¿Cómo calcular desviación estándar en R?

Si bien creemos que este contenido beneficia a nuestra comunidad, aún no lo hemos revisado a fondo. Si tiene alguna sugerencia de mejoras, háganoslo saber haciendo clic en el botón "Informe un problema" en la parte inferior del tutorial.

Al ser un lenguaje estadístico, R ofrece la función estándar SD ('') para encontrar la desviación estándar de los valores.

"La desviación estándar es la medida de la dispersión de los valores".
Cuanto mayor sea la desviación estándar, mayor será la propagación de valores.
Cuanto menor sea la desviación estándar, mayor es la propagación de los valores.
En palabras simples, la fórmula se define como: la desviación estándar es la raíz cuadrada de la "varianza".

La desviación estándar es muy popular en las estadísticas, pero ¿por qué? Las razones de su popularidad y su importancia se enumeran a continuación.

"La desviación estándar es la medida de la dispersión de los valores".
Cuanto mayor sea la desviación estándar, mayor será la propagación de valores.
Cuanto menor sea la desviación estándar, mayor es la propagación de los valores.
En palabras simples, la fórmula se define como: la desviación estándar es la raíz cuadrada de la "varianza".

La desviación estándar convierte el número negativo en un número positivo al cuadrarlo.

Muestra las desviaciones más grandes para que pueda mirarlas particularmente.

Muestra la tendencia central, que es una función muy útil en el análisis.

Tiene un papel importante que desempeñar en finanzas, negocios, análisis y mediciones.

Antes de entrar en el tema, ¡mantenga esta definición en su mente!

¿Qué es mean en R?

Una opción con menos frecuencia utilizada del comando media es la opción TRIM. La opción TRIM se puede usar para recortar la fracción de observaciones de cada extremo de nuestros datos de entrada antes de calcular el promedio. Los valores de recorte fuera de ese rango se toman como el punto final más cercano.

Usemos nuestro primer ejemplo de vector para ilustración:

Media (x1, trim = 0.2)# Use la opción TRIM# 4.833333

Si especificamos que TRIM es igual a 0.2, la función media devuelve 4.833333.

Hasta ahora, solo hemos usado un vector de ejemplo simplificado. Este ejemplo muestra cómo aplicar la función media a la columna de un conjunto de datos real.

Para el ejemplo, voy a usar el conjunto de datos de Iris, que se puede cargar a RSTUDIO de la siguiente manera:

datos (iris)# Cargar datos de iris
cabeza (iris)# jefe de datos de iris

datos (iris) # Cargar datos de iris
cabeza (iris) # jefe de datos de iris

Tabla 1: Primeras seis filas de la matriz de datos de flores de Iris.

Si ahora queremos extraer la media de la primera columna de los datos del iris, podemos usar el siguiente código R:

media (iris $ sepal.length)# media de la primera columna# 5.843333

media (iris $ sepal.length) # media de la primera columna
# 5.843333

Si necesita más información sobre la sintaxis de este artículo, puede ver el siguiente video que he publicado en mi canal de YouTube:

Acepte las cookies de YouTube para reproducir este video. Al aceptar, accederá al contenido desde YouTube, un servicio proporcionado por un tercero externo.

¿Cómo se determina el rango R de los datos recolectados?

Cuando trabajamos con un cuadro Xbar y R, comenzamos con el gráfico R. Los límites de control para el gráfico depende de la variabilidad del proceso, bar {r}. Si el gráfico de rango no está en control, los límites de control para el gráfico bar {x} no tendrán sentido. Una vez que calculemos los límites de control para el gráfico de rango, estudiaremos el gráfico de rango para el control. Usando los datos de la Tabla 4, calcularemos la línea central para el gráfico R.

Para n = 5 muestra por subgrupo, encontramos que d3 = 0 y d4 = 2.115. Por lo tanto, los límites de control para el gráfico R son:

Los 25 valores de rango de muestra junto con la línea central y el límite de control superior aparecen en el gráfico de rango que se muestra en la Figura 2. El gráfico de rango no revela ninguna condición fuera de control. Como tal, el cuadro de rango sugiere que la variabilidad del proceso es estable y en control. Según esta observación, usaremos bar {r} para calcular los límites de control para el gráfico bar {x}.

Para construir el gráfico bar {x}, usaremos los datos de la Tabla 4.

Para calcular los límites de control para el gráfico bar {x}, usaremos A2 = 0.577 de la Tabla 3 para un tamaño de muestra de subgrupo de n = 5.

En la Figura 3 se muestra el gráfico Bar {x}. Cuando trazamos los 25 promedios de subgrupos de muestra en este gráfico, la gráfica no revela ninguna condición fuera de control. Por lo tanto, concluyamos que los gráficos XBAR y el rango exhiben control. En el futuro, adoptaremos estos límites de control de prueba para su uso en el control de procesos estadísticos en línea.

¿Qué es rango r?

Varios grupos se quejan de la cantidad de fumar en 'Rango'.

Cinematical informa hoy sobre las quejas de varios grupos antitabaco que dicen que había demasiado fumar en la película animada Rango para garantizar la calificación PG de la película. Según el artículo:

Respira el proyecto de California "¡pulgares! ¡Pulgares abajo!" ha estado manteniendo una cuenta de casos en los que los personajes de 'Rango' Smoke, y Kori Titus, CEO de la organización sin fines de lucro, dice que los números son de hasta 60. Según Titus, la única otra película animada que coincide con 'Rango' fue '101 dálmatas , 'cuyo personaje cruel, Cruella de Vil, era un fumador total de cadena (también 60 veces).

El artículo también cita a Stanton Glantz, director del Centro de Investigación y Educación de Control de Tabaco en la Universidad de California en San Francisco que dice "muchos niños comenzarán a fumar debido a esta película".

Eso me parece evidentemente ridículo. Sinceramente, creo que los niños son más inteligentes que eso. No es como si el propio Rango saliera a la película con un cigarrillo en la boca diciendo: "Mmmmm, esto sabe muy bien". El fumar estaba en contexto de una ciudad del Viejo Oeste. Los malos mordieron cigarros.

Las quejas como esta y muchas del Consejo de Televisión de los Padres (como esta sobre Glee) atribuyen demasiado poder a los medios de comunicación y no lo suficiente a los padres. Fumar ha caído en desgracia en la mayoría de las películas y programas de televisión. Ahora se usa principalmente para crear un efecto artístico específico. Me siento seguro de que mi hija de 7 años no estaba persuadida para fumar mirando a Rango. Sería más probable que fumara si me viera iluminando. Y, francamente, prefiero que ella vea una película extraña y desafiante como Rango y luego la discuta con ella después (fumar y todo) que todos los medios desanimados por completo.

¿Cómo se calcula el rango de datos agrupados?

El rango se define como la diferencia entre la observación máxima y mínima de los datos dados. Si $$ {x_m} $$ denota la observación máxima y $$ {x_0} $$ denota la observación mínima, entonces el rango se define como

En el caso de los datos agrupados, el rango es la diferencia entre el límite superior de la clase más alta y el límite inferior de la clase más baja. También se calcula utilizando la diferencia entre los puntos medios de la clase más alta y la clase más baja. Es la medida de dispersión más simple. Da una idea general sobre la propagación total de las observaciones. No disfruta de ningún lugar destacado en la teoría estadística, pero tiene su aplicación y utilidad en los métodos de control de calidad que se utilizan para mantener la calidad de los productos producidos en las fábricas. La calidad de los productos se debe mantener dentro de una cierta gama de valores.

El rango se basa en dos observaciones extremas. No da peso a los valores centrales de los datos. Es una mala medida de dispersión y no da una buena imagen de la propagación general de las observaciones con respecto al centro de las observaciones. Consideremos tres grupos de datos que tienen el mismo rango:

En los tres grupos, el rango es 50 - 30 = 20. En el grupo A hay una concentración de observaciones en el centro. En el grupo B, las observaciones se concentran en las esquinas extremas, y en el grupo C las observaciones se distribuyen casi por igual en el intervalo de 30 a 50. El rango no explica las diferencias en los tres grupos de datos. Este defecto en el rango no se puede eliminar incluso si calculamos el coeficiente del rango, que es una medida relativa de dispersión. Si calculamos el rango de una muestra, no podemos dibujar ninguna inferencia sobre el rango de la población.