Después de hablar sobre el significado y los tipos de las dos formas de datos, comprendamos la diferencia entre datos agrupados y datos no agrupados:
- Los datos no agrupados implican los datos expresados en el formulario a medida que se recopila. Por otro lado, cuando los datos desplazados se organizan en una forma condensada mediante la creación de grupos de las observaciones recopiladas, se denomina datos agrupados.
- Los datos no agrupados se prefieren comúnmente cuando el investigador recopila datos, ya que es una lista simple de números. En comparación con, se prefieren los datos agrupados en el momento del análisis de datos.
- Los datos no agrupados no se clasifican u organizan en diferentes clases, mientras que los datos agrupados se organizan en varias clases.
- Los datos no agrupados se presentan en forma de listas, mientras que las tablas de frecuencia se utilizan para expresar datos agrupados.
- Los datos no agrupados no se resumen, es la forma original de datos, como lo recopilan el investigador. En contraste, los datos agrupados se resumen en una distribución de frecuencia.
- Debe haber clases no superpuestas y continuas.
- No debe haber brechas en medio de clases.
- El tamaño de las clases debe ser el mismo.
- Evite las clases abiertas, como menos de 5 o más de 9
- Los límites de cada clase deben seleccionarse de manera que no sea parte de confusión sobre de qué clase una cierta observación de los datos dados.
- Se debe dar un título adecuado a la tabla para que pueda transmitir exactamente de qué se trata la tabla.
Los datos no agrupados, como ya se dijo, son los datos recopilados de los encuestados en su forma real o como está. La división de datos en diferentes clases se llama datos agrupados.
¿Cuál es la importancia de los datos agrupados y no agrupados?
Como se mencionó anteriormente, los datos agrupados son el tipo de datos que se clasifican en grupos después de la recopilación. Los datos sin procesar se dividen en varios grupos y se crea una tabla. El objetivo principal de la tabla es mostrar las bases de datos que ocurren en cada grupo. Por ejemplo, cuando se realiza una prueba, los resultados son los datos en este escenario y hay muchas formas de agrupar estos datos. Por ejemplo, puede registrar el número de estudiantes con un puntaje mayor que 20.
Alternativamente, puede usar títulos. Por ejemplo, un 90-100 hasta F 0-59 con cada categoría que muestra cuántos estudiantes hay en cada categoría. Los histogramas y la tabla de frecuencias se utilizan mejor para mostrar e interpretar los datos agrupados. Aquí hay un ejemplo
La agrupación de datos presenta las siguientes ventajas:
- Ayuda a mejorar la eficiencia de las estimaciones.
- Permite un mayor equilibrio del poder estadístico de las pruebas de las diferencias entre las capas analizando un número igual de las capas.
- Las subpoblaciones irrelevantes se ignoran mientras que las significativas se concentran.
Los datos no agrupados, también conocidos como datos no procesados, son datos que no se han ingresado en ningún grupo o categoría después de la recopilación. Los datos se dividen en números o características, por lo tanto, los datos que no se han ingresado en ninguna de las categorías no se agrupan. Por ejemplo, cuando hace un censo y desea analizar el número de mujeres mayores de 45 años en un área específica, debe saber cuántas personas residen en esa área.
¿Qué son datos agrupados y su importancia en la estadistica?
La información que se indica que está archivada se proporciona para referencia, investigación o fines de retención de documentos. No está sujeto a los estándares web del Gobierno de Canadá y no se ha cambiado ni actualizado desde su archivo. Para obtener esta información en otro formato, contáctenos.
Un diagrama de tallos y hojas es una técnica utilizada para clasificar variables discretas o continuas. Se utiliza para organizar datos a medida que avanza.
Un diagrama de tallos y dejar un poco como un diagrama de tiras. Cada número dentro de los datos se ventila en una varilla y una hoja, de ahí el diagrama de nombre con varillas y hojas. El número del número incluye todas las cifras, excepto las últimas. La hoja de números siempre será una figura única.
- Un buen diagrama de tallos y licencia indica como un tallo las primeras figuras del número (miles, cientos o decenas) y como sábanas la última figura (única).
- Un diagrama de tallos y dejarlo de baja generalmente indica números enteros. Un número con un punto decimal se redondeará lo más cerca posible. Por ejemplo, resultados del examen, mediciones de tamaño y peso, datos de velocidad, etc.
- Un buen diagrama de tallos y dejar un diagrama de cinta cuando lo gira a un lado.
- Indica cómo se dispersan los datos, es decir, el número más alto, el número más bajo, el número más común o más frecuente y los valores aberrantes (un número que está fuera del grupo principal de números).
¿Cuáles son los datos agrupados y no agrupados?
¿Qué se agrupan los datos y no se agrupan los datos? Los datos de conducción indican los datos (o información) proporcionados en forma de intervalos de clase, como 0-20, 20-40, etc. Los datos no agrupados se definen como los datos indicados como puntos individuales (es decir, valores o números) como 15, 63, 34, 20, 25 y así sucesivamente.
Los ejemplos sobre los datos de agrupación se explican aquí en la explicación detallada detallada. Divida los datos en cinco grupos, es decir, 0-5, 5-10, 10-15, 15-20 y 20-25, donde 0-5 significa signos mayores o iguales a 0 pero menos de 5 y de la misma manera 5-10 significa signos mayores o iguales a 5 pero menos de 10, y así sucesivamente.
Los datos agrupados se forman datos agregando las observaciones individuales de una variable en grupos, de modo que una distribución de frecuencia de estos grupos actúa como un vehículo cómodo para resumir o analizar los datos.
¿Cómo podemos convertir datos no agrupados en datos agrupados? El primer paso es determinar cuántas clases desea tener. Posteriormente, resté el valor más bajo en el conjunto de datos con el valor más alto en el conjunto de datos y luego divido por la cantidad de clases que desea tener.
La distribución de la frecuencia no agrupada es un tipo de distribución de frecuencia que muestra la frecuencia de cada valor de datos individual en lugar de grupos de valores de datos. En este tipo de distribución de frecuencia, podemos ver directamente con qué frecuencia se han producido diferentes valores en la tabla.
¿Cuál es la importancia de los datos no agrupados?
Los datos son una recopilación de información ensamblada por observaciones, mediciones de investigación o análisis. En una tabla, se requieren dos columnas esenciales, a saber, la observación y la frecuencia. Además, podemos encontrar la media, la mediana, el modo y la desviación media para los datos no agrupados. Hay datos agrupados y desagradables. En este artículo, discutiremos las propiedades y las aplicaciones de datos desagradables uno por uno.
Los datos que se obtienen de la observación directa se denominan datos sin procesar o datos no agrupados. Las marcas de diez estudiantes en una prueba mensual son un ejemplo de datos sin procesar.
Considere las marcas obtenidas por 10 estudiantes en una prueba de matemáticas como se da a continuación:
Los datos están en forma de datos sin procesar. Al observar el formato dado, ¿podemos encontrar las marcas más altas y más bajas?
¿No lleva mucho tiempo? ¿No pasaría menos tiempo si estas marcas se organizan en orden ascendente o descendente?
Ahora, podemos ver que la marca más baja es (25 ) y la marca más alta es (95 ). La diferencia entre el valor más alto y el valor más bajo se conoce como el rango de clase.
Presentar los datos en orden ascendente y descendente puede llevar mucho tiempo si se dan datos grandes. En la representación tabular de datos no agrupados, se necesitan dos atributos, como observaciones y frecuencia.
La medida de la tendencia central es un valor que tiene como objetivo definir un conjunto de datos al reconocer la posición central dentro de ese conjunto de datos. La media, la mediana y el modo son las medidas de tendencia central.
¿Qué se obtiene de los datos no agrupados?
Jane Stogdill: Bien, siento que lo que escucho mucho es la importancia de que los datos se recopilen y analicen. Mucho de eso solo ha estado disponible para nosotros en la última década más o menos. ¿Es por eso que crees que hay esta oportunidad en el marketing para revolucionar el marketing de la manera que lo ve?
Phillip Stutts: Bueno, los datos están en cualquier cosa. Google no es un motor de búsqueda, es una compañía de datos. Coca-Cola no es una empresa de refrescos, es una compañía de datos. Facebook no es una plataforma de redes sociales, es una compañía de datos. La razón es que estas compañías de mil millones de dólares saben que comprender a sus clientes es el factor número uno para el éxito, y demasiadas veces, los dueños de negocios, la gran mayoría de los dueños de negocios no entienden eso.
Anoche estuve en una entrevista con James Altucher y él me preguntó: «Está bien, no tienes mucho dinero y quieres comenzar un restaurante. ¿Cómo se comienza con el paso uno en los datos? » Le dije: «Genial, ¿no tienes dinero? Bien, te paras afuera del restaurante y llevas gente al restaurante. Lo segundo que hace es una vez que la gente comience a entrar, empodera a los camareros o las camareras para hacer preguntas sobre la comida. ¿Qué les gusta más? ¿Qué no les gustó? ¿Cómo podrían mejorar sus servicios?
Usted recopila esos datos, ves lo que los platos están vendiendo más, lo que menos se vende. Ves lo que más se venden las bebidas y cuáles se venden menos. Recibe comentarios en los datos, y esto no le cuesta nada, pero puede hacerlo, ya sea que tenga dinero o que no tenga dinero. La pregunta es, ¿el propietario del negocio quiere comenzar a comprender a sus clientes antes de que se agoten y hablar sobre lo que quieran hablar?
¿Cómo se caracterizan las variables no agrupadas?
- Método del centroid
La distancia entre dos grupos se define como la distancia entre los respectivos «centros» o centros del grupo de unidades.
- Método del centroid
Considere la descomposición de la desviación total de las variables de PA en la desviación de Bethaeen y la desviación. En cada paso del procedimiento jerárquico, los grupos que implican el menor aumento en la desviación con, es decir, que aseguran que se agregue la mayor cohesión interna posible.
Los algoritmos proporcionan una jerarquía de particiones N-1 representadas por el desrograma.
La importancia de leer el desrograma es la posibilidad de sugerir el número de clases realmente presentes dentro del conjunto de observados.
En correspondencia con cada corte, se observa una partición de E y un cierto número de k.
Se considera el mercado de «automóviles» de diferentes nacionalidades. Como descriptores útiles para la clasificación, se consideran las únicas variables numéricas: consumo, peso, relación de transmisión, desplazamiento, caballos, etc.
La aplicación de un método de análisis de clúster jerárquico con el criterio de agrupación de Ward le permite identificar tres grupos finales.
El primer clúster (11 autos) está compuesto por vehículos grandes. Son pesados, poderosos, consumen mucho y, sobre todo, son los autos estadounidenses.
El segundo clúster (8 autos) está compuesto por vehículos de tamaño mediano. Son en promedio poderosos, se caracterizan por una alta maniobrabilidad y son autos europeos.
¿Cuál es la diferencia entre los datos agrupados y no agrupados?
Si tiene una lista de datos para agrupar y resumir, puede crear una estructura de un máximo de ocho niveles. Cada nivel interno, representado por un número más alto en los símbolos de estructura, muestra datos detallados para el nivel inmediatamente más alto, representado por un número más bajo en los símbolos de la estructura. Puede usar una estructura para ver rápidamente líneas o columnas de resumen o para mostrar datos de detalle para cada grupo. Es posible crear una estructura rayada, como la ilustrada en el siguiente ejemplo, una estructura de columna o una estructura de rayas y columnas.
1. Para ver las líneas para un nivel, haga clic en los símbolos de la estructura de estructura apropiada.
2. El nivel 1 contiene ventas totales para todas las líneas de detalle.
3. El nivel 2 contiene ventas totales para cada mes en cada región.
4. El nivel 3 contiene líneas de detalle, en este caso las líneas de 17 a 20.
5. Para expandir o comprimir los datos en la estructura, haga clic en los símbolos de la estructura y o presione Alt+Shift+= para expandir y Alt+Shift+- para comprimir.
Asegúrese de que cada columna de datos para ser estructura contenga una etiqueta en la primera línea, por ejemplo, área, contenga datos similares en cada columna y que la estructura del intervalo para ser no contenga líneas o columnas vacías.
Si lo desea, las líneas de detalle agrupadas pueden tener una línea de resumen correspondiente o un subtotal. Para crear uno, realice una de las siguientes operaciones:
Inserte las líneas de resumen utilizando el comando subtotal
¿Qué conclusiones se pueden sacar de una tabla de frecuencia?
Tengo una pregunta de encuesta específica que estoy analizando para el tema, ¿las escuelas secundarias implementan una política uniforme? Se supone que debo crear preguntas de encuesta sesgadas que intenten convencer a los encuestados de que acepten el tema. La pregunta de la encuesta es: la cantidad de tiempo que toma un estudiante para elegir, planificar y accesorizar su atuendo para la escuela todas las mañanas. He encuestado a 37 personas en total, y dado que esta es una de las preguntas cuantitativas, estoy determinando los percentiles para ello (no se aplica aquí la distribución normal). La tabla de frecuencia es
begin {array} {c | c | c | c}
text {planificación} (x) & text {número de estudiantes} (f) & text {frecuencia acumulativa} (f) \
Hline
2.5 y 10 y 10 \
8 y 10 y 20 \
13 y 7 y 27 \
18 y 6 y 33 \
23 y 1 y 34 \
28 y 2 y 36 \
45.5 y 1 y 37 \
Hline
Text {Total} y 37
end {array}
Donde el número de estudiantes (f) es la frecuencia de las respuestas para planificar conjuntos.
Estoy encontrando los percentiles durante 16 a 20 minutos de planificación. Hay 27 valores inferiores al rango de 16-20 minutos, más este rango incluye 6 valores, para un total de 33 valores. 27 – 33 es el rango de valores cuando va de un rango de tiempo más pequeño a un rango de tiempo más alto. Por lo tanto, puedo decir que el percentil de estos valores es entre (27/37) × 100% y (33/37) × 100%, lo que nos daría 73% – 89%. No puedo dar una respuesta exacta ya que hay múltiples valores en el rango. Estoy obligado a sacar más conclusiones sobre esto, pero 16-20 minutos de planificación son como el rango medio de valores, ya que la mayoría tarda 15 minutos o menos, y menos personas toman 21 a 60 minutos (todo esto se puede ver en la mesa. imagen). Mi pregunta es, ¿qué más puedo decir sobre mis percentiles y cómo puedo sacar conclusiones eficientes sin sonar confuso y prolijo? Originalmente tenía algo como esto:
Como sabemos que seis personas respondieron entre 16 y 20 minutos como tiempo de preparación para sus atuendos para la escuela por la mañana, podemos concluir que muy pocas personas de los 37 encuestados toman más de 10 minutos para preparar sus atuendos (57%). Los estudiantes podrían despertarse temprano se han dedicado algún tiempo a preparar su atuendo, ducharse, prepararse y desayunar sin tomar 10 minutos o menos tiempo adicional, lo que no sería un gran problema. Sin embargo, otros estudiantes no tienen mucho tiempo para prepararse, y mucho menos hacen otra cosa, por lo tanto, cualquier tiempo adicional podría ser un problema.
¿Que se puede concluir de una tabla de frecuencia?
Teniendo que ver con las variables cualitativas, podemos considerar la frecuencia absoluta, es decir, el número de personas que presentan de cierta manera. Por ejemplo, si en 500 insectos 100 son heterooteri, 200 son himenópteros y 150 son verduras, podemos concluir que la frecuencia absoluta de los heteroopers es igual a 100.
Además de las frecuencias absolutas, también podemos considerar las frecuencias relacionadas, que se calculan dividiendo las frecuencias absolutas para el número total de individuos del colectivo. En el primer caso mencionado, la frecuencia relativa de los heterooteri es igual a 100/500, es decir, 0.2.
Si tenemos una variable en la que las modalidades se pueden ordenar lógicamente, además de las frecuencias absolutas y relativas, podemos tener en cuenta las frecuencias acumuladas calificadas de SO, que se obtienen acumulando los valores de todas las clases de frecuencia que preceden a los precedentes uno considerado.
Cuando representamos, en un gráfico o tabla, las frecuencias (absolutas, relativas o acumuladas) para todas las clases y todos los individuos del colectivo, obtenemos una distribución de frecuencias. También se pueden construir distribuciones de frecuencia para variables cuantitativas, a través de una operación de clasificación, que consiste en crear clases con intervalos apropiados. Por lo tanto, en estas distribuciones de frecuencia podemos calcular las frecuencias absolutas, relacionadas y acumuladas. In genere, se abbiamo un collettivo molto numeroso è conveniente aggregare i dati in forma di distribuzioni di frequenza, perché la lettura delle informazioni è molto più facile. Aquí hacemos un ejemplo, incluso si el conjunto de datos que usaremos (‘alturas’) no es tan grande.
¿Cómo resumir una tabla de frecuencia?
Muy útil para principiantes, así como cualquier persona interesada en aprender algunos conceptos básicos. Muy recomendable para los gerentes y las personas que intentan descubrir qué información se pueden obtener los datos de formulario
Este profesor hace un trabajo excepcional al desglosar conceptos y cálculos complejos sin diluir el material. Los ejemplos estadísticos son muy relevantes e interesantes.
Los datos están a su alrededor, pero ¿qué te dicen los datos? El primer paso para tomar mejores decisiones y tomar medidas es obtener una buena comprensión de la información que ha recopilado. En este módulo aprenderemos sobre algunas de las herramientas en estadísticas que nos ayudan a lograr esto.
[Sonido] recopilamos datos para que podamos tomar mejores decisiones. Por ejemplo, puede recopilar datos sobre cómo nuestra promoción de marketing está impactando las ventas o recopilar datos sobre la productividad o la fuerza laboral, etc., pero mirar pilas de datos no es muy útil por sí sola. Debe comprender los datos y una de las mejores cosas para obtener una mejor comprensión y lo que los datos nos dicen es organizar y resumir los datos a través de medios visuales. En este módulo, nos centraremos en las técnicas de resumen visual tanto para variables cuantitativas como para variables categóricas. Específicamente tablas de frecuencia, histogramas, gráficos circulares y parcelas de dispersión. Comenzaremos con tablas de frecuencia. Ves muchas tablas como esta en medios o reuniones de negocios. Las mesas aquí de un vistazo nos muestran los 13 principales camiones de recogida más vendidos en Estados Unidos, hasta agosto de 2015. Este tipo de mesa se conoce como tabla de frecuencia. Y es muy útil para resumir los datos categóricos. En este caso, el nombre del modelo de camión. Mirando esta tabla, puede ver que tenemos datos en 233,601 camiones que se vendieron en los primeros 8 meses de 2015 en los Estados Unidos. Si observó los registros reales de 233,601, será difícil saber de inmediato cuál es el vendedor número 1 y cuál es el mejor vendedor número 2. Algunos recaudan en los datos en una tabla como esta, nos ayuda a saber exactamente qué se ha vendido y cómo el modelo se compara entre sí. También podemos mostrar esta información con un gráfico de barras. La altura de cada barra representa el número de cada camión específico vendido. Y esta es otra forma de tomar los datos sin procesar y mostrar una visión general rápida de los datos recopilados que nos ayuda a ser más efectivos para comunicarnos sobre estos datos. En lugar de los recuentos de cada modelo vendido, aquí, también podemos resumir cada categoría, por su frecuencia relativa. Por ejemplo, sabemos que la serie Ford F es el camión más vendido, pero ¿cuál es la cuota de mercado para este camión? Podemos responder a este tipo de pregunta encontrando las frecuencias relativas. Obtenemos la frecuencia relativa tomando un número de veces que se observó un valor dividirlo por el número total de observación. Entonces, por ejemplo, para la serie F Ford que es 71,332 dividida por 233,601, o 0.3054. Entonces, no solo sabemos que Ford F-Series es el camión más vendido, sino que podemos decir que alrededor del 30.5% del mercado pertenece a Ford. Con solo resumir, comenzamos a obtener información sobre nuestros datos. Podemos crear una frecuencia relativa para todos los modelos y ahora podemos ver que los 3 mejores vendedores principales tienen alrededor del 73% del mercado. Este es un gráfico de barras con las frecuencias relativas que se muestran en el eje Y. Ahora, imagina un centro de llamadas. Una parte importante de la experiencia del cliente es llegar rápidamente a un agente. Si queremos entender lo que experimentan los clientes, podemos recopilar información sobre los tiempos de espera. Cada cliente podría tener una experiencia ligeramente diferente de otra. Mira estas diez observaciones. Esta mesa muestra tiempos de espera en segundos para diez clientes. Pero digamos que tenemos 500 de esas observaciones. Mirar 500 entradas no nos dará una comprensión rápida de lo que está sucediendo. Por lo tanto, podemos usar una tabla de frecuencia para resumir los datos para obtener una mejor comprensión. Para crear una tabla de frecuencia para datos cuantitativos similares a lo que tenemos aquí. Necesitamos crear rangos y luego contar cuántos clientes tienen ese tipo de experiencia. Por ejemplo, podemos colocar a los clientes en un rango de 0 a 0.5 minutos. Eso es 30 segundos o menos. Luego, los clientes esperan entre 31 segundos y 60 segundos en el segundo en ese momento y así sucesivamente. Aquí, vemos que el resumen de 500 observaciones y los valores en las columnas de frecuencia representan el número de clientes que experimentan varios tiempos de espera. Por ejemplo, 66 clientes esperaron entre 181 segundos y 210 segundos antes de que pudieran hablar con un agente. La columna de frecuencia relativa muestra qué porcentaje de clientes experimentan varios tiempos de espera. En este caso, el 13% de los clientes esperaron entre 181 segundos y 210 segundos, eso es entre 3 minutos y 3.5 minutos. Muchos informes utilizarán varias formas de generar datos de resumen y debe mirar de cerca para ver cómo se han resumido los números. Aquí está la tabla de un informe del Departamento de Transporte de los Estados Unidos. Veamos cómo usar esto para responder un par de preguntas como, ¿qué grupo de edad distraído tenía los niveles más altos de accidentes fatales porque estaban distraídos? Los jóvenes de 15 a 19 años son ese grupo de edad. De 3.212 conductores en ese grupo de edad involucrados en un accidente fatal, 344 se estrelló porque estaban distraídos. ¿Qué pasa con qué grupo de edad tuvo los niveles más altos de accidentes fatales porque estaban usando un teléfono celular? Nuevamente, la respuesta es de 15 a 19 años. Aquí, 72 de 344 conductores distraídos estaban distraídos porque estaban en un teléfono celular. Por lo tanto, el 21% de todos los accidentes fatales debido a la conducción distraída en este grupo de edad se produjo porque estaban usando un teléfono celular. Ahora, te dejaré intentarlo. Descubra qué porcentaje de conductores distraídos de 20 a 29 años usaban un teléfono celular cuando tuvieron un accidente fatal. La respuesta es del 15%, que es 117 de 790. Entonces, nuevamente, al usar las tablas de frecuencia podemos tomar grandes cantidades de datos y crear un resumen que sea fácil de entender y muy útil para comunicarse. Pero también nos servirá para hacer preguntas que eventualmente nos llevarían a mejorar nuestra comprensión de lo que está sucediendo. Como cómo disminuir el número de accidentes fatales. En esta conferencia, aprendió dos métodos gráficos al resumir los datos. Una vez más, resumir los datos nos permite comprender rápidamente lo que está sucediendo y nos permite comenzar a explorar datos con métodos estadísticos más sofisticados.
Artículos Relacionados:
