La palabra datos se refiere a la información que se recopila y registra. Puede estar en forma de números, palabras, medidas y mucho más.
Hay dos tipos de datos y estos son datos cualitativos y datos cuantitativos. La diferencia entre los dos tipos de datos es que los datos cuantitativos se utilizan para describir información numérica. Por ejemplo, la medición de la temperatura estaría bajo este tipo de datos.
Por otro lado, los datos cualitativos se utilizan para describir la información en palabras. Después de recopilar datos, debe organizarse, por lo tanto, la necesidad de separar los datos agrupados de los datos no agrupados. Ambas son formas útiles de datos, pero la diferencia entre ellos es que los datos no agrupados son datos sin procesar. Esto significa que se acaba de recolectar, pero no se clasificó en ningún grupo o clases. Por otro lado, los datos agrupados son datos que se han organizado en grupos de los datos sin procesar.
Como se mencionó anteriormente, los datos agrupados son el tipo de datos que se clasifican en grupos después de la recopilación. Los datos sin procesar se clasifican en varios grupos y se crea una tabla. El propósito principal de la tabla es mostrar los puntos de datos que ocurren en cada grupo. Por ejemplo, cuando se realiza una prueba, los resultados son los datos en este escenario y hay muchas formas de agrupar estos datos. Por ejemplo, se puede registrar el número de estudiantes que obtuvieron más de cada 20 marca.
Alternativamente, se pueden usar las calificaciones. Por ejemplo, un 90-100 hasta F 0-59 con cada categoría que muestra cuántos estudiantes hay en cada categoría. Los histogramas y la tabla de frecuencia se utilizan mejor para mostrar e interpretar datos agrupados. Aquí hay un ejemplo
¿Qué son datos no agrupados en la estadística?
Los datos se pueden clasificar en varias formas. Una forma de distinguir entre datos es en términos de datos agrupados y desagradables.
Cuando los datos no se han colocado en ninguna categoría y ninguna agregación/resumen ha tomado en los datos, entonces se conoce como datos no agrupados. Los datos no agrupados también se conocen como datos sin procesar.
Cuando los datos sin procesar se han agrupado en diferentes clases, se dice que se agrupan datos.
Altura de os estudiantes: (171,161,155,155,183,191,185,170,172,177,183,190,139,149,150,150,152,158,159,174,178,179,190,170,143,165,167,187,169,182,163,149,174,174,177,181,170,182,170,145,143): Estos son datos sin procesar/desagrupados.
La siguiente tabla muestra los datos agrupados de los datos sin procesar mencionados anteriormente
Antes de estudiar más sobre datos agrupados y desagradables, es importante entender qué queremos decir con «tendencias centrales».
Como sugieren los nombres, las tendencias centrales tienen algo que ver con el centro. La tendencia central es la ubicación central en una distribución de probabilidad. Hay muchas medidas para tendencias centrales como media, modo, mediana, rango intercuartil, percentiles, media geométrica, media armónica, etc. Las medidas más comunes de las tendencias centrales utilizadas se analizan a continuación.
Comprender las medidas de las tendencias centrales de los datos no agrupados.
(i) Modo: el elemento/valor que ocurre más frecuentemente en un conjunto de datos se llama modo. Bimodal se usa en el caso cuando hay un empate b/w dos valores. Multimodal es cuando un conjunto de datos dado tiene más de dos valores con la misma frecuencia que ocurre.
¿Qué es los datos no agrupados?
A diferencia de los datos no agrupados, los datos agrupados se han organizado en varios grupos. Para crear datos agrupados, los datos sin procesar se clasifican en grupos y se crea una tabla que muestra cuántos puntos de datos ocurren en cada grupo.
Veamos nuevamente esos puntajes de las pruebas y pensemos en cómo podrían agruparse. Hay muchas formas de agrupar estos datos. Por ejemplo, puede registrar cuántos estudiantes obtuvieron puntajes en cada rango de 20 puntos. Alternativamente, puede separar los puntajes por grado de letra. Si 90-100 es una A, 80-89 es A B, 70-79 es una C, 60-69 es una D, y 0-59 es una F, podría tener sentido agrupar los datos sin procesar en estos cinco grupos . Esto cambiaría mucho la distribución de frecuencia, a pesar de que los datos no agrupados permanecían iguales.
Muchos tipos de datos, como los datos de la puntuación de prueba, son numéricos. Sin embargo, este no es el único tipo de datos que puede agrupar. Si tuviera una tienda de ropa y quisiera realizar un seguimiento de cuántos de cada camisa de color había vendido, recopilaría datos en cada venta. Los datos sin procesar serían cualitativos y se verían algo así:
Estos datos crudos y desagradables se pueden agrupar para crear datos numéricos, que se pueden analizar utilizando estadísticas. Para agrupar los datos, haría un grupo para cada color de camisa y luego contaría el número total de camisas vendidas en cada color. Estos datos agrupados podrían organizarse en un gráfico.
¿Cómo saber si los datos son agrupados o no?
Los datos agrupados son datos que se han agrupado en categorías. Los histogramas y las tablas de frecuencia se pueden usar para mostrar este tipo de datos: histograma de frecuencia relativa que muestra ventas de libros para un día determinado, ordenado por precio.
Los datos no agrupados son los datos que recopila por primera vez de un experimento o estudio. Los datos son sin procesar, es decir, no se clasifica en categorías, clasificadas o agrupadas de otra manera. Un conjunto de datos no agrupado es básicamente una lista de números.
Cuando tiene una tabla de frecuencia u otro grupo de datos, el conjunto original de datos se pierde, reemplazado por estadísticas para el grupo. No puede encontrar la media de muestra exacta (ya que no tiene los datos originales) pero puede encontrar una estimación. La fórmula para estimar la media de muestra para los datos que se han agrupado es:
- x̄ es la media de la muestra,
- x es el punto medio de clase (o categoría),
- F es la frecuencia de clase.
Pregunta de ejemplo: Encuentre la media de muestra para la siguiente tabla de frecuencia.
Paso 1: Encuentre el punto medio para cada intervalo de clase. El punto medio es solo el medio de cada intervalo. Por ejemplo, el medio de 10 y 15 es 12.5:
Paso 2: multiplique el punto medio (x) por la frecuencia (f):
Agregue todos los totales para este paso. En otras palabras, agregue todos los valores en la última columna (debería obtener 405).
¿Cuándo se usan los datos agrupados?
La creciente cantidad de datos generados por fuentes de datos heterogéneas prestó atención a cómo extraerlos, archivarlos y usarlos para obtener ganancias. El problema que se encuentra se debe principalmente a la dificultad de administrar grandes datos con bases de datos tradicionales, tanto en términos de costos como en términos de volumen. El conjunto de estos elementos ha llevado al desarrollo de nuevos modelos de procesamiento, que han permitido a las empresas ser más competitivas, tanto a través de una reducción en los costos como porque los nuevos sistemas pueden archivar, transferir y combinar los datos con mayor velocidad y ágil. . Para administrar el sistema Big Data, se utilizan sistemas que distribuyen recursos y servicios:
- Tolerancia a la transferencia: las arquitecturas/plataformas propuestas deben estar diseñadas para ser tolerantes a las fallas, por esta razón, los recursos se replican en las diferentes máquinas que componen el clúster.
- Cálculo distribuido: el modelo de procesamiento se distribuye para que pueda aprovechar la potencia procesiva del clúster diseñado.
Para administrar grandes cantidades de datos, se han propuesto nuevas metodologías en los siguientes campos:
La extracción del conocimiento de los big data y el uso de los mismos para la mejora de las actividades de toma de decisiones están sujetas a la definición de procesos que permiten administrar y transformarse de manera eficiente en un conjunto de datos de manera eficiente que se convierte rápidamente en volumen y variedad. Cada fase de cada proceso modifica el estado y el contenido de la misma, lo que ayuda a convertir los movimientos de datos aún sin procesar en valor y, por lo tanto, a enriquecer el modelo analítico de datos [32] [33] [34]. Estos procesos constituyen una referencia para la elección o la creación de una arquitectura, o de una estructura lógica y física que determina cómo se deben almacenar, acceder y administrar los grandes datos dentro de una organización. Además, se especifican las soluciones para abordar los problemas que pueden derivarse del tratamiento de Big Data, como la baja calidad de los datos o la escalabilidad de las infraestructuras, los componentes de hardware y software, como el marco y base de datos, el flujo de información, privacidad y seguridad de datos y mucho más.
¿Cómo se agrupan los datos?
Los informes agrupados agregan los datos de múltiples propiedades de análisis y los ofrecen juntos en los mismos informes.
Por ejemplo, si tiene más propiedades para sitios con la misma marca en países distintos (ejemplo.FR, ejemplo.co.uk, etc.), puede agregar dichos datos para ver la métrica en el rendimiento global y posteriormente comparar el rendimiento de las marcas entre países
Los grupos agrupados incluyen dos tipos de propiedades:
- Propiedad de origen: propiedades de análisis único que incluyen datos de un solo sitio, una sola aplicación o un solo dispositivo conectado a Internet.
- Propiedad enrollable: propiedades que actúan como agregadores de datos de múltiples propiedades de origen.
Las propiedades enrollables pueden incluir datos de las propiedades web y de la aplicación, así como propiedades cuyos datos se cargan a través del protocolo de medición.
Las propiedades enrollables no incluyen los datos importados a las propiedades de origen, ni los datos conectados a las propiedades de origen (por ejemplo, Google ADS, ADMOB, ADSENSE, YouTube). Si desea replicar los datos conectados por sus propiedades de origen en las propiedades de encierro, debe crear la misma conexión en el nivel de rollo, por ejemplo, conecte sus propiedades de encierro a las cuentas de Google ADS, ADMOB o plataformas de marketing de Google Plataforma.
Las propiedades enrollables incluyen datos en tiempo real de las propiedades de la fuente relacionadas.
No puede enviar los datos directamente desde un sitio o una aplicación a una propiedad enrollable, por ejemplo, agregando ID de monitoreo para la propiedad enrollable al sitio o la aplicación como etiqueta, o enviando golpes directos a la propiedad Roll a través de MetSurement Protocolo. Se ignora directamente a una propiedad enrollable.
Artículos Relacionados:
