En el campo de las estadísticas y la gestión de datos, se le puede dar una enorme lista de ejemplos y aplicaciones de datos categóricos.
Los datos, en significado científico, son un conjunto de información recopilada para un propósito. Los datos generalmente se dividen en dos tipos diferentes: categórico (ampliamente conocido como datos cualitativos) y numéricos (cuantitativos).
- ¿Qué son los datos categóricos? Definición y características clave.
- Lista de 22 ejemplos de datos categóricos.
- Datos categóricos versus datos numéricos.
- Infografía en PDF
Como puede adivinar, los datos categóricos son datos que se dividen en grupos o categorías. Estas categorías se basan en características cualitativas como el género y los colores o algo más que no tiene un número asociado con ella.
Esto no significa que los datos categóricos no puedan tener valores numéricos.
De hecho, los datos categóricos a menudo toman valores numéricos, pero esos números no tienen ningún significado matemático. Simplemente representan el número de elementos en cada grupo. Por ejemplo, 12 rubias en una clase.
Esto permite realizar análisis de datos categóricos y diferentes manipulaciones, particularmente en una aplicación de hoja de cálculo.
No hay orden para valores y variables categóricas. Para decirlo de otra manera, no están clasificados de lo más alto a más bajo.
Por ejemplo, no hay orden para las categorías de ojos azules, marrones y verdes.
Los gráficos de barras y los gráficos circulares son excelentes herramientas para comparar dos o más valores categóricos entre sí. Simplemente representan el número de cosas en una categoría.
¿Qué es una variable categórica ejemplos?
Cada medición empírica proporciona valores de medición discretos, incluso si son posibles muchas mediciones diferentes en casos individuales.Ejemplos: La edad a menudo se mide en años. Esta es una unidad de tiempo discreta. Una medición más fina, por ejemplo, en segundos, no cambiaría nada fundamental. Lo mismo se aplica a las mediciones del tamaño del cuerpo o el prestigio social. Las unidades de medición (centímetros, puntos de prestigio) también son una naturaleza discreta.
Una clasificación simple y al mismo tiempo completa de los métodos de análisis estadístico analiza el número de «formas» discretas) de las respectivas «variables». Hay dos tipos de métodos de análisis estadístico en los que se acumula este glosario: métodos para analizar variables categóricas y para analizar las variables continuas.
- Las variables categóricas son características que tienen un número limitado de formas (categorías) (inglés: variable categórica).
Ejemplos: el género de un topógrafo con las características masculinas y femeninas; La preferencia de su partido distingue de acuerdo con el SPD, CDU/CSU, FDP, Verdes, republicanos y otros partidos; el número de compañeros de cuarto en el hogar de esta persona (0, 1, 2, 3 y más); La capa social que asigna a la persona (clase baja, clase media, clase alta) o sus ingresos si esto se recauda con un número limitado de clases de ingresos (por ejemplo, por debajo de 1,000 dm, dm 1,000-2,000, 2,000-3,000 y más DM).
- Las variables categóricas son características que tienen un número limitado de formas (categorías) (inglés: variable categórica).
Ejemplos: Los ingresos en cantidades exactas de DM o la edad en años son variables con muchas formas. Ambos se basan en una propiedad continua (solvencia, vida útil). Por lo tanto, deben tratarse como variables continuas. La nacionalidad o profesión variable también tiene muchas formas. El mundo tiene más de cien nacionalidades, y la clasificación estándar internacional de las profesiones conoce varios miles de actividades profesionales. Sin embargo, dado que ambas variables no se basan en una propiedad continua, no pueden tratarse como variables continuas, sino que deben usar profesiones o nacionalidades individuales como variables categóricas.
¿Cuándo es variable categórica nominal?
Un nominal (a veces llamado variable categórica) es uno que tiene dos o
Más categorías, pero no hay
La forma acordada de ordenarlos de la más alta a la más baja. No se puede contar una variable nominal (como en «sustantivo»). Por ejemplo,
El género es una variable nominal que tiene dos categorías (hombre y mujer) y no hay
Orden intrínsecos a las categorías. Puede asignar un valor numérico (por ejemplo, «masculino» = 1, «femenino» = 2) pero no puede ordenar los datos de más alto a más bajo. Del mismo modo, el color del cabello también es una variable nominal
tener varias categorías (rubia, marrón, morena, rojo, etc.). Si la variable tiene una forma clara de ser ordenada/ordenada de la más alta a la más baja, entonces esa variable sería una
Variable ordinal, como se describe a continuación.
Al igual que una variable categórica, una variable «ordinal» también tiene dos o más categorías, pero estas categorías se pueden «ordenar» de alta a baja. Por lo tanto, puede asignar un valor (por ejemplo: 1 a 5) a esas categorías y ordenarlas. Sin embargo, estas categorías no están igualmente espaciadas. Por ejemplo, la diferencia entre «rica» y «clase media» podría ser mayor en $ cantidad que entre «clase media» y «pobre». Si las categorías están igualmente espaciadas, entonces la variable es una variable de intervalo.
Al igual que una variable ordinal, una variable de intervalo también tiene dos o más categorías que también se pueden ordenar de alta a baja, pero los intervalos
entre los valores de la variable de intervalo están igualmente espaciados. Por ejemplo, supongamos
Tiene una variable como el ingreso anual que se mide en dólares, y tenemos tres
Personas que ganan $ 10,000, $ 15,000 y $ 20,000. La segunda persona gana $ 5,000 más que la
primera persona y $ 5,000 menos que la tercera persona, y el tamaño de estos intervalos
es el mismo. Si hubiera otras dos personas que ganan $ 90,000 y $ 95,000, el tamaño
de ese intervalo entre estas dos personas también es el mismo ($ 5,000). Además, una variable de intervalo realmente no tiene un verdadero cero: un valor de «cero» solo significa «sin valor»: un ingreso de «cero dólares» solo significa «sin ingresos». Una temperatura de 0 kelvins significa «sin temperatura medible. «. Un valor de intervalo con un valor verdadero y alcanzable de cero es una variable de relación.
Ejemplo: Ingresos anuales en $, temperaturas, hora del día, elevación
¿Qué son variables categóricas y Numericas?
Posteriormente, vemos las técnicas estadísticas más utilizadas en las variables categóricas, comparándolas con las de las variables continuas o cardinales.
- Estadísticas descriptivas: en este tipo de variable, los análisis generalmente se basan en gráficos y porcentajes de barras, entre otros. Los cardenales permiten que la aplicación de técnicas de análisis calcule estadísticas de posición como cuanti o estadísticas de dispersión, como variaciones.
- Hipótesis de contrasto: en el categórico, los resultados pueden extrapolarse mediante la prueba de hipótesis no paramétricas. Los continuos, por otro lado, usan contrastes paramétricos que también se pueden deducir.
- Técnicas de regresión: en este caso, para el primero, la regresión logística o similar se utilizan, entre otros. Para el otro tipo de variables, la técnica más utilizada es la regresión lineal.
Finalmente, echemos un vistazo a un ejemplo muy común en marketing. Imaginemos que queremos vender un producto y estamos interesados en conocer el estado civil.
Para hacer esto, asignaremos 1 a soltero, 2 casados, 3 a divorciado, 4 a parejas y 5 a otros.
En él, podemos ver que el mayor porcentaje de individuos es soltero, casado y divorciado, mientras que las otras dos opciones son solo del 5%.
Como podemos ver, las variables categóricas son útiles para la agrupación. El gráfico de barras nos permite observar mejor estos porcentajes, ya que es más fácil comparar el tamaño de las barras.
¿Qué es un dato categórico?
A medida que los programas de asistencia de alquiler de emergencia (ERA) del Departamento del Tesoro continúan aumentando, muchos enfrentan las tardadas de aplicaciones. La orientación del departamento en forma de preguntas frecuentes (FAQ) ofrece varias soluciones para disminuir la carga de documentación, incluido el permiso de permitir la determinación de la elegibilidad de ingresos basada en el proxy específico de hechos y la elegibilidad categórica. El documento de preguntas frecuentes describe cómo los programas están incorporando estas flexibilidades para disminuir la carga de documentación para los hogares de inquilinos. Según el seguimiento de NLIHC, solo el 2% de los programas de ERA han implementado proxies específicos de hechos, y solo el 17% ha implementado elegibilidad categórica. Los programas deben actuar rápidamente para implementar estas flexibilidades, junto con la auto atestación, para trasladar fondos rápidamente a los inquilinos más necesitados.
Según la orientación federal, los programas de ERA pueden depender de tres enfoques para determinar la elegibilidad de ingresos de un hogar: auto atestación sola, elegibilidad categórica y representación específica de hechos. Los programas deben ofrecer la auto atestación sola como una opción para los solicitantes, pero cuando los programas usan este método, deben reevaluar los ingresos del hogar cada tres meses. La implementación de la elegibilidad categórica y los representantes específicos de los hechos son dos métodos que limitan la necesidad de la recertificación de ingresos y no requieren documentación adicional del solicitante. El proxy específico de hechos permite que las jurisdicciones dependan de un indicador de ingresos, como los promedios de ingresos dentro del vecindario o el tracto del censo de un hogar, infieren los ingresos de un solicitante. La elegibilidad categórica permite que un hogar se considere elegible si se ha verificado como bajos ingresos en otro programa local, estatal o federal, como Snap, TANF, WIC, Medicaid, cupones de elección de vivienda y otros.
NLIHC está rastreando la implementación del programa ERA, incluida la cantidad de programas que ofrecen estas flexibilidades. A principios de septiembre, solo diez programas ofrecían determinación de elegibilidad de ingresos basada en un proxy específico de hechos. Esto incluye cinco programas estatales: Kentucky, Virginia, Connecticut, Delaware y Carolina del Sur. Si bien estos programas tienen métodos ligeramente diferentes para calcular los umbrales proxy específicos de hechos, siguen estrategias similares. Estos programas utilizan datos disponibles públicamente para inferir si los hogares en un área geográfica pequeña, como un código postal o un tracto censal, están por debajo del 80% del ingreso medio del área para un área geográfica más grande, como un condado o un estado. Las fuentes de datos incluyen datos medios de ingresos de la encuesta de la comunidad estadounidense, los cálculos medios de ingresos del área de HUD y los tractos censales calificados de HUD. Varios programas han integrado estos datos en sus aplicaciones, de modo que cuando los solicitantes ingresan su dirección, se les alertó sobre el hecho de que no necesitan proporcionar documentación de ingresos adicionales.
¿Cómo identificar variables categóricas?
Este artículo describe un método para identificar si un conjunto de datos está compuesto por valores categóricos. Identificar automáticamente si un conjunto de datos contiene valores categóricos permite a las aplicaciones utilizar dichos datos sin exigir a los usuarios que proporcionen esta información.
Los datos categóricos se componen de un número limitado de valores posibles. Por ejemplo, una columna de tabla que representa el género contendría los valores de texto masculinos y femeninos. Esta columna contiene datos categóricos porque contiene solo dos valores, independientemente del número de filas. Por el contrario, una columna de tabla que contiene el texto de un conjunto de tweets no contiene datos categóricos porque aunque algunos de los valores podrían repetirse, como en el caso de los retweets, la mayoría de los valores serán únicos. Dado que el valor repetido puede ocurrir en datos no categóricos, se requiere una prueba para diferenciar entre un conjunto de datos compuesto por valores categóricos y un conjunto de datos compuesto por valores no categóricos que pueden contener repeticiones.
El siguiente algoritmo proporciona una prueba útil para identificar datos categóricos:
- Calcule el número de valores únicos en el conjunto de datos.
- Calcule la diferencia entre el número de valores únicos en el conjunto de datos y el número total de valores en el conjunto de datos.
- Calcule la diferencia como un porcentaje del número total de valores en el conjunto de datos.
- Si la diferencia porcentual es del 90% o más, entonces el conjunto de datos está compuesto por valores categóricos.
Cuando el número de filas es inferior a alrededor de 50, entonces un umbral inferior del 70% funciona bien en la práctica.
¿Cómo se clasifican las variables cualitativas o categóricas?
Variable categórica: una variable solo puede tener un valor de un rango limitado de valores. Por ejemplo, el grupo sanguíneo y el género son formas de datos categóricos. Los valores pertenecen a algún tipo de categoría, sobre la base de una propiedad cualitativa. Esencialmente, «categórico» es sinónimo de «cualitativo».
Variable numérica: cuando la variable toma algún valor numérico. Un ejemplo puede ser la frecuencia cardíaca o la presión arterial.
Datos nominales: el rango de valores no está ordenado en ningún sentido, sino simplemente nombrado (de ahí el nom). Nuevamente, grupos sanguíneos, género, etc. Esta es una forma de datos categóricos.
Datos discretos: cuando la variable está restringida a valores definidos específicos. Por ejemplo, «masculino» o «mujer» son valores de datos discretos categóricos. La mortalidad (por ejemplo, 20 pacientes muertos a los 6 meses) es un ejemplo de valores numéricos de datos discretos. No puede haber 20.5 pacientes muertos.
Datos continuos: cuando la variable no tiene restricciones y puede tener cualquier valor de un rango potencialmente infinito, por ejemplo. «Azul» y «Rojo» podrían ser el rango de datos categóricos, pero el verdadero valor puede ser cualquier tono sutil de púrpura. Un ejemplo de datos continuos numéricos es el peso, es decir, uno no tiene que ser exactamente 65 o 70 kg; Uno puede ser fácilmente 67.5567 kg.
Escala nominal: solo una identidad; Los valores asignados a las variables son meramente descriptivos. Un ejemplo es el género.
Escala ordinal: los valores tienen una identidad y una magnitud. Una escala ordinal familiar es un examen que lo ubica primero, segundo o tercero. Sabes el rango, pero no sabes por cuánto fallaste.
Artículos Relacionados: