¿Qué son las variables categóricas?

Los datos categóricos son el tipo de datos estadísticos que consiste en variables categóricas o de datos que se han convertido en esa forma, por ejemplo, como datos agrupados. Más específicamente, los datos categóricos pueden derivarse de observaciones hechas de datos cualitativos que se resumen como recuentos o tabulaciones cruzadas, o de observaciones de datos cuantitativos agrupados dentro de intervalos dados. A menudo, los datos puramente categóricos se resumen en forma de tabla de contingencia. Sin embargo, particularmente al considerar el análisis de datos, es común usar el término «datos categóricos» para aplicarse a los conjuntos de datos que, al tiempo que contienen algunas variables categóricas, también pueden contener variables no categóricas.

Una variable categórica que puede tomar exactamente dos valores se denomina variable binaria o una variable dicotómica; Un caso especial importante es la variable Bernoulli. Las variables categóricas con más de dos valores posibles se denominan variables politomosas; A menudo se supone que las variables categóricas son politomosas a menos que se especifique lo contrario. La discretización es tratar los datos continuos como si fuera categórico. La dicotomización está tratando datos continuos o variables politomosas como si fueran variables binarias. El análisis de regresión a menudo trata la membresía de la categoría con una o más variables ficticias cuantitativas.

Para facilitar el procesamiento estadístico, las variables categóricas pueden asignarse índices numéricos, p. 1 a K para una variable categórica K de K-Way (es decir, una variable que puede expresar exactamente k posibles valores). En general, sin embargo, los números son arbitrarios y no tienen importancia más allá de simplemente proporcionar una etiqueta conveniente para un valor particular. En otras palabras, los valores en una variable categórica existen en una escala nominal: cada uno representa un concepto lógicamente separado, no se puede ordenar necesariamente y no se puede manipular de otra manera como los números podrían ser. En cambio, las operaciones válidas son equivalencia, membresía establecida y otras operaciones relacionadas con el conjunto.

¿Cuando una variable es categórica?

Una variable categórica es una variable discreta que captura los resultados cualitativos al colocar observaciones en grupos fijos (o niveles). Los grupos son mutuamente excluyentes, lo que significa que cada individuo se ajusta a una sola categoría.

Las variables categóricas se pueden usar para representar diferentes tipos de datos cualitativos. Por ejemplo:

  • Datos ordinales: representan resultados para los cuales el orden de los grupos es relevante.
  • Datos nominales: representan resultados para los cuales el orden de los grupos no importa.

La forma en que tratamos las variables categóricas en estimación depende de si los datos se utilizan como una variable dependiente o independiente. Cualquiera sea el caso, para capturar los impactos que nos interesan, las variables categóricas requieren un tratamiento especial antes de ser utilizados en estimación. No podemos usarlos en estimación de la misma manera que hacemos variables continuas, deben ser recodificadas.

Cuando las variables dependientes son datos categóricos, utilizamos una rama especial de los modelos de estimación llamados modelos de elección discretas. Algunos ejemplos de modelos de elección discreta incluyen:

Después de agregar variables ficticias para representar las categorías, las primeras seis observaciones son:

Dado que la codificación variable ficticia es el método de codificación más común, no pasaremos tiempo explorando otros métodos. Sin embargo, vale la pena señalar que hay muchos otros métodos y el método de codificación utilizado tiene un impacto directo en cómo interpretamos nuestros resultados.

  • Datos ordinales: representan resultados para los cuales el orden de los grupos es relevante.
  • Datos nominales: representan resultados para los cuales el orden de los grupos no importa.
  • El coeficiente estimado a nivel extranjero es 1.650. Esto nos dice que después de tener en cuenta el peso, los automóviles extranjeros tienen un MPG 1.65 más bajo que los automóviles nacionales.
  • ¿Cómo saber si una variable es categórica o cuantitativa?

    Quiero determinar cómo podemos juzgar por una variable si es categórico o numérico que no sea el método de recuentos de valor únicos, ya que, por ejemplo, uno de mi tipo de enfermedad variable tiene 31 valores únicos, mientras que otra distancia variable de la oficina tiene 25 valores únicos. , ambos en forma de números.

    La clasificación de tendencias se basa en el método de clasificación predeterminado, por puntaje más alto, pero aumenta los votos que han ocurrido recientemente, lo que ayuda a surgir respuestas más actualizadas.

    Se recae en la clasificación de la puntuación más alta si no hay puestos en tendencia.

    La respuesta corta es: Su conocimiento del dominio del problema / dominio de la aplicación le dirá.

    Hay algunas diferencias que busca, pero para aplicar estas diferencias, aún tendrá que usar algún conocimiento de dominio (a veces sentido común).

    Las siguientes son algunas diferencias que lo ayudarán a distinguir:

    • Para las variables categóricas, el conjunto de valores permitidos generalmente se fija y rara vez cambia, si es que lo hacen. Por el contrario, para la variable numérica, el conjunto de valores puede cambiar, por ejemplo, cuando recibe un nuevo registro para el mismo conjunto de datos.
    • Las variables numéricas pueden tener valores que no son enteros redondos. En su ejemplo, a pesar de que la «distancia de la oficina» tiene valores enteros, que podrían ser puramente incidentales, o podría haber sido una elección hecha por alguien sobre la cantidad de precisión numérica que desean en los datos.
    • Para las variables categóricas, generalmente no tiene sentido hablar de promedios. Por ejemplo, hay 2 tipos de diabetes llamados Tipo 1, Tipo 2, pero simplemente no tiene sentido hablar de un promedio de estos tipos (Tipo 1.2357?).

    ¿Cuando una variable es categórica ordinal?

    • ¿Qué variables cualitativas?
    • Técnicas de codificación
    • Codificación ordinal
    • Codificación de un hotel
    • Codificación de objetivos
    • Conclusión

    En uno de los artículos anteriores, hablamos sobre Kagger (¿quieres releerlo? ¡Haga clic aquí!): El mundo de Hello World of the Data Science proporcionado por esa plataforma es el proyecto Titanic: Aprendizaje automático del desastre (haga clic aquí para obtener más detalles) . En esta competencia, se les pide a los analistas que propongan, dado un pasajero del famoso barco, su probabilidad de supervivencia.

    Este es un caso típico en el que las variables cuantitativas van acompañadas de variables cualitativas. Pero, ¿cuál es la diferencia?

    Las variables expresan algunas propiedades. Las propiedades que pueden expresar pueden ser cualquiera de los tipos numéricos, por ejemplo, el número de años, o de un tipo cualitativo, como el sexo. De hecho, en el caso de Titanic tenemos variables como la edad del pasajero o el precio de su boleto, y variables como la clase de boletos o la ciudad del embarque.

    Los modelos de aprendizaje automático generalmente funcionan muy bien y sin problemas particulares con variables cuantitativas, pero tienen problemas con los cualitativos. Si no realiza alguna operación de codificación (codificación) de los diversos valores de la variable, el modelo nos devolverá un error y no será posible hacer que gire.

    Bueno, entendemos cuáles son las variables cualitativas… pero ¿son todas iguales?

    ¿Qué son las variables categóricas y Numericas?

    Los datos son hechos o información recopilados para fines de referencia o análisis. A menudo, estos datos se recopilan como un atributo de la parte interesada. Este atributo puede variar de uno a otro, por lo tanto, este atributo variable puede considerarse como una variable. Las variables pueden tomar diferentes formas de valores y estas son intrínsecas en los datos recopilados.

    Las variables pueden ser cualitativas o cuantitativas; Es decir, si la variable es cuantitativa, las respuestas son números y el tamaño del atributo medido puede declararse con un cierto grado de precisión. El otro tipo, las variables cualitativas miden los atributos cualitativos y los valores tomados de las variables no se pueden administrar en términos de tamaño o tamaño. Las variables en sí se conocen como variables categóricas y los datos recopilados por medio de una variable categórica son datos categóricos.

    Los datos numéricos son básicamente los datos cuantitativos obtenidos de una variable y el valor tiene una sensación de tamaño / magnitud. Los datos numéricos obtenidos se dividen aún más en otras tres categorías sobre la base de la teoría desarrollada por Stanley Smith Stevens. Los datos numéricos pueden ser ordinales, intervalos o proporciones. El tipo de datos está determinado por el método de medición de valores y tipos se conoce como niveles de medición.

    El peso de una persona, la distancia entre dos puntos, la temperatura y el precio de una acción son ejemplos de datos numéricos.

    ¿Qué es una variable categórica y numerica?

    Veamos entonces las técnicas estadísticas más utilizadas en variables categóricas, comparándolas con las de variables continuas o cardinales.

    • Estadísticas descriptivas: en este tipo de variable, los análisis generalmente se basan en diagramas y porcentaje de barras, entre otros. Los cardenales permiten que la aplicación de técnicas de análisis calcule estadísticas de posición como cuantiles o estadísticas de dispersión como variaciones.
    • Contraste de hipótesis: en el categórico, los resultados pueden extrapolarse mediante la prueba de hipótesis no paramétricas. Por otro lado, las continuaciones utilizan contrastes paramétricos que también se pueden inferir.
    • Técnicas de regresión: en este caso, para la primera regresión logística o similar se usa, entre otros. Para otros tipos de variables, la técnica más utilizada es la regresión lineal.

    Finalmente, veamos un ejemplo muy común en marketing. Imagine que queríamos vender un producto y que queríamos saber el estado civil.

    Para hacer esto, atribuiremos 1 a The Bachelor, 2 a la novia, 3 a los divorciados, 4 a la pareja y 5 a los demás.

    Vemos que el mayor porcentaje de individuos es soltero, casado y divorciado, las otras dos opciones son solo del 5%.

    Como podemos ver, las variables categóricas son útiles para la agrupación. Los gráficos de barras nos permiten observar mejor estos porcentajes, porque es más fácil comparar el tamaño de las barras.

    ¿Cómo describir una variable categórica?

    Nota: Estos videos se enumeran como referencia. Si desea seguir su primera lectura, deberá ver los videos tutoriales anteriores. Estos videos también están vinculados en las tareas de programación.

    ¿Cuál es tu percepción de tu propio cuerpo? ¿Sientes que tienes sobrepeso, bajo peso o sobre lo correcto?

    Una muestra aleatoria de 1.200 estudiantes universitarios de EE. UU. Se hicieron esta pregunta como parte de una encuesta más grande. La siguiente tabla muestra parte de las respuestas:

    Aquí hay información que sería interesante obtener de estos datos:

    • ¿Qué porcentaje de los estudiantes muestreados caen en cada categoría?
    • ¿Cómo se dividen los estudiantes en las tres categorías de imagen corporal? ¿Están igualmente divididos? Si no, ¿los porcentajes siguen algún otro tipo de patrón?

    No hay forma de que podamos responder estas preguntas observando los datos sin procesar, que tienen la forma de una larga lista de 1.200 respuestas y, por lo tanto, no son muy útiles.

    Ambas preguntas se responderán fácilmente una vez que resumamos y analicemos la distribución de la imagen corporal variable (es decir, una vez que resumamos con qué frecuencia ocurre cada una de las categorías).

    Para resumir la distribución de una variable categórica, primero creamos una tabla de los diferentes valores (categorías) que toma la variable, cuántas veces se produce cada valor (cuenta) y, lo que es más importante, con qué frecuencia ocurre cada valor (al convertir el Cuenta a porcentajes).

    El resultado a menudo se llama una tabla de distribución o frecuencia de frecuencia.

    ¿Qué es una variable categórica discreta?

    Las variables categóricas contienen un número finito de categorías o grupos distintos. Los datos categóricos pueden no tener un orden lógico. Por ejemplo, los predictores categóricos incluyen género, tipo de material y método de pago.

    Las variables discretas son variables numéricas que tienen un número contable de valores entre dos valores. Una variable discreta es siempre numérica. Por ejemplo, el número de quejas de los clientes o el número de defectos o defectos.

    Las variables continuas son variables numéricas que tienen un número infinito de valores entre dos valores. Una variable continua puede ser numérica o fecha/hora. Por ejemplo, la duración de una parte o la fecha y hora se recibe un pago.

    ¿Cuándo es una cuantitativa discreta?

    Los gráficos construidos a partir de los valores encriptados de las tablas facilitan la comparación de las cantidades medidas resaltando su importancia relativa.

    Los palos disjuntos muestran que los valores transportados en la abscisa son valores discontinuos.

    La fuerza laboral o las frecuencias son compatibles y sirven como alturas de los palos. Todos son de ancho idéntico.

    El histograma de frecuencia común es un diagrama en forma de escalera. Los palos son contiguos para mostrar mejor la progresión de la acumulación.

    La mitad de estas familias no tienen más de 2 hijos. (60% exactamente)

    Todas las familias en este ejemplo (100 %) tienen un máximo de 5 hijos.

    Las mediciones en lugar de estar representadas por la altura de los palos están marcadas por puntos a veces conectados por segmentos correctos.

    Este tipo de diagrama también es adecuado para mostrar la fuerza laboral, las frecuencias y las frecuencias acumuladas.

    Estos diagramas son adecuados para la fuerza laboral y las frecuencias, pero no para frecuencias acumulativas.

    Los diagramas circulares dan una visión general rápida y aceptable cuando la precisión no es fundamental. De hecho, es más fácil comparar dos alturas de palos que dos áreas de sectores. El hecho de que las familias de tres niños sean más numerosas (12%) que las de dos niños (8%) es apenas visible en estos diagramas circulares representados anteriormente, mientras que esta diferencia es obvia en los gráficos en palos.

    ¿Qué es una variable continua y categórica?

    Entonces, en respuesta a un tweet de @docnadine Archi intentará hacer una serie de publicaciones cortas sobre algunas cosas de «estadísticas». ¿Qué te gustaría ver cubierto?

    Uno corto y simple hoy. Continuo vs. categórico

    Variables categóricas, también conocidas como variables discretas. Estos vienen solo en un número fijo de valores, como muerto/vivo, obesidad/sobrepeso/normal/bajo peso, puntaje Apgar.

    Variables continuas. Estos pueden tener cualquier valor entre un mínimo teórico y el máximo, como el peso al nacer, el IMC, la temperatura, el recuento de neutrófilos.

    Viste el puntaje de Apgar, ¿sí? ¿Por qué este número no es una variable continua? Bueno, tiendo a pensar a) si es continuo, luego duplique el número = el doble (por ejemplo, 2 kg bebé frente a un bebé de 4 kg, no el caso con Apgar 5 vs Apgar 10) yb) puede obtener cualquier número de una variable continua (Como 2.456 kg, a diferencia de Apgar 3, 4, 5…)

    Debe resolver la diferencia porque dicta en qué pruebas estadísticas deberías estar pensando en usar… sobre todo…

    (PS: algunos estadísticos llaman datos categóricos «cualitativos» y de datos continuos «cuantitativos» solo para agregar una capa adicional de confusión)

    (PPS: inicialmente pensé que fue @Tessardavis quien desencadenó estos pensamientos. Lo he corregido ahora. ¿Pero @Tessardavis estoy seguro de que se unirá a algunas ideas para futuros temas…?)

    Las opiniones y opiniones expresadas en este sitio son únicamente las de los autores originales. No representan necesariamente las opiniones de BMJ y no deben usarse para reemplazar el asesoramiento médico. Consulte los términos y condiciones completos del sitio web.

    Artículos Relacionados:

    Más posts relacionados:

    Deja una respuesta

    Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *