He estado leyendo un libro popular sobre aprendizaje automático recientemente. Una vez que llegué al capítulo sobre ingeniería de características, el autor señaló que, dado que la mayoría de los algoritmos de aprendizaje automático requieren datos numéricos como entrada, las variables categóricas deben codificarse como numéricas. Por ejemplo, para parafrasear el ejemplo, podríamos codificar una variable categórica Education_Level que toma los valores: Elementary, High_School, University, como números 1, 2 y 3, respectivamente. En ese momento, aunque soy un ingeniero de ML por oficio, escuché el estadístico interno de la capacitación dentro de mí llorar en voz alta. ¿La gente acaba de ejecutar .fit_predict () en estos días, ignorando lo que realmente significan los datos?
Desde una perspectiva estadística, hay más tipos variables que la distinción simple entre datos numéricos y categóricos. De hecho, hay cuatro llamados niveles de medición de datos, que definen lo que la variable realmente significa sobre qué tipo de operaciones matemáticas se le pueden aplicar. Y el tipo de medición de datos de sus variables puede afectar la forma en que los modelos de aprendizaje automático tratan estos datos y cómo aprenden de ellos.
El tipo de medición de datos de sus variables puede afectar la forma en que los modelos de aprendizaje automático tratan estos datos y cómo aprenden de ellos.
Los cuatro niveles de medición de datos, de más bajos a más altos, son nominales, ordinales, intervalos y de relación.
¿Cuáles son los cuatro niveles de medición?
Hay cuatro escalas de medición: nominal, ordinal, intervalo y relación. Estas son simplemente formas de clasificar diferentes tipos de variables y ayudarnos a elegir la prueba estadística correcta, la técnica de visualización y guiar nuestro análisis de datos.
Comencemos con el más fácil de entender. Las escalas nominales se utilizan para las variables de etiquetado, sin ningún valor cuantitativo.
Aquí hay algunos ejemplos, a continuación. Observe que todas estas escalas son mutuamente excluyentes (sin superposición) y ninguna de ellas tiene significación numérica. Una buena manera de recordar todo esto es que «nominal» suena muy parecido a «nombre» y las escalas nominales son como «nombres» o etiquetas.
En este nivel, no podemos realizar ninguna operación matemática cuantitativa, como suma o división. Estos no tendrían sentido.
Sin embargo, podemos hacer conteos básicos utilizando el método Value_Counts de Pandas.
- Debido a nuestra capacidad de contar a nivel nominal, los gráficos, como los gráficos de barras, están disponibles para nosotros.
Con las escalas ordinales, el orden de los valores es lo importante y significativo, pero las diferencias entre cada una no se conocen realmente.
Por ejemplo, ¿es la diferencia entre «OK» y «infeliz» igual que la diferencia entre «muy feliz» y «feliz»? No podemos decir.
«Ordinal» es fácil de recordar porque suena como «orden» y esa es la clave para recordar con «escalas ordinales», es el orden lo que importa, pero eso es todo lo que realmente obtienes de estos.
¿Cuáles son los tipos de mediciones?
El método de medición es el conjunto de operaciones teóricas y prácticas, expresadas en términos generales, que se utiliza en la ejecución de una medición particular.
Medir una grandeza, significa encontrar la relación entre este y otro homogéneo, asumido como un término de comparación (es decir, como una unidad de medición). Para llevar a cabo una medición, es necesario tener dos elementos fundamentales:
Sin embargo, una metodología se puede clasificar utilizando una combinación de un número limitado de tipos generales, ejemplo:
La medición de una longitud con una regla graduada se puede definir como una medida de comparación instrumental, directa,.
El método directo es el método en el que el valor de la medición se obtiene leyendo directamente el tamaño de interés, comparándolo con otra de la misma especie, elegida como muestra y representa la unidad de medición (o un múltiplo).
Un ejemplo simple de esta metodología es el utilizado para el tamaño de una longitud con una regla graduada:
La regla (que representa la grandeza de referencia) se combina con el objeto a medir, comparando la longitud de este último (la medición) con la escala graduada de la regla, se obtiene la medida.
El método de medición sigue siendo directo, incluso si es necesario llevar a cabo medidas de influencia no homogénea a la grandeza de la medición. Ejemplo, al determinar la longitud de un objeto de metal con un micrómetro, puede ser necesario medir la temperatura del objeto (con el objetivo de corregir su posible dilatación); Esto no cambia el hecho de que el alivio del valor de la medición ocurre directamente a través de la comparación de cantidades homogéneas.
¿Cuáles son los niveles de medición y ejemplos?
Cada vez que realiza un análisis estadístico, puede agrupar sus datos en varias categorías o niveles primarios. Estos son los cuatro niveles que representan los métodos que puede usar para evaluar y agrupar datos:
La medición nominal clasifica los datos sin el uso de valores numéricos. Cuando evalúa los datos utilizando la medición nominal, no tiene un orden específico de valores y no puede sumar, restar, multiplicar o dividir este tipo de datos. Por ejemplo, si está evaluando diferentes grupos de datos de marketing, puede etiquetar estas categorías como «ubicación geográfica», «frecuencia de búsqueda de términos» y otras etiquetas que clasifican sus datos de marketing sin orden específico. Los datos no tienen un pedido en particular y no hay cálculo que pueda aplicar a los datos.
En la medición ordinal, puede clasificar los datos que parecen tener un orden establecido. El nivel ordinal de medición utiliza un orden específico para clasificar los datos, como del menos al mayor valor o primero a quinto lugar. El análisis financiero a menudo se basa en la medición ordinal para colocar ciertos datos en varios pedidos específicos. Por ejemplo, las empresas pueden medir los números de ventas y los ingresos brutos durante un período contable, donde los datos pueden seguir el orden cronológico de mes a mes. La medición ordinal es efectiva para los datos que requieren un orden específico al realizar su evaluación.
La medición del intervalo proporciona divisiones significativas a los datos ordenados que siguen siendo los mismos entre diferentes valores. Por ejemplo, puede usar una medición de intervalo para calcular los rangos dentro de los conjuntos de datos, como tomar la temperatura afuera. Al medir la temperatura, la diferencia entre 85 grados y 90 grados es la misma que la diferencia entre 65 grados y 70 grados. Esta diferencia le brinda un intervalo de cinco, lo que significa que no importa en qué parte de sus datos ordenados tomen una medida de intervalo, sigue siendo el mismo entre los diversos datos.
En el análisis de datos, algunos métodos de evaluación aplican cero como algo que no tiene valor, especialmente para datos numéricos nominales y ordenados y al usar mediciones de intervalo. Sin embargo, en la medición de la relación, cero se vuelve significativo como un valor para representar algo dentro de su conjunto de datos.
¿Qué son los niveles de medición de variables?
Cuanto más alto «sea el nivel de medición, más información contiene una variable. El cuadro de flujo simple a continuación muestra cómo clasificar una variable.
Echemos un vistazo más de cerca a lo que realmente significan estos tipos de variables con algunos ejemplos.
Una variable nominal es una variable cuya
Los valores no tienen un orden indiscutible.
Entonces, digamos que preguntamos a los encuestados en qué país viven y las respuestas son
- Los países bajos;
- Bélgica;
- Francia;
- Alemania;
- Luxemburgo.
Entonces, ¿cuál es el orden correcto para estos países? Bueno, podríamos clasificarlos alfabéticamente, de acuerdo con sus tamaños o con un número de habitantes. Diferentes órdenes tienen sentido para una lista de países. En breve,
Los países no tienen un pedido indiscutible
y por lo tanto «país» es una variable nominal.
Ahora, los países pueden estar representados por números (1 = Países Bajos, 2 = Bélgica, etc.) en SPSS o algún otro formato de datos. Estos números tienen un pedido indiscutible. Pero el país sigue siendo una variable nominal porque lo que está representado por estos números, countries, no tiene un orden indiscutible.
En una línea similar, los códigos postales representan áreas geográficas que no tienen una orden clara, también son nominales. Pero los precios en dólares, representantes de cantidades de dinero, obviamente tienen un pedido indiscutible y, por lo tanto, no son nominales.
¿Cuáles son los 4 niveles de medicion estadística?
Hay cuatro niveles de medición: nominal, ordinal y intervalos/relación, el nominal es la variable menos precisa y menos informativa y la variable de intervalo más precisa e informativa.
Medición de propiedades y escalas. Las escalas de medición son la forma en que se definen y clasifican las variables. El psicólogo Stanley Stevens ha desarrollado las cuatro escalas de medición comunes: nominal, ordinal, intervalo y relación. Cada escala de medición tiene propiedades que determinan cómo analizar correctamente los datos.
Sistemas de medición: Hay dos sistemas de medición principales en todo el mundo: el sistema métrico (o decimal) y el sistema estándar estadounidense.
Los datos de escala del informe son como datos de escala de intervalo, pero tiene un punto 0 y se pueden calcular los informes. No tendrá valor negativo en los datos de la escala de informes. Por ejemplo, cuatro puntajes de exámenes de estadísticas estadísticas múltiples son 80, 68, 20 y 92 (de 100 puntos posibles) (ya que los exámenes observan por máquina).
El intervalo nominal, ordinal, y la relación se definen como los cuatro niveles fundamentales de las escalas de medición utilizadas para ingresar datos en forma de encuestas y cuestionarios, cada uno es una pregunta de opción múltiple.
Artículos Relacionados:
