Clasificación de la estadística: conoce los diferentes tipos de estadísticas para optimizar tus resultados

La clasificación estadística es el amplio enfoque de aprendizaje supervisado que capacita un programa para clasificar información nueva y sin etiquetar en función de su relevancia para los datos conocidos y etiquetados.

Los algoritmos que clasifican los datos no etiquetados en clases etiquetadas, o categorías de información, se denominan clasificadores. Un ejemplo práctico simple son los filtros de spam que escanean correos electrónicos «en bruto» entrantes y los clasifican como «spam» o «no spam». Los clasificadores son la implementación concreta del reconocimiento de patrones en cualquier forma de aprendizaje automático.

En la técnica de aprendizaje no supervisada del análisis de clúster, ninguna de las categorías de conjuntos de datos de capacitación está etiquetada. Esto permite al sistema la máxima flexibilidad para crear sus propias reglas para la clasificación y, con suerte, encontrar patrones ocultos desconocidos para los humanos.

La clasificación estadística está mucho más estructurada, con las reglas esencialmente dictadas por el entrenador humano con anticipación. Sin embargo, las reglas de los clasificadores son dinámicas, incluida la capacidad de manejar valores vagos o desconocidos, todos adaptados al tipo de entradas que se examinan. La mayoría de los clasificadores también emplean probabilidades que permiten a los usuarios finales manipular la clasificación de datos con funciones de utilidad.

En el aprendizaje no supervisado, los clasificadores forman la columna vertebral del análisis de clúster y en el aprendizaje supervisado o semi-supervisado, los clasificadores son cómo el sistema caracteriza y evalúa los datos no etiquetados.

¿Cuáles son las clasificaciones de la estadística?

El método más antiguo de clasificación estadística, que se remonta a la década de 1940, es el análisis discriminante, según la distribución normal multivariada. En este método, la suposición es que las variables de características siguen una distribución normal multivariada en ambas clases. Tenga en cuenta que esto generalmente no es realista, porque (entre otras consideraciones) típicamente existen diferentes tipos de variables de características, como la variable binaria «sexo», mientras que la normal multivariada supone que todo es cuantitativo y continuo. Sin embargo, el análisis discriminante a menudo se emplea como parte de un conjunto de análisis, ya sea que se cumpla o no la suposición de normalidad multivariada.

Suponga que la distribución de las características en ambas clases es la misma normal multivariada, excepto la ubicación (media multivariada); El límite de clasificación resultante, entonces, es lineal, por lo que el procedimiento se llama «análisis discriminante lineal». Este límite es una línea en el espacio bidimensional, un plano en el espacio tridimensional y un hiperplano en espacios de características dimensionales más altas. Si la distribución de características en las dos clases difiere tanto en la ubicación como en la dispersión (media multivariada y matriz de covarianza), entonces el límite de clasificación es cuadrático (es decir, una parábola o hoja de paraboloides) y se llama «análisis discriminante cuadrático». Es posible probar la igualdad de matrices de covarianza para decidir cuál usar.

La efectividad del análisis discriminante lineal o cuadrático a menudo está limitada por los supuestos de distribución subyacentes y la simplicidad del límite de clasificación. El «análisis discriminante no paramétrico» intenta abordar esto permitiendo una forma no paramétrica (relativamente no especificada) para las distribuciones de características en las dos clases y, por lo tanto, una forma altamente flexible para el límite de clasificación. Sin embargo, en este caso, puede ser difícil comprender o caracterizar las distribuciones y límites ajustados, especialmente en datos de alta dimensión, y puede ser preocupante la falta de aprendizaje, y la consiguiente falta de generalización.

La selección de características es menos que sencilla en el análisis discriminante. El usuario puede probar todos los subconjuntos posibles de las variables, observando (por ejemplo) la tasa de clasificación errónea general como la función objetivo; En algunas implementaciones de software, hay varias rutinas iterativas modeladas en regresión gradual.

La clasificación bayesiana ingenua es una técnica de aprendizaje supervisada y un método de clasificación estadística. El teorema de Bayes se utiliza en la toma de decisiones y utiliza el conocimiento de eventos anteriores para predecir eventos futuros.

¿Cómo se clasifica la estadística Wikipedia?

La forma más fácil de crear una clasificación es usar una plantilla si hay una apropiada. Vea la sección de plantilla a continuación. Si no hay plantilla que funcione, puede agregar una clasificación editando manualmente una categoría para insertar enlaces. La clasificación de Contraltos se creó con este texto:

La clasificación debe centrarse en la página (esto es lo que hace el circundante …

Son posibles múltiples clasificaciones. Enumere el segundo en la siguiente línea. En su lugar, comenzando la línea con » ‘Clasificación:’ » Tipo » también: ». No tiene que agregar una clasificación para cada jerarquía posible. A veces, la jerarquía es solo un vínculo entre diferentes jerarquías.

Por ejemplo: Categoría: los actores afroamericanos son parte de la jerarquía en categoría: afroamericanos. También es una subcategoría de categoría: actores estadounidenses. Es uno de los pocos subgrupos bajo actores estadounidenses (no todas las etnias son subcategorías de actores estadounidenses), y las entradas se duplican en ambas categorías. Esto se debe a que son en efecto solo categorías relacionadas. En lugar de mostrar esa conexión como una clasificación, podría tener más sentido poner un enlace como ver también: Categoría: Actores estadounidenses.

Otra opción, cuando una categoría es una subcategoría de múltiples categorías de padres del mismo nivel, todas mismas subcategorías de un solo «abuelo», es usar comas y «y» mostrarlas todas en la clasificación, en forma abreviada. Se recomienda la coma en serie, para mayor claridad. Ejemplo:

Hay varias plantillas para ayudar a clasificar las categorías (y más en el camino). Es mucho más fácil usar una plantilla que configurarla manualmente. Aquí están las plantillas que existen actualmente. Consulte la página de discusión para ver la plantilla para ver ejemplos de cómo usarlas.

Clasificación de la estadística: conoce los diferentes tipos de estadísticas para optimizar tus resultados

¿Cuáles son las clasificaciones de la estadística?

¿Cómo se clasifica la estadística Wikipedia?

Más posts relacionados:

Unidad de observación estadística: ¿Qué es y cómo se usa?

Aprende a elegir el muestreo adecuado para tu investigación: guía de muestreo en estadística inferencial

Deja una respuesta Cancelar la respuesta