En estadísticas, la clasificación es el problema de identificar a cuál pertenece un conjunto de categorías (subpoblaciones) a una observación (u observaciones). Los ejemplos son asignar un correo electrónico dado a la clase «spam» o «no spam», y asignar un diagnóstico a un paciente dado basado en características observadas del paciente (sexo, presión arterial, presencia o ausencia de ciertos síntomas, etc.) .
Un algoritmo que implementa la clasificación, especialmente en una implementación concreta, se conoce como clasificador. El término «clasificador» a veces también se refiere a la función matemática, implementado por un algoritmo de clasificación, que mapea los datos de entrada a una categoría.
Una subclase común de la clasificación es la clasificación probabilística. Algoritmos de esta naturaleza usan inferencia estadística para encontrar la mejor clase para una instancia determinada. A diferencia de otros algoritmos, que simplemente producen una «mejor» clase de algoritmos probabilísticos que producen una probabilidad de que la instancia sea miembro de cada una de las clases posibles. La mejor clase normalmente se selecciona como la que tiene la mayor probabilidad. Sin embargo, dicho algoritmo tiene numerosas ventajas sobre los clasificadores no probabilísticos:
- Puede generar un valor de confianza asociado con su elección (en general, un clasificador que puede hacer esto se conoce como un clasificador ponderado por la confianza).
- En consecuencia, puede abstenerse cuando su confianza de elegir cualquier salida en particular es demasiado baja.
- Debido a las probabilidades que se generan, los clasificadores probabilísticos se pueden incorporar de manera más efectiva en tareas más grandes de aprendizaje automático, de una manera que evita parcial o completamente el problema de la propagación de errores.
Fisher realizó un trabajo temprano sobre la clasificación estadística, [1] [2] en el contexto de problemas de dos grupos, lo que llevó a la función discriminante lineal de Fisher como la regla para asignar un grupo a una nueva observación. [3] Este trabajo temprano supuso que los valores de datos dentro de cada uno de los dos grupos tenían una distribución normal multivariada. La extensión de este mismo contexto a más de dos grupos también se ha considerado con una restricción impuesta que la regla de clasificación debe ser lineal. [3] [4] El trabajo posterior para la distribución normal multivariante permitió que el clasificador no sea lineal: [5] Se pueden derivar varias reglas de clasificación en función de diferentes ajustes de la distancia de Mahalanobis, con una nueva observación asignada al grupo cuyo centro tiene la distancia ajustada más baja desde el observación.
A diferencia de los procedimientos frecuentistas, los procedimientos de clasificación bayesiana proporcionan una forma natural de tener en cuenta cualquier información disponible sobre los tamaños relativos de los diferentes grupos dentro de la población general. [6] Los procedimientos bayesianos tienden a ser computacionalmente caros y, en los días previos a los cálculos de la cadena de Markov, se desarrollaron los cálculos de la cadena de Monte Carlo, se idearon aproximaciones para las reglas de agrupación bayesiana. [7]
¿Cuál es la clasificación de los métodos estadísticos?
Este capítulo tiene como objetivo introducir los métodos y prácticas comunes de las técnicas estadísticas de aprendizaje automático. Contiene el desarrollo de algoritmos, aplicaciones de algoritmos y también las formas en que aprenden de los datos observados mediante la creación de modelos. A su vez, estos modelos se pueden usar para predecir. Aunque uno supone que el aprendizaje automático y las estadísticas no están del todo relacionadas entre sí, es evidente que el aprendizaje automático y las estadísticas van de la mano. Observamos cómo los métodos utilizados en estadísticas como la regresión lineal y la clasificación se utilizan en el aprendizaje automático. También analizamos las técnicas de implementación de técnicas de clasificación y regresión. Aunque el aprendizaje automático proporciona bibliotecas estándar para implementar toneladas de algoritmos, observamos cómo ajustar los algoritmos y qué parámetros del algoritmo o las características del algoritmo afectan el rendimiento del algoritmo en función de los métodos estadísticos.
Afirmar que los métodos estadísticos son útiles en el aprendizaje automático es análogo a decir que los métodos de trabajo de madera son útiles para un carpintero. Las estadísticas son la base del aprendizaje automático. Sin embargo, no todos los métodos de aprendizaje automático se han derivado de las estadísticas. Para comenzar, echemos un vistazo a lo que significa estadísticas y aprendizaje automático.
Las estadísticas se utilizan ampliamente en áreas de ciencia y finanzas y en la industria. Se sabe que las estadísticas son ciencias matemáticas y no solo matemáticas. Se dice que se originó en el siglo XVII. Consiste en recopilación de datos, organizar los datos, analizar los datos, la interpretación y la presentación de datos. Se están utilizando métodos estadísticos desde hace mucho tiempo en varios campos para comprender los datos de manera eficiente y obtener un análisis en profundidad de los datos [1].
¿Cuál es la clasificacion de los metodos estadísticos?
Para realizar análisis estadísticos, el investigador o analista recopila varios tipos de datos. La información recopilada generalmente está en forma bruta, que es difícil de analizar. Para que el análisis sea significativo y fácil, los datos sin procesar se convierten o clasifican en diferentes categorías en función de sus características. Esta agrupación de datos en diferentes categorías o clases con características similares o homogéneas se conoce como clasificación de datos. Cada división o clase de los datos recopilados se conoce como clase. La base diferente de la clasificación de la información estadística es geográfica, cronológica, cualitativa (simple y múltiple) y cuantitativa o numérica.
Por ejemplo, si un investigador quiere determinar el nivel de pobreza de un estado, puede hacerlo recopilando la información de las personas de ese estado y luego clasificándolas sobre la base de sus ingresos, educación, etc.
Según Conner, «la clasificación es el proceso de organizar cosas (ya sea en realidad o nocionalmente) en grupos o clases de acuerdo con sus semejanzas y afinidades, y expresa la unidad de atributos que pueden existir entre una diversidad de individuos».
Los principales objetivos de clasificación de datos son los siguientes:
- Explicar similitudes y diferencias de datos
- Simplificar y condensar la masa de datos
- Facilitar las comparaciones
- Estudiar la relación
- Prepare datos para la presentación tabular
¿Qué son los métodos estadísticos?
Este producto incluye artículos sobre los desarrollos metodológicos y conceptuales más recientes en el sistema de cuentas macroeconómicas canadienses, así como el análisis de la economía canadiense. Incluye artículos que explican nuevos métodos, nuevos conceptos y nuevas técnicas estadísticas utilizadas para compilar el sistema de cuentas macroeconómicas canadienses. También incluye información sobre productos nuevos o mejorados y proporciona actualizaciones e suplementos de información para varias guías y artículos analíticos sobre una amplia variedad de temas relacionados con la economía canadiense.
Esta hoja de información proporciona una breve descripción del contexto para comprender los intervalos de confianza. Los intervalos de confianza son un indicador útil de la calidad de los datos. Los intervalos de confianza generalmente se encuentran en las tablas de datos accesibles en el sitio web de Statistics Canada.
Este documento examina la forma en que Statistics Canada puede aumentar la confianza del usuario al darles la capacidad de autenticar datos de su sitio web a través de firmas digitales y bloquear la tecnología de canales.
Este estudio tiene como objetivo comparar la forma en que el modo de investigación, el contexto temático de la encuesta y el plan de muestreo contribuyen a la variación de las respuestas a preguntas similares sobre la discriminación racial autoproducida entre los ciclos de 2013, 2014 de 2014, desde desde 2014, a partir de 2019 y 2022 de la Encuesta Social General (ESG).
¿Cuáles son los métodos de clasificación?
Los algoritmos de clasificación podrían clasificarse ampliamente como los siguientes:
- Clasificadores lineales
- Regresión logística
- Clasificador ingenuo de Bayes
- Discriminante lineal de Fisher
- Máquinas de vectores de soporte
- Máquinas de vectores de soporte de mínimos cuadrados
- Clasificadores cuadráticos
- Estimación del núcleo
- K-Nearest Vecino
- Árboles de decisión
- Bosques aleatorios
- Redes neuronales
- Cuantificación del vector de aprendizaje
A continuación se presentan ejemplos de algunos algoritmos de clasificación populares.
Por confuso que sea el nombre, puede estar seguro. La regresión logística es una clasificación y no un algoritmo de regresión. Estima valores discretos (valores binarios como 0/1, sí/no, verdadero/falso) basado en un conjunto dado de variables independientes (s). En pocas palabras, básicamente predice la probabilidad de ocurrencia de un evento ajustando datos a una función logit. Por lo tanto, también se conoce como regresión logit. Los valores obtenidos siempre se encuentran dentro de 0 y 1, ya que predice la probabilidad.
Intentemos entender esto a través de otro ejemplo.
Digamos que hay una suma en su prueba de matemáticas. Solo puede tener 2 resultados, ¿verdad? O lo resuelve o no (y no asumamos puntos para el método aquí). Ahora imagine que se le da una amplia gama de sumas en un intento de comprender qué capítulos han entendido bien. El resultado de este estudio sería algo como esto: si se le da un problema basado en trigonometría, es probable que el 70% lo resuelva. Por otro lado, si se trata de un problema aritmético, la probabilidad de obtener una respuesta es solo el 30%. Esto es lo que le proporciona la regresión logística.
¿Qué son los métodos de clasificación?
La clasificación se puede realizar en datos estructurados o no estructurados. La clasificación es una técnica en la que clasificamos los datos en un número dado de clases. El objetivo principal de un problema de clasificación es identificar la categoría/clase a la que caerán un nuevo datos.
Pocas de las terminologías encontradas en el aprendizaje automático – Clasificación:
- Clasificador: un algoritmo que mapea los datos de entrada a una categoría específica.
- Modelo de clasificación: un modelo de clasificación intenta sacar alguna conclusión de los valores de entrada dados para el entrenamiento. Predecirá las etiquetas/categorías de clase para los nuevos datos.
- Característica: Una característica es una propiedad medible individual de un fenómeno que se observa.
- Clasificación de clase múltiple: clasificación con más de dos clases. En la clasificación de clase múltiple, cada muestra se asigna a una y solo una etiqueta de destino. Por ejemplo: un animal puede ser gato o perro, pero no ambos al mismo tiempo
- Clasificación de etiqueta múltiple: tarea de clasificación donde cada muestra se asigna a un conjunto de etiquetas de destino (más de una clase). EG: Un artículo de noticias puede ser sobre deportes, una persona y ubicación al mismo tiempo.
Los siguientes son los pasos involucrados en la construcción de un modelo de clasificación:
- Clasificador: un algoritmo que mapea los datos de entrada a una categoría específica.
- Modelo de clasificación: un modelo de clasificación intenta sacar alguna conclusión de los valores de entrada dados para el entrenamiento. Predecirá las etiquetas/categorías de clase para los nuevos datos.
- Característica: Una característica es una propiedad medible individual de un fenómeno que se observa.
- Clasificación de clase múltiple: clasificación con más de dos clases. En la clasificación de clase múltiple, cada muestra se asigna a una y solo una etiqueta de destino. Por ejemplo: un animal puede ser gato o perro, pero no ambos al mismo tiempo
- Clasificación de etiqueta múltiple: tarea de clasificación donde cada muestra se asigna a un conjunto de etiquetas de destino (más de una clase). EG: Un artículo de noticias puede ser sobre deportes, una persona y ubicación al mismo tiempo.
¿Cómo se clasifican los metodos de evaluacion?
Las técnicas de clasificación se han aplicado a muchas aplicaciones en varios campos de ciencias. Hay varias formas de evaluar los algoritmos de clasificación. El análisis de tales métricas y su importancia debe interpretarse correctamente para evaluar diferentes algoritmos de aprendizaje. La mayoría de estas medidas son métricas escalares y algunas de ellas son métodos gráficos. Este documento presenta una descripción detallada de las medidas de evaluación de clasificación con el objetivo de proporcionar los conceptos básicos de estas medidas y mostrar cómo funciona para servir como una fuente integral para los investigadores interesados en este campo. Esta descripción general comienza resaltando la definición de la matriz de confusión en problemas de clasificación binarios y de múltiples clases. Muchas medidas de clasificación también se explican en detalles, y se presenta la influencia de datos equilibrados y desequilibrados sobre cada métrica. Se introduce un ejemplo ilustrativo para mostrar (1) cómo calcular estas medidas en problemas de clasificación binarios y de múltiples clases, y (2) la robustez de algunas medidas contra datos equilibrados y desequilibrados. Además, algunas medidas gráficas, como las características operativas del receptor (ROC), la recuperación de precisión y las curvas de compensación de errores de detección (DET) se presentan detalles. Además, en un enfoque paso a paso, se demuestran diferentes ejemplos numéricos para explicar los pasos de preprocesamiento de trazar las curvas ROC, PR y DET.
Las técnicas de clasificación se han aplicado a muchas aplicaciones en varios campos de ciencias. En los modelos de clasificación, los datos de capacitación se utilizan para construir un modelo de clasificación para predecir la etiqueta de clase para una nueva muestra. Los resultados de los modelos de clasificación pueden ser discretos como en el clasificador de árbol de decisión o continuo como el clasificador de Bayes Naive [7]. Sin embargo, los resultados de los algoritmos de aprendizaje deben evaluarse y analizarse cuidadosamente y este análisis debe interpretarse correctamente, para evaluar diferentes algoritmos de aprendizaje.
El rendimiento de la clasificación está representado por valores escalares como en diferentes métricas, como la precisión, la sensibilidad y la especificidad. Comparar diferentes clasificadores utilizando estas medidas es fácil, pero tiene muchos problemas, como la sensibilidad a los datos desequilibrados e ignorar el rendimiento de algunas clases. Los métodos de evaluación gráfica, como las características operativas del receptor (ROC) y las curvas de recolección de precisión, dan diferentes interpretaciones del rendimiento de clasificación.
En [19] se informan algunas de las medidas que se derivan de la matriz de confusión para evaluar una prueba de diagnóstico. En ese artículo, solo se introdujeron ocho medidas. Powers introdujo una excelente discusión sobre los métodos de precisión, recuerdo, puntaje F, ROC, informado, marcado y evaluación de correlación con explicaciones de detalles [16]. Sokolova et al. informaron algunas métricas que se utilizan en el diagnóstico médico [20]. Además, se introduce una buena investigación de algunas medidas y la robustez de estas medidas contra diferentes cambios en la matriz de confusión en [21]. Tom Fawcett presentó una introducción detallada a la curva ROC que incluye (1) buenas explicaciones de los conceptos básicos de la curva ROC, (2) ejemplo claro para generar la curva ROC, (3) discusiones exhaustivas y (4) buenas explicaciones del área bajo curva (AUC) métrica [8]. Jesse Davis y Mark Goadrich informaron la relación entre las curvas ROC y RECISE-RECALL [5]. Nuestro artículo presenta una descripción detallada de los métodos de evaluación de clasificación con el objetivo de proporcionar los principios básicos de estas medidas y mostrar cómo funciona para servir como una fuente integral para los investigadores interesados en este campo. Este documento tiene detalles de la mayoría de los métodos de evaluación de clasificación conocidos. Además, este documento introduce (1) las relaciones entre los diferentes métodos de evaluación, (2) ejemplos numéricos para mostrar cómo calcular estos métodos de evaluación, (3) la robustez de cada método contra los datos desequilibrados que es uno de los problemas más importantes en reales -Polticaciones de tiempo, y (4) explicaciones de diferentes curvas en un enfoque paso a paso.
Este documento se divide en ocho secciones. La Sección 2 ofrece una visión general de los métodos de evaluación de clasificación. Esta sección comienza explicando la matriz de confusión para problemas de clasificación binarios y de múltiples clases. Según los datos que se pueden extraer de la matriz de confusión, se pueden calcular muchas métricas de clasificación. Además, se introduce la influencia de datos equilibrados y desequilibrados en cada método de evaluación. Además, se presenta un ejemplo numérico ilustrativo para mostrar (1) cómo calcular estas medidas en problemas de clasificación binarios y de múltiples clases, y (2) la robustez de algunas medidas contra datos equilibrados y desequilibrados. La Sección 3 introduce los conceptos básicos de la curva ROC, que se requieren para comprender cómo trazarlo e interpretarlo. Esta sección también presenta pasos visualizados con un ejemplo ilustrativo para trazar la curva ROC. La medida AUC se presenta en la Sección 4. En esta sección, se explica el algoritmo AUC con pasos detallados. La Sección 5 presenta los conceptos básicos de la curva de recolección de precisión y cómo interpretarla. Además, en un enfoque paso a paso, se demuestran que diferentes ejemplos numéricos explican los pasos de preprocesamiento de trazar las curvas ROC y PR en las Secciones 3 y 5. Los métodos de evaluación de clasificación para modelos biométricos, incluidos los pasos de trazado de la curva DET, se presentan en la sección 6. En la Sección 7, se presentan resultados en términos de diferentes métodos de evaluación de un experimento simple. Finalmente, se darán comentarios finales en la Sección 8.
¿Qué son los metodos en estadística?
Los métodos estadísticos se movilizan cuando son un análisis con muchos elementos a analizar, ya sean características o elementos. Se pueden usar tanto para datos digitales, como la edad, pero también transformando categorías que se «traducen» en números. Volveremos a esto más adelante en este curso. En resumen, el uso de estadísticas tiene dos tipos específicos de estadísticas descriptivas de uso e inferencias estadísticas:
- Estadísticas descriptivas: simplificar, dar información de un vistazo, le permite hacer gráficos
- Inferencias: a partir de los datos que tenemos disponibles, tratamos de generalizar y establecer leyes generales.
El propósito de utilizar estos métodos es proporcionar datos analizados rápidamente.
- Estadísticas descriptivas: simplificar, dar información de un vistazo, le permite hacer gráficos
- Inferencias: a partir de los datos que tenemos disponibles, tratamos de generalizar y establecer leyes generales.
En resumen, estadísticas exploratorias estudia la «estructura» del grupo de datos, detecta tendencias, formularios, observaciones atípicas, etc. sugiere hipótesis de trabajo, pistas que pueden excavarse y modelos que pueden formalizarse y verificar en un segundo paso, por estadística inferencia.
Conduce a conclusiones estadísticas de los datos utilizando conceptos de teoría de probabilidad. Esta parte se encarga de los métodos de prueba y estimación.
¿Qué es el método estadístico Wikipedia?
La teoría de las estadísticas proporciona una base para toda la gama de técnicas, tanto en el diseño del estudio como en el análisis de datos, que se utilizan dentro de las aplicaciones de las estadísticas. [1] [2] La teoría cubre los enfoques de los problemas de decisión estadística y de la inferencia estadística, y las acciones y deducciones que satisfacen los principios básicos establecidos para estos diferentes enfoques. Dentro de un enfoque dado, la teoría estadística da formas de comparar procedimientos estadísticos; Puede encontrar el mejor procedimiento posible dentro de un contexto dado para problemas estadísticos dados, o puede proporcionar orientación sobre la elección entre procedimientos alternativos. [2] [3]
La teoría estadística proporciona una guía para comparar métodos de recopilación de datos, donde el problema es generar datos informativos utilizando la optimización y la aleatorización mientras se mide y controlan el error de observación. [5] [6] [7] La optimización de la recopilación de datos reduce el costo de los datos al tiempo que satisface los objetivos estadísticos, [8] [9] mientras que la aleatorización permite inferencias confiables. La teoría estadística proporciona una base para una buena recopilación de datos y la estructuración de investigaciones en los temas de:
La tarea de resumir los datos estadísticos en formas convencionales (también conocidas como estadísticas descriptivas) se considera en las estadísticas teóricas como un problema de definir qué aspectos de las muestras estadísticas deben describirse y qué tan bien se pueden describir a partir de una muestra de datos típicamente limitada. Por lo tanto, los problemas que considera las estadísticas teóricas incluyen:
Además de la filosofía subyacente a la inferencia estadística, la teoría estadística tiene la tarea de considerar los tipos de preguntas que los analistas de datos pueden querer hacer sobre los problemas que están estudiando y proporcionar técnicas analíticas de datos para responderlas. Algunas de estas tareas son:
- Proporcionar formas de predecir el resultado de una cantidad aleatoria dada otras variables relacionadas
- Examinar la posibilidad de reducir el número de variables que se consideran dentro de un problema (la tarea de reducción de la dimensión)
Cuando se ha especificado un procedimiento estadístico en el protocolo de estudio, la teoría estadística proporciona declaraciones de probabilidad bien definidas para el método cuando se aplica a todas las poblaciones que podrían haber surgido de la aleatorización utilizada para generar los datos. Esto proporciona una forma objetiva de estimar los parámetros, estimar intervalos de confianza, probar hipótesis y seleccionar lo mejor. Incluso para los datos de observación, la teoría estadística proporciona una forma de calcular un valor que puede usarse para interpretar una muestra de datos de una población, puede proporcionar un medio para indicar qué tan bien está determinado ese valor y, por lo tanto, un medio de decir que los valores correspondientes derivados de diferentes poblaciones son tan diferentes como pueden parecer; Sin embargo, la fiabilidad de las inferencias de los datos de observación post-hoc a menudo es peor que para la generación aleatoria planificada de datos.
¿Que nos enseñan los métodos estadísticos?
Las estadísticas son la base de muchas áreas de ciencia e ingeniería que involucran « datos ». Este curso se centra en los conceptos fundamentales de inferencia estadística que son necesarias para aplicar métodos estadísticos en la práctica y que constituyen la base de otras áreas como el aprendizaje automático.
Métodos de enseñanza y aprendizaje: los estudiantes aprenden de conferencias, ejercicios y experiencias de TI.
Reglas del curso: El uso válido de los métodos estadísticos requiere una comprensión matemática del mecanismo subyacente. Como tal, el curso cubre aspectos matemáticos y algorítmicos de las estadísticas.
El lenguaje de las estadísticas es la teoría de la probabilidad. Como tal, el curso requiere un conocimiento básico de las probabilidades en los resultados discretos terminados, el de cálculo (como la diferenciación e integración) y el de álgebra lineal (como vectores limpios y valores propios de ‘una matriz y la solución de ecuaciones lineales).
El curso se centra en los conceptos fundamentales de las estadísticas, utilizando los ejemplos más simples, como la estimación promedio de una muestra terminada y una regresión lineal. Cubre los enfoques de frecuencia y bayesianos. El primero incluye pruebas de suposición estadística y una estimación de la máxima probabilidad. Este último incluye el concepto de distribuciones posteriores posteriores y la regla de Bayes. Explicaré cómo estos dos enfoques difieren en la interpretación de « datos » y « modelo », y en la definición de decisiones « óptimas ». También enseñaré los métodos de Monte Carlo, un ingrediente clave de los dos enfoques.
Artículos Relacionados:
