Los árboles de decisión pueden tratar con datos complejos, lo que es parte de lo que los hace útiles. Sin embargo, esto no significa que sean difíciles de entender. En esencia, todos los árboles de decisión consisten en en última instancia en solo tres partes clave, o «nodos»:
- Nodos de decisión: representar una decisión (generalmente mostrada con un cuadrado)
Conectar estos diferentes nodos es lo que llamamos «ramas». Los nodos y ramas se pueden usar una y otra vez en cualquier cantidad de combinaciones para crear árboles de diversa complejidad. Veamos cómo se ven estas piezas antes de agregar cualquier dato.
Afortunadamente, mucha terminología de los árboles de decisión sigue a la analogía del árbol, lo que hace que sea mucho más fácil de recordar. Algunos otros términos que podrían encontrar incluirán:
En el diagrama anterior, el nodo de decisión azul es lo que llamamos un «nodo raíz». Este es siempre el primer nodo en la ruta. Es el nodo desde el cual todas las demás decisiones, azar y nodos finales finalmente se ramifican.
En el diagrama anterior, los nodos finales lila son lo que llamamos «nodos de hoja». Estos muestran el final de una ruta de decisión (o resultado). Siempre puede identificar un nodo de hoja porque no se divide ni se ramifica más. ¡Como una hoja real!
Entre el nodo raíz y los nodos de la hoja, podemos tener cualquier número de nodos internos. Estos pueden incluir decisiones y nodos de casualidad (por simplicidad, este diagrama solo usa nodos casuales). Es fácil identificar un nodo interno, cada uno tiene ramas propias al mismo tiempo que se conecta a un nodo anterior.
¿Qué es un árbol de decisiones y sus características?
Los árboles de decisión de aprendizaje automático generalmente se construyen en forma de declaraciones de «si-then-else». En el aprendizaje automático, el árbol de decisión se basa en dos entidades principales, que se llaman nodos (o ramas) y hojas. La pregunta inicial también se llama raíz (de ahí el nombre del modelo de árbol de decisión). Las hojas son las decisiones o los resultados finales. Y los nodos/ramas de decisión son donde se dividen los datos. En otras palabras, las hojas representan etiquetas de clase y ramas representan conjunciones de características que conducen a estas etiquetas de clase [1].
- Root: ¿Debería ir al restaurante?
- Leaf: ¿Tengo hambre?
- Nodo/rama: sí/no
Entonces, como un árbol real, todo comienza con la raíz y va más allá, a las copas de los árboles, donde hay más ramas y más hojas. Pero nuestro árbol, a diferencia de los reales, crece al revés. Si usa un pedazo de papel para dibujar este árbol de decisión, debe comenzar en la parte superior y bajar. Los resultados (copas de los árboles) están en la parte inferior de su pedazo de papel.
Naturalmente, es una simplificación de este modelo de aprendizaje automático, pero más o menos, esto es lo que parece. El modelo de aprendizaje automático de árbol de decisión se trata de obtener resultados/decisiones/información basado en nuestro conocimiento y variables anteriores.
Este modelo es versátil, de ahí el algoritmo de árbol de decisión en el aprendizaje automático encuentra muchas aplicaciones en:
- Root: ¿Debería ir al restaurante?
- Leaf: ¿Tengo hambre?
- Nodo/rama: sí/no
En última instancia, el objetivo de esta técnica es crear un modelo que predice el valor de una variable objetivo basada en varias variables de entrada. Esta técnica se utiliza para responder preguntas como I.A.: ¿Debería hacerse X? ¿Deberíamos elegir A o B? Por lo tanto, este modelo se usa comúnmente para:
Se utiliza ansiosamente en el proceso de toma de decisiones. El modelo de aprendizaje automático de árbol de decisión se puede utilizar en la visualización de datos, para presentar explícitamente el proceso de decisión y su resultado. Esta es una de las principales ventajas de los árboles de decisión: son fáciles de entender y legibles, incluso para alguien que no trata con el aprendizaje automático en su trabajo.
¿Cuáles son las características de un árbol de decisiones?
Hay varias características de la inducción de árboles de decisión es la siguiente –
La inducción del árbol de decisión es un método no paramétrico para construir modelos de clasificación. En otros términos, no necesita algunos supuestos anteriores con respecto al tipo de distribuciones de probabilidad satisfechas por la clase y los diferentes atributos.
Puede ser encontrar un árbol de decisión óptimo es un problema completo de NP. Muchos algoritmos de árboles de decisión emplean un enfoque basado en heurística para guiar su búsqueda en el vasto espacio de hipótesis.
Existen varias técnicas desarrolladas para construir árboles de decisión computacionalmente económicos, lo que permite construir rápidamente modelos incluso cuando el tamaño del conjunto de entrenamiento es muy grande. Además, debido a que se ha desarrollado un árbol de decisión, definir los datos de la prueba es completamente rápido, con una peor complejidad de O (W), donde W es la profundidad máxima del árbol.
Los árboles de decisión, particularmente los árboles de menor tamaño, son asociativamente simples de ejecutar. La eficiencia de los árboles también es comparable a varios métodos de clasificación para varios conjuntos de datos.
Los árboles de decisión apoyan una descripción expresiva para el aprendizaje de funciones de valor discreto. Pero no se generalizan bien a un método específico de problemas booleanos. Una instancia es la función de paridad, cuyo valor es 0 (1) cuando hay un impar (incluso) varios atributos booleanos con el valor verdadero.
La presencia de atributos redundantes no influye en la efectividad de los árboles de decisión. Un atributo es redundante si se correlaciona poderosamente con un atributo diferente en los datos. No se pueden usar dos atributos redundantes para dividir porque el otro atributo ha sido seleccionado.
¿Que entienden por árbol de decisión?
Un árbol de decisión es una representación de datos de diagrama de flujo que se asemeja gráficamente a un árbol que se ha dibujado. En esta analogía, la raíz del árbol es una decisión que debe tomarse, las ramas del árbol son acciones que se pueden tomar y las hojas del árbol son resultados potenciales de decisión.
El propósito de un árbol de decisión es dividir un gran conjunto de datos en subconjuntos que contienen instancias con valores similares para comprender los resultados probables de opciones específicas.
En el aprendizaje automático (ML), los árboles de decisión se utilizan para predecir la clase o el valor de las variables objetivo en los algoritmos de regresión y clasificación de aprendizaje supervisado (SL). Los algoritmos de regresión, también llamados algoritmos continuos, usan datos de capacitación para predecir todos los valores futuros de una instancia de datos específicas dentro de un período de tiempo dado. En contraste, los algoritmos de clasificación utilizan datos de capacitación para predecir el valor de una sola instancia de datos en un momento específico en el tiempo.
Los árboles de decisión también se conocen como árboles de carretas, que es la abreviatura de los árboles de clasificación y regresión.
Los árboles de decisión son una herramienta popular y poderosa utilizada para fines de clasificación y predicción.
Los árboles de decisión pueden ser categóricos o continuos/regresivos. En un árbol de decisión categórico, los nuevos resultados de datos se basan en una única variable discreta. En contraste, los resultados continuos del árbol de decisión se basan en resultados anteriores del nodo de decisión. La precisión de los árboles de decisión se puede aumentar combinando los resultados de una colección de árboles de decisión.
¿Cómo se hace un árbol de toma de decisiones?
Un árbol de decisión es un algoritmo de aprendizaje automático supervisado que puede usarse para problemas de regresión y clasificación. Un árbol de decisión sigue un conjunto de condiciones anidadas de IF-ELSE para hacer predicciones.
Dado que los árboles de decisión se pueden usar para la clasificación y la regresión, el algoritmo utilizado para crecer a menudo se llama CART (árboles de clasificación y regresión). No hay un algoritmo de árbol de decisión único. Se han propuesto múltiples algoritmos para construir árboles de decisión, pero nos centraremos en el algoritmo de carrito utilizado en Scikit-Learn.
Los árboles de decisión son árboles binarios donde cada nodo representa una decisión.
- Nodo raíz: este es el nodo que inicia el gráfico. La profundidad es cero.
- Nodos internos/infantiles: estos son nodos infantiles donde se toman decisiones binarias.
- Nodos de hoja: estos son los nodos finales del árbol, donde se realizan las predicciones de una categoría o un valor numérico.
El algoritmo tiene como objetivo predecir una variable objetivo de un conjunto de variables de entrada y sus atributos. Una estructura de árbol se construye a través de una serie de divisiones binarias (sí/no) desde el nodo raíz a través de ramas. A medida que descendemos más profundamente en el árbol, pasamos varios nodos internos hasta que llegamos a los nodos de la hoja. Es en estos nodos terminales que se realiza la predicción.
¿Cómo hacer un diagrama de toma de decisiones?
Para dibujar un árbol de toma de decisiones, primero elija un vehículo. Puede dibujarlo a mano, en papel o en una pizarra, o puede usar un software especial para árboles que toman decisiones. En ambos casos, aquí están los pasos a seguir:
1. Comience con la decisión principal. Dibuje una caja pequeña para representar este punto, luego traza una línea desde la caja a la derecha para cada solución o acción posible. Etiquetado en consecuencia.
2. Agregue los nodos probabilísticos y de toma de decisiones para expandir el árbol de la siguiente manera:
- Si se necesita otra decisión, dibuje otra caja.
- Si el resultado es incierto, dibuje un círculo (los círculos representan nudos probabilísticos).
- Si el problema se resuelve, déjelo vacío (por ahora).
De cada nodo de toma de decisiones, diseña posibles soluciones. De cada nodo probabilístico, traza líneas que representan los posibles resultados. Si desea analizar las opciones numéricamente, incluya la probabilidad de cada resultado y el costo de cada acción.
3. Continúe expandiendo el gráfico hasta que cada línea llegue a un punto final, lo que significa que no hay más opciones para hacer o resultados probables a considerar. Por lo tanto, asigna un valor a cada resultado posible. Podría ser una puntuación abstracta o un valor financiero. Agregue triángulos para indicar los puntos finales.
Con un árbol completo de decisión, ahora puede comenzar a analizar la decisión que tiene que enfrentar.
¿Cómo se clasifican los árboles de decisión?
Un árbol de decisión es un algoritmo de aprendizaje automático supervisado. Se usa en algoritmos de clasificación y regresión. El árbol de decisión es como un árbol con nodos. Las ramas dependen de una serie de factores. Dirige datos en ramas como estas hasta que logra un valor umbral. Un árbol de decisión consiste en los nodos de la raíz, los nodos infantiles y los nodos de las hojas.
Imagina que juegas al fútbol todos los domingos y siempre invitas a tu amigo a jugar contigo. A veces tu amigo realmente viene y a veces no.
El factor de si vendrá o no de numerosas cosas, como el clima, la temperatura, el viento y la fatiga. Comenzamos a tener en cuenta todas estas características y comenzamos a rastrearlas junto con la decisión de su amigo de venir a jugar o no.
Puede usar estos datos para predecir si su amigo vendrá a jugar al fútbol o no. La técnica que podría usar es un árbol de decisión. Así es como se vería el árbol de decisión después de la implementación:
Cada árbol de decisión consiste en la siguiente lista de elementos:
a) Nodos: es el punto donde el árbol se divide de acuerdo con el valor de algún atributo/característica del conjunto de datos
b) Bordes: dirige el resultado de una división al siguiente nodo que podemos ver en la figura anterior que hay nodos para características como perspectiva, humedad y viento. Hay un borde para cada valor potencial de cada uno de esos atributos/características.
c) raíz: este es el nodo donde tiene lugar la primera división
¿Cómo se clasifica un árbol de decisión?
Como he discutido en mis artículos anteriores, el algoritmo de árbol de decisión es un algoritmo de aprendizaje supervisado simple pero eficiente en el que los puntos de datos se dividen continuamente de acuerdo con ciertos parámetros y/o el problema que el algoritmo está tratando de resolver. Los árboles de decisión también se conocen popularmente como CART (que significa árboles de clasificación y regresión).
Si está interesado en aprender más sobre el uso de árboles de decisión para resolver problemas de regresión, considere revisar mis artículos anteriores aquí.
Cada árbol de decisión incluye un nodo de raíz, algunas ramas y nodos de hoja. Los nodos internos presentes dentro del árbol describen los diversos casos de prueba. Los árboles de decisión pueden usarse para resolver problemas de clasificación y regresión. El algoritmo puede considerarse como una estructura gráfica similar a un árbol que utiliza varios parámetros sintonizados para predecir los resultados. Los árboles de decisión aplican un enfoque de arriba hacia abajo al conjunto de datos que se alimenta durante la capacitación.
Para comprender cómo funciona realmente el algoritmo, suponga que se debe desarrollar un modelo predictivo que pueda predecir si la solicitud de un estudiante para asegurar la admisión en un curso en particular se acepta o no. Considere el siguiente conjunto de datos que se proporcionan a cualquier modelo de árbol de decisión.
El problema considerado en el ejemplo anterior puede considerarse en la forma gráfica como un árbol de decisión o un diagrama de flujo. Un árbol satisfaría todas las situaciones posibles que se proporcionan en el problema. El algoritmo de árbol de decisión funciona como un montón de declaraciones anidadas de IF-ELSE en las que se verifican las condiciones sucesivas a menos que el modelo llegue a una conclusión.
¿Qué es el árbol de decisión para la clasificación de los eventos significativos?
Un árbol de decisión es una herramienta de soporte con una estructura similar a un árbol que modela resultados probables, costo de recursos, servicios públicos y posibles consecuencias. Los árboles de decisión proporcionan una forma de presentar algoritmos con declaraciones de control condicional. Incluyen ramas que representan pasos de toma de decisiones que pueden conducir a un resultado favorable.
La estructura del diagrama de flujo incluye nodos internos que representan pruebas o atributos en cada etapa. Cada rama significa un resultado para los atributos, mientras que la ruta de la hoja a la raíz representa reglas para la clasificación.
Los árboles de decisión son una de las mejores formas de algoritmos de aprendizaje basados en varios métodos de aprendizaje. Impulsan modelos predictivos con precisión, facilidad en la interpretación y estabilidad. Las herramientas también son efectivas para ajustar relaciones no lineales, ya que pueden resolver desafíos de ajuste de datos, como la regresión y las clasificaciones.
- Los árboles de decisión se utilizan para manejar conjuntos de datos no lineales de manera efectiva.
- La herramienta de árbol de decisión se utiliza en la vida real en muchas áreas, como ingeniería, planificación civil, derecho y negocios.
- Los árboles de decisión se pueden dividir en dos tipos; Árboles de decisión variable y variable continua.
Hay dos tipos principales de árboles de decisión que se basan en la variable objetivo, es decir, árboles de decisión de variables categóricas y árboles de decisión de variables continuas.
¿Qué son los nodos de decisión?
Un nodo de decisión es un nodo en una actividad en la que el flujo se ramifica en varios flujos opcionales. Hay exactamente un borde entrante y un número arbitrario de bordes salientes, cada uno de los cuales tiene una condición.
Un nodo de fusión es un nodo en una actividad en la que varios flujos se fusionan en un solo flujo. Hay un número arbitrario de bordes entrantes y exactamente un borde saliente.
Un flujo dentro de una actividad generalmente está controlado por condiciones. Si XY es verdadero, entonces haz a, de lo contrario, haz B. Lo que necesitamos para esto es un nodo de decisión. La notación es un rombo con un borde entrante y un número arbitrario de bordes salientes, en el que hay una condición cada uno dentro de los soportes (Figura 3.49).
Una condición es una expresión booleana en cualquier idioma.13 Nunca más de una condición puede ser cierta. Además, siempre se debe cumplir una condición exactamente. Podemos usar la condición [más] para garantizar esto. De esta manera, siempre se elige cuando todas las demás condiciones son falsas (Figura 3.49).
La notación para los nodos de fusión es la misma que la de los nodos de decisión. Un nodo de fusión es la contraparte que combina varios flujos opcionales en un solo flujo. A medida que se fusionan los flujos, no se prueban condiciones y no hay eventos especiales (Figura 3.50).
Dos nodos de flujo de control son comunes en el diagrama de actividad: nodos de decisión y nodos de paralelismo.
Los nodos de decisión (nodos de rama y fusión) están representados por diamantes. Los flujos que salen del nodo de decisión deben tener condiciones de guardia (una expresión lógica entre paréntesis). Dos o más flujos pueden dejar un nodo de decisión, pero es importante que las condiciones de guardia sean mutuamente excluyentes, es decir, solo uno de ellos puede ser cierto a la vez.
¿Qué es un nodo de decisión?
Un árbol de decisión es un diagrama de tallo y hoja de la estructura lógica del
decisión (s) que deben hacerse para resolver un problema.
Tiene cuatro elementos:
- Nodos de elección: una elección
nodo (también llamado «nodo de decisión») es un
rama en el árbol que representa una decisión específica en el control de
El tomador de decisiones. Derivado del nodo de decisión son lo posible
Elecciones de acción que el tomador de decisiones puede seleccionar. - Nodos de oportunidad: una oportunidad
El nodo es una rama en el árbol que representa una familia de posibles
resultados que no están bajo el control (o solo están parcialmente bajo el
control) del tomador de decisiones. Algunos resultados se asignan a los nodos casuales
Porque se deben a elecciones tomadas por otros, pero esas decisiones
aún no se han determinado. Por ejemplo, si construyes un centro cívico
¿Vendrá alguien? Otros resultados pueden ser un resultado directo de las elecciones tomadas
por el tomador de decisiones, pero no hay información suficiente para saber definitivamente cuál de varios resultados posibles
ocurrir. Por ejemplo, ¿la pared de la inundación será lo suficientemente alta como para contener la escorrentía?
¿en el futuro inmediato? - Probabilidades: probabilidades
se asignan para cada resultado posible de un nodo casual. Ellos representan
La incertidumbre inherente al evento. Krueckeberg
& Silvers (1974) tiene una excelente discusión de la probabilidad en términos
de árboles de decisión.
La probabilidad de un evento es la cantidad de veces que ocurre
dividió la cantidad de veces que lo buscaste. Es una fracción y debe mentir
En algún lugar entre <0> y <1>. Tanto <0> como <1> son
«Certidumbres»-<0> es la certeza de que un evento no
suceder, <1> es la certeza de que lo hará. La suma de todos los
Las probabilidades para cualquier evento (nodo) deben ser <1.0> (en otras palabras, es
seguro que algo tiene que pasar).
Sin embargo, la probabilidad de un evento independiente no es necesariamente su
probabilidad cuando es interdependiente con una ocurrencia previa. Los datos pueden
Demuestre que el 30% de la vivienda en una ciudad en particular está deteriorada (es decir, allí, allí
es una probabilidad de .30 de que se juzga una casa seleccionada al azar en la ciudad
«deteriorado»). Pero los datos también pueden mostrar que el 90% de la
La vivienda deteriorada en la ciudad se encuentra en un vecindario en particular (es decir, allí, allí
es una probabilidad de .90 de que una casa seleccionada al azar desde el vecindario A lo haría
ser juzgado «deteriorado» y, dependiendo de la proporción de la
El stock de viviendas de la ciudad en el vecindario A-tal vez una probabilidad de .10 de que una casa
seleccionado al azar de cualquier otro vecindario sería juzgado
«deteriorado»). Conocer la probabilidad condicional (el
probabilidad dada la interdependencia) de un evento es un ejemplo de adicional
información que puede cambiar las probabilidades de un nodo casual al agregar un nuevo
Nodo de elección («Seleccionar sobre la base del vecindario»).
¿Qué representan los nodos en un árbol de decisión?
El análisis del árbol de decisión es el proceso de dibujar un árbol de decisión, que es una representación gráfica de varias soluciones alternativas disponibles para resolver un problema dado, a fin de determinar los cursos de acción más efectivos. Los árboles de decisión se componen de nodos y ramas: los nodos representan una prueba en un atributo y las ramas representan posibles resultados alternativos.
Un árbol de decisión es un modelo similar a un árbol que actúa como una herramienta de soporte de decisiones, mostrando visualmente las decisiones y sus posibles resultados, consecuencias y costos. A partir de ahí, las «ramas» se pueden evaluar y compararse fácilmente para seleccionar los mejores cursos de acción.
El dibujo de un diagrama de árbol de decisión comienza de izquierda a derecha y consiste en nodos de «ráfaga» que se dividen en diferentes caminos. Los nodos se clasifican como nodos raíz, que compila toda la muestra y luego se divide en múltiples conjuntos; Los nodos de decisión, típicamente representados por cuadrados, son sub-nodos que divergen en mayores posibilidades; y el nodo terminal, típicamente representado por triángulos, es el nodo final que muestra el resultado final que no se puede clasificar más.
Las ramas, o las líneas, representan las diversas alternativas disponibles, y los sub-nodos pueden eliminarse a través de la poda. Los árboles de decisión pueden ser dibujados a mano o creados con el uso del software de árbol de decisión. El análisis se puede realizar manualmente, a través del análisis del árbol de decisión en R o a través del software automatizado.
Artículos Relacionados:
- ‘Variables de decision’: todo lo que necesitas saber para tomar las mejores decisiones
- El proceso de decision: cómo tomar las mejores decisiones para tu negocio
- ¿Qué es la toma de decisiones? La toma de decisiones es el proceso de seleccionar una opción entre varias posibles.
- La planeación estratégica y sus componentes clave para el éxito empresarial