Contenido del curso

- Árboles de Decisión: Fundamentos y construcción para flujos de aprobación

Árboles de Decisión: Fundamentos y construcción para flujos de aprobación

Odisea Algorítmica · De la Regresión al Aprendizaje Profundo

Los árboles de decisión son pilares del aprendizaje supervisado: interpretables, flexibles y capaces de modelar relaciones no lineales. En esta lección diseccionamos sus fundamentos —desde el criterio de división hasta la poda— y los aplicamos a un flujo de aprobación de créditos, donde la transparencia es tan importante como la precisión.

🌳 1. Arquitectura de un árbol de decisión

Un árbol está compuesto por nodos de decisión (prueba sobre un atributo), ramas (resultados de la prueba) y hojas (etiqueta de clase o valor numérico). El objetivo es particionar el espacio de características en regiones homogéneas.

  • Nodo raíz: mejor atributo según una métrica de impureza.
  • Nodos internos: sub-particiones hasta alcanzar criterio de parada.
  • Hojas: predicción final (mayoría de clase o media).

Algoritmos clásicos: ID3, C4.5, CART

AlgoritmoCriterio de divisiónTipo de salidaCaracterística clave
ID3Ganancia de información (entropía)CategóricaSolo atributos discretos, sin poda
C4.5Ratio de ganancia (normalizado)CategóricaManeja numéricos, poda post-, reglas
CARTÍndice Gini / error cuadráticoBinaria (regresión o clasificación)Siembre produce árbol binario

En la práctica, CART es el más usado por su eficiencia y soporte para regresión. No obstante, C4.5 ofrece reglas más compactas.

📐 2. Criterios de división: entropía, Gini y error de clasificación

La calidad de un split se mide por la reducción de impureza. Estas son las tres métricas fundamentales para clasificación binaria:

MétricaFórmula (para 2 clases)RangoPreferencia
Entropía– p log₂(p) – (1–p) log₂(1–p)[0,1]Mayor sensibilidad a cambios en pureza
Índice Gini1 – p² – (1–p)² = 2p(1–p)[0,0.5]Más rápido, similar a entropía
Error de clasificación1 – max(p, 1–p)[0,0.5]Menos sensible, no se usa en splits

El cálculo de ganancia (ID3): Ganancia = Impureza(padre) – Σ (│hijo│/│total│ × Impureza(hijo)). C4.5 normaliza dividiendo por la entropía del split.

Comparación de impureza para una clase p (prob. positiva)

✂️ 3. Poda: pre-poda, post-poda y el dilema sesgo-varianza

Árboles profundos sobreajustan (bajo sesgo, alta varianza). Árboles poco profundos subajustan (alto sesgo, baja varianza). La poda busca el punto óptimo.

Pre-poda (temprana)

  • Detener crecimiento antes de que el árbol sea complejo.
  • Hiperparámetros: profundidad máxima, mínimo de muestras por hoja, mínimo de muestras para dividir.
  • Ventaja: rápido, menos sobreajuste.
  • Desventaja: puede detenerse demasiado pronto (sesgo).

Post-poda (cost-complexity)

  • Construir árbol completo, luego ir podando ramas.
  • Usa un parámetro α que penaliza el número de hojas.
  • Ventaja: mejor exploración del espacio de modelos.
  • Desventaja: más costoso computacionalmente.

Balance sesgo-varianza

Árbol profundo → baja distorsión en train, alta sensibilidad en test. Árbol con poda → ligera distorsión, pero generaliza mejor. La validación cruzada guía la poda óptima.

🧩 4. Manejo de datos categóricos y numéricos

Atributos numéricos: ordenar valores, probar thresholds entre datos consecutivos. C4.5 y CART eligen el punto de corte que minimiza la impureza.

Atributos categóricos: en scikit-learn (CART) se requiere codificación (OneHot, Ordinal). C4.5 maneja directamente splits multi-ramas. Recomendación: para categorías con muchos niveles, considerar target encoding o agrupar categorías raras.

Ejemplo de búsqueda de threshold numérico

# Datos ordenados: edad (22, 25, 30, 35, 45, 50)
# puntos de corte: 23.5, 27.5, 32.5, 40, 47.5
# se evalúa Gini para cada candidato
mejor_corte = minimizar(impureza_hijos)
  

🏦 5. Aplicación práctica: árbol de decisión para aprobación de créditos

Imaginemos un banco que quiere autorizar préstamos con criterios claros. El árbol generado se traduce en reglas if-then auditables.

AtributoTipoEjemplo de división
Ingresos mensualesNumérico¿Ingresos ≥ 2500?
Score crediticioNumérico¿Score ≥ 680?
Tipo de empleoCategórico¿Fijo / Freelance / Desempleado?
EdadNumérico¿Edad ≥ 23?

Reglas extraíbles (ejemplo):
SI ingresos ≥ 2500 Y score ≥ 680 → Aprobado (confianza 93%)
SI ingresos

Interpretabilidad: a diferencia de una red neuronal, cada decisión puede ser explicada al cliente o regulador. El árbol puede visualizarse con sklearn.tree.plot_tree o exportarse a texto.


⚖️ 6. Sesgo y varianza: árbol profundo vs. superficial

La profundidad controla el equilibrio. A continuación se muestra un análisis conceptual medido sobre un dataset de crédito simulado:

ProfundidadError entrenamientoError prueba (CV)SesgoVarianzaInterpretación
1 (stump)34%36%AltoBajoSubajuste
412%14%MedioMedioEquilibrio
83%11%BajoAltoSobreajuste
14 (sin poda)0%24%Muy bajoMuy altoSobreajuste extremo

Error en entrenamiento vs. prueba según profundidad

La poda (post-poda con α=0.02) en el árbol profundo reduce el error de prueba de 24% a 16%, acercándose al equilibrio.

🎯 7. Conclusión: claves para dominar árboles de decisión

  • Elige el criterio de división: Gini por defecto, entropía si quieres más sensibilidad (casi siempre similar).
  • Controla la complejidad: pre-poda con profundidad máxima y mín samples leaf; post-poda con cost-complexity y validación cruzada.
  • Preprocesa con cuidado: escalado no es necesario, pero codifica categorías correctamente.
  • Interpreta con reglas: extrae if-then para explicar decisiones a stakeholders.
  • Visualiza siempre: un árbol bien diseñado se puede dibujar; si es demasiado grande, poda primero.

Siguiente paso: implementa un árbol con sklearn en tu dataset de crédito, evalúa la profundidad con cross-validation y extrae las reglas. La práctica consolidará estos fundamentos.

Estudio detallado de árboles de decisión: algoritmo ID3/C4.5/CART, criterios de división (entropía, índice Gini, error de clasificación), poda (pre-poda y post-poda) y manejo de datos categóricos y numéricos. Aplicación práctica a flujos de aprobación (ej. aprobación de créditos), destacando la interpretabilidad del árbol como reglas if-then y la visualización de decisiones. Se discute el sesgo y varianza en árboles profundos vs poco profundos.
Calificación
0 0

No hay comentarios por ahora.