Contenido del curso

- AdaBoost: Algoritmo y Mecanismo de Actualización

AdaBoost: Algoritmo y Mecanismo de Actualización

AdaBoost (Adaptive Boosting) es uno de los algoritmos de ensamblaje más influyentes. Su esencia radica en combinar iterativamente clasificadores débiles —aquellos que rinden apenas mejor que una decisión aleatoria— para formar un clasificador fuerte con alta precisión. A continuación se presenta su mecánica paso a paso, la elección de los clasificadores base, y el mecanismo de actualización que lo hace adaptativo.

Fundamento conceptual

AdaBoost se basa en la ponderación adaptativa de los ejemplos de entrenamiento. En cada ronda, el algoritmo incrementa el peso de las muestras mal clasificadas, forzando al siguiente clasificador débil a enfocarse en las regiones más difíciles. Esta estrategia reduce el sesgo del modelo final progresivamente.

El resultado es un comité de clasificadores débiles con pesos asociados (αₜ), cuya combinación lineal produce la hipótesis final.

Algoritmo paso a paso

Entrada: conjunto de entrenamiento (x₁, y₁), …, (xₙ, yₙ) con etiquetas yᵢ ∈ {−1, +1}; T iteraciones.

1
Inicialización de pesos: D₁(i) = 1/n para cada ejemplo i. Todos los puntos parten con igual relevancia.
2
Entrenar clasificador débil: En la iteración t, se entrena un clasificador base hₜ(x) usando la distribución de pesos Dₜ.
3
Cálculo del error ponderado:
εₜ = Σᵢ Dₜ(i) · 𝟙(yᵢ ≠ hₜ(xᵢ))
Si εₜ ≥ 0.5, el proceso se detiene (el clasificador no es mejor que aleatorio).
4
Peso del clasificador (αₜ):
αₜ = ½ · ln((1 − εₜ) / εₜ)
Los clasificadores con menor error reciben mayor influencia en la votación final.
5
Actualización de pesos:
Dₜ₊₁(i) = Dₜ(i) · exp(−αₜ · yᵢ · hₜ(xᵢ)) / Zₜ
donde Zₜ es un factor de normalización. Los ejemplos mal clasificados aumentan su peso; los correctos lo reducen.
6
Combinación lineal final:
H(x) = sign( Σₜ αₜ · hₜ(x) )
El clasificador fuerte es la suma ponderada de los clasificadores débiles.

Elección de clasificadores débiles: los stumps

En la práctica, los clasificadores débiles más comunes son los decision stumps (tocones de decisión): árboles de decisión de un solo nivel (una sola pregunta). Su simplicidad permite que el algoritmo se enfoque en la adaptación de los pesos.

  • Bajo sesgo individual: cada stump clasifica apenas por encima del 50%.
  • Alta velocidad de entrenamiento: al ser modelos muy simples, el proceso es rápido incluso con grandes volúmenes de datos.
  • Complementariedad: diferentes stumps pueden especializarse en distintas regiones del espacio, facilitando la reducción del sesgo combinado.

No obstante, cualquier clasificador que pueda ser entrenado con pesos puede usarse: regresión logística, Naive Bayes, etc.

Mecanismo de actualización y convergencia

La actualización multiplicativa de pesos es el núcleo adaptativo. Al incrementar drásticamente los pesos de los ejemplos difíciles, cada nuevo clasificador débil se ve forzado a prestarles atención. Este proceso conduce a una reducción progresiva del sesgo del conjunto, mientras que la varianza se controla combinando múltiples modelos.

Propiedades de convergencia:

  • El error de entrenamiento decrece exponencialmente si cada clasificador débil tiene εₜ < 0.5.
  • AdaBoost es especialmente eficaz para reducir el sesgo. Sin embargo, si los datos contienen ruido excesivo, puede sobreadaptarse.
  • La combinación lineal final H(x) maximiza el margen de clasificación, principio fundamental del aprendizaje estadístico.

Ejemplo ilustrativo con tabla de pesos

Supongamos 6 ejemplos tras dos iteraciones (clasificadores débiles con stumps).

Ejemplo yᵢ h₁(xᵢ) h₂(xᵢ) D₁ (inicial) D₂ (tras iter 1)
1 +1 +1 +1 0.167 0.101
2 +1 −1 +1 0.167 0.283
3 −1 −1 +1 0.167 0.101
4 −1 −1 −1 0.167 0.101
5 +1 +1 −1 0.167 0.283
6 −1 +1 −1 0.167 0.131

Nótese cómo los ejemplos 2 y 5 (mal clasificados por h₁) ven incrementado su peso en D₂. El segundo clasificador débil pondrá más atención en esos casos.

Capacidad de reducir el sesgo progresivamente

A diferencia de algoritmos como Bagging (que atacan la varianza), AdaBoost está diseñado para disminuir el sesgo de forma iterativa. Cada nuevo modelo se añade para corregir los errores del conjunto actual. Si los clasificadores base logran un error menor a 0.5, el error de entrenamiento del ensamble converge a cero a medida que aumenta el número de iteraciones.

Este comportamiento hace que AdaBoost sea particularmente efectivo con clasificadores débiles de alto sesgo, como los stumps. La combinación final posee una capacidad expresiva mucho mayor que cualquiera de sus componentes por separado.

Consideraciones prácticas

  • Sensibilidad al ruido: los pesos extremadamente altos en ejemplos ruidosos pueden degradar el desempeño. Se recomienda usar versiones robustas (AdaBoost con regularización) si se sospecha de etiquetas ruidosas.
  • Número de iteraciones T: aunque no suele haber sobreajuste severo en el error de entrenamiento, un valor excesivo puede aumentar la varianza. Validación cruzada es la guía estándar.
  • Compatibilidad con cualquier clasificador: siempre que acepte pesos por muestra, AdaBoost puede aplicarse sobre regresión logística, redes neuronales simples, SVM lineales, etc.

Resumen clave: AdaBoost convierte un conjunto de clasificadores apenas mejores que aleatorios en un sistema de alta precisión. Su mecanismo de actualización adaptativa —incrementar el peso de los errores— impulsa la reducción del sesgo y la construcción de un clasificador fuerte. Es un algoritmo fundamental en el mapa del boosting y un pilar del aprendizaje supervisado moderno.

Se presenta el algoritmo AdaBoost paso a paso: inicialización de pesos, entrenamiento de clasificador débil, cálculo del error ponderado, actualización de pesos y combinación lineal de modelos. Se discute la elección de clasificadores débiles (stumps). Se analiza la convergencia y la capacidad de reducir el sesgo progresivamente.
Calificación
0 0

No hay comentarios por ahora.