- AdaBoost: Algoritmo y Mecanismo de Actualización
AdaBoost: Algoritmo y Mecanismo de Actualización
AdaBoost (Adaptive Boosting) es uno de los algoritmos de ensamblaje más influyentes. Su esencia radica en combinar iterativamente clasificadores débiles —aquellos que rinden apenas mejor que una decisión aleatoria— para formar un clasificador fuerte con alta precisión. A continuación se presenta su mecánica paso a paso, la elección de los clasificadores base, y el mecanismo de actualización que lo hace adaptativo.
Fundamento conceptual
AdaBoost se basa en la ponderación adaptativa de los ejemplos de entrenamiento. En cada ronda, el algoritmo incrementa el peso de las muestras mal clasificadas, forzando al siguiente clasificador débil a enfocarse en las regiones más difíciles. Esta estrategia reduce el sesgo del modelo final progresivamente.
El resultado es un comité de clasificadores débiles con pesos asociados (αₜ), cuya combinación lineal produce la hipótesis final.
Algoritmo paso a paso
Entrada: conjunto de entrenamiento (x₁, y₁), …, (xₙ, yₙ) con etiquetas yᵢ ∈ {−1, +1}; T iteraciones.
εₜ = Σᵢ Dₜ(i) · 𝟙(yᵢ ≠ hₜ(xᵢ))Si εₜ ≥ 0.5, el proceso se detiene (el clasificador no es mejor que aleatorio).
αₜ = ½ · ln((1 − εₜ) / εₜ)Los clasificadores con menor error reciben mayor influencia en la votación final.
Dₜ₊₁(i) = Dₜ(i) · exp(−αₜ · yᵢ · hₜ(xᵢ)) / Zₜdonde Zₜ es un factor de normalización. Los ejemplos mal clasificados aumentan su peso; los correctos lo reducen.
H(x) = sign( Σₜ αₜ · hₜ(x) )El clasificador fuerte es la suma ponderada de los clasificadores débiles.
Elección de clasificadores débiles: los stumps
En la práctica, los clasificadores débiles más comunes son los decision stumps (tocones de decisión): árboles de decisión de un solo nivel (una sola pregunta). Su simplicidad permite que el algoritmo se enfoque en la adaptación de los pesos.
- Bajo sesgo individual: cada stump clasifica apenas por encima del 50%.
- Alta velocidad de entrenamiento: al ser modelos muy simples, el proceso es rápido incluso con grandes volúmenes de datos.
- Complementariedad: diferentes stumps pueden especializarse en distintas regiones del espacio, facilitando la reducción del sesgo combinado.
No obstante, cualquier clasificador que pueda ser entrenado con pesos puede usarse: regresión logística, Naive Bayes, etc.
Mecanismo de actualización y convergencia
La actualización multiplicativa de pesos es el núcleo adaptativo. Al incrementar drásticamente los pesos de los ejemplos difíciles, cada nuevo clasificador débil se ve forzado a prestarles atención. Este proceso conduce a una reducción progresiva del sesgo del conjunto, mientras que la varianza se controla combinando múltiples modelos.
Propiedades de convergencia:
- El error de entrenamiento decrece exponencialmente si cada clasificador débil tiene εₜ < 0.5.
- AdaBoost es especialmente eficaz para reducir el sesgo. Sin embargo, si los datos contienen ruido excesivo, puede sobreadaptarse.
- La combinación lineal final H(x) maximiza el margen de clasificación, principio fundamental del aprendizaje estadístico.
Ejemplo ilustrativo con tabla de pesos
Supongamos 6 ejemplos tras dos iteraciones (clasificadores débiles con stumps).
| Ejemplo | yᵢ | h₁(xᵢ) | h₂(xᵢ) | D₁ (inicial) | D₂ (tras iter 1) |
|---|---|---|---|---|---|
| 1 | +1 | +1 | +1 | 0.167 | 0.101 |
| 2 | +1 | −1 | +1 | 0.167 | 0.283 |
| 3 | −1 | −1 | +1 | 0.167 | 0.101 |
| 4 | −1 | −1 | −1 | 0.167 | 0.101 |
| 5 | +1 | +1 | −1 | 0.167 | 0.283 |
| 6 | −1 | +1 | −1 | 0.167 | 0.131 |
Nótese cómo los ejemplos 2 y 5 (mal clasificados por h₁) ven incrementado su peso en D₂. El segundo clasificador débil pondrá más atención en esos casos.
Capacidad de reducir el sesgo progresivamente
A diferencia de algoritmos como Bagging (que atacan la varianza), AdaBoost está diseñado para disminuir el sesgo de forma iterativa. Cada nuevo modelo se añade para corregir los errores del conjunto actual. Si los clasificadores base logran un error menor a 0.5, el error de entrenamiento del ensamble converge a cero a medida que aumenta el número de iteraciones.
Este comportamiento hace que AdaBoost sea particularmente efectivo con clasificadores débiles de alto sesgo, como los stumps. La combinación final posee una capacidad expresiva mucho mayor que cualquiera de sus componentes por separado.
Consideraciones prácticas
- Sensibilidad al ruido: los pesos extremadamente altos en ejemplos ruidosos pueden degradar el desempeño. Se recomienda usar versiones robustas (AdaBoost con regularización) si se sospecha de etiquetas ruidosas.
- Número de iteraciones T: aunque no suele haber sobreajuste severo en el error de entrenamiento, un valor excesivo puede aumentar la varianza. Validación cruzada es la guía estándar.
- Compatibilidad con cualquier clasificador: siempre que acepte pesos por muestra, AdaBoost puede aplicarse sobre regresión logística, redes neuronales simples, SVM lineales, etc.
Resumen clave: AdaBoost convierte un conjunto de clasificadores apenas mejores que aleatorios en un sistema de alta precisión. Su mecanismo de actualización adaptativa —incrementar el peso de los errores— impulsa la reducción del sesgo y la construcción de un clasificador fuerte. Es un algoritmo fundamental en el mapa del boosting y un pilar del aprendizaje supervisado moderno.
No hay comentarios por ahora.
Compartir este contenido
Compartir enlace
Compartir en redes sociales
Compartir por correo electrónico
Please iniciar sesión para compartir esto Artículo por correo electrónico.