- Evaluación de Modelos de Ensamble: Métricas y Validación
Evaluación de Modelos de Ensamble: Métricas y Validación
En esta lección profundizaremos en cómo medir objetivamente el desempeño de los modelos de ensamble. Aunque la combinación de múltiples aprendices puede mejorar la precisión, también introduce nuevos riesgos como el sobreajuste y la complejidad computacional. Por ello, dominar las métricas adecuadas y las estrategias de validación es fundamental para garantizar que nuestro modelo generalice bien a datos no vistos.
1. Métricas para Clasificación en Ensambles
En problemas de clasificación, los ensambles como Random Forest o Gradient Boosting se benefician de métricas que evalúan no solo la exactitud global, sino la capacidad de discriminar entre clases, especialmente cuando hay desbalanceo (ej. detección de anomalías).
Precisión, Recall y F1-Score
- Precisión: de todas las predicciones positivas, ¿cuántas son realmente positivas?
TP / (TP + FP). Útil cuando el costo de un falso positivo es alto (ej. fraudes financieros). - Recall (Sensibilidad): de todos los positivos reales, ¿cuántos detectamos?
TP / (TP + FN). Crítico cuando es vital no perder casos positivos (ej. diagnósticos médicos). - F1-Score: media armónica de precisión y recall.
2 * (prec * rec) / (prec + rec). Proporciona un balance único cuando las clases están desbalanceadas.
AUC-ROC (Área bajo la Curva ROC)
La curva ROC muestra la tasa de verdaderos positivos frente a la tasa de falsos positivos para distintos umbrales de decisión. El AUC (Área Bajo la Curva) es una métrica escalar que mide la capacidad del modelo para separar clases. Un valor de 0.5 indica un clasificador aleatorio, mientras que 1.0 es perfecto.
2. Métricas para Regresión en Ensambles
Cuando el objetivo es predecir un valor continuo (como la demanda de un producto), los ensambles de regresión (ej. Gradient Boosting Regressor, Random Forest Regressor) requieren métricas que capturen tanto el error absoluto como el relativo.
| Métrica | Fórmula | Interpretación | Ventaja / Desventaja |
|---|---|---|---|
| MAE (Error Absoluto Medio) | ∑ |y_i - ŷ_i| / n |
Promedio de errores absolutos | Robusto a outliers; unidades originales |
| RMSE (Raíz del Error Cuadrático Medio) | √(∑ (y_i - ŷ_i)² / n) |
Penaliza más los errores grandes | Sensible a outliers; misma unidad |
| R² (Coeficiente de Determinación) | 1 - (SS_res / SS_tot) |
Proporción de varianza explicada | Entre 0 y 1; no explica sesgo sistemático |
| MAPE (Error Porcentual Absoluto Medio) | 100 * ∑ (|y_i - ŷ_i| / |y_i|) / n |
Error relativo en porcentaje | No funciona con valores cero o muy pequeños |
Elección práctica: Para predicción de demanda, donde los picos estacionales son importantes, el RMSE suele ser preferible porque penaliza grandes desviaciones. Si los outliers no son relevantes, MAE es más interpretable. El R² complementa al indicar qué tanta variabilidad captura el modelo.
3. Validación Cruzada (k-fold) en Ensambles
La validación cruzada es esencial para evaluar ensambles, ya que reduce la varianza de la estimación del rendimiento. Sin embargo, los ensambles tienen un comportamiento particular: son propensos a memorizar patrones si no se controla el sobreajuste.
Validación Cruzada k-fold Estándar
Divide los datos en k particiones (típicamente k=5 o 10). Entrena en k-1 partes y prueba en la restante. Repite k veces. El rendimiento final es el promedio de las k iteraciones.
Iteración 1: Train [2,3,4,5] - Test [1]
Iteración 2: Train [1,3,4,5] - Test [2]
...
Resultado: Promedio de 5 métricas.
Estratificación para Desbalanceo
Cuando las clases están desbalanceadas (ej. detección de fraudes o anomalías), el k-fold estratificado mantiene la proporción de clases en cada pliegue. Esto evita que un fold tenga solo ejemplos de la clase minoritaria, lo que sesgaría la evaluación.
4. Técnicas para Evitar Overfitting en Ensambles
Los modelos de ensamble, especialmente los basados en boosting (AdaBoost, XGBoost, LightGBM), pueden sobreajustarse si se entrenan por demasiadas iteraciones o con árboles demasiado profundos. A continuación, las técnicas más efectivas.
Early Stopping (Detención Temprana)
Consiste en monitorear el rendimiento en un conjunto de validación durante el entrenamiento. Cuando la métrica de validación deja de mejorar durante un número de iteraciones consecutivas (paciencia), se detiene el entrenamiento. Esto evita que el modelo aprenda ruido.
# Ejemplo conceptual (XGBoost)
model = xgb.XGBRegressor(n_estimators=1000)
model.fit(X_train, y_train,
eval_set=[(X_val, y_val)],
early_stopping_rounds=50,
eval_metric='rmse',
verbose=False)
# El entrenamiento se detiene cuando RMSE no mejora en 50 rondas.
Reducción del Learning Rate (Tasa de Aprendizaje)
En ensambles secuenciales (boosting), el learning rate controla cuánto contribuye cada nuevo árbol. Un learning rate pequeño (ej. 0.01) obliga al modelo a aprender lentamente, reduciendo el sobreajuste. Se suele combinar con un mayor número de estimadores.
- Learning rate alto (ej. 0.3): Entrenamiento rápido, pero mayor riesgo de overfitting.
- Learning rate bajo (ej. 0.01): Entrenamiento más lento, mejor generalización, requiere más árboles.
Otras Técnicas Complementarias
- Reducción de la complejidad del árbol: Limitar la profundidad máxima (max_depth), el número mínimo de muestras por hoja (min_samples_leaf) o la fracción de características por árbol (colsample_bytree).
- Regularización L1/L2: En XGBoost y LightGBM, los parámetros
alpha(L1) ylambda(L2) penalizan pesos grandes. - Subsampling (submuestreo): Entrenar cada árbol con una fracción aleatoria de las filas (subsample) y/o columnas (colsample_bylevel).
5. Aplicación a Casos Reales
A continuación, aplicamos los conceptos a los dos ejemplos del curso:
Detección de Anomalías (Clasificación Desbalanceada)
- Métrica principal: AUC-ROC y F1-score (anomalía como clase positiva).
- Validación: k-fold estratificado (k=5) para preservar la baja proporción de anomalías en cada fold.
- Control de overfitting: Early stopping con paciencia de 30 rondas, learning rate = 0.05, y profundidad máxima de árbol = 4.
Predicción de Demanda (Regresión con Estacionalidad)
- Métrica principal: RMSE (penaliza grandes errores en picos de demanda) y MAPE para interpretación de negocio.
- Validación: k-fold estándar (k=5), pero con series temporales se recomienda validación caminante (time series split) para no mezclar pasado y futuro.
- Control de overfitting: Learning rate = 0.01, early stopping con paciencia de 100 rondas, y regularización L2 (lambda=1.0).
Con estas herramientas, estarás preparado para analizar críticamente cualquier modelo de ensamble y tomar decisiones informadas sobre su rendimiento y estabilidad.
No hay comentarios por ahora.
Compartir este contenido
Compartir enlace
Compartir en redes sociales
Compartir por correo electrónico
Please iniciar sesión para compartir esto Artículo por correo electrónico.