- Interpretabilidad de los Ensambles: Importancia de Características y SHAP
Interpretabilidad de los Ensambles: Importancia de Características y SHAP
En el vasto paisaje de la Odisea Algorítmica, los modelos de ensamble como Random Forest, Gradient Boosting o XGBoost han demostrado un poder predictivo sobresaliente. Sin embargo, a menudo son considerados cajas negras difíciles de interpretar. En esta lección, exploraremos dos pilares fundamentales para abrir esas cajas: la importancia de características basada en árboles y el método SHAP, que nos permite explicar predicciones individuales con rigor matemático.
Comprender qué variables impulsan las predicciones no solo satisface nuestra curiosidad, sino que es esencial para la auditoría de modelos, la detección de sesgos, la depuración de errores y la toma de decisiones informadas en dominios como la predicción de demanda energética y la detección de anomalías.
1. Importancia de Características en Árboles de Decisión
Los árboles de decisión, componentes básicos de los ensambles, tienen la virtud de revelar internamente qué variables son más relevantes para la segmentación de los datos. Esta información se puede agregar para todo el ensamble, dando lugar a tres métricas principales:
1.1 Gain (Ganancia)
Mide la mejora en la pureza o reducción de la impureza (Gini o entropía) que aporta una característica al realizar una división en un nodo. Se acumula para todas las divisiones donde la característica es utilizada, ponderada por el número de observaciones en cada nodo. Es la métrica más popular y suele estandarizarse para que sume 100%.
Interpretación: Una característica con un Gain alto es aquella que, en promedio, genera divisiones que separan muy bien las clases o reducen significativamente el error.1.2 Cover (Cobertura)
Representa el número relativo de observaciones que pasan por los nodos donde se utiliza una característica. Mide qué tan "expuesta" está la característica a los datos. Una característica con Cover alto se usa en muchas predicciones, aunque no necesariamente sea la más discriminativa.
Interpretación: Un Cover alto indica que la característica es utilizada frecuentemente en las decisiones del modelo, pero puede tener un Gain bajo si las divisiones no son muy efectivas.1.3 Frequency (Frecuencia)
Simplemente el número de veces que una característica es usada para dividir un nodo en el bosque (o árbol). Esta métrica es la más simple y menos informativa, ya que una característica puede aparecer muchas veces pero en divisiones pobres.
- Gain – mide la calidad de las divisiones.
- Cover – mide la cantidad de datos afectados.
- Frequency – mide la frecuencia de uso.
En la práctica, se recomienda usar la importancia basada en Gain para la selección de características y la comprensión general del modelo.
2. SHAP (SHapley Additive exPlanations) – Explicaciones Individuales
Mientras que la importancia de características nos da una visión global, a menudo necesitamos entender por qué un caso específico recibió una predicción particular. Aquí es donde entra SHAP, un método basado en la teoría de juegos cooperativos (valores de Shapley).
SHAP descompone la predicción de un modelo como la suma de contribuciones de cada característica, más un valor base (predicción promedio sobre el conjunto de datos). Matemáticamente:
Predicción(x) = Valor_base + SHAP_Feature_1 + SHAP_Feature_2 + ... + SHAP_Feature_n
Cada valor SHAP representa la contribución marginal de esa característica a la predicción, teniendo en cuenta todas las posibles combinaciones de características. Esto garantiza propiedades deseables como la consistencia y la precisión local.
2.1 ¿Cómo se calculan los valores SHAP?
El cálculo exacto de los valores de Shapley es computacionalmente costoso (exponencial en el número de características). Sin embargo, para modelos de árboles (como Random Forest o XGBoost), existe una implementación eficiente TreeSHAP que aprovecha la estructura del árbol para estimar las contribuciones en tiempo polinomial.
Pasos simplificados:- Se define un valor base: la predicción promedio del modelo sobre el conjunto de datos.
- Para cada característica, se calcula la diferencia entre la predicción cuando la característica está presente y cuando está ausente, promediando sobre todas las posibles inclusiones de otras características.
- Este promedio ponderado es el valor SHAP.
2.2 Interpretación de los gráficos SHAP
Los valores SHAP se visualizan comúnmente mediante:
- SHAP Summary Plot: Un gráfico de violín que muestra la distribución de los valores SHAP para cada característica. Las características se ordenan por importancia global (suma de valores SHAP absolutos).
- SHAP Dependence Plot: Muestra cómo el valor SHAP de una característica cambia en función de su valor original. Puede revelar interacciones no lineales.
- SHAP Waterfall Plot: Explica una predicción individual, mostrando paso a paso cómo cada característica empuja la predicción desde el valor base hasta el valor final.
3. Aplicaciones Prácticas
3.1 Predicción de Demanda Energética
Imagina que hemos entrenado un Gradient Boosting para predecir la demanda eléctrica horaria. Usando importancia de características, descubrimos que las variables más relevantes son:
- Hora del día (Gain: 45%)
- Temperatura (Gain: 30%)
- Día de la semana (Gain: 12%)
- Estación del año (Gain: 8%)
- Otras variables (5%)
Con SHAP, para un día laborable de verano con alta temperatura, podemos ver que la hora pico (14:00) aporta un valor SHAP positivo grande, mientras que la alta temperatura contribuye marginalmente menos que en una ola de calor. Esto permite a los gestores energéticos identificar los factores críticos en tiempo real.
3.2 Detección de Anomalías en Transacciones
En un modelo de clasificación para detectar transacciones fraudulentas, la importancia de características puede indicar que el monto de la transacción y la distancia geográfica son los predictores más fuertes. Sin embargo, para una transacción específica marcada como anómala, el gráfico Waterfall de SHAP podría revelar que la causa principal es que la IP no coincide con el país del usuario, y no tanto el monto. Esto permite a los analistas entender la razón precisa de la alerta.
4. Consideraciones Importantes
- Colinealidad: En presencia de variables altamente correlacionadas, la importancia por Gain puede reducir la importancia de cada una, mientras que SHAP puede distribuir las contribuciones de manera más equitativa.
- Escala de las características: Las métricas de Gain y Frequency son sensibles a la escala de los datos (por ejemplo, variables con más valores posibles tienden a ser usadas más frecuentemente). SHAP es más robusto a esto.
- Interpretación causal: Ninguna de estas técnicas implica causalidad. Solo indican correlación y utilidad predictiva.
5. Conclusión
La combinación de importancia de características (Gain, Cover, Frequency) con SHAP ofrece una caja de herramientas completa para la interpretabilidad de modelos de ensamble. Mientras que la primera proporciona una visión global y rápida de las variables más relevantes, SHAP profundiza en explicaciones locales, revelando la lógica detrás de cada predicción individual.
En la práctica, es común comenzar con un análisis de importancia global para identificar las características principales, y luego utilizar SHAP para casos específicos, como predicciones anómalas o clientes de alto valor. Este enfoque dual no solo incrementa la confianza en los modelos, sino que también facilita la comunicación de resultados a stakeholders no técnicos.
Lección parte de "Odisea Algorítmica: De la Regresión al Aprendizaje Profundo - Descripción Unificada"
No hay comentarios por ahora.
Compartir este contenido
Compartir enlace
Compartir en redes sociales
Compartir por correo electrónico
Please iniciar sesión para compartir esto Artículo por correo electrónico.