- Comparación y selección de clasificadores basada en interpretabilidad y rendimiento
Comparación y selección de clasificadores basada en interpretabilidad y rendimiento
Esta lección integra los conceptos de los clasificadores vistos (Árbol de Decisión, Random Forest, SVM, KNN, Naive Bayes) bajo un marco común de evaluación. Aprenderás a contrastarlos en términos de interpretabilidad, sesgo-varianza, requerimientos computacionales y sensibilidad a datos desbalanceados. Además, explorarás criterios prácticos para seleccionar el modelo adecuado según el problema, y dominarás las métricas esenciales de evaluación: precisión, recall, F1-score y matriz de confusión.
1. Marco de comparación de clasificadores
Para elegir un clasificador, no basta con mirar la exactitud. Es fundamental considerar un espectro de propiedades que afectan su comportamiento en producción. A continuación se presentan los cuatro ejes principales de comparación.
1.1 Interpretabilidad
La interpretabilidad mide qué tan fácil es entender por qué un modelo toma una decisión. Esto es crucial en dominios regulados o sensibles (medicina, finanzas, justicia).
- Alta: Árbol de Decisión, Naive Bayes (en su forma simple).
- Media: KNN (puede entenderse por vecinos cercanos, pero difícil de explicar globalmente).
- Baja: Random Forest (ensamble oscurece las reglas), SVM (especialmente con kernels no lineales).
- Muy baja: Redes neuronales profundas (no cubiertas aquí, pero ilustra la tendencia).
1.2 Compensación sesgo-varianza
El sesgo mide el error por suposiciones demasiado simples; la varianza mide la sensibilidad a pequeños cambios en los datos de entrenamiento. El equilibrio óptimo minimiza el error total.
- Árbol de Decisión (sin podar): Bajo sesgo, alta varianza (tiende a sobreajustar).
- Random Forest: Reduce varianza mediante promediado, manteniendo bajo sesgo.
- SVM (kernel lineal): Sesgo medio, varianza baja (regularización controlable).
- SVM (RBF): Sesgo bajo, varianza alta (sensible a parámetros).
- KNN (k pequeño): Bajo sesgo, alta varianza. (k grande): mayor sesgo, menor varianza.
- Naive Bayes: Alto sesgo (asume independencia), baja varianza (robusto en pequeñas muestras).
1.3 Requerimientos computacionales
El tiempo de entrenamiento y predicción, así como el uso de memoria, determinan la viabilidad en entornos con recursos limitados o en tiempo real.
- Árbol de Decisión: Entrenamiento rápido (O(n log n)), predicción muy rápida (O(log n)).
- Random Forest: Entrenamiento paralelizable pero costoso (O(m * n log n) para m árboles), predicción rápida.
- SVM: Entrenamiento costoso (O(n^2) a O(n^3)), predicción rápida (solo vectores soporte).
- KNN: Entrenamiento trivial (O(1)), pero predicción costosa (O(n) en memoria y cálculo).
- Naive Bayes: Entrenamiento muy rápido (O(n)), predicción extremadamente rápida (O(d)).
1.4 Sensibilidad a datos desbalanceados
Cuando las clases no están igualmente representadas, algunos modelos se sesgan hacia la clase mayoritaria, afectando la precisión en la minoritaria.
- Muy sensible: Árbol de Decisión (puede ignorar clases pequeñas), SVM (con penalización uniforme).
- Moderadamente sensible: Random Forest (puede manejar mejor con pesos o sobremuestreo), KNN (si la clase minoritaria es aislada).
- Poco sensible: Naive Bayes (estima probabilidades condicionales, pero puede subestimar clases raras).
2. Tabla comparativa de clasificadores
| Clasificador | Interpretabilidad | Sesgo-Varianza | Costo Entrenamiento | Costo Predicción | Desbalanceo (sin ajustes) |
|---|---|---|---|---|---|
| Árbol de Decisión | Alta | Sesgo bajo, varianza alta | Bajo | Muy bajo | Alta sensibilidad |
| Random Forest | Baja | Sesgo bajo, varianza baja | Medio-Alto | Bajo | Moderada |
| SVM (kernel RBF) | Baja | Sesgo bajo, varianza alta | Alto | Bajo | Alta (penalización uniforme) |
| KNN (k=5) | Media | Depende de k | Nulo | Alto (por distancia) | Moderada-Alta |
| Naive Bayes (Gaussian) | Alta (supuestos) | Sesgo alto, varianza baja | Muy bajo | Muy bajo | Moderada |
3. Cómo elegir el clasificador adecuado según el problema
La selección del modelo debe estar guiada por el contexto de la aplicación. Aquí presentamos dos escenarios típicos que ilustran prioridades opuestas.
Escenario A: Flujo de aprobación de créditos (prioriza interpretabilidad)
En una entidad financiera regulada, los clientes tienen derecho a saber por qué se rechazó su solicitud. Además, los auditores exigen explicaciones auditables. Se requiere un modelo que no sea una "caja negra".
- Clasificador recomendado: Árbol de Decisión podado. Ofrece reglas explícitas (ingresos > 30000 y deuda < 10000) que pueden ser mostradas al cliente y validadas.
- Alternativa: Naive Bayes si se requiere manejar incertidumbre probabilística con pocos datos, siempre que se comuniquen las probabilidades.
- No recomendados: SVM o Random Forest, a menos que se implementen métodos de interpretabilidad post-hoc (LIME, SHAP), lo cual añade complejidad.
Escenario B: Detección de fraude en transacciones (prioriza precisión y recall)
En fraude, las clases están altamente desbalanceadas (99.9% legítimas, 0.1% fraudulentas). El costo de un falso negativo (fraude no detectado) es muy alto. Se necesita maximizar el recall manteniendo una precisión aceptable.
- Clasificador recomendado: Random Forest con ajuste de pesos (class_weight='balanced') y umbral de decisión optimizado. Reduce la varianza y maneja bien interacciones complejas.
- Alternativa: SVM con kernel RBF, ponderación de clases y técnicas de sobremuestreo (SMOTE).
- No recomendado: Árbol de Decisión (sobreajusta y no generaliza en clase minoritaria). Naive Bayes puede ser útil si las características son independientes, pero generalmente inferior en rendimiento.
4. Métricas de evaluación: Precisión, Recall, F1-score y Matriz de Confusión
Una vez entrenado el modelo, debemos medir su desempeño. Las métricas derivadas de la matriz de confusión son las más informativas, especialmente en escenarios desbalanceados.
4.1 Matriz de confusión
Es una tabla de 2x2 que enfrenta las predicciones contra los valores reales, usando la clase positiva (la de interés, por ejemplo "fraude") y la clase negativa.
| Real: Positivo | Real: Negativo | |
|---|---|---|
| Predicción: Positivo | Verdadero Positivo (TP) | Falso Positivo (FP) |
| Predicción: Negativo | Falso Negativo (FN) | Verdadero Negativo (TN) |
A partir de estos cuatro valores se derivan las métricas clave.
4.2 Precisión (Precision)
Mide qué proporción de predicciones positivas son realmente correctas. Es crítica cuando el costo de un falso positivo es alto (ejemplo: diagnosticar una enfermedad que no existe).
TP / (TP + FP)
Precision = TP / (TP + FP)Ejemplo: Si de 100 alarmas de fraude, 80 son reales, la precisión es 0.8.
4.3 Recall (Sensibilidad o Tasa de Verdaderos Positivos)
Mide qué proporción de los positivos reales fueron capturados por el modelo. Es fundamental cuando el costo de un falso negativo es alto (ejemplo: no detectar una transacción fraudulenta).
TP / (TP + FN)
Recall = TP / (TP + FN)Ejemplo: Si hay 50 fraudes reales y el modelo detecta 40, el recall es 0.8.
4.4 F1-score
Es la media armónica de precisión y recall. Proporciona un equilibrio único cuando ambas métricas son importantes. Es especialmente útil en conjuntos desbalanceados donde la exactitud puede ser engañosa.
2 * (Precision * Recall) / (Precision + Recall)
F1 = 2 * (P * R) / (P + R)Ejemplo: Si P=0.9 y R=0.7, F1 = 2*(0.9*0.7)/(0.9+0.7) ≈ 0.79.
4.5 Exactitud (Accuracy)
Mide el porcentaje total de aciertos: (TP + TN) / (TP + FN + FP + TN). Es útil solo cuando las clases están balanceadas. En desbalanceo puede ser engañosa (ej: 99% de exactitud en fraude, pero sin detectar ningún fraude).
5. Ejemplo práctico integrador: Clasificación de correos (spam vs no spam)
Apliquemos lo aprendido. Supongamos que tenemos un conjunto de 1000 correos, donde 150 son spam (clase positiva) y 850 son legítimos (clase negativa). Entrenamos un clasificador y obtenemos la siguiente matriz de confusión:
| Real: Spam (150) | Real: No Spam (850) | |
|---|---|---|
| Pred: Spam | 130 (TP) | 50 (FP) |
| Pred: No Spam | 20 (FN) | 800 (TN) |
Cálculos:
- Precisión: 130/(130+50) = 130/180 = 0.722 (72.2%)
- Recall: 130/(130+20) = 130/150 = 0.867 (86.7%)
- F1-score: 2*(0.722*0.867)/(0.722+0.867) = 2*0.626/1.589 ≈ 0.788 (78.8%)
- Exactitud: (130+800)/(1000) = 930/1000 = 0.93 (93%)
Observa que la exactitud es alta (93%), pero el F1-score revela que hay margen de mejora, especialmente en precisión (FP altos). Para un filtro de spam, quizás preferiríamos un recall más alto para no perder correos importantes, aunque aumenten los FP. La decisión depende del contexto.
6. Conclusión y próximos pasos
Hemos recorrido los criterios clave para comparar clasificadores y seleccionar el más adecuado según el problema. Recuerda que no existe un modelo universalmente superior: la elección depende del equilibrio entre interpretabilidad, rendimiento, recursos y contexto de negocio. Dominar las métricas de evaluación (matriz de confusión, precisión, recall, F1-score) te permitirá tomar decisiones informadas y comunicar resultados con precisión.
Como siguiente paso te recomendamos practicar con conjuntos de datos reales (por ejemplo, de Kaggle) aplicando la comparativa aqui presentada y ajustando los hiperparámetros para optimizar las métricas que más importan en tu dominio.
No hay comentarios por ahora.
Compartir este contenido
Compartir enlace
Compartir en redes sociales
Compartir por correo electrónico
Please iniciar sesión para compartir esto Artículo por correo electrónico.