Contenido del curso

- Comparación y selección de clasificadores basada en interpretabilidad y rendimiento

Comparación y selección de clasificadores basada en interpretabilidad y rendimiento

Esta lección integra los conceptos de los clasificadores vistos (Árbol de Decisión, Random Forest, SVM, KNN, Naive Bayes) bajo un marco común de evaluación. Aprenderás a contrastarlos en términos de interpretabilidad, sesgo-varianza, requerimientos computacionales y sensibilidad a datos desbalanceados. Además, explorarás criterios prácticos para seleccionar el modelo adecuado según el problema, y dominarás las métricas esenciales de evaluación: precisión, recall, F1-score y matriz de confusión.

Objetivo de la lección: Al finalizar, podrás analizar, comparar y seleccionar clasificadores no solo por su rendimiento numérico, sino también por su adecuación contextual, interpretabilidad y costo computacional, tomando decisiones informadas para problemas reales.

1. Marco de comparación de clasificadores

Para elegir un clasificador, no basta con mirar la exactitud. Es fundamental considerar un espectro de propiedades que afectan su comportamiento en producción. A continuación se presentan los cuatro ejes principales de comparación.

1.1 Interpretabilidad

La interpretabilidad mide qué tan fácil es entender por qué un modelo toma una decisión. Esto es crucial en dominios regulados o sensibles (medicina, finanzas, justicia).

  • Alta: Árbol de Decisión, Naive Bayes (en su forma simple).
  • Media: KNN (puede entenderse por vecinos cercanos, pero difícil de explicar globalmente).
  • Baja: Random Forest (ensamble oscurece las reglas), SVM (especialmente con kernels no lineales).
  • Muy baja: Redes neuronales profundas (no cubiertas aquí, pero ilustra la tendencia).

1.2 Compensación sesgo-varianza

El sesgo mide el error por suposiciones demasiado simples; la varianza mide la sensibilidad a pequeños cambios en los datos de entrenamiento. El equilibrio óptimo minimiza el error total.

  • Árbol de Decisión (sin podar): Bajo sesgo, alta varianza (tiende a sobreajustar).
  • Random Forest: Reduce varianza mediante promediado, manteniendo bajo sesgo.
  • SVM (kernel lineal): Sesgo medio, varianza baja (regularización controlable).
  • SVM (RBF): Sesgo bajo, varianza alta (sensible a parámetros).
  • KNN (k pequeño): Bajo sesgo, alta varianza. (k grande): mayor sesgo, menor varianza.
  • Naive Bayes: Alto sesgo (asume independencia), baja varianza (robusto en pequeñas muestras).

1.3 Requerimientos computacionales

El tiempo de entrenamiento y predicción, así como el uso de memoria, determinan la viabilidad en entornos con recursos limitados o en tiempo real.

  • Árbol de Decisión: Entrenamiento rápido (O(n log n)), predicción muy rápida (O(log n)).
  • Random Forest: Entrenamiento paralelizable pero costoso (O(m * n log n) para m árboles), predicción rápida.
  • SVM: Entrenamiento costoso (O(n^2) a O(n^3)), predicción rápida (solo vectores soporte).
  • KNN: Entrenamiento trivial (O(1)), pero predicción costosa (O(n) en memoria y cálculo).
  • Naive Bayes: Entrenamiento muy rápido (O(n)), predicción extremadamente rápida (O(d)).

1.4 Sensibilidad a datos desbalanceados

Cuando las clases no están igualmente representadas, algunos modelos se sesgan hacia la clase mayoritaria, afectando la precisión en la minoritaria.

  • Muy sensible: Árbol de Decisión (puede ignorar clases pequeñas), SVM (con penalización uniforme).
  • Moderadamente sensible: Random Forest (puede manejar mejor con pesos o sobremuestreo), KNN (si la clase minoritaria es aislada).
  • Poco sensible: Naive Bayes (estima probabilidades condicionales, pero puede subestimar clases raras).
Nota clave: La sensibilidad a desbalanceo se puede mitigar técnicamente con pesos, sobremuestreo (SMOTE), submuestreo o modificación de umbrales. Sin embargo, la elección del modelo base sigue siendo importante.

2. Tabla comparativa de clasificadores

Clasificador Interpretabilidad Sesgo-Varianza Costo Entrenamiento Costo Predicción Desbalanceo (sin ajustes)
Árbol de Decisión Alta Sesgo bajo, varianza alta Bajo Muy bajo Alta sensibilidad
Random Forest Baja Sesgo bajo, varianza baja Medio-Alto Bajo Moderada
SVM (kernel RBF) Baja Sesgo bajo, varianza alta Alto Bajo Alta (penalización uniforme)
KNN (k=5) Media Depende de k Nulo Alto (por distancia) Moderada-Alta
Naive Bayes (Gaussian) Alta (supuestos) Sesgo alto, varianza baja Muy bajo Muy bajo Moderada

3. Cómo elegir el clasificador adecuado según el problema

La selección del modelo debe estar guiada por el contexto de la aplicación. Aquí presentamos dos escenarios típicos que ilustran prioridades opuestas.

Escenario A: Flujo de aprobación de créditos (prioriza interpretabilidad)

En una entidad financiera regulada, los clientes tienen derecho a saber por qué se rechazó su solicitud. Además, los auditores exigen explicaciones auditables. Se requiere un modelo que no sea una "caja negra".

  • Clasificador recomendado: Árbol de Decisión podado. Ofrece reglas explícitas (ingresos > 30000 y deuda < 10000) que pueden ser mostradas al cliente y validadas.
  • Alternativa: Naive Bayes si se requiere manejar incertidumbre probabilística con pocos datos, siempre que se comuniquen las probabilidades.
  • No recomendados: SVM o Random Forest, a menos que se implementen métodos de interpretabilidad post-hoc (LIME, SHAP), lo cual añade complejidad.

Escenario B: Detección de fraude en transacciones (prioriza precisión y recall)

En fraude, las clases están altamente desbalanceadas (99.9% legítimas, 0.1% fraudulentas). El costo de un falso negativo (fraude no detectado) es muy alto. Se necesita maximizar el recall manteniendo una precisión aceptable.

  • Clasificador recomendado: Random Forest con ajuste de pesos (class_weight='balanced') y umbral de decisión optimizado. Reduce la varianza y maneja bien interacciones complejas.
  • Alternativa: SVM con kernel RBF, ponderación de clases y técnicas de sobremuestreo (SMOTE).
  • No recomendado: Árbol de Decisión (sobreajusta y no generaliza en clase minoritaria). Naive Bayes puede ser útil si las características son independientes, pero generalmente inferior en rendimiento.
Consejo práctico: Siempre evalúa al menos 2 o 3 modelos candidatos con validación cruzada. Usa las métricas que se presentan a continuación y combínalas con el conocimiento del negocio para tomar la decisión final.

4. Métricas de evaluación: Precisión, Recall, F1-score y Matriz de Confusión

Una vez entrenado el modelo, debemos medir su desempeño. Las métricas derivadas de la matriz de confusión son las más informativas, especialmente en escenarios desbalanceados.

4.1 Matriz de confusión

Es una tabla de 2x2 que enfrenta las predicciones contra los valores reales, usando la clase positiva (la de interés, por ejemplo "fraude") y la clase negativa.

Real: Positivo Real: Negativo
Predicción: Positivo Verdadero Positivo (TP) Falso Positivo (FP)
Predicción: Negativo Falso Negativo (FN) Verdadero Negativo (TN)

A partir de estos cuatro valores se derivan las métricas clave.

4.2 Precisión (Precision)

Mide qué proporción de predicciones positivas son realmente correctas. Es crítica cuando el costo de un falso positivo es alto (ejemplo: diagnosticar una enfermedad que no existe).

Precisión

TP / (TP + FP)

Precision = TP / (TP + FP)

Ejemplo: Si de 100 alarmas de fraude, 80 son reales, la precisión es 0.8.

4.3 Recall (Sensibilidad o Tasa de Verdaderos Positivos)

Mide qué proporción de los positivos reales fueron capturados por el modelo. Es fundamental cuando el costo de un falso negativo es alto (ejemplo: no detectar una transacción fraudulenta).

Recall

TP / (TP + FN)

Recall = TP / (TP + FN)

Ejemplo: Si hay 50 fraudes reales y el modelo detecta 40, el recall es 0.8.

4.4 F1-score

Es la media armónica de precisión y recall. Proporciona un equilibrio único cuando ambas métricas son importantes. Es especialmente útil en conjuntos desbalanceados donde la exactitud puede ser engañosa.

F1-score

2 * (Precision * Recall) / (Precision + Recall)

F1 = 2 * (P * R) / (P + R)

Ejemplo: Si P=0.9 y R=0.7, F1 = 2*(0.9*0.7)/(0.9+0.7) ≈ 0.79.

4.5 Exactitud (Accuracy)

Mide el porcentaje total de aciertos: (TP + TN) / (TP + FN + FP + TN). Es útil solo cuando las clases están balanceadas. En desbalanceo puede ser engañosa (ej: 99% de exactitud en fraude, pero sin detectar ningún fraude).

Regla de oro: En problemas desbalanceados, prioriza el F1-score o la curva Precision-Recall. La exactitud sólo es confiable cuando las clases tienen tamaños similares.

5. Ejemplo práctico integrador: Clasificación de correos (spam vs no spam)

Apliquemos lo aprendido. Supongamos que tenemos un conjunto de 1000 correos, donde 150 son spam (clase positiva) y 850 son legítimos (clase negativa). Entrenamos un clasificador y obtenemos la siguiente matriz de confusión:

Real: Spam (150) Real: No Spam (850)
Pred: Spam 130 (TP) 50 (FP)
Pred: No Spam 20 (FN) 800 (TN)

Cálculos:

  • Precisión: 130/(130+50) = 130/180 = 0.722 (72.2%)
  • Recall: 130/(130+20) = 130/150 = 0.867 (86.7%)
  • F1-score: 2*(0.722*0.867)/(0.722+0.867) = 2*0.626/1.589 ≈ 0.788 (78.8%)
  • Exactitud: (130+800)/(1000) = 930/1000 = 0.93 (93%)

Observa que la exactitud es alta (93%), pero el F1-score revela que hay margen de mejora, especialmente en precisión (FP altos). Para un filtro de spam, quizás preferiríamos un recall más alto para no perder correos importantes, aunque aumenten los FP. La decisión depende del contexto.

6. Conclusión y próximos pasos

Hemos recorrido los criterios clave para comparar clasificadores y seleccionar el más adecuado según el problema. Recuerda que no existe un modelo universalmente superior: la elección depende del equilibrio entre interpretabilidad, rendimiento, recursos y contexto de negocio. Dominar las métricas de evaluación (matriz de confusión, precisión, recall, F1-score) te permitirá tomar decisiones informadas y comunicar resultados con precisión.

Como siguiente paso te recomendamos practicar con conjuntos de datos reales (por ejemplo, de Kaggle) aplicando la comparativa aqui presentada y ajustando los hiperparámetros para optimizar las métricas que más importan en tu dominio.

Lección integradora que compara los clasificadores vistos (Árbol de Decisión, Random Forest, SVM, KNN, Naive Bayes) en términos de interpretabilidad, sesgo-varianza, requerimientos computacionales y sensibilidad a datos desbalanceados. Se presentan ejemplos de cómo elegir el clasificador adecuado según el problema (ej. flujos de aprobación requieren interpretabilidad, detección de fraude prioriza precisión). Se introducen métricas de evaluación como precisión, recall, F1-score y matriz de confusión.
Calificación
0 0

No hay comentarios por ahora.