Contenido del curso

- Bosques Aleatorios: Construcción, bagging y detección de fraude

Bosques Aleatorios: Construcción, Bagging y Detección de Fraude

Meta de aprendizaje: Comprender el concepto de bagging como técnica de reducción de varianza, cómo se integra en la construcción de un bosque aleatorio, y aplicar este conocimiento al análisis de transacciones bancarias fraudulentas. Al finalizar, podrás explicar las ventajas de la agregación frente a un árbol individual y reconocer las limitaciones de interpretabilidad del modelo.

1. El problema de la varianza en los árboles de decisión

Un árbol de decisión individual es propenso al sobreajuste (overfitting): pequeños cambios en los datos de entrenamiento pueden producir árboles muy diferentes y, por lo tanto, predicciones inestables. Esta alta varianza limita su capacidad de generalización. Para mitigarlo, necesitamos un método que combine múltiples árboles de forma inteligente.

2. Bagging: Bootstrap Aggregating

El bagging (bootstrap aggregating) es una técnica de aprendizaje ensemble que reduce la varianza al promediar las predicciones de múltiples modelos entrenados en versiones ligeramente diferentes del conjunto de datos original.

Pasos del bagging

  1. Muestreo bootstrap: Se crean B subconjuntos de entrenamiento, cada uno tomando una muestra aleatoria con reemplazo del conjunto original (del mismo tamaño).
  2. Entrenamiento paralelo: Se entrena un modelo (por ejemplo, un árbol de decisión) en cada muestra bootstrap.
  3. Agregación: Para regresión, se promedian las predicciones. Para clasificación, se realiza un voto mayoritario.

El bagging reduce la varianza sin aumentar significativamente el sesgo, logrando un modelo más robusto.

3. Bosques Aleatorios: más allá del bagging

Los bosques aleatorios (Random Forests) extienden el bagging a los árboles de decisión añadiendo una capa extra de aleatoriedad: en cada división de un árbol, solo se considera un subconjunto aleatorio de características (features). Esto descorrelaciona los árboles entre sí, mejorando aún más la reducción de varianza.

Clave: Mientras que el bagging solo varía los datos de entrenamiento, el bosque aleatorio también varía las características disponibles para cada división. Esto hace que los árboles sean menos similares y que el promedio final sea más estable.

3.1 Algoritmo de construcción de un bosque aleatorio

  1. Seleccionar el número de árboles B (típicamente 100, 500 o 1000).
  2. Para cada árbol b = 1 a B:
    • Obtener una muestra bootstrap del conjunto de entrenamiento (del mismo tamaño).
    • Construir un árbol de decisión de manera recursiva:
      • En cada nodo, seleccionar m características al azar del total de p características (m suele ser sqrt(p) para clasificación o p/3 para regresión).
      • Elegir la mejor división sólo entre esas m características.
      • El árbol se expande hasta el final (sin poda) para maximizar la diversidad.
  3. Para predecir un nuevo punto:
    • Clasificación: votación mayoritaria entre las clases predichas por cada árbol.
    • Regresión: promedio de las predicciones de todos los árboles.

4. Aplicación práctica: Detección de fraude en transacciones bancarias

La detección de fraude es un problema clásico de clasificación desbalanceada (la mayoría de transacciones son legítimas, pocas son fraudulentas). Los bosques aleatorios manejan bien este escenario si se configuran adecuadamente (por ejemplo, usando ponderación de clases). A continuación, un ejemplo conceptual.

Escenario: Transacciones bancarias en tiempo real

  • Datos: Cada transacción tiene características como monto, ubicación, hora del día, tipo de operación, frecuencia semanal, etc.
  • Problema: Identificar transacciones fraudulentas con alta precisión y evitar falsos positivos que molesten a clientes legítimos.
  • Solución con bosque aleatorio:
    • Entrenar un bosque con 500 árboles.
    • Utilizar muestreo bootstrap que sobremuestrea la clase minoritaria (fraude) o ajusta pesos de clase.
    • Cada árbol vota si la transacción es fraudulenta o no; el bosque emite una decisión por mayoría.

4.1 Ventajas del bosque aleatorio en fraude

Característica Beneficio en detección de fraude
Reducción de sobreajuste Menor riesgo de memorizar patrones espurios; mejor generalización a nuevas formas de fraude.
Manejo de datos desbalanceados Al promediar múltiples árboles y permitir ajuste de pesos, el modelo es sensible a la clase minoritaria.
Robustez ante ruido La aleatoriedad en características hace que un árbol no dependa de una sola variable ruidosa.
Importancia de variables El bosque puede reportar qué características son más relevantes para detectar fraude (por ejemplo, el monto repentino alto).

5. Interpretabilidad: árbol individual vs. bosque aleatorio

Uno de los principales inconvenientes del bosque aleatorio es su naturaleza de "caja negra". Mientras que un árbol de decisión se puede visualizar y entender fácilmente ("si monto > 5000 y hora > 22, entonces sospechoso"), un bosque de cientos de árboles no permite una interpretación directa.

Compensación práctica: Se sacrifica la interpretabilidad local (explicar por qué una transacción específica se marcó como fraude) a cambio de una precisión y estabilidad mucho mayores. En entornos regulatorios donde se exige explicabilidad (e.g., GDPR), se suelen usar métodos complementarios como SHAP o LIME para aproximar las razones de una predicción.
Aspecto Árbol individual Bosque aleatorio
Interpretabilidad Alta (se puede dibujar y seguir la ruta) Baja (necesita herramientas externas)
Varianza Alta (inestable ante cambios) Baja (robuto y estable)
Sobreajuste Propenso Muy reducido
Precisión general Moderada (si se poda correctamente) Alta, incluso con datos ruidosos
Velocidad de predicción Rápido Más lento (promedia muchos árboles)

Resumen clave: Los bosques aleatorios son la evolución natural del bagging aplicado a árboles de decisión. Su doble aleatorización (muestras bootstrap + subconjunto de características) los convierte en uno de los modelos más potentes y versátiles para clasificación y regresión, especialmente en dominios como la detección de fraude, donde la reducción de varianza es crítica. Aunque pierden la interpretabilidad de un árbol individual, su rendimiento superior los justifica en la mayoría de aplicaciones prácticas.

Explicación del concepto de bagging (bootstrap aggregating) para reducir la varianza, y su aplicación en bosques aleatorios. Se detalla cómo se construyen múltiples árboles con muestras bootstrap y subconjuntos aleatorios de características. Aplicación a detección de fraude (ej. transacciones bancarias), analizando cómo la agregación mejora la precisión y reduce el sobreajuste. Se compara la interpretabilidad de un árbol individual vs la 'caja negra' del bosque.
Calificación
0 0

No hay comentarios por ahora.