- Bosques Aleatorios: Construcción, bagging y detección de fraude
Bosques Aleatorios: Construcción, Bagging y Detección de Fraude
Meta de aprendizaje: Comprender el concepto de bagging como técnica de reducción de varianza, cómo se integra en la construcción de un bosque aleatorio, y aplicar este conocimiento al análisis de transacciones bancarias fraudulentas. Al finalizar, podrás explicar las ventajas de la agregación frente a un árbol individual y reconocer las limitaciones de interpretabilidad del modelo.
1. El problema de la varianza en los árboles de decisión
Un árbol de decisión individual es propenso al sobreajuste (overfitting): pequeños cambios en los datos de entrenamiento pueden producir árboles muy diferentes y, por lo tanto, predicciones inestables. Esta alta varianza limita su capacidad de generalización. Para mitigarlo, necesitamos un método que combine múltiples árboles de forma inteligente.
2. Bagging: Bootstrap Aggregating
El bagging (bootstrap aggregating) es una técnica de aprendizaje ensemble que reduce la varianza al promediar las predicciones de múltiples modelos entrenados en versiones ligeramente diferentes del conjunto de datos original.
Pasos del bagging
- Muestreo bootstrap: Se crean B subconjuntos de entrenamiento, cada uno tomando una muestra aleatoria con reemplazo del conjunto original (del mismo tamaño).
- Entrenamiento paralelo: Se entrena un modelo (por ejemplo, un árbol de decisión) en cada muestra bootstrap.
- Agregación: Para regresión, se promedian las predicciones. Para clasificación, se realiza un voto mayoritario.
El bagging reduce la varianza sin aumentar significativamente el sesgo, logrando un modelo más robusto.
3. Bosques Aleatorios: más allá del bagging
Los bosques aleatorios (Random Forests) extienden el bagging a los árboles de decisión añadiendo una capa extra de aleatoriedad: en cada división de un árbol, solo se considera un subconjunto aleatorio de características (features). Esto descorrelaciona los árboles entre sí, mejorando aún más la reducción de varianza.
3.1 Algoritmo de construcción de un bosque aleatorio
- Seleccionar el número de árboles B (típicamente 100, 500 o 1000).
- Para cada árbol b = 1 a B:
- Obtener una muestra bootstrap del conjunto de entrenamiento (del mismo tamaño).
- Construir un árbol de decisión de manera recursiva:
- En cada nodo, seleccionar m características al azar del total de p características (m suele ser sqrt(p) para clasificación o p/3 para regresión).
- Elegir la mejor división sólo entre esas m características.
- El árbol se expande hasta el final (sin poda) para maximizar la diversidad.
- Para predecir un nuevo punto:
- Clasificación: votación mayoritaria entre las clases predichas por cada árbol.
- Regresión: promedio de las predicciones de todos los árboles.
4. Aplicación práctica: Detección de fraude en transacciones bancarias
La detección de fraude es un problema clásico de clasificación desbalanceada (la mayoría de transacciones son legítimas, pocas son fraudulentas). Los bosques aleatorios manejan bien este escenario si se configuran adecuadamente (por ejemplo, usando ponderación de clases). A continuación, un ejemplo conceptual.
Escenario: Transacciones bancarias en tiempo real
- Datos: Cada transacción tiene características como monto, ubicación, hora del día, tipo de operación, frecuencia semanal, etc.
- Problema: Identificar transacciones fraudulentas con alta precisión y evitar falsos positivos que molesten a clientes legítimos.
- Solución con bosque aleatorio:
- Entrenar un bosque con 500 árboles.
- Utilizar muestreo bootstrap que sobremuestrea la clase minoritaria (fraude) o ajusta pesos de clase.
- Cada árbol vota si la transacción es fraudulenta o no; el bosque emite una decisión por mayoría.
4.1 Ventajas del bosque aleatorio en fraude
| Característica | Beneficio en detección de fraude |
|---|---|
| Reducción de sobreajuste | Menor riesgo de memorizar patrones espurios; mejor generalización a nuevas formas de fraude. |
| Manejo de datos desbalanceados | Al promediar múltiples árboles y permitir ajuste de pesos, el modelo es sensible a la clase minoritaria. |
| Robustez ante ruido | La aleatoriedad en características hace que un árbol no dependa de una sola variable ruidosa. |
| Importancia de variables | El bosque puede reportar qué características son más relevantes para detectar fraude (por ejemplo, el monto repentino alto). |
5. Interpretabilidad: árbol individual vs. bosque aleatorio
Uno de los principales inconvenientes del bosque aleatorio es su naturaleza de "caja negra". Mientras que un árbol de decisión se puede visualizar y entender fácilmente ("si monto > 5000 y hora > 22, entonces sospechoso"), un bosque de cientos de árboles no permite una interpretación directa.
| Aspecto | Árbol individual | Bosque aleatorio |
|---|---|---|
| Interpretabilidad | Alta (se puede dibujar y seguir la ruta) | Baja (necesita herramientas externas) |
| Varianza | Alta (inestable ante cambios) | Baja (robuto y estable) |
| Sobreajuste | Propenso | Muy reducido |
| Precisión general | Moderada (si se poda correctamente) | Alta, incluso con datos ruidosos |
| Velocidad de predicción | Rápido | Más lento (promedia muchos árboles) |
Resumen clave: Los bosques aleatorios son la evolución natural del bagging aplicado a árboles de decisión. Su doble aleatorización (muestras bootstrap + subconjunto de características) los convierte en uno de los modelos más potentes y versátiles para clasificación y regresión, especialmente en dominios como la detección de fraude, donde la reducción de varianza es crítica. Aunque pierden la interpretabilidad de un árbol individual, su rendimiento superior los justifica en la mayoría de aplicaciones prácticas.
No hay comentarios por ahora.
Compartir este contenido
Compartir enlace
Compartir en redes sociales
Compartir por correo electrónico
Please iniciar sesión para compartir esto Artículo por correo electrónico.