Contenido del curso

- Isolation Forest: Detección de Intrusiones y Anomalías

Isolation Forest: Detección de Intrusiones y Anomalías

Principio de funcionamiento: aislar anomalías, no modelar lo normal · Puntuación de anomalía · Aplicaciones en ciberseguridad, finanzas y salud.

🌲 Aislar en lugar de perfilar

A diferencia de métodos clásicos (como DBSCAN o Mahalanobis) que construyen un perfil de la normalidad, Isolation Forest explota una propiedad fundamental: las anomalías son pocas y diferentes. Son más fáciles de aislar mediante cortes aleatorios. El algoritmo construye múltiples árboles de decisión binarios (árboles de aislamiento) sin necesidad de etiquetas.

Cada árbol selecciona aleatoriamente una característica y un valor de corte, dividiendo el espacio recursivamente. El proceso termina cuando cada observación queda sola en una hoja o se alcanza la profundidad máxima. Las instancias normales requieren muchas divisiones (profundidad alta), mientras que las anomalías quedan aisladas con pocos cortes (profundidad baja).

  • No requiere distribución normal ni parámetros de densidad.
  • Ideal para datos de alta dimensionalidad (selección aleatoria de features).
  • Computacionalmente eficiente: O(n log n) en entrenamiento.

Puntuación de anomalía e interpretación

La puntuación de anomalía se deriva de la longitud de trayectoria promedio en todos los árboles. La ecuación de puntuación s(x, n) asigna valores cercanos a 1 para anomalías claras y cercanos a 0 para puntos normales. Concretamente:

# Pseudo-código de la puntuación (conceptual)
c(n) = factor de normalización (longitud media de un árbol fallido)
E[h(x)] = profundidad promedio de x en el bosque
s(x, n) = 2 ** ( - E[h(x)] / c(n) )
# s ~ 1 → anomalía   |   s ~ 0.5 → normal   |   s < 0.5 → muy normal

Interpretación práctica:

Rango de scoreInterpretaciónDecisión típica
0.75 – 1.0Fuerte candidato a anomalíaAlarma / inspección
0.55 – 0.74Posible anomalía (límite)Revisión secundaria
0.40 – 0.54Zona normal (punto típico)Sin acción
< 0.40Punto muy normal (alta profundidad)Baseline confiable

El umbral se ajusta según la aplicación (por ejemplo, contamination=0.1 para fraude).

Ciberseguridad · Detección de intrusiones en redes

En tráfico de red, las intrusiones (ataques DDoS, escaneo de puertos, malware) generan patrones anómalos en variables como: número de paquetes por segundo, tamaño promedio del paquete, protocolos no habituales o conexiones a IPs inusuales. Isolation Forest detecta estas desviaciones sin requerir firmas de ataque.

  • Ventaja clave: funciona en tiempo real con streams de datos (ventanas deslizantes).
  • Ejemplo real: KDD Cup 99 / CICIDS2017 – Isolation Forest alcanza precision > 95% en detección de ataques R2L y U2R.
  • Complemento: puede combinarse con PCA para reducir ruido.

Finanzas · Detección de fraudes en transacciones

Cada transacción se describe por monto, ubicación geográfica, hora, tipo de comercio, etc. Los fraudes suelen tener montos atípicos o secuencias inusuales. Isolation Forest (con contamination=0.02) identifica transacciones fuera de lo común.

  • Velocidad: evalúa miles de transacciones/segundo en motores de streaming.
  • Adaptabilidad: a nuevos patrones sin reentrenar el modelo completo.

Salud · Eventos adversos en signos vitales

Monitoreo de pacientes en UCI: frecuencia cardíaca, presión arterial, saturación de oxígeno. Una anomalía aislada (p.ej., caída brusca de SpO2) se detecta con pocas divisiones.

VariableRango normalEjemplo anómalo (score alto)
Frecuencia cardíaca60–100 lpm150 lpm (taquicardia severa)
Presión sistólica90–140 mmHg200 mmHg (crisis hipertensiva)
SpO295–100%82% (hipoxemia)

Isolation Forest permite a los sistemas de alerta temprana notificar al personal médico ante patrones raros sin depender de umbrales fijos.

Demostración · Aislamiento visual de anomalías

La infografía siguiente muestra cómo las anomalías (puntos rojos) requieren menos divisiones (flechas) que los puntos normales (azules). En un bosque de 100 árboles, la profundidad promedio de la anomalía es 3.2, mientras que la de un punto normal es 8.7 (sobre un máximo de 10).

Anomalía
División 1
División 2
División 3
(no necesita más)

Profundidad: 3 · score alto

Normal
División 1
División 2
División 3
División 4
División 5
División 6

Profundidad: 6+ · score bajo

Conclusión clave: Isolation Forest invierte la lógica tradicional. Al centrarse en aislar lo extraño (en lugar de modelar lo normal), logra detección rápida y robusta en ciberseguridad, finanzas y monitorización clínica. La puntuación de anomalía (s) proporciona un umbral interpretable, y la visualización de profundidad muestra por qué las anomalías se detectan antes.

Lección: Isolation Forest · Odisea Algorítmica · Contenido didáctico para detección de anomalías.
Principio de funcionamiento del Isolation Forest: aislar anomalías en lugar de modelar datos normales, usando árboles de aislamiento aleatorios. Se detallará la métrica de puntuación de anomalía y la interpretación de resultados. Aplicación principal en ciberseguridad: detección de intrusiones en redes (tráfico malicioso). Casos en finanzas (detección de fraudes en transacciones) y salud (detección de eventos adversos en signos vitales). Demostración: Visualización de cómo las anomalías requieren menos divisiones para aislarse comparado con datos normales.
Calificación
0 0

No hay comentarios por ahora.